La loi de Zipf : une règle incroyable qui force le hasard à obéir aux mathématiques
La loi de Zipf est « l’un des faits les plus frappants en économie et en sciences sociales en général », un « mystère urbain ». Peu de lois statistiques sont en effet aussi universelles qu’elle et pourtant elle a réussi à entretenir la controverse depuis que son inventeur George Zipf l’eut popularisée…
Dans les années 30, ce scientifique de l’université de Harvard, a montré qu’en classant les mots d’un texte par fréquence décroissante, alors, on observe que la fréquence d’utilisation d’un mot est inversement proportionnel à son rang.
Autrement dit le mot le plus populaire est deux fois plus utilisé que le second, trois fois plus que le troisième, etc. Et cette loi se vérifie dans toutes les langues, dans tous les textes et chez tous les auteurs (même si bien entendu le classement de chaque mot varie beaucoup d’un texte à l’autre).
Signe d’une complexité auto-organisée pour les uns, simple curiosité statistique pour les autres, elle fascine autant qu’elle énerve…
A l’époque on n’avait pas d’ordinateur et encore moins de grands corpus de textes numérisés, alors Zipf embaucha ses étudiants pour relever dans l’Ulysse de Joyce la liste des mots utilisés, noter combien de fois ils apparaissent dans le texte et ensuite les classer par ordre de fréquences. Aux premiers rangs du classement on trouve bien sûr des petits mots très usuels comme le, un, à, en, etc. Et en queue de peloton on trouve une flopée de mots rares qui ne sont utilisés qu’une seule fois dans le livre.
De la même façon la loi de Zipf semble très efficace dans la lutte contre… le plagiat. Tous les auteurs suivent la loi de Zipf, mais chacun a ses petites préférences en matière de vocabulaire. Les fréquences relatives des mots constituent une « signature » propre à chaque auteur. L’analyse des ruptures de fréquences permet du coup de repérer les parties suspectes un texte, même sans connaître la source originale.
Mais le plus étranges reste encore que si vous asseyez un singe devant une machine à écrire et que vous le laissez taper au hasard sur les touches, le pseudo-texte qu’il produira obéira aussi à la loi de Zipf…
Manifestement, la loi de Zipf n’est pas propre au langage. D’ailleurs on se demande un peu à quoi elle est propre tant on la trouve absolument dans toutes les statistiques imaginables de la taille des villes à la popularité des applications Linux, en passant par la répartition des dons ou des richesses…
Et ce qui marche pour des caractères peut aussi fonctionner pour des sons. Des chercheurs ont adapté la méthode pour analyser les cris des dauphins et affirment y avoir détecté la signature d’une langue complexe, avec là encore des corrélations jusqu’à quatre lettres d’intervalles…
Pourquoi s’arrêter en si bon chemin? Après les civilisations anciennes et les animaux, cap sur le cosmos! Les chercheurs du SETI (Search for Extra Terrestrial Intelligence) comptent eux-aussi sur les lois de Zipf pour détecter un petit signal de nos copains extra-terrestres au milieu de tous les bruits du cosmos…
En réalité la loi de Zipf pourrait constituer la « signature » statistique d’un système biologique à l’état critique: un réseau de neurones, le langage, les mouvements collectifs etc… Cette loi s’observerait chaque fois qu’un tel système complexe se trouve pile à l’état de transition entre un état purement aléatoire et un état hautement organisé…
http://www.knowtex.com/nav/zipf-et-les-singes-dactylos_37206