La loi de Benford, initialement appelée loi des nombres anormaux par Benford, fait référence à une fréquence de distribution statistique observée empiriquement sur de nombreuses sources de données dans la vraie vie, ainsi qu'en mathématiques.
Répartition des premiers chiffres ( %) dans la population des pays du monde (juillet 2010). Les points noirs indiquent la répartition prévue par la loi de Benford.
Prenons l’exemple d’une rue. Si la rue ne compte que 9 maisons, tous les premiers chiffres sont évidemment équiprobables. Mais si la rue a 19 maisons, le 1er chiffre est "1" dans 11 cas sur 19.
Plus généralement :
• les premiers chiffres ne sont également répartis que lorsque la rue compte 9, 99, 999... 10n−1 maisons : autant dire "presque jamais''
• la distribution des premiers chiffres se modifie en fonction du nombre des maisons de manière bizarre et irrégulière, mais pas impossible à calculer. La moyenne des fluctuations ainsi obtenues conduit à la loi de Benford.
Cette distribution a été observée une première fois en 1881 par l'astronome américain Simon Newcomb, dans un article de l'American Journal of Mathematics, après qu'il se fut aperçu de l'usure préférentielle des premières pages des tables de logarithmes alors compilées dans des ouvrages.
L’article passe complètement inaperçu.
Frank Benford, aux alentours de 1938, remarque à son tour cette usure inégale, formule la loi qui porte son nom.
La loi
Frank Benford étudia le phénomène de façon empirique sur 20 groupes de nombres mesurant des quantités des plus variées (superficie des lacs, poids moléculaires de certains composés...). Il parvint à la conclusion étonnante que les valeurs avaient effectivement plus de chance de commencer par un petit chiffre. Il énonça la loi des nombres anormaux, connue malgré tout sous le nom de loi de Benford :
pn = p(1er chiffre = n) = log10(n+1) − log10(n).
"p" désignant la probabilité.
Les valeurs obtenues sont les suivantes :
-
n
1
2
3
4
5
6
7
8
9
p
0,301
0,176
0,125
0,097
0,079
0,067
0,058
0,051
0,045
- "1" est plus de 6 fois plus probable que "9" !..
Dans une série de données numériques, on pourrait s'attendre à voir les chiffres de "1" à "9" apparaître à peu près aussi fréquemment comme premier chiffre significatif, soit avec une fréquence de 1/9 = 11,1 % pour chacun.
Or, contrairement à cette intuition, la série suit très souvent approximativement la loi de Benford.
Pour près du tiers des données, le 1er chiffre significatif le plus fréquent est le "1". Viennent ensuite le chiffre "2", puis le "3", etc. . .
Depuis sa découverte, la loi de Benford a été testée avec succès sur des milliers de jeux de données.
Dans la vie réelle, on constate souvent la décroissance des probabilités en fonction du premier chiffre, en adéquation proche avec les valeurs de la loi de Benford : données géographiques, données physiques, résultats sportifs, dans les sciences humaines et sociales, dans des tables de valeurs numériques comme celles qu'on rencontre en physique, en volcanologie, en génétique, en BTP, en économie, ou même dans un carnet d'adresses etc. . .
La loi s'applique à des mesures, c’est à dire des nombres suivis d'une unité de mesure car elle n’est valable que sur une échelle de valeurs continues commençant par 1.
En revanche, elle ne s'applique pas aux données purement aléatoires comme le tirage du loto.
Pas de bol pour les joueurs du dimanche !.
Elle n’est pas non plus vérifiée si la série de données comporte des contraintes quant à l'échelle des valeurs vraisemblables.
Par exemple, la taille des individus, lorsqu'elle est exprimée dans le système métrique, puisque la quasi-totalité des mesures commence par le chiffre « 1 ».
La loi de Benford a suscité depuis sa découverte un grand nombre de publications chez les scientifiques. Le site Benford Online Bibliography en recense une quantité impressionnante.
Pourquoi plus de 1 que de 9 ?
Regardons la proportion R(M) des entiers, entre 1 et M, commençant par 1 :
• L’entier 1 commençant par 1, on obtient R(1)=1.
• Puisqu’aucun nombre entre 2 et 9 ne débute par 1, la proportion va décroître jusqu’à atteindre R(9)=1/9.
• Puis, les nombres de 10 à 19 commençant tous par 1, la proportion croît jusqu’à M=19, on trouve alors R(19)=11/19.
• Entre 20 et 99, aucun nombre ne commence par 1, donc le ratio décroît à nouveau jusqu’à M=99 donc R(99)=11/99=1/9.
• Il croît à nouveau jusqu’à M=199 avec R(199) = 111/199 = environ 5/9, etc.
Même lorsque le maximum M devient très grand, la proportion ne cesse d’osciller entre 1/9 et 5/9.
Sur l’axe horizontal, il s’agit d’une échelle logarithmique. On utilise la même distance pour représenter entre 1 et 10, entre 10 et 100, entre 100 et 1000.
La conclusion est la suivante : il y a autant de nombres débutant par 1 que par 9 entre 1 et 999 ou entre 1 et 9999 ; mais ce n’est pas vrai entre 1 et 19, entre 1 et 31.
En fait, c’est faux dès que le maximum n’est pas de la forme 10n -1.
Si l’on fait les moyennes en cascade des valeurs R données par la courbe rouge, on obtient une courbe qui tend vers 30 %, c’est à dire le pourcentage des "1" dans sur la loi de Benford.
La courbe violette est la moyenne des valeurs R données par la courbe rouge. La bleue est obtenue de la même façon à partir de la violette, et la jaune à partir de la bleue.
En 1995, dans une série de plusieurs articles sur la loi de Benford, Theodore Hill a montré un certain nombre de propriété et il faut attendre 1998, pour que Hill en fasse la démonstration complète et satisfaisante.
Conclusion
Comme beaucoup de découvertes mathématiques, la loi de Benford est longtemps restée une curiosité sans application pratique, jusque dans les années 1990 où l’économiste américain Mark Nigrini suggéra l’utilisation de tests basés sur la loi de Benford pour la détection de données falsifiées.
Nigrini a montré qu’un examen attentif des nombres apparaissant dans la comptabilité d’une société peut permettre à un expert comptable de repérer d’éventuelles fraudes.
En effet, l’expérience montre que des données authentiques doivent suivre la loi de Benford.
Celui qui invente des nombres a tendance à surestimer l’apparition de 5 et 6 à tel point qu’ils prédominent nettement dans les données falsifiées : 40 % pour les "5" et plus de 20 % pour les "6".
Ces tests ont permis de débusquer des falsifications dans les comptabilités de sept sociétés basées à New-York et ont depuis été utilisés dans des domaines variés.
Dans une étude publiée en 2011, quatre économistes allemands, Bernhard Rauch, Max Göttsche, Gernot Brähler et Stefan Engel ont testé la loi de Benford sur les données comptables produites par les États membres de l'Union européenne. Ils montrent que la Grèce et la Belgique en second, sont les pays européens qui s'éloignent le plus des prédictions de la loi de Benford.
Alors ?
loibenford
Sources
https://fr.wikipedia.org/wiki/Loi_de_Benford
http://math.pc.vh.free.fr/divers/paradoxes/benford.htm
I. Stewart : L'univers des nombres, Belin 2000, pp. 57-61.
https://www.auditsi.eu/?p=4199
http://images.math.cnrs.fr/Quel-est-le-debut-de-ce-nombre.html
Répartition des premiers chiffres
Par Melikamp — Travail personnel, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=92013276
La loi
https://www.auditsi.eu/wp-content/uploads/2013/12/Fr%C3%A9quence-Loi-de-Benford.png
Proportion des entiers compris entre 1 et M commençant par 1.
http://images.math.cnrs.fr/IMG/png/flehinger0.png
moyennes des valeurs données par la courbe rouge.
http://images.math.cnrs.fr/IMG/png/flehinger2.png