Парадоксы ИТ. Закон Бенфорда

Парадоксы ИТ. Закон Бенфорда

Парадокс Бенфорда (или Закон Бенфорда) – это феномен, связанный с распределением первых цифр в числах, которые встречаются в некоторых наборах данных. Он утверждает, что первая цифра в числах не следует равномерному распределению, как можно было бы ожидать, а следует определенному распределению, основанному на логарифмах.

Фрэнк Бенфорд (Frank Benford) — американский физик, родившийся в 1883 году. Он получил степень бакалавра научных исследований в Линфилде-Колледже в 1906 году и докторскую степень в физике в Университете Гарварда в 1910 году. Бенфорд работал профессором физики в различных университетах в США, включая Саутерн-Методистский университет и Университет Карнеги-Меллона.

Бенфорд, Фрэнк

Бенфорд, Фрэнк

[править | править код]

Бенфорд известен своим открытием закона распределения первых цифр чисел, который сейчас называют законом Бенфорда. Он опубликовал свою статью на эту тему в 1938 году, и с тех пор этот закон стал известен как закон Бенфорда.

Бенфорд работал в различных областях физики, включая астрономию и термодинамику. Он также занимался изучением электричества и магнетизма. Бенфорд умер в 1948 году в возрасте 65 лет. Его научный вклад был значительным, и его открытие закона Бенфорда продолжает применяться в различных областях, включая финансы, науку о данных и статистику.

Как правило, в больших наборах данных первая цифра чисел может быть любой цифрой от 1 до 9. Поэтому, если данные равномерно распределены, то количество чисел с каждой первой цифрой должно быть примерно одинаковым. Но по факту, в большинстве наборов данных первая цифра распределена неравномерно и подчиняется определенному закону.

Закон Бенфорда гласит, что в большинстве наборов данных первая цифра в числах будет следовать определенному распределению, которое выглядит следующим образом:

  • Цифра 1 должна быть первой цифрой в числах в примерно 30% случаев.
  • Цифра 2 должна быть первой цифрой в числах в примерно 17% случаев.
  • Цифра 3 должна быть первой цифрой в числах в примерно 12% случаев.
  • Цифра 4 должна быть первой цифрой в числах в примерно 9% случаев.
  • Цифра 5 должна быть первой цифрой в числах в примерно 7% случаев.
  • Цифра 6 должна быть первой цифрой в числах в примерно 6% случаев.
  • Цифра 7 должна быть первой цифрой в числах в примерно 5% случаев.
  • Цифра 8 должна быть первой цифрой в числах в примерно 4% случаев.
  • Цифра 9 должна быть первой цифрой в числах в примерно 4% случаев.

Из этого распределения видно, что чем меньше цифра, тем больше вероятность, что она будет первой цифрой в числах.

Например, рассмотрим набор данных, содержащий длины рек в километрах. Посмотрим, как распределены первые цифры в этом наборе. Если распределение цифр будет подчиняться закону Бенфорда, то первой цифрой в числах должна быть цифра 1 в 30% случаев, цифра 2 в 17% случаев, цифра 3 в 12% случаев и т.д. Давайте посмотрим на реальные данные:

  1. Река Амазонка: 6,400 km
  2. Река Нил: 6,650 km
  3. Река Янцзы: 6,380 km
  4. Желтая река: 5,464 km
  5. Река Обь: 5,410 km
  6. Река Парана: 4,880 km
  7. Река Конго: 4,700 km
  8. Река Амур: 4,444 km
  9. Река Лена: 4,400 km

По этим данным можно посчитать, как часто встречаются первые цифры от 1 до 9. Например, первой цифрой в числах встречается цифра 6 в 33% случаев, цифра 4 в 22% случаев, цифра 5 в 22% случаев, а цифра 1 в 11% случаев. Если сравнить эти результаты с предсказаниями закона Бенфорда, то можно увидеть, что распределение длин рек в данном наборе данных отличается от теоретического распределения закона Бенфорда.

Тем не менее, это не значит, что закон Бенфорда всегда должен работать точно. Он работает лучше на больших объемах данных, когда присутствуют много порядков чисел и они равномерно распределены. В реальных наборах данных, таких как финансовые отчеты, налоговые декларации и научные данные, закон Бенфорда может давать очень точные результаты.

Закон Бенфорда может быть полезен для проверки аутентичности наборов данных. Если данные не соответствуют закону Бенфорда, то это может указывать на то, что они были подделаны или искажены.

Примеры закона Бенфорда

Рассмотрим несколько примеров:

  1. Финансовые отчеты. Предположим, что у нас есть набор данных, содержащий информацию о суммах денежных переводов, совершенных компанией за год. Мы можем использовать закон Бенфорда для того, чтобы проверить, соответствует ли распределение первых цифр сумм денежных переводов теоретическому распределению. Если данные не соответствуют закону Бенфорда, то это может указывать на финансовые махинации или ошибки в учете.
  2. Результаты выборов. Предположим, что мы хотим проверить результаты выборов в некоторой стране. Мы можем использовать закон Бенфорда для того, чтобы проверить, соответствуют ли цифры, обозначающие процент голосов, теоретическому распределению. Если данные не соответствуют закону Бенфорда, то это может указывать на фальсификацию выборов.
  3. Научные исследования. Предположим, что у нас есть набор данных, содержащий информацию о распределении веса или длины некоторого вида животных. Мы можем использовать закон Бенфорда для того, чтобы проверить, соответствует ли распределение первых цифр длины или веса теоретическому распределению. Если данные не соответствуют закону Бенфорда, то это может указывать на ошибки в сборе данных или нарушения в процессе измерения.

Последние статьи