Закон Бенфорда

Материал из RSU WiKi
Перейти к: навигация, поиск

Закон Бенфорда, или закон первой цифры описывает вероятность появления определённой первой значащей цифры в распределениях величин, взятых из реальной жизни. Закон верен для многих таких распределений, но не для всех [1].

Содержание

Введение

Когда число случайным образом берется из большого объема данных, например из котировок акций, данных переписи, или научных данных, то какова вероятность того что первой цифрой этого числа будет "1"? Исключив возможность появления нуля, логично предположить что вероятность будет 1/9, или около 11.1%.

Если вы проверите эту гипотезу на реальных данных, то заметите, что вероятность первой "1" будет, как ни странно, около 30.1%, вероятность первой "2" составит около 17.6%, вероятность первой "3" около 12.4%, и далее вероятности будут уменьшаться, так что вероятность первой "9" составит всего 4.5%. Это иллюстрирует нижеследующий график:

Это распределение соответствует правилу, по которому вероятность того, что первой цифрой окажется d вычисляется по формуле:

pd = log10(1 + 1/d)

Это распределение называют законом Бенфорда, в честь физика Фрэнка Бенфорда (Frank Benford), который открыл его в 1938 году. Бенфорд был не первым, кто обратил внимание на это распределение. Астроном и математик Саймон Ньюкомб (Simon Newcomb) сделал похожее открытие 57 годами ранее, когда заметил что первые страницы логарифмических таблиц были более испачканными и изношенными, чем последующие страницы.

Бенфорд проверил распределение первых цифр на большом объеме наборов данных, включающих географические данные, физические свойства химикатов, бейсбольную статистику, и адреса улиц. Он обнаружил что этот принцип повторяется во всех, на вид не связанных наборах данных.

Следующий граф показывает, что первые цифры недавних курсов акций очень напоминают распределение Бенфорда

Свойства

Распределения, которые включают величины нескольких порядков, в большинстве своем удовлетворят закону Бендфорда. В общем случае закон применим ко множествам, числа в которых могут расти экспоненциально. Например, индивидуальные доходы и цены на акции.

Другой особенностью закона Бендфорда является его инвариантность к масштабу. Это означает, что первые цифры биржевых данных упоминаемых выше, удовлетворяли бы закону Бендфорда даже после конвертации в другие валюты, такие как евро, или японская иена.

В дополнение к инвариантости относительно масштаба, можно показать что закон Бенфорда также инвариантен относительно основания системы исчисления. Если вы преобразуете множество значений, удовлетворяющего закону Бенфорда, к другому основанию, то новое множество также будет удовлетворять закону, но с небольшой модификацией. Вероятности распределения цифр во множестве с новым основанием, может быть вычислено по формуле:

pd = logbase(1 + 1/d)

где d принимает значения каждой ненулевой цифры новой системы исчисления.

Ограничения

Распределения, которые построены с заданными минимальными или максимальными значениями, обычно не удовлетворят закону Бенфорда. Например, можно было бы ожидать, что набор чисел, представляющих "небольшие страховые претензии" будет удовлетворять закону. Однако, если термин "небольшие" в данном случае определяется как сумма между $50 и $100, то некоторые из начальных цифр, очевидно, исключаются из диапазона.

Распределения, охватывающие только один или два порядка величин (или даже меньше) также не будут удовлетворять закону Бенфорда. Для примера можно взглянуть на показатели IQ у взрослых. Этот набор данных охватывает относительно узкую область значений, несмотря на отсутствие теоретического максимума.

Объяснение

Простое объяснение закона Бенфорда можно продемонстрировать на примере роста цен с учетом инфляции. Для товара стоимостью 1$, при 3% темпе годовой инфляции, "1" будет первой цифрой в течении 24 лет, пока на 25 году цена не достигнет $2.03. Последующие 14 лет первой цифрой будет "2", "3" будет первой цифрой следующие 9 лет, "4" - 8 лет, "5" - 6 лет... и "9" всего лишь три года, до тех пор пока цена не достигнет $10.03 на 79 году. После этого, первой цифрой станет опять "1", опять на 24 года.

Учитывая, что инфляция затрагивает широкий спектр товаров народного потребления, становится понятно, почему, взяв все цены в ближайшем магазине на определенный момент времени, вы получите набор значений, удовлетворяющих закону Бендфорда. С течением времени цена каждого товара будет расти экспоненциально. Поэтому вероятность того, что первой цифрой случайной цены в выбранный момент времени будет "1", примерно равна 30.1%.

Приложения

Несмотря на то, что закон Бенфорда может выглядеть всего лишь математическим курьезом, он имеет интересные практические применения. Основываясь на предположении о том что в фальсифицированных данных числа распределены равномерно, закон Бенфорда может быть использован для выявления возможного подлога в финансовых документах, страховых заявлениях и налоговых декларациях. Возможны и другие применения, например, анализ результатов клинических испытаний или выборов.

Для более подробной информации о применениях закона Бенфорда, смотрите "Я знаю ваши цифры: Как математическое явление может помочь аудиторам выявить мошенничество и другие нарушения."

Примечания

  1. Закон Бенфорда. Материал из Википедии — свободной энциклопедии

См. также

Ссылки

Личные инструменты
Пространства имён

Варианты
Действия
Навигация
Инструменты