7 ловушек, которые готовит для вас статистическая случайность
Случайность повсюду вокруг нас. Ее существование вселяет страх в сердца специалистов по прогнозной аналитике, потому что если процесс действительно случайный, то он непредсказуем в аналитическом смысле этого термина. Случайность означает отсутствие закономерностей, связей, упорядоченности и предсказуемости в системе.
К сожалению, случайные события часто вводят нас в заблуждение, когда в системе возникает кажущаяся упорядоченность. В моменты «статистической слабости» некоторые люди даже создают теории, объясняющие эти «закономерности». Однако, если события действительно случайные, то любая корреляция является исключительно совпадением и не представляет собой причинно-следственную связь.
Когда я учился в аспирантуре, у нас была шутка про ошибочный научный анализ данных, связанная с данной концепцией: «Две точки монотонной последовательности демонстрируют тенденцию (tendency). Три точки монотонной последовательности демонстрируют тренд (trend). Четыре точки монотонной последовательности определяют теорию (theory)». Вывод из этой шутки был ясен: остерегайтесь кажущейся упорядоченности в случайном процессе и не пытайтесь создать теорию, объясняющую случайные данные.
Одним из распространенных явлений, посредством которых случайность сбивает нас с пути рационального мышления, является эффект малых чисел (small-numbers phenomenon). Например, представим, что я спросил 12 человек о том, какая футбольная команда из НФЛ им нравится больше всего, и все они ответили, что это – Baltimore Ravens («Балтиморские Вороны»). Что же это – статистическая случайность, реальная характеристика предпочтений болельщиков или ошибка отбора (selection effect) (поскольку все 12 человек, опрошенные мной, на самом деле живут в Балтиморе)? Правильным ответом будет, вероятно, последний вариант. Ладно, этот пример, возможно, слишком очевидный. Давайте рассмотрим следующий менее очевидный пример.
Предположим, у меня есть обычная монета (при ее подбрасывании орел и решка могут выпасть с одинаковой вероятностью). Ниже приведены три последовательности (каждая из которых представляет результаты 12-ти последовательных подбрасываний монеты). Какая из этих последовательностей является поддельной (т.е. набранной мной вручную на клавиатуре)?
1. ОРОРОРОРОРОО;
2. РРРРРРРРРРРР;
3. ОООООООООООР;
4. ни одна из вышеперечисленных.
Результаты подбрасывания монеты обозначены следующим образом: О – орел, Р – решка.
Правильный ответ – «4) ни одна из вышеперечисленных».
Ни одна из данных последовательностей не является поддельной. Все они являются фрагментами реальной более длинной последовательности результатов подбрасывания монеты. Я признаю, что выбрал три этих фрагмента не случайно, а намеренно, чтобы попытаться запутать вас и продемонстрировать статистическую ошибку, известную как ошибка отбора. В данном примере отчетливо проявляется эффект малых чисел, который сводится к тому, что если рассматривать только 12 подбрасываний монеты, то появление любого «маловероятного» результата может заставить нас ошибочно считать его статистически значимым (неслучайным). С другой стороны, если бы в последовательности из варианта b) присутствовали только решки, как результат нескольких десятков и более подбрасываний, то в этом случае можно было бы сделать вывод, что эта последовательность действительно статистически значима (неслучайна).
Итак, давайте попробуем еще раз и рассмотрим задачу №2, в которой одна из трех последовательностей на самом деле является поддельной (я набрал ее на клавиатуре, пытаясь вручную создать случайную последовательность). Какая из этих трех последовательностей, представляющих результаты 50-ти подбрасываний монеты, является поддельной?
1. ОРООРООРРООРРРОРОРОООРОРОРОООРРОРРРОРОРООРРОРОРОРР
2. ООООООРОРОООООРРРОРРРРОРРООООРОООООРОРРОООРООООООО
3. РОРРРРРРОРРРРРРРРОООРРРРООРРРРОООРООРРООРРРРРОРРОО
Чтобы получить две настоящие (неподдельные) последовательности, я использовал генератор случайных чисел. Генератор случайных чисел (используемый почти во всех средах для научного программирования) генерирует случайные числа в диапазоне от 0 до 1. Я просто присваивал событию название «О», если случайное число было равно 0,5 или больше, и «Р» – если меньше, чем 0,5.
Ответ к задаче №2… находится в конце данной статьи (к тому моменту вы, вероятно, уже догадаетесь сами).
Данная тема, касающаяся ошибочных суждений, связанных со случайностью, возникла, когда я читал статью «Лауреаты премии Тьюринга с 1966 по 2013» (Turing Award Winners from 1966 through 2013).
В данной статье приведены многие интересные статистические факты о 61 лауреате премии Тьюринга. Также в статье представлена интерактивная визуализация данных, созданная с помощью инструментов компании Tableau, благодаря которой вы можете исследовать следующие данные: год рождения каждого лауреата, возраст на момент награждения, национальность, пол и… знак зодиака! Поскольку я астрофизик и data scientist, наличие знака зодиака привело меня в небольшое замешательство. Однако автор статьи признает, что это было сделано ради шутки.
Взглянув на данные, вы увидите, что 10 лауреатов из 61-го были рождены под одним определенным знаком зодиака, и только 2 из 61-го под другим знаком (на самом деле, есть два таких примера). В связи с этим возникает ряд вопросов. Имеет ли эта кажущаяся корреляция статистическую значимость? Действительно ли здесь присутствует реальная закономерность, а не случайность? Действительно ли у Козерогов в пять раз больше шансов получить премию Тьюринга, чем у Скорпионов?
Конечно же, ответом на эти вопросы является то, что статистическое распределение знаков зодиака представляет собой исключительно случайный процесс, без какого-либо астрологического (или астрономического) значения вообще. Но доказательство этого утверждения стало еще одним интересным упражнением для моего генератора случайных чисел.
Я сгенерировал случайные месяцы рождения (от 1 до 12, что соответствует 12-ти знакам зодиака) для 61-го человека. (Для простоты мы будем считать, что все месяцы равновероятны, пренебрегая различной длиной разных месяцев.) Я повторил моделирование 100 000 раз (что в области научного анализа данных почти наверняка попадает в категорию «избыточность»). Затем я выяснил, сколько раз в полученных результатах присутствовали следующие кажущиеся корреляции:
10 человек или больше из 61-го рождены в каком либо одном месяце (имеют одинаковый знак зодиака).32% случаев.
2 человека или меньше из 61-го рождены в каком-либо одном месяце.80% случаев.
Отношение «максимального количества рожденных в одном месяце» к «минимальному количеству рожденных в другом месяце» равно 5 или больше.40% случаев.
Отношение «максимального количества рожденных в одном месяце» к «минимальному количеству рожденных в другом месяце» равно 4,5 или больше.49% случаев.
Следовательно, статистически обоснована и полностью ожидаема ситуация, когда мы наблюдаем 1 или 2 месяца, на которые приходятся дни рождения только двух лауреатов. Также статистически обосновано то, что в самом «популярном» месяце мы наблюдаем в 5 раз больше дней рождений, чем в наименее «популярном». Что касается первого пункта (в 32% случаев 10 человек или больше из 61-го рождены в каком-либо одном месяце), то 32% – это достаточно большой процент, поэтому неудивительно, что мы наблюдаем такое распределение в реальной жизни.
Какие выводы мы можем сделать из обсуждения данной темы? В какие ловушки мы можем попасть?
Часто мы склонны выбирать и фокусировать внимание на «наиболее интересных» результатах в наших данных, игнорируя при этом «неинтересные» случаи. Результатом такого подхода является ошибка отбора, а также «апостериорная» статистика, полученная на основе наблюдаемых фактов, а не на основе логических принципов.
Случайность может легко ввести нас в заблуждение, особенно когда мы спешим создать аналитические прогнозные модели, дающие интересные результаты.
Это похоже на парадокс дней рождения, заключающийся в следующем: вероятность того, что у 2-х человека из группы совпадают дни рождения (число и месяц), составляет приблизительно 50%, если в группе всего 23 человека. Эта переломная точка (50/50) возникает при таком малом количестве людей в группе, потому что при увеличении размера выборки, становится все меньше и меньше шансов избежать совпадения (т.е. повторяющейся структуры в случайных данных).
Люди хорошо находят корреляции в данных, но корреляция не является причинно-следственной связью.
Чем больше набор данных, тем более вероятно то, что в нем будет присутствовать «маловероятная» последовательность!
Распределение дней рождения лауреатов премии Тьюринга демонстрирует «эффект малых чисел».
Когда нас просят отличить «случайное» статистическое распределение, созданное человеком, от действительно случайного распределения, сгенерированного алгоритмом, мы склонны путать «случайность» с тем, что «выглядит, как случайность». Распределение, в котором много неповторяющихся значений, может казаться более случайным, чем распределение, где есть несколько больших повторений, но на самом деле первое распределение является менее случайным, поскольку имеет статистически нереально малую дисперсию. Т.е. мы забываем принять во внимание размер всей выборки. Например, в задаче №1 выше, в варианте b) последовательность из 11 решек после первой решки имеет вероятность, равную 1/2^11 (один раз из 2048 циклов по 12 подбрасываний), что является редким случаем, но он все же действительно имел место в моем реальном эксперименте!
Теперь вернемся к задаче №2, правильный ответ которой – #1 ).
Если ответ удивляет нас, то это происходит потому, что когда мы стараемся вручную создать случайную последовательность (без помощи объективного не предвзятого алгоритма) или определить, является ли строка данных случайной последовательностью, мы склонны попадать в некоторые ловушки, описанные выше.
Причины серий игровых поражений
Как отличить случайные последовательности от неслучайных.
Экспериментальные проверки случайности серии поражений в World of Tanks / + Зеркало