### Статистика в Python

#### Описательная статистика

Описательная статистика нам нужна, чтобы описать наши данные: как они устроены, как распределены. Существует два подхода:

- Квантитативный подход описывает данные в числовом виде.
- Визуальный подход иллюстрирует данные с помощью самых разных графиков. 

**Типы мер**

В описательной статистике есть различные меры, которые позволяют что-то понять о своих данных:

- Меры центральной тенденции: описывают "типичные" значения: это среднее, медиана и мода. 
  - Мода - значение в нашей выборке, которое встречается чаще всего
  - Медиана - если все цифры в выборке отсортировать по возрастанию и взять ту, что попала в середину
  - Среднее значение - сложили все цифры и поделили на их количество
- Меры изменчивости: показывают, насколько разнообразна наша выборка. Это размах, дисперсия и стандартное отклонение. 
  - Межквартильный размах - разница между самым большим и самым маленьким значениями в середине выборки (от 25% до 75%)
  - Дисперсия - это насколько наши значения разбросаны
  - Стандартное отклонение - на сколько случайное значение отличается от среднего значения 
- Корреляция показывает, насколько связаны значения между двумя выборками. Это ковариация и коэффициент корреляции. 

**Генеральная совокупность и выборка**

Генеральной совокупностью называются все интересующие нас данные вообще, например, если мы исследуем частоты слов какого-то языка, то генеральная совокупность - это все-все употребления этих слов вообще. Но обычно дело мы имеем все-таки с частью всех слов, то есть, с выборкой. При этом желательно, чтобы выборка была похожа на генеральную совокупность, тогда она будет отражать ее свойства: это называется репрезентативность. 

**Выбросы**

Выбросы - это данные, которые сильно отличаются от большинства данных в выборке или ген. совокупности. С выбросами часто приходится бороться. 

**Библиотеки**

Библиотек в питоне, которые умеют вычислять разные штуки в статистике, много, мы посмотрели и еще посмотрим только несколько:

- statistics - встроенная библиотека, которая позволяет посчитать самые простые меры. 
- Matplotlib - позволяет визуализировать данные, конечно!
- pandas - тоже имеет встроенные методы для подсчета разных мер. 
- numpy - библиотека для работы с массивами чисел (например, матрицами), на самом деле pandas базируется на ней. 
- scipy - библиотека для разных сложных математических вычислений, помимо прочего имеет модуль stats. 

*statistics*

В стандартном модуле statistics доступно только небольшое число самых простых мер:

In [None]:
import statistics

statistics.harmonic_mean() # вычисляет гармоническое среднее значение
statistics.mean() # считает среднее значение
statistics.median() # считает медиану
statistics.mode() # считает моду
statistics.stdev() # считает стандартное отклонение
statistics.variance() # считает дисперсию

*numpy*

Основной объект этой библиотеки - массив array. Массив - это как список (обычно список списков), только он отличается от списков в питоне тем, что может хранить данные только одного типа, и типы numpy немного отличаются от стандартных типов питона, потому что они унаследованы от другого языка программирования. У массива array есть понятие формы (shape): для матрицы, например, это количество строчек и столбцов. Array может быть разных измерений (dim): если это список списков, то его измерение 2, если список списков списков, то 3, и т.д. 

In [1]:
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr.ndim)
print(arr.dtype)

2
int64


Индексирование по массивам numpy работает немножко не так, как в питоновских списках:

In [2]:
arr = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]]) 

Вот у нас трехмерный массив. Допустим, мы хотим обратиться к четверке. Четверка находится в первой из двух матриц, во второй строке первой матрицы, на второй позиции этой строки. 

In [15]:
arr[0, 1, 1]

4

Супер. Также можно использовать срезы: например, можно получить всю вторую строку первой матрицы. 

In [16]:
arr[0, 1, :]

array([3, 4])

И даже весь второй столбец. 

In [17]:
arr[0, :, 1]

array([2, 4])

Можно, конечно, и только часть столбца взять, просто у меня супер-короткие столбцы. 

Numpy тоже предоставляет базовые статистические меры:

In [None]:
np.median(arr) # медиана
arr.mean() # среднее значение
arr.std() # стандартное отклонение
arr.min() # минимум
arr.max() # максимум
arr.var() # дисперсия

*scipy.stats*

В библиотеке scipy представлены более сложные и интересные вещи. Можно оценить полный список доступного в [документации](https://docs.scipy.org/doc/scipy/reference/stats.html). 

Все выше рассмотренные штуки там, конечно, тоже есть, а еще есть функции для вычисления разных статистических критериев и коэффициентов, которые часто бывают нужны в том числе и теоретическим лингвистам для того, чтобы проверить статистическую значимость полученных результатов. 

#### Критерии различия для несвязанных и связанных выборок

**Несвязанные выборки** - это две такие выборки, между которыми нет никакой связи (да-да). Например, частоты слов для НКРЯ и ГИКРЯ - несвязанные выборки (они никак не зависят друг от друга). 

Часто нам бывает нужно сравнить какие-нибудь наборы числовых данных, между которыми вроде бы корреляции нет, чтобы понять, насколько эти наборы похожи. Например, в одном исследовании получились одни цифры, а в другом по такой же теме - другие, и мы можем выдвинуть нулевую гипотезу о том, что эти цифры не отличаются друг от друга, а потом проверить ее при помощи одного из критериев. 

Самый популярный критерий для оценки похожести независимых выборок - **t-критерий Стьюдента для несвязанных выборок**, или t-test. Допустим, у нас есть выборка А и выборка Б. Мы должны из среднего значения выборки А вычесть среднее значение выборки Б и поделить на стандартную ошибку этой разности. Стандартная ошибка вычисляется на основе стандартных отклонений обеих выборок. 

t-критерий Стьюдента есть в scipy и называется там ttest_ind.

Например, предположим, что преподаватель хочет знать, приводят ли два разных метода обучения к разным средним баллам на экзаменах.

Чтобы проверить это, он набирает 10 студентов для использования метода А и 10 студентов для использования метода Б.

In [1]:
import pandas as pd
from scipy. stats import ttest_ind

# соберем оценки наших студентов в табличку
df = pd.DataFrame({'method': ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A',
 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B'],
 'score': [71, 72, 72, 75, 78, 81, 82, 83, 89, 91, 80, 81, 81,
 84, 88, 88, 89, 90, 90, 91]})

# посмотрим, что получилось
df.head ()

Unnamed: 0,method,score
0,A,71
1,A,72
2,A,72
3,A,75
4,A,78


In [2]:
# зададим выборки
group1 = df[df['method']=='A']
group2 = df[df['method']=='B']

# выполним тест
ttest_ind(group1['score'], group2['score'])

Ttest_indResult(statistic=-2.6034304605397938, pvalue=0.017969284594810425)

Из вывода мы видим:

- t-тестовая статистика: –2,6034
- р-значение: 0,0179

Что такое p-значение (или p-value, или p-уровень значимости)?

Это как раз та штука, которая позволяет нам понять, подтвердилась наша гипотеза или нет. Нулевая гипотеза - что наши выборки не отличаются друг от друга. Чтобы понять, верна она или нет, нам нужно вычислить вероятность того, что два случайных набора из наших выборок дадут значение критерия большее или равное тому, которое мы получили (чаще всего без учета его знака). 

Если p-value меньше 5% (или 0.05), то нулевая гипотеза отвергается и принимается обратная гипотеза, то есть, что выборки отличаются. Такая гипотеза еще называется альтернативной. Если же p-value больше 5%, то нулевая гипотеза не отвергается, но это, правда, еще не дает гарантий того, что выборки правда похожие... это только значит, что на наших конкретных данных она подтвердилась. 

Следовательно, в примере выше 0.01 < 0.05, значит, наша нулевая гипотеза неверна и оценки студентов действительно зависят от метода обучения (то есть, выборки отличаются). 

У t-теста Стьюдента, однако, есть недостаток: аномальные значения в выборке будут сильно на него влиять (из-за среднего значения). Такие значения можно просто выкинуть из выборки, либо воспользоваться другим критерием: **U-критерием Манна-Уитни**. 

Для того, чтобы вычислить этот критерий, нам нужно ранжировать наши выборки, то есть, сконкатенировать их, отсортировать по возрастанию и назначить ранги (у самого большого значения - самый большой ранг). После этого нужно опять выборки разделить и посчитать суммы рангов отдельно для каждой выборки. Общая логика такова: чем сильнее различаются суммы рангов, тем больше различаются и выборки. После некоторых дополнительных преобразований (нужно еще учесть количество элементов в каждой выборке) и получаем значение критерия. 

Этот критерий тоже есть в scipy, конечно. 

У него есть следующие аргументы:

- x: массив выборочных наблюдений из группы 1
- y: массив выборочных наблюдений из группы 2
- use_continuity: следует ли учитывать поправку на непрерывность (1/2). Значение по умолчанию — True.
- альтернатива: определяет альтернативную гипотезу. По умолчанию используется значение «Нет», которое вычисляет значение p, равное половине размера «двустороннего» значения p. Другие варианты включают «двусторонний», «меньше» и «больше».

Допустим, у нас есть задача:

Исследователи хотят знать, приводит ли обработка топлива к изменению среднего расхода топлива на галлон автомобиля. Чтобы проверить это, они измерили расход 12 автомобилей с обработкой топлива и 12 машин без нее.

Поскольку размеры выборки невелики, и исследователи подозревают, что распределение выборки не является нормальным, они решили выполнить U-критерий Манна-Уитни, чтобы определить, есть ли статистически значимая разница в милях на галлон между двумя группами.

In [4]:
import scipy.stats as stats

# создадим наши выборки
group1 = [20, 23, 21, 25, 18, 17, 18, 24, 20, 24, 23, 19]
group2 = [24, 25, 21, 22, 23, 18, 17, 28, 24, 27, 21, 23]

# и посчитаем критерий Манна-Уитни
stats.mannwhitneyu(group1, group2, alternative='two-sided')

MannwhitneyuResult(statistic=50.0, pvalue=0.21138945901258455)

Получили статистику = 50, а p-value 0.2, что больше, чем 0.05. Следовательно, отвергнуть нулевую гипотезу не получается. 

Помимо похожести выборок по размерам их величин мы еще можем хотеть сравнить выборки по их разнообразию, то есть, насколько сильный разброс в значениях наших выборок. Для этого существует **критерий Хи-квадрат Пирсона**. 

Чтобы вычислить этот критерий, нужно построить *таблицы сопряженности*. Это такие таблицы, в каждой ячейке которых - частота объектов наших выборок определенного размера. Хи-квадрат сравнивает такую таблицу для теоретических частот (ту, которая должна получиться, если дисперсия одинаковая) и для эмпирических частот. Теоретическая частота подсчитывается по формуле (все объекты одной выборки * объекты обеих выборок нашего размера / все объекты обеих выборок). 

Конечно, все это за нас с вами умеет делать питон. 

Допустим, у нас есть такая задача:

Владелец магазина утверждает, что каждый будний день в его магазин приходит одинаковое количество покупателей. Чтобы проверить эту гипотезу, исследователь записывает количество покупателей, которые заходят в магазин на данной неделе, и обнаруживает следующее:

- Понедельник: 50 клиентов
- Вторник: 60 клиентов
- Среда: 40 клиентов
- Четверг: 47 клиентов
- Пятница: 53 клиента

In [5]:
# зададим данные
expected = [50, 50, 50, 50, 50]
observed = [50, 60, 40, 47, 53]

In [6]:
# и используем готовый критерий...
stats.chisquare(f_obs=observed, f_exp=expected)

Power_divergenceResult(statistic=4.359999999999999, pvalue=0.3594720674366307)

У нас опять получается, что p-value больше 0.05, а следовательно, мы не можем опровергнуть гипотезу хозяина магазина. 

**Связанные выборки** - такие, очевидно, между которыми есть связь. Самый яркий пример - это два измерения какого-нибудь признака до и после лечения, то есть, например, когда ученые хотят проверить эффективность лекарства, они собирают группы испытуемых, одной группе дают лекарство, а другой не дают, и сравнивают результаты до и после. 

Самый очевидный способ понять, работает лекарство или нет, замерить состояние пациентов до и после приема лекарства, посчитать число тех, кому стало лучше, число тех, кому стало хуже, и сравнить между собой. Этот метод называется **критерий знаков**. Но на практике он применяется нечасто, потому что не позволяет оценить, насколько сильно изменилось состояние пациентов. 

Гораздо чаще используется вариант t-критерия Стьюдента для связанных выборок. Чтобы его вычислить, сперва посчитаем разности между состоянием каждого пациента до и после приема лекарств. Потом найдем среднее значение этих разностей. Очевидно, чем больше это значение, тем сильнее улучшилось или ухудшилось среднее состояние. Если же одной половине пациентов стало лучше, а другой ровно настолько же хуже, то значение окажется равно нулю (то есть, лекарство не действует, как хочется). 

Последнее, что нужно сделать, это поделить среднюю разность на стандартную ошибку этой разности. 

Допустим, у нас есть квест:

Мы хотим знать, значительно ли влияет определенная учебная программа на успеваемость студента на конкретном экзамене. Чтобы проверить это, у нас есть 15 учеников в классе, которые проходят предварительный тест. Затем каждый из студентов участвует в учебной программе в течение двух недель. Затем учащиеся пересдают тест аналогичной сложности.

Чтобы сравнить разницу между средними баллами по первому и второму тесту, мы используем t-критерий для парных выборок, потому что для каждого учащегося его балл за первый тест можно сопоставить с баллом за второй тест.

In [10]:
# зададим выборку
pre = [88, 82, 84, 93, 75, 78, 84, 87, 95, 91, 83, 89, 77, 68, 91] # оценки предварительного теста
post = [91, 84, 88, 90, 79, 80, 88, 90, 90, 96, 88, 90, 81, 74, 92] # оценки второго теста

In [11]:
stats.ttest_rel(pre, post)

Ttest_relResult(statistic=-3.10331649182091, pvalue=0.007780964408986076)

Получаем p-value 0.008 < 0.05: отлично! значит, наши студенты чему-то научились. 

Однако как и с t-критерием Стьюдента для несвязанных выборок, он же для связанных тоже плохо реагирует на выбросы. Если в данных есть аномальные значения, можно использовать **T-критерий Уилкоксона**. Он тоже ранговый: только теперь нам нужно вычислить разности между состоянием каждого студента до и после теста, а потом их отсортировать и ранжировать. При сортировке знак разности учитывать не нужно. 

Теперь снова разделим разности на положительные и отрицательные и посчитаем суммы рангов. Чем сильнее они будут различаться, тем сильнее улучшаются или ухудшаются знания студентов!

In [12]:
stats.wilcoxon(pre, post)

WilcoxonResult(statistic=19.0, pvalue=0.01806640625)

Критерий Уилкоксона для наших студентов тоже показывает p-value < 0.05, а значит, ну уже точно их знания улучшились. 

примечание: если среди студентов окажутся такие, у которых балл за тест не изменился, то есть, разность их состояний будет равна нулю (это называется tie), критерий Уилкоксона не сможет вычислить точное p-value. Тогда нужно указать дополнительно в параметрах метод = approx:

    stats.wilcoxon(pre, post, method='approx')

#### Корреляционный анализ

Корреляция между двумя выборками - это про влияние одной выборки на другую. Например, у нас есть информация о баскетболистах, где среди прочего есть количество одержанных побед и рост спортсмена. Влияет ли рост на количество побед? Для баскетбола, вероятно, да; мы можем это проверить, используя специальные критерии. 

Один такой критерий - это **коэффициент корреляции Пирсона**. Этот коэффициент работает, если у нас в выборках нормальное распределение (это такое распределение, при котором чем больше у нас значений, тем больше они на графике будут похожи на колокол) и если связь между двумя выборками - линейная. Чтобы его вычислить, нужно посчитать средние арифметические по обеим выборкам, а затем посчитаем отклонения от среднего. Какие-то будут с отрицательным знаком, а какие-то с положительным. Если мы все отклонения попарно перемножим друг с другом, а потом просуммируем, после некоторых преобразований получится тот самый коэффициент. Он изменяется в пределах от -1 до 1, при этом если -1 - то у нас сильная отрицательная связь, если 1 - то сильная положительная, а 0 - нет связи. Нулевая гипотеза этого коэффициента - что связи нет. 

Представим себе, что у нас есть данные о ценах и размерах батареи мобильных телефонов. Мы хотим понять, действительно ли размер батареи мобильника влияет на его цену. 

In [69]:
# зададим данные:
battery = [3500, 3000, 3400, 2500, 4000, 4500]
price = [15816, 10834, 14479, 11840, 16163, 19140]

In [70]:
stats.pearsonr(battery, price)

(0.9270722491419943, 0.007783753719932865)

p-value получилось меньше 0.05, значит, точно корреляция есть. 

Проблема этого критерия в том, что он очень не любит выбросы и ненормальные распределения. Поэтому для таких случаев есть другой коэффициент - **коэффициент корреляции Спирмена**. 

Этот коэффициент тоже вычисляется с помощью рангов. Упорядочим обе выборки с нашими признаками и отранжируем их каждую отдельно, а потом посмотрим, как будут соотноситься эти результаты. 

Для наших телефонов Спирмен покажет:

In [68]:
stats.spearmanr(battery, price)

SpearmanrResult(correlation=0.942857142857143, pvalue=0.004804664723032055)

Еще увереннее, чем Пирсон!

С коэффициентами корреляции, однако, нужно быть аккуратнее: потому что даже если у вас высокий положительный коэффициент, это еще не гарантирует, что в ваших данных не произошло простое совпадение, или, может быть, корреляция есть, но между этим признаком и каким-нибудь еще, например, между ценой телефона и размером его экрана. 