# Критерии согласия

В Python, как и в любых других статистических пакетах, уже реализованы многие критерии, которые мы изучали. Давайте посмотрим, как применять эти критерии на практике.

In [None]:
# как обычно, начнем с импорта нужных библиотек
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

In [None]:
# и зафиксируем seed
np.random.seed(123)

## Критерий Колмогорова

Начнем с критерия согласия Колмогорова. Этот критерий проверяет простую гипотезу о принадлежности выборки некоторому (непрерывному!) закону распределения. Критерий Колмогорова реализован с помощью функции kstest в модуле stats:

* **stats.kstest(sample, cdf)** — тут sample — реализация нашей выборки и cdf — функция распределения закона, с которым сравниваем.

In [None]:
n = 500 # размер выборки

In [None]:
sample1 = np.random.rand(n) # выборка 1 из равномерного распределения на [0,1]
sample2 = np.random.beta(2,2,size = n) # выборка 2 из бета-распределения с параметрами (2,2)

In [None]:
# давайте сначала посмотрим на гистограммы для sample1 и sample2

plt.figure(figsize=(12,8))
plt.subplot(2,2,1)
plt.hist(sample1, bins=20)
plt.subplot(2,2,2)
plt.hist(sample2, bins=20)
plt.show()

In [None]:
# Запускаем критерий Колмогорова для sample1, 
# проверяем гипотезу о том, что выборка взята из равномерного распределения на [0,1].
# Должны получить большой p-value (что будет означать, что значение статистики попало в область вероятных значений).

stats.kstest(sample1, stats.uniform.cdf)

In [None]:
# Запускаем критерий Колмогорова для sample2, 
# проверяем гипотезу о том, что выборка взята из равномерного распределения на [0,1].
# Должны получить малый p-value (что будет означать, что значение статистики попало в область маловероятных значений).

stats.kstest(sample2, stats.uniform.cdf)

In [None]:
# Запускаем критерий Колмогорова для sample1, 
# проверяем гипотезу о том, что выборка взята из бета-распределения с параметрами (2,2).
# Обратите внимание на то, как передавать параметры для функции плотности.

stats.kstest(sample1, stats.beta.cdf, args=(2,2))

In [None]:
# Запускаем критерий Колмогорова для sample2, 
# проверяем гипотезу о том, что выборка взята из бета-распределения с параметрами (2,2).

stats.kstest(sample2, stats.beta.cdf, args=(2,2))

## Критерий хи-квадрат

Теперь перейдем к критерию согласия хи-квадрат. Этот критерий реализован с помощью функции chisquare в модуле stats:
    
* **stats.chisquare(obs, exp)** — тут obs — количества попаданий в каждую "ячейку" и exp — ожидаемые количества попаданий в каждую "ячейку".

P.S. Обратите внимание на то, что мы передаем в функцию chisquare не вероятности (эмпирические и истинные), а количества!

В экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, получаемых при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Эти данные и значения теоретических вероятностей, определяемые в соответствии с законом Менделя, приведены в следующей таблице:

| Тип семян            | Частота | Вероятность |
|:-------------------- |:-------:| -----------:|
| Круглые и желтые     | 315/556 | 9/16        |
| Морщинистые и желтые | 101/556 | 3/16        |
| Круглые и зеленые    | 108/556 | 3/16        |
| Морщинистые и зеленые| 32/556  | 1/16        |

Необходимо проверить гипотезу $H_0$ о согласованности частот с теоретическими вероятностями при помощи критерия хи-квадрат.

In [None]:
# занесем данные из таблицы в массивы

obs = np.array([315/556, 101/556, 108/556, 32/556])
exp = np.array([9/16, 3/16, 3/16, 1/16])

In [None]:
# вспомним о том, что в функцию chisquare мы должны передавать количества, а не частоты

obs = obs*556
exp = exp*556

In [None]:
# запускаем критерий хи-квадрат

stats.chisquare(obs, exp)

## Проверка нормальности

Очень важный тип критериев согласия — это проверка нормальности. На лекции мы изучали следующие методы: 

* **qqplot(sample, dist, line='r')** — построение квантильного графика (Q-Q Plot) — визуальная проверка любого критерия согласия о масштабе/сдвиге. Аргументы: sample — наша выборка, dits — распределение, с которым сравниваем (если этот параметр не указан, то используется нормальное распределение), line='r' — подгоняет прямую под облако точек, чтобы было проще визуально сравнивать.
* **stats.shapiro(sample)** — критерий Шапиро-Уилка. Аргументы: sample — наша выборка.
* **stats.jarque_bera(sample)** — критерий Харке-Бера. Аргументы: sample — наша выборка.

In [None]:
# поменяем размер выборки, если нужно

n = 500

In [None]:
sample1 = np.random.normal(1,2, size=n) # выборка из нормального распределения
sample2 = np.random.beta(2,2,size = n) # выборка из бета-распределения с параметрами (2,2)

In [None]:
# нарисуем гистограммы 

plt.figure(figsize=(12,8))
plt.subplot(2,2,1)
plt.hist(sample1, bins=20)
plt.subplot(2,2,2)
plt.hist(sample2, bins=20)
plt.show()

In [None]:
from statsmodels.graphics.gofplots import qqplot # импортируем функцию qqplot

In [None]:
# график квантилей для sample1

qqplot(sample1, line='s')
plt.show()

In [None]:
# график квантилей для sample2

qqplot(sample2, line='s')
plt.show()

In [None]:
# запускаем критерий Шапиро-Уилка для sample1

stats.shapiro(sample1)

In [None]:
# запускаем критерий Шапиро-Уилка для sample2

stats.shapiro(sample2)

In [None]:
# запускаем критерий Харке-Бера для sample1

stats.jarque_bera(sample1)

In [None]:
# запускаем критерий Харке-Бера для sample2

stats.jarque_bera(sample2)

## Вместо заключения

В статистике известно большое количество критериев согласия и далеко не все из них реализованы в Python. О критериях можно почитать в книге А.И. Кобзарь "Прикладная математическая статистика. Для инженеров и научных работников". (Почти) полный список того, что реализовано в Python можно найти в официальной документации: https://docs.scipy.org/doc/scipy/reference/stats.html#module-scipy.stats.

Если в официальной документации Вы не найдете нужного критерия, гуглите. Вполне возможно, что критерий, который Вам нужен уже реализован.