In [4]:
import scipy.stats as stats
import numpy as np
import pandas as pd

In [21]:
beers = pd.read_csv('beers.csv' , sep=';', index_col="User")

### Критерий Пирсона (хи-квадрат)

$$ \chi^2_{obs} = \sum_{i=1}^{n}\frac{(O_i - E_i)^2}{E_i},$$

где $O_i$ - наблюдаемая частота наблюдения $i$,  $E_i$ - ожидаемая (т.е. в соответствии с распределением, принадлежность к которому мы тестируем) частота наблюдения $i$

Критерий Пирсона может применятся не только для оценки соответствия выборки произвольному распределению, но и для проверки независомости двух переменных. Для этого удобнее представить данные в виде таблиц сопряженности:

In [22]:
ctab2 = pd.crosstab(beers["Baltika 3"], beers["Baltika 7"])

In [42]:
ctab2

Baltika 7,0,1
Baltika 3,Unnamed: 1_level_1,Unnamed: 2_level_1
0,56,11
1,14,19


Теперь нам нужно рассчитать таблицу сопряженности с частотами, ожидаемыми при независимости столбцов и строк.

In [24]:
stats.chi2_contingency(ctab2)[3]

array([[ 46.9,  20.1],
       [ 23.1,   9.9]])

In [25]:
stats.chi2_contingency(ctab2)[:2]

(15.929012943938318, 6.5762893284054987e-05)

Число степеней свободы - $(r-1)(c-1)$, где $r$ - число строк, $c$ - число столбцов. Тест всегда односторонний

Тест Хи-квадрат - аппроксимирующий. Точными тестами для таблиц сопряженности являются точный тест Фишера и тест Барнарда

#### Effect size для таблиц сопряженности

На основании статистики теста также разработаны меры силы связи (efect size) для таблиц сопряженности

Для таблиц 2х2 это коэффициент Phi:

$$ \phi = \frac{n_{11} n_{00}-n_{10} n_{01}}{\sqrt{n_{1*} n_{0*} n_{*1} n_{*0}}}$$

$$ \phi^2 = \frac{\chi^2}{n}$$

In [44]:
np.sqrt(stats.chi2_contingency(ctab2)[0]/np.sum(np.array(ctab2)))

0.39911167539848191

Для таблиц большего размера используется V-коэффициент Крамера:

$$ V = \sqrt{\frac{\chi^2/n}{min(c-1,r-1)}} $$

где с - число столбцов, r - число рядов. Как нетрудно заметить, для таблиц 2х2 коэффициент Крамера равен модулю Phi

In [30]:
cont = pd.read_csv('cont.csv' , sep=';', index_col="grpname")

In [31]:
cont

Unnamed: 0_level_0,Weak,Moderate,Strong
grpname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Group1,20,76,3
Group2,51,21,56
Group3,20,30,20
Group4,40,20,20


In [54]:
np.sqrt(stats.chi2_contingency(ctab2)[0]/np.sum(np.array(ctab2))/(min(cont.shape)-1))

0.28221457212499074