### T-тест для сравнения средних

In [1]:
from scipy import stats
import numpy as np

Нулевая гипотеза:
$$ H_0: \mu_1 = \mu_2.$$

#### Равный объем выборок, одинаковая дисперсия

t-статистика имеет вид:
$$ t_{obs} = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{s^2_{X_1}+s^2_{X_2}}\sqrt{\frac{1}{n}}}. $$

число степеней свободы для тестовой статистики $df = 2n-2.$

In [2]:
rvs1 = stats.norm.rvs(loc=5,scale=10,size=500)
rvs2 = stats.norm.rvs(loc=5,scale=10,size=500)

In [3]:
stats.ttest_ind(rvs1,rvs2, equal_var=True)

Ttest_indResult(statistic=-0.9764253304976509, pvalue=0.32909035017665667)

#### Неодинаковый объем выборок, одинаковая дисперсия

t-статистика имеет вид:
$$ t_{obs} = \frac{\bar{X}_1 - \bar{X}_2}{s_{X_1X_2}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}, $$

$$ s_{X_1X_2} = \sqrt{\frac{(n_1-1)s{X_1}^2+(n_2-1)s{X_2}^2}{n_1+n_2-2}}.$$

In [4]:
rvs1 = stats.norm.rvs(loc=5,scale=10,size=500)
rvs3 = stats.norm.rvs(loc=5, scale=20, size=100)

In [5]:
stats.ttest_ind(rvs1,rvs2, equal_var=True)

Ttest_indResult(statistic=-0.14337478030064546, pvalue=0.88602314236736557)

scipy делает корректировку автоматически.

#### Неодинаковый объем выборок, неодинаковая дисперсия

Данный тест также известен как t-test Уолша.

t-статистика имеет вид:
$$ t_{obs} = \frac{\bar{X}_1 - \bar{X}_2}{s_{X_1X_2}}, $$

$$ S_{X_1X_2}=\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}},$$

$$ df = \frac{(s_1^2/n_1 + s_2^2/n_2)^2}{(s_1^2/n_1)^2/(n_1-1)+(s_1^2/n_2)^2/(n_2-1)}. $$

In [7]:
rvs4 = stats.norm.rvs(loc=8, scale=20, size=100)

In [8]:
stats.ttest_ind(rvs1, rvs4, equal_var = False)

Ttest_indResult(statistic=-3.1299161353860256, pvalue=0.0022372825313011235)

#### t-test для зависимых выборок

Используется, когда производится несколько наблюдений над каждым элементом выборочной совокупности. Предполагается, что мы рассчитыаем разность между двумя наблюдениями.

$$ t = \frac{\bar{X}_D-\mu_0}{s_{D} / \sqrt{n}.} $$

Число степеней свободы - $(n-1)$.

In [57]:
rvs1 = stats.norm.rvs(loc=5,scale=10,size=500)
rvs2 = (stats.norm.rvs(loc=5,scale=10,size=500) + stats.norm.rvs(scale=0.2,size=500))

In [58]:
stats.ttest_rel(rvs1,rvs2)

Ttest_relResult(statistic=0.094529033555185507, pvalue=0.92472686557163553)

#### z-test на равенство долей

In [9]:
import numpy as np
import pandas as pd
import scipy.stats as stats

In [10]:
data = pd.read_csv('data/drunkwalks.txt', sep='\t')

In [11]:
data

Unnamed: 0,CASE,DRINKS,SEX,DOMINANT_SIDE,FIRST_STUMBLE,END_POSITION,MATCH
0,1,10,1,1,1,1,1
1,2,6,1,1,1,1,1
2,3,5,0,1,1,1,1
3,4,14,1,1,1,0,1
4,5,7,1,1,0,0,0
5,6,12,1,0,0,1,1
6,7,8,0,0,0,0,1
7,8,7,0,0,0,0,1
8,9,9,1,0,1,1,0
9,10,5,0,0,0,0,1


In [13]:
p_male = data[data['SEX'] == 1]['MATCH'].mean()

In [15]:
p_female = data[data['SEX'] == 0]['MATCH'].mean()

$$ H_0: p_1 = p_2,$$
$$ H_1: p_1 \neq p_2.$$

$$ Z_{obs} = \frac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1}+\frac{1}{n_2})}},$$

где $\hat{p} = \frac{Y_1+Y_2}{n_1+n_2}.$

In [31]:
p_hat = data['MATCH'].mean()

In [47]:
n1 = np.float(data[data['SEX'] == 1]['MATCH'].count())
n2 = np.float(data[data['SEX'] == 0]['MATCH'].count())

In [50]:
z_obs = (p_male - p_female)/np.sqrt(p_hat*(1-p_hat)*(1/n1+1/n2))

In [55]:
z_obs

-0.066747464856976524

In [54]:
stats.norm.ppf(0.95)

1.6448536269514722

In [56]:
stats.norm.cdf(z_obs)

0.47339137352316468

Мы не можем отвергнуть нулевую гипотезу о равенстве долей в 2 выборках.

#### Тестирование коэффициента корреляции Пирсона

Для расчета доверительных интервалов и **p-values** для коэффициента корреляции Пирсона можно воспользоваться t-критерием, либо сделать дополнительное предположение о двумерном нормальном распределении и использовать точное распределение статистики.

В scipy реализован подход, основанный на t-статистике:

$$ t = r \sqrt{\frac{n-2}{1-r^2}}. $$

In [66]:
rvs3 = stats.norm.rvs(loc=5,scale=11,size=500)
rvs4 = 0.5*rvs3 + stats.norm.rvs(scale=1.0,size=500)

In [67]:
stats.pearsonr(rvs3, rvs4)

(0.98438179407057325, 0.0)