# Неделя 1. Среда
## Проверка статистических гипотез

In [1]:
import numpy as np
from scipy.stats import norm
from scipy import stats

## Одновыборочный Z-тест для проверки среднего

Возьмем пример из слайдов и попробуем реализовать тест. 

Студенты университета в начале учебного года сдают предварительное тестирование, оцениваемое по десятибалльной шкале. Вы предполагаете, что средняя оценка равна $6$, и решаете это проверить, опросив несколько человек. Получилась следующая выборка: $9, 5, 7, 7, 4, 10$. Из наблюдений прошлых лет известно, что дисперсия $1$. Проверим гипотезу, что среднее равно $6$, на уровне значимости $0.01$ против односторонней альтернативы $\mu > 6$.

$H_0: \mu = 6$

$H_1: \mu > 6$

In [2]:
sample = [9, 5, 7, 7, 4, 10]
mu_0 = 6
sigma = 1
alpha = 0.01

Статистика критерия выглядит так: 

$$z = \dfrac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}$$

In [3]:
def z_stat_rightside(sample: list, mu_0: float, sigma: float, alpha: float):
    x_mean = np.mean(sample)
    se = sigma / np.sqrt(len(sample))
    z_stat = (x_mean - mu_0) / se
    z_crit = norm(0, 1).ppf(1-alpha)
    p_value = 1-norm(0, 1).cdf(z_stat)
    if z_stat > z_crit:
        print(f'H_0 rejected. z_crit={z_crit:.3f} < z_stat={z_stat:.3f}, p_value={p_value:.3f}')
    else:
        print(f'H_0 accepted. z_crit={z_crit:.3f} < z_stat={z_stat:.3f}, p_value={p_value:.3f}')

In [4]:
z_stat_rightside(sample, mu_0, sigma, alpha)

H_0 rejected. z_crit=2.326 < z_stat=2.449, p_value=0.007


❓Какой вывод мы можем сделать?

☑️ Можно проверить результаты [независимым калькулятором](https://www.statskingdom.com/110MeanNormal1.html)

## Одновыборочный t-тест

Дана выборка: $1,0,3,5,4$. $\alpha=0.01$. Проверим гипотезы: 

$H_0: \mu = 3$

$H_1: \mu < 3$

Статистика критерия: 

$$z = \dfrac{\bar{x} - \mu_0}{\frac{\hat{\sigma}}{\sqrt{n}}}$$

In [5]:
def std(sample: list) -> float:
    return np.sqrt(np.sum([(x_-np.mean(sample))**2 for x_ in sample]) /(len(sample) - 1))

In [6]:
sample = [1,0,3,5,4]
mu_0 = 3
alpha=0.01

In [7]:
# Задаем объект с фиксированным распределением
t = student(df=len(sample)-1)

NameError: name 'student' is not defined

In [None]:
def t_stat_leftside(sample: list, mu_0: float, alpha: float):
    distrib = stats.t(len(sample)-1)
    sigma = std(sample)
    x_mean = np.mean(sample)
    se = sigma / np.sqrt(len(sample))
    t_stat = (x_mean - mu_0) / se
    t_crit = distrib.ppf(alpha)
    p_value = distrib.cdf(t_stat)
    
    if t_stat < t_crit:
        print(f'H_0 rejected. t_crit={t_crit:.3f} < t_stat={t_stat:.3f}, p_value={p_value:.3f}')
    else:
        print(f'H_0 accepted. t_crit={t_crit:.3f} < t_stat={t_stat:.3f}, p_value={p_value:.3f}')
        
    ## Comparing with scipy resuls
    # sc_stat, sc_pval = stats.ttest_1samp(sample, 3, alternative='less')
    if np.allclose([t_stat, p_value], stats.ttest_1samp(sample, 3, alternative='less')):
        print('Results identical')
    else: print('Failed')

In [None]:
t_stat_leftside(sample, mu_0, alpha)

H_0 accepted. t_crit=-3.747 < t_stat=-0.431, p_value=0.344
Results identical


## Двухвыборочный t-тест

Двух выборочные тесты бывают двух видов: для [независимых выборок](https://ru.wikipedia.org/wiki/T-%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0#%D0%94%D0%B2%D1%83%D1%85%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BE%D1%87%D0%BD%D1%8B%D0%B9_t-%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%B4%D0%BB%D1%8F_%D0%BD%D0%B5%D0%B7%D0%B0%D0%B2%D0%B8%D1%81%D0%B8%D0%BC%D1%8B%D1%85_%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BE%D0%BA) и для [зависимых выборок](https://ru.wikipedia.org/wiki/T-%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0#%D0%94%D0%B2%D1%83%D1%85%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BE%D1%87%D0%BD%D1%8B%D0%B9_t-%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%B4%D0%BB%D1%8F_%D0%B7%D0%B0%D0%B2%D0%B8%D1%81%D0%B8%D0%BC%D1%8B%D1%85_%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BE%D0%BA)
Технология остается все той же, меняются детали вычислений (в частности, дисперсий). В `scipy` есть реализованные варианты: [ttest_ind](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html#scipy-stats-ttest-ind) и [ttest_rel](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html#scipy-stats-ttest-rel)