In [4]:
import pandas as pd
import numpy as np
import scipy.stats as stats

### Все формулы и варианты т-тестов

![title](picture.png)

In [12]:
# нахождение t значения
alpha = 0.01
power = 0.8
ddof = 1000
print(stats.t.ppf(1 - alpha / 2, ddof))
print(stats.norm.ppf(q=1-alpha/2)) # t значение для двух стороннего теста
print(stats.norm.ppf(q=power))

2.580754698065942
2.5758293035489004
0.8416212335729143


### Одновыборочный t-критерий

**t-test для сравнения предполагаемого среднего значения и среднего значения в выборке.** \
\
t-статистика используется для проверки гипотезы о том, что среднее значение по совокупности равно заданному значению (mu) на основе выборочного среднего. \
\
Например, мы знаем среднее в ГС и хотим сравнить выборку со средним в ГС. Тогда используем ttest_1samp с параметрами: a - выборка, popmean - сравниваемое среднее. \
\
Интерпретировать выводы можно так: чем больше p-value, тем лучше. Единица говорит о 100% совпадении средних, а очень низкий p-value о том, что различия между средними большие.

In [58]:
data = [ 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303]
m = np.mean(data)
mu = 310 # сравниваемое число

# сделаем тест в scipy
print(stats.ttest_1samp(a=data, popmean=mu))

# тот же тест вручную
sd = np.std(data)
n = np.sqrt(len(data)-1)

t = (m - mu)/(sd/n)
print(t)

Ttest_1sampResult(statistic=-1.5848116313861254, pvalue=0.1389944275158753)
-1.5848116313861254


### Т-тест для зависимых выборок (Парный т-тест)

In [87]:
x1 = np.random.normal(loc=30, scale=10, size=100)
x2 = np.random.normal(loc=35, scale=10, size=100)

In [88]:
diff = x1-x2
mean_d = np.mean(diff)
std_d = np.std(diff, ddof=1)
N = np.sqrt(len(x1))

t = (mean_d)/(std_d/N)
print(t)

-4.180796937434012


In [89]:
stats.ttest_rel(x1, x2)

Ttest_relResult(statistic=-4.180796937434012, pvalue=6.278989748954766e-05)

### Т-тест для независимых выборок (Двухвыборочный т-тест)


**При разных дисперсиях**

In [90]:
x1 = np.random.normal(loc=30, scale=10, size=100)
x2 = np.random.normal(loc=35, scale=13, size=100)

In [91]:
stats.ttest_ind(x1, x2, equal_var=False)

Ttest_indResult(statistic=-2.4953008168074984, pvalue=0.013533262261072205)

**При одинаковых дисперсиях**


In [92]:
x1 = np.random.normal(loc=30, scale=13, size=1000)
x2 = np.random.normal(loc=32, scale=13, size=1000)

In [93]:
stats.ttest_ind(x1, x2, equal_var=True)

Ttest_indResult(statistic=-1.565232575264042, pvalue=0.11768674457926946)