In [2]:
import numpy as np
from scipy import stats

### Одновыборочный критерий Стьюдента (One sample Student T-test)

In [3]:
sample = np.array([98,104,97,97,101,100,99,101,99,98])

In [4]:
mu0 = 100

Сначала закодим вручную

In [5]:
df = len(sample)-1
student = stats.t(df)
T = (df)**0.5*(sample.mean() - mu0)/sample.std()
P = student.cdf(T)
print("Statistic: ",T,", p-value: ",P)

Statistic:  -0.8741572761215295 , p-value:  0.2023773358698457


А вот готовое решение

In [6]:
stats.ttest_1samp(sample, mu0)

TtestResult(statistic=-0.8741572761215296, pvalue=0.40475467173969126, df=9)

### Двухвыборочный критерий Стьюдента для парных выборок

In [7]:
x = np.array([12.5,9.6,10,11.3,9.9,11.3,10.5,10.6,12])
y = np.array([12.3,10,9.8,11,9.9,11.4,10.8,10.3,12.1])

Сначала закодим вручную

In [9]:
d = x - y
df = len(d)-1
t = stats.t(df)
T = (df)**0.5*(d.mean())/d.std()
P = 1 - t.cdf(T)
print("Statistic: ",T,", p-value: ",P)

Statistic:  0.12964074471043013 , p-value:  0.45002548393415864


А вот готовое решение

In [10]:
stats.ttest_1samp(d,0)

TtestResult(statistic=0.12964074471043013, pvalue=0.9000509678683173, df=8)

### Критерий хи-квадрат для проверки гипотезы о дисперсии нормально распределённой популяции

In [11]:
x = np.array([0.25, -1.22, -5.1, -10.41, 0.74, 0.04, 0.92, 9.12, 14.13, -3.73, 7.97, 2.39, 5.28, 8.32, 0.31, 1.38, 4.15, 11.13, 4.57, 9.02, 2.19, 2.53, 0.06, 1.28, -1.17, 2.52, 8.47, 10.82, -2.74, 13.34, 8.23, -2.01, 2.91, 3.45, -3.34, 9.74, 16.45, 17.0, 0.29, 21.15, 3.4, 8.34, 14.31, 0.26, 5.02, 10.72, 10.88, 0.99, 7.43, 13.91, -2.69,  10.51])

In [12]:
sigma0 = 5

In [13]:
s2 = (x.std())**2
G = (len(x) - 1)*s2/sigma0**2
df = len(x) - 1
chi2 = stats.chi2(df)
P = 1 - chi2.cdf(G)
print("Statistic: ",G,", p-value: ",P)

Statistic:  83.23475784763313 , p-value:  0.002923229166158392


### Биномиальный критерий для проверки гипотезы о равенстве долей/вероятностей

Исходные данные

In [14]:
n1 = 1100
m1 = 46
n2 = 1000
m2 = 30

In [15]:
T = (m1/n1 - m2/n2)/((m1+m2)/(n1+n2)*(1 - (m1+m2)/(n1+n2))*(1/n1 + 1/n2))**0.5
P = 1 - stats.norm.cdf(T)
print("Statistic: ",T,", p-value: ",P)

Statistic:  1.4482535671508665 , p-value:  0.07377307418610235


А готового решения нет. :(

### Двухвыборочный критерий Стьюдента для независимых выборок

Исходные данные

Из примера со слайдов:

In [17]:
x = np.array([30, 28, 46, 42, 35, 33, 44, 43, 31, 38])
y = np.array([26, 38, 39, 28, 30, 27, 32, 35])

Из нормального распределения:

In [18]:
x = stats.norm(0.1, 1).rvs(1000)
y = stats.norm(0, 1).rvs(1000)

Из нормального распределения, но добавим выброс:

In [20]:
x = stats.norm(0.1, 1).rvs(1000)
y = stats.norm(0, 1).rvs(1000)
y[0] = 30

Сначала закодим вручную

In [21]:
m = len(x)
n = len(y)
s2x = x.var()
s2y = y.var()

T = (x.mean() - y.mean())/(s2x/m + s2y/n)**0.5

df = round( (s2x/m + s2y/n)**2 / ( (s2x/m)**2/(m-1) + (s2y/n)**2/(n-1) ))
St = stats.t(df)

P = 1 - St.cdf(T)
print("Statistic: ",T,", p-value: ",P)

Statistic:  2.2890437182843484 , p-value:  0.011096333036489825


А вот готовое решение из scipy

In [23]:
stats.ttest_ind(x,y).pvalue/2

0.011123721016764765

### Проверка нормальности с помощью критерия Шапиро-Уилка

In [24]:
x = [12.5,9.6,10,11.3,9.9,11.3,10.5,10.6,12]

In [25]:
stats.shapiro(x)

ShapiroResult(statistic=0.9470862746238708, pvalue=0.6581228971481323)