In [26]:
import numpy as np
import scipy.stats as st
import pandas as pd

In [60]:
# df = pd.read_csv('data.csv')
# df

In [61]:
# df.describe()

In [62]:
# df['math score'].hist(bins=50)
# df['reading score'].hist(bins=50)
# # df['writing score'].hist(bins=100)

In [63]:
# df2 = df.loc[(df['math score'] > 70)] 
# df2['math score'].hist(bins=30)
# st.shapiro(df2['math score'])

### Проверка гипотез

Основные виды критериев при проверке гипотез:
1) Критерии согласия - проверка на соответствие определенному закону распределения (общие или специальные критерии)
2) Критерии значимости - проверка численных параметров известных законов распределения
3) Критерии однородности - проверка значимости различий распределений

По применению:
1) Параметрические - используются только для определенных распределений (более мощные)
2) Непараметрические - могут использоваться при неизвестном распределении

## Критерий Шапиро-Уилко (специальный критерий согласия)
Основан на оптимальной линейной несмещённой оценке дисперсии к её обычной оценке методом максимального правдоподобия и является одним наиболее эффективных критериев проверки нормальности

+ H0 - выборка взята из нормального распределения
+ H1 - выборка взята не из нормального распределения

**st.shapiro(x)** - реализация теста в scipy. Возвращает тестовое значение критерия и p-value.
+ Если тестовое значение критерия приближается к единице и p-value > alpha - принимаем нулевую гипотезу - распределение нормальное. 
+ В обратном случае - p-value < alpha - отвергаем нулевую гипотезу - выборка взята из распределения отличного от нормального

In [65]:
# Критерий Шапиро-Уилко

x = [1,2,2,3,3,3,4,4,4,4,5,5,5,5,5,6,6,6,6,6,6,7,7,7,7,7,8,8,8,8,9,9,9,10,10,11] #нормальное распределение
y = [1,1,1,1,1,1,11,1,1,1,1,1,1,1,11,1,1,1,1,11,1,1,1,11,1,1,11,1,1,1] #отличное от нормального
print(st.shapiro(x))
print(st.shapiro(y))

ShapiroResult(statistic=0.9811134338378906, pvalue=0.7822656035423279)
ShapiroResult(statistic=0.4521617889404297, pvalue=1.732437526769104e-09)


## Критерий Андерсона — Дарлинга (общий критерий согласия)

Классический непараметрический критерий согласия Андерсона — Дарлинга предназначен для проверки простых гипотез о принадлежности анализируемой выборки полностью известному закону

+ H0 - выборка взята из определенного распределения
+ H1 - выборка взята не из определенного распределения

Нулевая гипотеза отклоняется при больших значениях статитистики
***
**st.anderson(x)** - реализация теста в scipy. 

Эта функция работает для нормального, экспоненциального, логистического, распределения Weibull_min или распределения Гамбеля (экстремальное значение, тип I). 

Соответствующие параметры: dist{‘norm’, ‘expon’, ‘logistic’, ‘gumbel’, ‘gumbel_l’, ‘gumbel_r’, ‘extreme1’, ‘weibull_min’}, optional

In [84]:
# Критерий Андерсона - Дарлинга

x = [7,8,2,3,3,8,9,9,4,5,5,5,5,5,5,6,6,8,6,6,6,7,7,7,7,7,8,8,8,8,9,9,3,10,10,10] #нормальное распределение
print(st.anderson(x, dist='norm'))

# Значение статистики - 0.5374. Далее дается список критических значений для соответствующих 
# уровней значений - для нормального - 15%, 10%, 5%, 2.5%, 1%.
# Смотрим на соответствие значений и сравниваем на каком уровне значение статистики больше критического:
v = st.anderson(x, dist='norm').critical_values
l = st.anderson(x, dist='norm').significance_level
for i,j in zip(v,l):
    print(f' При {j}% уровне значимости критическое значение равно {i}')
# Значение статистики 0.5374 больше чем 0.528, но меньше чем 0.601 -
# следовательно нулевая может быть отклонена при 15% уровне значимости, но не при 10% уровне значимости

AndersonResult(statistic=0.537373973495292, critical_values=array([0.528, 0.601, 0.721, 0.841, 1.   ]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]), fit_result=  params: FitParams(loc=6.638888888888889, scale=2.1132612275516283)
 success: True
 message: '`anderson` successfully fit the distribution to the data.')
 При 15.0% уровне значимости критическое значение равно 0.528
 При 10.0% уровне значимости критическое значение равно 0.601
 При 5.0% уровне значимости критическое значение равно 0.721
 При 2.5% уровне значимости критическое значение равно 0.841
 При 1.0% уровне значимости критическое значение равно 1.0


Основные виды гипотез:
1) Равенство математического ожидания заданному значению (при известной или неизвестной дисперсии)
2) Равенство математических ожиданий двух генеральных совукупностей (при равной или неравной дисперсии)
3) Равенство дисперсии заданному значению
4) Равенство дисперсий (двух или более совокупностей)
5) Проверка гипотез о биномиальном распределении

### Тесты с t-критерием
1) st.ttest_1samp - гипотеза о равенстве мат ожидания заданному значению
2) st.ttest_ind_from_stats - гипотеза о равенстве мат. ожиданий независимых совокупностей (по параметрам)
3) st.ttest_ind - гипотеза о равенстве мат. ожиданий независимых совокупностей (по выборкам)
4) st.ttest_rel - гипотеза о равенстве мат. ожиданий зависимых совокупностей

In [19]:
r = norm.rvs(loc=3.3, scale=1, size=100, random_state=None)
r

array([3.95149263, 1.96622483, 4.82095148, 3.97100042, 3.83810469,
       3.87192182, 4.06932578, 3.39421806, 2.73222398, 2.9774926 ,
       2.89859886, 3.02789462, 3.60555803, 3.70088204, 4.37662093,
       3.06555038, 4.10979018, 3.53903648, 5.40285929, 2.79810543,
       4.23275369, 1.66821857, 2.07002221, 2.91721934, 3.43650123,
       4.48085832, 3.47058017, 2.86647187, 3.65544925, 3.10352188,
       2.31800372, 2.13905892, 3.18904858, 4.70308442, 1.52147205,
       3.22602084, 3.32529136, 3.68746514, 3.70143679, 2.54347363,
       3.12958703, 3.0486732 , 4.61974119, 0.76071056, 3.55616812,
       2.89722991, 0.63368963, 3.20395624, 2.99074646, 4.78710699,
       2.87029691, 2.99769107, 3.59721216, 4.18101658, 3.00939421,
       4.05058228, 2.0218793 , 2.120184  , 3.38925219, 1.9059648 ,
       4.43767686, 2.71724709, 4.49233697, 2.67555775, 2.00203227,
       4.40187464, 3.72204826, 1.36834691, 2.90252479, 3.34037526,
       1.17298539, 3.77740315, 3.32078569, 3.8142669 , 3.03192

In [24]:
a = 3.5
res = st.ttest_1samp(r, a, axis=0, nan_policy='propagate', alternative='less', keepdims=False)
ci = res.confidence_interval(confidence_level=0.95)
print(res, ci)

TtestResult(statistic=-3.4127747314027648, pvalue=0.0004664151341536634, df=99) ConfidenceInterval(low=-inf, high=3.320222515895323)


In [13]:
# import numpy as np
# from scipy.stats import norm
# import matplotlib.pyplot as plt
# fig, ax = plt.subplots(1, 1)
# x = np.linspace(norm.ppf(0.01),
#                 norm.ppf(0.99), 100)
# ax.plot(x, norm.pdf(x),
#        'r-', lw=5, alpha=0.6, label='norm pdf')
# rv = norm()
# ax.plot(x, rv.pdf(x), 'k-', lw=2, label='frozen pdf')

In [None]:
st.ttest_1samp(a, popmean, axis=0, nan_policy='propagate', alternative='two-sided', *, keepdims=False)

In [None]:
st.ttest_1samp(a, popmean, axis=0, nan_policy='propagate', alternative='two-sided', keepdims=False)