# One-way ANOVA

In [12]:
group1 = [85, 86, 88, 75, 78, 94, 98, 79, 71, 80]
group2 = [91, 92, 93, 85, 87, 84, 82, 88, 95, 96]
group3 = [79, 78, 88, 94, 92, 85, 83, 85, 82, 81]
from scipy.stats import f_oneway
#perform one-way ANOVA
f_oneway(group1, group2, group3)

F_onewayResult(statistic=2.3575322551335636, pvalue=0.11384795345837218)

Однофакторный дисперсионный анализ предполагает следующие нулевые и альтернативные гипотезы:
H0 (нулевая гипотеза): μ1 = μ2 = μ3 = ... = µk (все средние значения ген. совокупности равны)
H1 (альтернативная гипотеза): по крайней мере одно среднее значение генеральной совокупности отличается от остальных
Статистика теста F составляет 2,3575, а соответствующее значение p-0,1138. Поскольку значение p не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы сказать, что существует разница в оценках экзаменов между тремя методами обучения.

In [13]:
group1 = [3, 1, 2,]
group2 = [5, 3, 4,]
group3 = [7, 6, 5,]
from scipy.stats import f_oneway
#perform one-way ANOVA
f_oneway(group1, group2, group3)

F_onewayResult(statistic=12.0, pvalue=0.008000000000000002)

# Двухфакторный дисперсионный анализ (Two-Way ANOVA)

In [8]:
import numpy as np
import pandas as pd

#create data
df = pd.DataFrame({'water': np.repeat(['daily', 'weekly'], 15), 
                   'sun': np.tile(np.repeat(['low', 'med', 'high'], 5), 2), 
                   'height': [6, 6, 6, 5, 6, 5, 5, 6, 4, 5,
                              6, 6, 7, 8, 7, 3, 4, 4, 4, 5,
                              4, 4, 4, 4, 4, 5, 6, 6, 7, 8]})

#view first ten rows of data 
df

Unnamed: 0,water,sun,height
0,daily,low,6
1,daily,low,6
2,daily,low,6
3,daily,low,5
4,daily,low,6
5,daily,med,5
6,daily,med,5
7,daily,med,6
8,daily,med,4
9,daily,med,5


In [37]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

#perform two-way ANOVA
model = ols('height ~ (water) + (sun) + (water):(sun)', data=df).fit()
sm.stats.anova_lm(model, typ=2)

Unnamed: 0,sum_sq,df,F,PR(>F)
water,8.533333,1.0,16.0,0.000527
sun,24.866667,2.0,23.3125,2e-06
water:sun,2.466667,2.0,2.3125,0.120667
Residual,12.8,24.0,,


Полив: p= .000527
Энергия солнце: p= .0000002
Полив*эн.солнце: p= .120667
Поскольку значения p для полива и эн.солнца меньше 0,05, это означает, что оба фактора оказывают статистически значимое влияние на рост растений.
И поскольку значение p для эффекта взаимодействия (.120667) не меньше 0,05, это говорит нам о том, что между воздействием солнечного света и частотой полива нет существенного эффекта взаимодействия.

# ANOVA с повторными измерениями

In [6]:
import numpy as np
import pandas as pd

#create data
df = pd.DataFrame({'patient': np.repeat([1, 2, 3, 4, 5], 4),
                   'drug': np.tile([1, 2, 3, 4], 5),
                   'response': [30, 28, 16, 34,
                                14, 18, 10, 22,
                                24, 20, 18, 30,
                                38, 34, 20, 44, 
                                26, 28, 14, 30]})

#view first ten rows of data 
df

Unnamed: 0,patient,drug,response
0,1,1,30
1,1,2,28
2,1,3,16
3,1,4,34
4,2,1,14
5,2,2,18
6,2,3,10
7,2,4,22
8,3,1,24
9,3,2,20


In [5]:
from statsmodels.stats.anova import AnovaRM

#perform the repeated measures ANOVA
print(AnovaRM(data=df, depvar='response', subject='patient', within=['drug']).fit())

              Anova
     F Value Num DF  Den DF Pr > F
----------------------------------
drug 24.7589 3.0000 12.0000 0.0000



α (уровень значимости) = 0,05
DF1 (числитель степеней свободы)  = 3
DF2 (степени свободы знаменателя) = 12(3(Df drud)*4(df patient))

Интерпретация результата.
Повторные измерения ANOVA используют следующие нулевые и альтернативные гипотезы:
Нулевая гипотеза (H0): µ1 = µ2 = µ3 (все средние значения населения равны)
Альтернативная гипотеза: (Ha): по крайней мере одно среднее значение популяции отличается от остальных
В этом примере статистика теста F равна 24,7589, а соответствующее значение p равно 0,0000. Поскольку это значение р меньше 0,05, мы отвергаем нулевую гипотезу и приходим к выводу, что существует статистически значимая разница в среднем времени реакции между четырьмя препаратами.
Результаты показали, что времия реакции тип используемого препарата приводит к статистически значимым различиям  (F(3, 12) = 24,75887, р < 0,001).

# Критерий Хи-квадрат: пример

In [7]:
expected = [50, 50, 50, 50, 50]
observed = [50, 60, 40, 47, 53]
import scipy.stats as stats

#perform Chi-Square Goodness of Fit Test
stats.chisquare(f_obs=observed, f_exp=expected)

Power_divergenceResult(statistic=4.359999999999999, pvalue=0.3594720674366307)

Напомним, что тест на соответствие Хи-Квадрат использует следующие нулевые и альтернативные гипотезы:
H0: (нулевая гипотеза) Переменная следует за гипотетическим распределением.
H1: (альтернативная гипотеза) Переменная не следует гипотетическому распределению.
Поскольку значение p (.35947) не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы сказать, что истинное распределение клиентов отличается от распределения, которое утверждал владелец магазина.

In [None]:
x = int(input())
while 