# Двухфакторный дисперсионный анализ. Факторный анализ. Логистическая регрессия

__1. Объясняемая переменная y зависит от двух категориальных факторов A и B, причём фактор A имеет 3 уровня, а фактор B - 4 уровня. Результаты наблюдений приведены в таблице:__

__y = [[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]]__

__С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную y.__

In [1]:
import numpy as np
from scipy import stats

Примем следующие гипотезы:$H_{0A}: \: \overline{y_{1 \ast}} = \dots = \overline{y_{m \ast}}, \:
H_{0B}: \: \overline{y_{\ast 1}} = \dots = \overline{y_{\ast k}}.$

In [2]:
y = np.array([[2.68, 3.29, 2.88, 4.45], [4.12, 4.96, 5.09, 5.22], [5.52, 4.50, 5.42, 5.29]])

k = 3 # уровни фактора A
m = 4 # уровни фактора B

S2_A = k*((y.mean(axis=1) - y.mean())**2).sum() # суммы квадратов отклонений
S2_B = m*((y.mean(axis=0) - y.mean())**2).sum()

S2_res = 0
for i in range(k):
    for j in range(m):
        S2_res += (y[i,j] - y.mean(axis=1)[i] - y.mean(axis=0)[j] + y.mean())**2
        
sigma2_A = S2_A/(m - 1) # оценки дисперсии
sigma2_B = S2_B/(k - 1)
sigma2_res = S2_res/((k - 1)*(m - 1))

T_A = sigma2_A/sigma2_res # статистики
T_B = sigma2_B/sigma2_res

alpha = 0.05 # уровень значимости

F_crit_A = stats.f.ppf(1 - alpha, m - 1, k*m - m)
F_crit_B = stats.f.ppf(1 - alpha, k - 1, k*m - k)

print(f"""S2_A = {S2_A}
S2_B = {S2_B}
S2_res = {S2_res}\n
T_A = {T_A}
T_B = {T_B}\n
F_crit_A = {F_crit_A}
F_crit_B = {F_crit_B}\n
Гипотезу H_0A {'отвергаем' if T_A>F_crit_A else 'принимаем'}
Гипотезу H_0B {'отвергаем' if T_B>F_crit_B else 'принимаем'}""")

S2_A = 5.880537499999999
S2_B = 1.7842222222222253
S2_res = 1.9298833333333327

T_A = 6.094189631497587
T_B = 2.77357007763855

F_crit_A = 4.06618055135116
F_crit_B = 4.25649472909375

Гипотезу H_0A отвергаем
Гипотезу H_0B принимаем


__2. С помощью критерия Стьюдента для двух независимых выборок проверьте гипотезу о равенстве среднего роста футболистов и хоккеистов, основываясь на результатах измерений:__

__football_players = [173, 175, 180, 178, 177, 185, 183, 182]
hockey_players = [177, 179, 180, 188, 177, 172, 171, 184, 180]__

In [3]:
F = football_players = np.array([173, 175, 180, 178, 177, 185, 183, 182])
H = hockey_players = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])

alpha = 0.05

T = (F.mean() - H.mean())/np.sqrt(F.var(ddof=1)/len(F) + H.var(ddof=1)/len(H))
t = stats.t.ppf(1 - alpha / 2, df=len(F) + len(H) - 2)
print(f'T = {T}\nКритическая область: (-inf, {-t}) U ({t}, inf)\n')
print('Гипотеза о равенстве среднего роста футболистов и хоккеистов не опровергнута, т.к. статистика вне критической области')

T = 0.19928601397363732
Критическая область: (-inf, -2.131449545559323) U (2.131449545559323, inf)

Гипотеза о равенстве среднего роста футболистов и хоккеистов не опровергнута, т.к. статистика вне критической области
