# Урок 8
## Двухфакторный дисперсионный анализ. Факторный анализ. Логистическая регрессия
### Домашнее задание

#### Задача 1

Объясняемая переменная `y` зависит от двух категориальных факторов `A` и `B`, причём фактор `A` имеет 3 уровня, а фактор `B` - 4 уровня. Результаты наблюдений приведены в таблице:

`y = [[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]]`
     
С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную `y`.

**Решение**

In [47]:
import numpy as np
from scipy import stats

In [2]:
y = np.array([
    [2.68, 3.29, 2.88, 4.45],
    [4.12, 4.96, 5.09, 5.22],
    [5.52, 4.50, 5.42, 5.29]
])

Проверим нулевые гипотезы:

In [28]:
print('H0_A: ', y[0, :].mean() == y[1, :].mean() == y[2, :].mean())
print('H0_B: ', y[:, 0].mean() == y[:, 1].mean() == y[:, 2].mean() == y[:, 3].mean())

H0_A:  False
H0_B:  False


Вычислим суммы квадратов отклонений:

In [43]:
m = y.shape[0]
print('m =', m)
k = y.shape[1]
print('k =', k)

S2_A = k * sum([(y[i, :].mean() - y.mean()) ** 2 for i in range(0, m)])
print('S2_A =', S2_A)
S2_B = m * sum([(y[:, i].mean() - y.mean()) ** 2 for i in range(0, k)])
print('S2_B =', S2_B)

S2_res = 0
for i in range(0, m):
    for j in range(0, k):
        S2_res += (y[i, j] - y[i, :].mean() - y[:, j].mean() + y.mean()) ** 2
print('S2_res =', S2_res)

m = 3
k = 4
S2_A = 7.8407166666666654
S2_B = 1.338166666666669
S2_res = 1.9298833333333327


Найдём оценки дисперсий:

In [44]:
sigma2_A = S2_A / (m - 1)
print('sigma2_A =', sigma2_A)

sigma2_B = S2_B / (k - 1)
print('sigma2_B =', sigma2_B)

sigma2_res = S2_res / ((k - 1)*(m - 1))
print('sigma2_res =', sigma2_res)

sigma2_A = 3.9203583333333327
sigma2_B = 0.4460555555555563
sigma2_res = 0.32164722222222214


Получим статистики:

In [45]:
T_A = sigma2_A / sigma2_res
print('T_A =', T_A)

T_B = sigma2_B / sigma2_res
print('T_B =', T_B)

T_A = 12.188379262995173
T_B = 1.386785038819275


Найдём $F_{crit}$ для факторов `A` и `B` с надёжностью $p = 0.95$:

In [48]:
p = 0.95
alpha = 1 - p

F_crit_A = stats.f.ppf(1 - alpha, m - 1, k * m - m)
print('F_crit_A =', F_crit_A)

F_crit_B = stats.f.ppf(1 - alpha, k - 1, k * m - k)
print('F_crit_B =', F_crit_B)

F_crit_A = 4.25649472909375
F_crit_B = 4.06618055135116


In [49]:
print('T_A > F_crit_A:', T_A > F_crit_A)
print('T_B > F_crit_B:', T_B > F_crit_B)

T_A > F_crit_A: True
T_B > F_crit_B: False


Получили, что фактор `A` не является статистически важным и мы можем отвергуть гипотезу $H_{0A}$, а фактор `B` является.

#### Задача 2
С помощью критерия Стьюдента для двух независимых выборок проверьте гипотезу о равенстве среднего роста футболистов и хоккеистов, основываясь на результатах измерений:

`football_players = [173, 175, 180, 178, 177, 185, 183, 182]
hockey_players = [177, 179, 180, 188, 177, 172, 171, 184, 180]`

**Решение**

In [52]:
football_players = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hockey_players = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])

Рассмотрим статистику:

In [54]:
T = (football_players.mean() - hockey_players.mean()) / np.sqrt(football_players.var()/football_players.shape[0] + hockey_players.var()/hockey_players.shape[0])
print('T =', T)

T = 0.2120406006079591


Определим t-статистику Стьюдента:

In [55]:
p = 0.95
alpha = 1 - p

t = stats.t.ppf(1 - alpha / 2, df=football_players.shape[0]+hockey_players.shape[0]-2)
print('t =', t)

t = 2.131449545559323


Имеем $T < t$ следовательно соглашаемся с гипотезой $H_0$|