# Урок 8. Дисперсионный анализ. Логистическая регрессия

## Выполнил - Колеганов Н.Д.

# Задание

**Задача 1**

Объясняемая переменная y зависит от двух категориальных факторов A и B, причём фактор A имеет 3 уровня, а фактор B - 4 уровня. Результаты наблюдений приведены в таблице:

y = [
    
     [2.68, 3.29, 2.88, 4.45],

     [4.12, 4.96, 5.09, 5.22],

     [5.52, 4.50, 5.42, 5.29]
     ]

С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную y.

**Задача 2**

Прикрепите ссылку на курсовой проект на github (см. выбор темы в ДЗ к Уроку 6).

In [1]:
import numpy as np
from scipy import stats

### **Задача 1** 

Объясняемая переменная y зависит от двух категориальных факторов A и B, причём фактор A имеет 3 уровня, а фактор B - 4 уровня. Результаты наблюдений приведены в таблице:

y = [

  [2.68, 3.29, 2.88, 4.45],

  [4.12, 4.96, 5.09, 5.22],

  [5.52, 4.50, 5.42, 5.29]

  ] 
  
  С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную y.

## *Решение*

In [2]:
m = 3
k = 4
y = [[2.68, 3.29, 2.88, 4.45], 
     [4.12, 4.96, 5.09, 5.22], 
     [5.52, 4.50, 5.42, 5.29]]
Y = np.array(y)
Y

array([[2.68, 3.29, 2.88, 4.45],
       [4.12, 4.96, 5.09, 5.22],
       [5.52, 4.5 , 5.42, 5.29]])


$
H_{0a}: \overline{Y_{1*}} = ... = \overline{Y_{m*}},\\
H_{0b}: \overline{Y_{*1}} = ... = \overline{Y_{*k}},\\
H_{1a}: \overline{Y_{1*}} \neq ... \neq \overline{Y_{m*}},\\
H_{1b}: \overline{Y_{1*}} \neq ... \neq \overline{Y_{m*}}
$
$
SS_a = k \cdot \displaystyle\sum_{i=1}^m \left( \overline{Y_{i \ast}} - \overline{Y} \right)^2,\\
SS_b = m \cdot \displaystyle\sum_{j=1}^k \left( \overline{Y_{\ast j}} - \overline{Y} \right)^2,\\
SS_w = \displaystyle\sum_{i=1}^m \displaystyle\sum_{j=1}^k \left( y_{ij} - \overline{Y_{i \ast}} - \overline{Y_{\ast j}} + \overline{Y} \right)^2
$
$
\sigma_a^2 = \dfrac{SS_a}{m - 1}, \\ 
\sigma_b^2 = \dfrac{SS_b}{k - 1}, \\
\sigma_w^2 = \dfrac{SS_w}{(k - 1) (m - 1)}
$

In [3]:
def F_ab(Y: np.ndarray):
    
    k = Y.shape[1]
    m = Y.shape[0]
    
    # Sum of squared deviations
    SS_a = sum([(Y[i].mean() - Y.mean())**2 for i in range(m)])*k
    SS_b = sum([(Y[:,j].mean() - Y.mean())**2 for j in range(k)])*m
    
    array = []
    for i in range(m):
        for j in range(k):
            array.append((Y[i,j] - Y[i].mean() - Y[:,j].mean() + Y.mean())**2)
            
    SS_w = sum(array)
    
    # Variance estimates
    sigma2_a = SS_a/(m-1)
    sigma2_b = SS_b/(k-1)
    sigma2_w = SS_w/((k-1)*(m-1))
    
    # statistic
    F_a = sigma2_a/sigma2_w
    F_b = sigma2_b/sigma2_w
    
    return F_a, F_b

$
F_a = \dfrac{\sigma_a^2}{\sigma_w^2},\ F_b = \dfrac{\sigma_b^2}{\sigma_w^2}
$

In [4]:
F_a = F_ab(Y)[0]
F_b = F_ab(Y)[1]

F_a, F_b

(12.188379262995173, 1.386785038819275)


Распределение Фишера для:

$
H_{0a}:\ k_{1a} = m - 1,\ k_{2a} = n - m\\
H_{0b}:\ k_{1b} = k - 1,\ k_{2b} = n - k
$

In [5]:
n = Y.shape[0] * Y.shape[1]

k_1a = m - 1
k_2a = n - m

k_1b = k - 1
k_2b = n - k

$\Omega_\alpha = ( t_{1 - \alpha, \: k_1, k_2}, \infty)$

In [6]:
alpha = 0.05

t_a = stats.f.ppf(1 - alpha, k_1a, k_2a)
t_b = stats.f.ppf(1 - alpha, k_1b, k_2b)

t_a, t_b

(4.25649472909375, 4.06618055135116)

$
\Omega_\alpha = (4,25, \infty)\\
\Omega_\beta = (4,06, \infty)
$

In [7]:
F_a >= t_a

True

Фактор $A$ влияет на переменную $y$

In [8]:
F_b >= t_b

False

Фактор $B$ не влияет на переменную $y$

### **Задача 2** 

Прикрепите ссылку на курсовой проект на github (см. выбор темы в ДЗ к Уроку 6).

## *Решение*