In [46]:
import numpy as np
from scipy.stats import f

# Урок 8
## Двухфакторный дисперсионный анализ. Факторный анализ. Логистическая регрессия

### Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Допустим, первые 5 клиентов проживают в Москве, а остальные - в Санкт-Петербурге. Влияет ли этот фактор на значение их кредитного скоринга?

In [34]:
salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [49]:
y = scoring
y1 = scoring[:5]
y2 = scoring[5:]

__Проверим гипотезу__, что $$H_0 = \{\overline{y_1} = \overline{y_2}\}$$

In [36]:
y_mean = y.mean()
y1_mean = y1.mean()
y2_mean = y2.mean()
y_mean, y1_mean, y2_mean

(709.9, 645.4, 774.4)

In [30]:
SS = sum([pow(i - x_mean, 2) for i in x]) + sum([pow(i - y_mean,2) for i in y])
SS

339635.3000000001

Объясненная влиянием фатора $A$ сумма квадратов отклонений
$$S_A^2=m\sum\limits_{i=1}^k(\bar{y}_{i} - \bar{Y})^2$$

In [39]:
S2_a = (pow(y1_mean - y_mean, 2) + pow(y2_mean - y_mean, 2)) * 5
S2_a

41602.5

Остаточная сумма квадратов отклонений:

$$S^2_{w} = \sum\limits^k_{i=1}\sum\limits^{n_i}_{j=1}(y_{ij} - \overline{y_i})^2$$

In [43]:
S2_w = ((y1 - y1_mean) ** 2).sum() + ((y2 - y2_mean) ** 2).sum()
S2_w

263086.39999999997

Несмещенная оценка дисперсии 

$$\sigma^2_b = \frac{S^2_b}{k - 1}$$
$$\sigma^2_w = \frac{S^2_w}{n - k}$$

In [44]:
sigma_a = S2_a / (2 - 1)
sigma_w = S2_w / (10 - 2)
f_s = sigma_a / sigma_w
f_s

1.2650596914169643

Определяем критическую область.

In [47]:
f_c = f.ppf(0.95, 1, 9)
f_c

5.117355029199227

### Ответ 

При данном уровне надежности, мы не может отвернуть $H_0$ гипотезу

## Задача 2

Объясняемая переменная y зависит от двух категориальных факторов A и B, причём фактор A имеет 3 уровня, а фактор B - 4 уровня. Результаты наблюдений приведены в таблице:

y = [[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]]

С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную y.

In [55]:
y = np.array([[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]])

__Нулевая гипотеза__ - факторы А и В и их комбинации влияют на указанный признак.  

Посчитаем среднее

In [56]:
my = y.mean()
my_a = y.mean(axis=0)
my_b = y.mean(axis=1)
my, my_a, my_b

(4.451666666666666,
 array([4.10666667, 4.25      , 4.46333333, 4.98666667]),
 array([3.325 , 4.8475, 5.1825]))

Посчитаем суммы квадратов отклонений по факторам и общий случай


Среднее по колонкам
$$S^2_a = k \sum\limits^m_{i=1}(\overline y_{i*} - \overline{y})^2$$


In [60]:
S_a = 4 * sum(pow(my_a - my, 2))
S_a

1.7842222222222253

Среднее по столбцам
$$S^2_b = m \sum\limits^k_{j=1}(\overline y_{*j} - \overline{y})^2$$

In [61]:
S_b = 3 * sum(pow(my_b - my, 2))
S_b

5.880537499999999

$$S^2_w = \sum\limits^m_{i=1} \sum\limits^k_{j=1}(y_{ij} - \overline{y_{i*}} - \overline{y_{*j}} + \overline{y})^2$$

In [65]:
S_w = 0
k, m = 4, 3
for i in range(m):
    for j in range(k):
        S_w += (y[i, j] - my_a[j] - my_b[i] + my) ** 2
        
S_w

1.9298833333333327

Оценки дисперсий.

In [67]:
sigma_a = S_a / (m - 1)
sigma_b = S_b / (k - 1)
sigma_w = S_w / ((m - 1) * (k - 1))
sigma_a, sigma_b, sigma_w

(0.8921111111111126, 1.9601791666666664, 0.32164722222222214)

Посчитаем F статистику 

In [68]:
f_sa = sigma_a / sigma_w
f_sb = sigma_b / sigma_w
f_sa, f_sb


(2.77357007763855, 6.094189631497587)

Посчитаем квантили 

In [69]:
n = 12
f_ca = f.ppf(.95, m - 1, n - m)
f_cb = f.ppf(.95, k - 1, n - k)
f_ca, f_cb

(4.25649472909375, 4.06618055135116)

### Ответ 
Фактор a не влияет на переменную y, фактор b - влияет (с надежностью 0.95).