## Урок 8
### Двухфакторный дисперсионный анализ. Факторный анализ. Логистическая регрессия
### Домашнее задание

#### Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]

scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Допустим, первые 5 клиентов проживают в Москве, а остальные - в Санкт-Петербурге. Влияет ли этот фактор на значение их кредитного скоринга?

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import f

x = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

Scoring разбиваем на 2 группы:

In [2]:
y1, y2 = y[:5], y[5:]
y1, y2

(array([401, 574, 874, 919, 459]), array([739, 653, 902, 746, 832]))

Проверяем $H_0$ гипотезу, по которой $\{\overline{y_1} = \overline{y_2}\}$.

In [3]:
y_mean = y.mean()
y_mean_1 = y1.mean()
y_mean_2 = y2.mean()
y_mean, y_mean_1, y_mean_2

(709.9, 645.4, 774.4)

Посчитаем $S^2_b = \sum\limits^k_{i=1}(\overline y_i - \overline{y})^2 n_i$

In [4]:
s_b = ((y_mean_1 - y_mean) ** 2 + (y_mean_2 - y_mean) ** 2) * 5
s_b

41602.5

Посчитаем $S^2_{w} = \sum\limits^k_{i=1}\sum\limits^{n_i}_{j=1}(y_{ij} - \overline{y_i})^2$

In [5]:
s_w = sum((y1 - y_mean_1) ** 2) + sum((y2 - y_mean_2) ** 2) 
s_w

263086.39999999997

Несмещенные оценки дисперсий:
$\sigma^2_b = \frac{S^2_b}{k - 1}$, $\sigma^2_w = \frac{S^2_w}{n - k}$

In [6]:
sigma_b = s_b / (2 - 1)
sigma_w = s_w / (10 - 2)
sigma_b, sigma_w

(41602.5, 32885.799999999996)

Статистика $F =\frac{\sigma^2_b}{\sigma^2_w}$

In [7]:
f_s = sigma_b / sigma_w
f_s

1.2650596914169643

Считаем правостороннюю критическую область

In [8]:
f_c = f.ppf(0.95, 1, 9)
f_c

5.117355029199227

Значение статистики не опадает в критическую область. Значит, данный фактор не влияет на значение кредитного скоринга.

#### Задача 2

Объясняемая переменная y зависит от двух категориальных факторов A и B, причём фактор A имеет 3 уровня, а фактор B - 4 уровня. Результаты наблюдений приведены в таблице:

y = [[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]]

С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную y.

In [9]:
y = np.array([[2.68, 3.29, 2.88, 4.45],
              [4.12, 4.96, 5.09, 5.22],
              [5.52, 4.50, 5.42, 5.29]])

Проверим нулевую гипотезу - равенство средних значений на каждом уровне.
Посчитаем среднее общее и средние по факторам:

In [14]:
y_mean = y.mean()
y_mean_a = y.mean(axis=0)
y_mean_b = y.mean(axis=1)
y_mean, y_mean_a, y_mean_b

(4.451666666666666,
 array([4.10666667, 4.25      , 4.46333333, 4.98666667]),
 array([3.325 , 4.8475, 5.1825]))

Считаем суммы квадратов отклонений $S^2_a$, $S^2_b$, $S^2_w$

In [15]:
k, m = 4, 3
s_a = k * sum((y_mean_a - y_mean) ** 2)
s_b = m * sum((y_mean_b - y_mean) ** 2)
s_w = 0
for i in range(m):
    for j in range(k):
        s_w += (y[i, j] - y_mean_a[j] - y_mean_b[i] + y_mean) ** 2

s_a, s_b, s_w

(1.7842222222222253, 5.880537499999999, 1.9298833333333327)

Посчитаем оценки дисперсий

In [18]:
sigma_a = s_a / (m - 1)
sigma_b = s_b / (k - 1)
sigma_w = s_w / ((m - 1) * (k - 1))
sigma_a, sigma_b, sigma_w

(0.8921111111111126, 1.9601791666666664, 0.32164722222222214)

Посчитаем значения статистик

In [19]:
f_sa = sigma_a / sigma_w
f_sb = sigma_b / sigma_w
f_sa, f_sb

(2.77357007763855, 6.094189631497587)

Посчитаем критическую область

In [23]:
n = 12
f_ca = f.ppf(.95, m - 1, n - m)
f_cb = f.ppf(.95, k - 1, n - k)
f_ca, f_cb

(4.25649472909375, 4.06618055135116)

Значение статистики по фактору $b$ попадает в критическую область, а по $a$ не попадает. Фактор $a$ не влияет на переменную $y$, фактор $b$ влияет.

#### Задача 3

Прикрепите ссылку на курсовой проект на github (см. выбор темы в ДЗ к Уроку 6).

Постараюсь сделать до 15 июня. Ссылу пришлю на Geekbrains.