In [32]:
import numpy as np
import pandas as pd
from scipy import stats

### Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Допустим, первые 5 клиентов проживают в Москве, а остальные - в Санкт-Петербурге. Влияет ли этот фактор на значение их кредитного скоринга?
### Решение

Сформулируем гипотезу $H_{0}$ -- "фактор города проживания не влияет на значение кредитного скоринга"

In [35]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110] 
x1 = np.array(salary[:5])
x2 = np.array(salary[5:])
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
y1 = np.array(scoring[:5])
y2 = np.array(scoring[5:])


In [9]:
n1 = x1.shape[0]
n2 = x2.shape[0]

In [24]:
n=n1+n2
k=2 #всего 2 группы

Проведем однофакторный дисперсионный анализ. Сначала найдем средние зарплаты для каждой профессии:

In [12]:
y1_mean = np.mean(y1)
y2_mean = np.mean(y2)
y1_mean,y2_mean

(645.4, 774.4)

Видно, что средние зарплаты разнятся. Установим, что это отличие статистически значимо. Для этого сначала соберем

все значения заработных плат в один массив:

In [13]:
y_all = np.concatenate([y1, y2])
y_all

array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

Найдем среднее значение заработной платы по всем значениям:

In [14]:
y_mean = np.mean(y_all)
print(y_mean)

709.9


Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

In [15]:
s2 = np.sum((y_all - y_mean)**2)
s2

304688.9000000001

Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

In [18]:
s2_f = ((y1_mean - y_mean)**2) * n1 + ((y2_mean - y_mean)**2) * n2
s2_f

41602.5

Найдем $S^2_{ост}$ — остаточную сумму квадратов отклонений:

In [20]:
s2_residual = np.sum((y1 - y1_mean)**2) + np.sum((y2 - y2_mean)**2)
s2_residual

263086.39999999997

Удостоверимся, что соблюдается равенство $S^2 = S_F^2 + S_{ост}^2$:

In [21]:
print(s2)
print(s2_f + s2_residual)

304688.9000000001
304688.89999999997


In [22]:
#Найдем общую дисперсию:
sigma2_general = s2 / (n - 1)
sigma2_general

33854.32222222223

In [25]:
#Найдем факторную дисперсию:
sigma2_f = s2_f / (k - 1)
sigma2_f

41602.5

In [26]:
#Найдем остаточную дисперсию:
sigma2_residual = s2_residual / (n - k)
sigma2_residual

32885.799999999996

Вычислим $F_H$:

In [27]:
F_h = sigma2_f / sigma2_residual
F_h

1.2650596914169643

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $\alpha = 0.05$ и ОДНОЙ степени свободы: 
https://math.semestr.ru/corel/table-fisher.php

$df_{межд} = k - 1 = 2 - 1 = 1$ и $df_{внутр} = n - k = 10 - 2 = 8$.

In [34]:
#АЛЬТЕРНАТИВНЫЙ ПОИСК
alpha = 0.05
k1 = k-1
k2 = n-k
F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

5.317655071578714

Для данных значений $F_{крит} = 5.32$. Так как $F_H < F_{крит}$, различие средних зарплат в двух группах статистически НЕ ЗНАЧИМО.

Также вычислим эмпирическое корреляционное отношение $\eta^2$:

In [28]:
eta2 = s2_f / s2
eta2

0.1365409110735573

Значение $\eta^2$ далеко от 1 — значит,  различие средних зарплат в двух группах НЕ ЯВЛЯЕТСЯ статистически значимым.

Гипотезу $H_{0}$, что фактор города проживания не влияет на значение кредитного скоринга, оставляем в силе.

### Задача 2

Объясняемая переменная y зависит от двух категориальных факторов A и B, причём фактор A имеет 3 уровня, а фактор B - 4 уровня. Результаты наблюдений приведены в таблице:

y = [[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]]
С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную y.
### Решение

In [41]:
y = np.array([[2.68, 3.29, 2.88, 4.45], 
     [4.12, 4.96, 5.09, 5.22], 
     [5.52, 4.50, 5.42, 5.29]])

Для вычисления значений статистик нам вновь понадобятся оценки дисперсий. Они вычисляются похожим образом. Суммы квадратов отклонений:
$$S_a^2 = k \cdot \displaystyle\sum_{i=1}^m \left( \overline{Y_{i \ast}} - \overline{Y} \right)^2, \:\:
S_b^2 = m \cdot \displaystyle\sum_{j=1}^k \left( \overline{Y_{\ast j}} - \overline{Y} \right)^2, \:\:
S_w^2 = \displaystyle\sum_{i=1}^m \displaystyle\sum_{j=1}^k \left( y_{ij} - \overline{Y_{i \ast}} - \overline{Y_{\ast j}} + \overline{Y} \right)^2$$

_Замечание_. Первая сумма — отклонения между уровнями фактора $a$, вторая — между уровнями фактора $b$, третья — внутригрупповые отклонения.

Оценки дисперсий:
$$\sigma_a^2 = \dfrac{S_a^2}{m - 1}, \:\: \sigma_b^2 = \dfrac{S_b^2}{k - 1}, \:\:
\sigma_w^2 = \dfrac{S_w^2}{(k - 1) (m - 1)}$$

Напомним, что в двухфакторном дисперсионном анализе мы проверяем две гипотезы (отдельная гипотеза о влиянии каждого из факторов). Итак, статистика для гипотезы о влиянии фактора $a$:
$$F_a = \dfrac{\sigma_a^2}{\sigma_w^2}$$

В предположении верности гипотезы $H_{0a}$ эта статистика имеет распределение Фишера с параметрами $k_{1a} = m - 1$, $k_{2a} = n - m$. Далее, как обычно, строится критическая область (правосторонняя, поскольку распределение Фишера имеет один хвост), и проводится тест.

Аналогично, для гипотезы о влиянии фактора $b$ статистика:
$$F_b = \dfrac{\sigma_b^2}{\sigma_w^2}$$

Она также имеет распределение Фишера, теперь с параметрами $k_{1b} = k - 1$, $k_{2b} = n - k$.

In [42]:
a1_mean = y[0].mean()
a2_mean = y[1].mean()
a3_mean = y[2].mean()

a1_mean,a2_mean, a3_mean

(3.325, 4.8475, 5.1825)

In [43]:
b1_mean = y[:, [0]].mean()
b2_mean = y[:, [1]].mean()
b3_mean = y[:, [2]].mean()
b4_mean = y[:, [3]].mean()

b1_mean,b2_mean, b3_mean, b4_mean

(4.1066666666666665, 4.25, 4.463333333333334, 4.986666666666667)

In [44]:
y_mean = y.mean()
y_mean

4.451666666666666

In [45]:
S2_a = 4 * ((a1_mean - y_mean) ** 2 + (a2_mean - y_mean) ** 2 + (a3_mean - y_mean) ** 2)

S2_b = 3 * ((b1_mean - y_mean) ** 2 + (b2_mean - y_mean) ** 2 + (b3_mean - y_mean) ** 2 + (b4_mean - y_mean) ** 2)

S2_w = ((y[0, [0]] - a1_mean - b1_mean + y_mean) ** 2) + ((y[1, [0]] - a2_mean - b1_mean + y_mean) ** 2) + ((y[2, [0]] - a3_mean - b1_mean + y_mean) ** 2) + ((y[0, [1]] - a1_mean - b2_mean + y_mean) ** 2) + ((y[1, [1]] - a2_mean - b2_mean + y_mean) ** 2) + ((y[2, [1]] - a3_mean - b2_mean + y_mean) ** 2) + ((y[0, [2]] - a1_mean - b3_mean + y_mean) ** 2) + ((y[1, [2]] - a2_mean - b3_mean + y_mean) ** 2) + ((y[2, [2]] - a3_mean - b3_mean + y_mean) ** 2) + ((y[0, [3]] - a1_mean - b4_mean + y_mean) ** 2) + ((y[1, [3]] - a2_mean - b4_mean + y_mean) ** 2) + ((y[2, [3]] - a3_mean - b4_mean + y_mean) ** 2)

S2_a, S2_b, S2_w

(7.8407166666666654, 1.338166666666669, array([1.92988333]))

In [46]:
#оценки дисперсий

sigma2_a = S2_a / 2
sigma2_b = S2_b / 3
sigma2_w = S2_w[0] / (3*2)

sigma2_a, sigma2_b, sigma2_w

(3.9203583333333327, 0.4460555555555563, 0.3216472222222222)

In [47]:
#мы проверяем две гипотезы
Fa = sigma2_a / sigma2_w
Fb = sigma2_b / sigma2_w
Fa, Fb

(12.188379262995172, 1.3867850388192748)

In [48]:
#Зафиксируем уровень значимости α=0.05 . Для него найдём критические значения Fcrit
F_crit_a = stats.f.ppf(1 - alpha, 2, 9)
F_crit_b = stats.f.ppf(1 - alpha, 3, 8)
F_crit_a, F_crit_b

(4.25649472909375, 4.06618055135116)

Видим, что Fb<F_crit_b , поэтому гипотезу, что фактор b не влияет на значение объясняемой переменной, оставляем в силе.