## Урок 8

### Дисперсионный анализ. Факторный анализ. Логистическая регрессия

#### Дисперсионный анализ

##### Однофакторный дисперсионный анализ

В дисперсионном анализе исследуется влияние одного или нескольких качественных показателей на количественный показатель.

В однофакторном дисперсионном анализе на одну количественную переменную $Y$ влияет один фактор (один качественный показатель), 

наблюдаемый на $k$ уровнях, то есть имеем $k$ выборок для переменной $Y$.

Наблюдаемые данные обозначим $y_{ij}$, где $i$ — индекс уровня ($i$ = 1, 2, ..., $k$), $j$ — индекс наблюдения на $i$-м уровне 
($j$ = 1, 2, ..., $n_{i}$).

На каждом уровне может быть свое число наблюдений $n_{i}$. Общее число наблюдений — это сумма наблюдений на всех уровнях:

$$n = \sum\limits_{i=1}^{k}n_i$$

По данным $y_{ij}$ определяется:

$\overline{y}_{i}$ — среднее значение переменной Y на i-м уровне:

$$\overline{y}_{i} = \frac{1}{n_i}\sum\limits_{j=1}^{n_i}y_{ij}$$

$\overline{Y}$ — среднее значение переменной **Y** по всем значениям:

$$\overline{Y} = \frac{1}{n}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}y_{ij} = \frac{1}{n}\sum\limits_{i=1}^{k}\overline{y}_{i}n_{i}$$

$S^2$ — сумма квадратов отклонений наблюдений от общего среднего:

$$S^2 = \sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}({y}_{ij} - \overline{Y})^2$$

$S_F^2$ — сумма квадратов отклонений средних групповых значений от общего среднего значения $\overline{Y}$:

$$S_F^2 = \sum\limits_{i=1}^{k}(\overline{y}_i - \overline{Y})^2n_i$$

$S_{ост}^2$ — остаточная сумма квадратов отклонений:

$$S_{ост}^{2} = \sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

Тогда сумма квадратов отклонений наблюдений от общего среднего дожна быть равна:

$$S^2 = S_F^2 + S_{ост}^2$$

Затем необходимо вычислить:

1) общую дисперсию:

$$\sigma_{общ}^{2} = \frac{S^2}{n - 1} = \frac{1}{n-1}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{Y})^2$$

2) факторную дисперсию:

$$\sigma_{F}^{2} = \frac{S_{F}^{2}}{k-1} = \frac{1}{k-1}\sum\limits_{i=1}^{k}(\overline{y}_i - \overline{Y})^{2}n_i$$

3) остаточную дисперсию:

$$\sigma_{ост}^{2} = \frac{S_{ост}^{2}}{n - k} = \frac{1}{n - k}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

В дисперсионном анализе проверяется гипотеза $H_0$ о равенстве средних групповых значений количественного показателя:

$$(H_0: \overline{y}_1 = \overline{y}_2 = ... = \overline{y}_k).$$

Чтобы проверить эту гипотезу, необходимо воспользоваться соотношением:

$$F_H = \frac{\sigma_{F}^{2}}{\sigma_{ост}^{2}}$$

Если значение  $F_H$ превышает $F_{крит}$ из таблицы критических точек распределения Фишера-Снедекора для заданного уровня 

значимости $\alpha$ двух степеней свободы $df_{межд} = k - 1$ (относится к числителю соотношения) и $df_{внутр} = n - k$ (относится к знаменателю), 

то выборки имеют разные средние значения.

Таблицы Фишера-Снедекора можно найти по ссылкам:

<a href = "https://studfiles.net/preview/5520526/page:14/">Критические точки распределения Фишера–Снедекора</a>
        
<a href = "https://www.matburo.ru/tv/table_fisher.pdf">Распределение Фишера–Снедекора (F-распределение)</a>

Еще одно соотношение:

$$\eta^{2} = \frac{S_{F}^{2}}{S_{общ}^{2}}$$

Чем больше значение $\eta^2$ (греч. «эта», обозначает эмпирическое корреляционное отношение, располагается между 0 и 1), тем больше

вероятность, что выборки имеют разные средние значения. Принято считать, что при значениях $\eta^2$ ниже 0.2-0.3 групповые значения

средних не имеют статистически достоверного отличия.

**Пример 1**

Среди людей, проживающих в одном городе, выделены три группы по качественному признаку — профессии: бухгалтеры, юристы, 

программисты. 

Рассмотрим количественный признак — заработную плату (в тысячах рублей). Нужно установить, различаются ли средние 

зарплаты этих трех групп при уровне значимости $\alpha$, равном 0.05. Количество человек в каждой группе: бухгалтеры — 5, юристы — 8, 

программисты — 7.

In [0]:
import numpy as np

In [0]:
n1 = 5
n2 = 8
n3 = 7
n = n1 + n2 + n3
print(n)

20


Всего три группы:

In [0]:
k = 3

Зарплаты бухгалтеров:

In [0]:
y1 = np.array([70, 50, 65, 60, 75], dtype=np.float64)

Зарплаты юристов:

In [0]:
y2 = np.array([80, 75, 90, 70, 75, 65, 85, 100], dtype=np.float64)

Зарплаты программистов:

In [0]:
y3 = np.array([130, 100, 140, 150, 160, 170, 200], dtype=np.float64)

Проведем однофакторный дисперсионный анализ. Сначала найдем средние зарплаты для каждой профессии:

In [0]:
y1_mean = np.mean(y1)
print(y1_mean)

64.0


In [0]:
y2_mean = np.mean(y2)
print(y2_mean)

80.0


In [0]:
y3_mean = np.mean(y3)
print(y3_mean)

150.0


Видно, что средние зарплаты разнятся. Установим, что это отличие статистически значимо. Для этого сначала соберем 

все значения заработных плат в один массив:

In [0]:
y_all = np.concatenate([y1, y2, y3])
y_all

array([  70.,   50.,   65.,   60.,   75.,   80.,   75.,   90.,   70.,
         75.,   65.,   85.,  100.,  130.,  100.,  140.,  150.,  160.,
        170.,  200.])

Найдем среднее значение заработной платы по всем значениям:

In [0]:
y_mean = np.mean(y_all)
print(y_mean)

100.5


Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

In [0]:
s2 = np.sum((y_all - y_mean)**2)
s2

34445.0

Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

In [0]:
s2_f = ((y1_mean - y_mean)**2) * n1 + ((y2_mean - y_mean)**2) * n2 + ((y3_mean - y_mean)**2) * n3
s2_f

27175.0

Найдем $S^2_{ост}$ — остаточную сумму квадратов отклонений:

In [0]:
s2_residual = np.sum((y1 - y1_mean)**2) + np.sum((y2 - y2_mean)**2) + np.sum((y3 - y3_mean)**2)
s2_residual

7270.0

Удостоверимся, что соблюдается равенство $S^2 = S_F^2 + S_{ост}^2$:

In [0]:
print(s2)
print(s2_f + s2_residual)

34445.0
34445.0


Найдем общую дисперсию:

In [0]:
sigma2_general = s2 / (n - 1)
sigma2_general

1812.8947368421052

Найдем факторную дисперсию:

In [0]:
sigma2_f = s2_f / (k - 1)
sigma2_f

13587.5

Найдем остаточную дисперсию:

In [0]:
sigma2_residual = s2_residual / (n - k)
sigma2_residual

427.64705882352939

Вычислим $F_H$:

In [0]:
F_h = sigma2_f / sigma2_residual
F_h

31.772696011004129

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы: 

$df_{межд} = k - 1 = 3 - 1 = 2$ и $df_{внутр} = n - k = 20 - 3 = 17$.

Для данных значений $F_{крит} = 3.59$. Так как $F_H > F_{крит}$, различие средних зарплат в трех группах статистически значимо.

Также вычислим эмпирическое корреляционное отношение $\eta^2$:

In [0]:
eta2 = s2_f / s2
eta2

0.78893888808245027

Значение $\eta^2$ близко к 1 — значит,  различие средних зарплат в трех группах является статистически значимым.

##### Двухфакторный дисперсионный анализ

В таблице представлены расчетные формулы для двухфакторного  
дисперсионного анализа с однократными наблюдениями.

<img src='https://ru.files.fm/thumb_show.php?i=vppqqgpj&view' width=650>Таблица 1. Формулы для двухфакторного дисперсионного анализа с однократными наблюдениями</img>

#### Факторный анализ

Факторный анализ (ФА) — это способ приведения (синтеза) множества непосредственно наблюдаемых показателей  

$X_j = \{x_{ij}\}$, $(i = 1, 2, ..., n;\:j = 1, 2, ..., m)$ к меньшему числу **Q < m** новых линейно независимых факторов 

(признаков, показателей) $Y_q$, ($q$ = 1, 2, ..., $Q$).

Предположим, что исходные данные представлены в виде матрицы  $X = \{x_{ij}\}$, $(i = 1, 2, ..., n;\:j = 1, 2, ..., m)$, 

где $n$ — количество наблюдений, $m$ — показателей.

Зная, что величины $X_j$ могут иметь различный физический смысл и шкалы измерений, для удобства лучше 

перейти к стандартизированной матрице исходных данных  $X^{*} = \{x_{ij}^{*}\}$.

Здесь каждый показатель $X_j^{*}$ имеет среднее значение, равное 0, и единичную дисперсию. Считается, что в факторном анализе 

линейная связь между измеряемыми показателями и факторами:

$$X_{j}^{*} = \sum\limits_{q=1}^{Q}a_{jq}Y_q + U_j,\;\sum\limits_{j=1}^{m}a_{jq}^{2} = 1, \;q = 1, 2, ..., m,$$

где $a_{jq}$ — подлежащиe определению коэффициенты.

Справедливо соотношение:

$$\sigma_{j}^{2} = \sum\limits_{q=1}^{Q}a_{jq}^{2} + U_{j}^{2} = h^2 + U_{j}^{2} = 1,$$

где $h^2$, $U_j^2$ — соответственно общность и специфичность **j**-го показателя.

Данное равенство выполняется, если переменные стандартизированы, не коррелированы и для исследования используется линейная 

модель. Оценка $h_j^2$ определяется до выделения факторов, и это первая проблема.

Вторая состоит в том, что сложно определить количество факторов и вид осей координат, используемых для отображения $m$ 

переменных. Применяются модели центроидных компонент, главных компонент и факторная модель.

Если возникают проблемы с факторами, необходимо ввести ограничения, чтобы однозначно определить систему 

равенств $R = A\cdot{A^T} + U^2$, где $A^T$ — транспонированная матрица факторных нагрузок.

Процедура выделения факторов имеет бесконечно много эквивалентных решений, удовлетворяющие равенству  $R^h = A\cdot{A^T}$.

Чтобы решить проблему с вращением, необходимо в уже установленном нами пространстве общих факторов определить 

для каждой переменной наиболее простое факторное объяснение (максимальные нагрузки для одних факторов, минимальные для других).

Конечный результат факторного анализа — получение содержательно интерпретируемых факторов, которые воспроизводят 

матрицу коэффициентов корреляции между переменными. Для отдельного наблюдения (объекта) имеем:

$$x_{ij}^{*} = \sum\limits_{q=1}^{Q}a_{jq}y_{iq} + U_j, \: i = \overline{1, n}; \: j = \overline{1, m}.$$

Здесь $y_{iq}$ — значение фактора **q** у **i**-го объекта. Измеряем факторы исходя из равенства:

$$Y = A^{T}X, \; y_{iq} = \sum\limits_{j=1}^{m}a_{jq}x_{ij}; \; i = \overline{1, n}, \; q = \overline{1, m}.$$

##### Логистическая регрессия

Пусть $Y_i$ указывает на значение переменной $Y, i = 1, ..., n$, где $n$ — количество выбирающих, и на значения $X_i = (x_{il}, ..., x_{jk})$ факторов, 

характеризующих выбор и выбирающего. Рассмотрим модель линейной вероятности:

$$Y_i = F(X_{i}\beta^{T}) = \beta_{1} x_{1i} + \beta_{2} x_{2i} + ... + \beta_{k} x_{ki} + \varepsilon_{i}$$.

где $\beta$ — вектор коэффициентов регрессии, $\varepsilon_{i}$ — независимо распределенная случайная величина с нулевым математическим ожиданием 

(в дальнейшем — случайная ошибка). Из предположения о нулевом математическом ожидании случайной ошибки следует, что она 

принимает только дискретные значения. Поскольку $Y_i$ принимает только два значения, очевидно, что:

$$E(Y_i) = 1 \cdot {P(Y_i=1)} + 0 \cdot {P(Y_i = 0)} = P(Y_i = 1) = F(X_i \beta^T)$$

Модель может быть записана в виде:

$$P(Y_i=1) = F(X_i \beta^T) = X_i \beta^T$$

Модель бинарного выбора, основанная на использовании функции распределения $F(z)$, область значений которой лежит в отрезке $[0, 1]$, имеет вид:

$$P_i = F(X_i \beta^T)$$

Функцию логистического распределения

$$F(X_i \beta^T) = \frac{e^{X_i \beta^T}}{1 + e^{X_i \beta^T}} = \frac{1}{1 + e^{-X_i \beta^T}} = \Lambda(X_i \beta^T)$$

называют logit-моделью.