# Однородность дисперсий

Для проверки однородности дисперсий в двух или нескольких группах наиболее часто применяют критерий Левина (Levene's test) и его модификации Брауна-Форсайта.

## Критерий Левина

Для каждой <u>зависимой</u> переменной проводится дисперсионный анализ абсолютных отклонений значений переменной от среднего в соответствующей группе. Разработан как замена критерию Бартлетта и является менее чувствиельным к отклонениям от нормальности.

**Гипотезы**:
- $H_0$: дисперсии выборок равны - $\sigma_1^2 = \sigma_2^2 = \dots = \sigma_m^2$
- $H_1$: существуют по крайней мере две выборки, дисперсии которых неравны - $\exists i, j \in \{1, \dots, j\}, i \neq j, \sigma_i^2 \neq \sigma_j^2$

**Математическая модель**:  
Пусть $m$ - кол-во выборок, $n_i$ - объем $i$-й выборки, $N = \sum_{i=1}^m n_i$, а $x_{i, j}$ - $j$-е наблюдений в $i$-й выборке. Тогда статистика критерия Левина имеет вид:
$$\large W = \frac{N - m}{m - 1} \frac{\sum_{i=1}^m n_i (\bar{Z}_{i,*} - \bar{Z}_{*,*})^2}{\sum_{i=1}^m \sum_{j=1}^{n_i} (Z_{i, j} - \bar{Z}_{i, *})^2}$$
где $Z_{i, j}$ определяеся как $Z_{i, j} = |X_{i, j} - \bar{X}_{i, *}|$,  
где $\bar{X}_{i, *}$ - это среднее в $i$-й выборке;  
$\bar{Z}_{i, *}$ - среднее по $i$-й выборке;  
$\bar{Z}_{*, *}$ - среднее по всем выборкам.

## Критерий Брауна-Форсайта

Является модификацией теста Левина, отличающейся от него использованием медианы или усеченного среднего, вместо выборочного среднего.  
В критерии Брауна-Форсайта $Z_{i, j}$ определяется как $Z_{i, j} = |X_{i, j} - \tilde{X}_{i, *} |$ или $Z_{i, j} = |X_{i, j} - \bar{X'}_{i, *} |$,  
где $\tilde{X}_{i, *}$ - это медиана в $i$-й выборке, а $\bar{X'}_{i, *}$ - это усеченное среднее в $i$-й выборке.

**Сравнение с критерием Левина**:
- Критерий Брауна-Форсайта робастный, в отличие от Левина, при достаточно высокой мощности.
- Критерий Брауна-Форсайта с усеченным средним лучше работает, если данные имеют распределение Коши, а с медианой, если данные имеют $\chi^2$ распределение с 4 степенями свободы (резко скошенное распределение).
- Критерий Левина лучше работает для симметричных распределений с умеренным весом краев.

## Менее популярные критерии

### F-критерий Фишера

Предназначен для сравнения дисперсий двух выборок, имеющих нормальное распределение.

Пусть есть две выборки $X$ и $Y$ с дисперсиями $\sigma_X^2$ и $\sigma_Y^2$ соответственно. Тогда их F-статистика будет равна:
$$\large F = \frac{\sigma_X^2}{\sigma_Y^2}$$

**Ограничения**:
- Высокие требования к нормальности распределения
- Неробастен и теряет мощность при ненормальном распределении признака

### Критерий Бартлетта

Критерий Бартлетта (Bartlett's test) используется для проверки гомоскедастичности (постоянства дисперсий случайных переменных в последовательности). Является модификацией теста отношения правдоподобия (likelihood-ratio test).

**Гипотезы** аналогичны критерию Левина.

**Математическая модель**:  
Пусть у нас есть $m$ выборок с кол-вом наблюдений $n_i$ и дисперсиями $S_i^2$, тогда статистика критерия Бартлетта будет выглядеть так:
$$\large \chi^2 = \frac{ (N - k) \ln(S_p^2) - \sum_{i=1}^k (n_i - 1) \ln(S_i^2) }{ 1 + \frac{ 1 }{ 3(k - 1) } (\sum_{i = 1}^k (\frac{ 1 }{ n_i - 1 }) - \frac{ 1 }{ N - k }) }, $$
где $N = \sum_{i=1}^k n_i$, а $S_p^2 = \frac{ 1 }{ N - k } \sum_i (n_i - 1) S_i^2$ - объединенная оценка для дисперсии.

Статистика критерия имеет распределение близкое к $\chi_{k-1}^2$. Нулевая гипотеза отклоняется при $\chi^2 > \chi^2_{k-1, \alpha}$ (где $\chi^2_{k-1, \alpha}$ - это критические значения верхнего конца распределения $\chi^2_{k-1}$)

**Ограничения**:
- Чувствителен к отклонениям от нормальности

### Критерий Голдфилда-Куандта

Критерий Годфилда-Куандта (Goldfeld–Quandt test) проверяет гетероскедастичность в регрессионном анализе. Это достигается разделением данных на две части или группы, в следствие чего иногда называется two-group test. Имеет параметрический и непараметрический варианты, однако название "Критерий Голдфилда-Куандта" обычно ассоциируется с первым.

**Ограничения**:
- Данные должны быть отсортированы по известной объясняющей переменной.
- Дисперсия ошибки должна быть монотонной функцией объясняющей переменной.
- Не очень робастен.

#### Параметрический тест

Выполняется путем проведения раздельного анализа методом наименьших квадратов для двух подгрупп первоначального набора данных. Подгруппы определяются так: наблюдения, для которых объясняющая переменная принимает наименьшие значения, находятся в одном подмножестве, а более высокие значения - в другом. Подмножества могуть быть разного размера и содержать не все наблюдения.

Параметрический тест опирается на предположения о нормальности распределения ошибок и матрицы проектирования (design matrices) для двух подгрупп имеют полный ранг.

Используемой статистикой является отношение среднеквадратичных остаточных ошибок регрессии в двух подгруппах. Cтатистика соответствует F-критерию Фишера.

#### Непараметрический тест

Для этого теста квадраты отклонений сортируются по объясняющей переменной. Статистикой является количество пиков в получившемся списке: подсчет случаев, в котороый квадратичный остаток больше всех предыдущих квадратичных остатков. Критичекие значения определяются с помощью аргумента, связанного с permutation test.