<a href="https://colab.research.google.com/github/r42arty/hse/blob/main/mod3/MathStat/MS_6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Задача 3: t-тест при гетероскедастичности

## Объясните, почему классический t-тест дает некорректные результаты при неравных дисперсиях групп.

Классический t-тест основан на предположении, что дисперсии выборок равны (гомоскедастичность)

Это важно, потому что при расчёте t-статистики используется общая оценка дисперсии, полученная из обеих групп. Если дисперсии на самом деле разные (гетероскедастичность), происходит следующее:

**1.	Неверная оценка стандартной ошибки**

Стандартная ошибка — это мера разброса средних. При неравных дисперсиях объединенная оценка будет занижена или завышена, в зависимости от того, какая группа больше. Это искажает результат.

**2.	Искажение t-статистики**

t-статистика рассчитывается как:
$t = \frac{\bar{x}_1 - \bar{x}_2}{SE}$

Если SE некорректна, то и сам t будет неточным

**3.	p-значение недостоверно**

Оно напрямую зависит от t-статистики. В результате, можно:
- ошибочно отвергнуть нулевую гипотезу (ошибка первого рода)
- или не отвергнуть, хотя разница есть (ошибка второго рода)

**Пример**

Если одна группа имеет большую дисперсию (например, сильные колебания результатов), а вторая — малую, классический t-тест может недооценить реальную неопределённость, сделав вывод «различие есть», хотя его нет.

В таких случаях применяют тест Уэлча или используют робастные стандартные ошибки.

## Покажите, как робастные стандартные ошибки (по Уайту) исправляют эту проблему.

Метод Уайта — это способ оценивания ковариационной матрицы коэффициентов регрессии, который не зависит от предположения о равенстве дисперсий ошибок. В классической (OLS) регрессии ковариационная матрица стандартных ошибок оценивается с учетом предположения о постоянной дисперсии (гомоскедастичности). Если это предположение нарушается, то оценки становятся смещенными. Уайт предложил поправку, в которой для вычисления ковариационной матрицы используются квадраты остатков модели (ошибки), что позволяет учесть их реальное распределение. Формула метода не требует знания точной формы зависимости дисперсии от переменных — в этом его универсальность (он непараметрический).

⸻

В контексте t-тестов, особенно при сравнении двух групп с неравными дисперсиями или разными объемами выборок, метод Уайта позволяет корректно оценить дисперсию разности средних. Это особенно важно, когда стандартная ошибка (в знаменателе t-статистики) может быть искажена. С помощью робастной оценки дисперсии можно пересчитать t-статистику и получить более надёжное p-значение, что снижает вероятность ложных выводов. Такой подход обеспечивает корректность статистических выводов даже при наличии гетероскедастичности.

## Сравните p-значения классического t-теста и теста Уэлча на данных с разными дисперсиями (код на Python).

In [None]:
import numpy as np
from scipy.stats import ttest_ind

# Генерация данных с одинаковыми средними, но разными дисперсиями
np.random.seed(42)
group1 = np.random.normal(loc=10, scale=1, size=30)   # малая дисперсия
group2 = np.random.normal(loc=10, scale=5, size=30)   # большая дисперсия

# Классический t-тест (предполагается равенство дисперсий)
t_stat_classic, p_val_classic = ttest_ind(group1, group2, equal_var=True)

# Тест Уэлча (не предполагается равенство дисперсий)
t_stat_welch, p_val_welch = ttest_ind(group1, group2, equal_var=False)

# Вывод результатов
print(f"Классический t-тест: t = {t_stat_classic:.3f}, p = {p_val_classic:.4f}")
print(f"Тест Уэлча:         t = {t_stat_welch:.3f}, p = {p_val_welch:.4f}")