### Непараметрические тесты: проверка независимости и согласия

#### Независимость событий

Определение: Условная вероятность наступления события $A$ при наступлении события $B$:

$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$

Определение: События $A$ и $B$ независимы, если:

$
P(A \cap B) = P(A) \cdot P(B)
$

Эквивалентные формулировки, при независимости условий:
* $P(A|B) = P(A)$
  * вероятность наступления $A$ при наступлении $B$: $A$ не зависит от $B$
* $P(B|A) = P(B)$
  * вероятность наступления $B$ при наступлении $A$: $B$ не зависит от $A$

где $|$ - это обозначение условия, при котором наступает событие; условие записывается после $|$.

#### Распределение $\chi^2$ (хи-квадрат)

Определение: Если $Z_1, ..., Z_k$ - независимые стандартные случайные величины, то:

$
X = Z_1^2 + Z_2^2 + ... + Z_k^2 \thicksim \chi^2(k)
$

Свойства:
* Параметр $k$ - число степеней свободы
* $E[X] = k, \space Var[X] = 2k$
* При $k \rarr \infin: \space \chi^2(k) \approx N(k, 2k)$

#### $\chi^2$-тест на независимость

Цель: проверить независимость двух категориальных признаков.

Гипотезы:
* $H_0$: признаки независимы
* $H_1$: признаки зависимы

Статистика:

$
\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
$

где:
* $O_{ij}$ - наблюдаемые частоты
* $E_{ij}$ - ожидаемые частоты

$\chi^2$ - score

#### Ожидаемые частоты

Для таблицы $x * c$:

$
E_{ij} = \frac{n_i \cdot n_j}{n}
$

где:
* $n_i$ - сумма по строке $i$
* $n_j$ - сумма по столбцу $j$
* $n$ - общее количество наблюдений

Число степеней свободы $df$: $(r-1)(c-1)$

Критическое значение ищется по таблице, в зависимости от значений уровня значимости $\alpha$ и числа степеней свободы $df$.

#### $\chi^2$-тест на соответствие распределению (goodness of fit)

Цель: проверить, соответствует ли наблюдаемое распределение теоретическому

Гипотезы:
* $H_0$: данные соответствуют теоретическому распределению
* $H_1$: данные не следуют теоретическому распределению

Статистика:

$
\chi^2 = \sum_{i=1}^{k} \frac{(O_{i} - E_{i})^2}{E_{i}}
$

Число степеней свободы $df$: $(k-1)$

где $k$ - число категорий.

#### Условия применения $\chi^2$-тестов

Основные требования:
* независимость наблюдений
* достаточный объём выборки:
  * все ожидаемые частоты: $E_i \geq 5$
  * для таблиц $2*2: E_i \geq 10$

#### Интерпретация результатов

$p-value < \alpha$: Отвергаем $H_0$. Есть статистически значимая связь/различие.
$p-value \geq \alpha$: Не отвергаем $H_0$. Нет достаточных доказательств.

$p-value$ - вероятность нахождения в критической зоне.

#### Заключение

$\chi^2$-тесты - мощный инструмент для:
* анализа связей между категориальными переменными
* проверки соответствия данных теоретическим распределениям
* обнаружения паттерной в категориальных данных

