<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/Mathematics/Statics/%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D0%B0_ANOVA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Математическая основа ANOVA

Дисперсионный анализ (ANOVA) основан на разложении общей дисперсии данных на составляющие, которые могут быть объяснены различными факторами. В этом разделе мы подробно рассмотрим математические основы ANOVA, включая формулы, предположения и вычисления.



## 1. Основные понятия и обозначения

Пусть у нас есть $ k $ групп (или уровней фактора), каждая из которых содержит $ n_i $ наблюдений ($ i = 1, 2, \dots, k $). Общее количество наблюдений равно:
$$
N = \sum_{i=1}^k n_i.
$$

Обозначим:
- $ X_{ij} $: $ j $-е наблюдение в $ i $-й группе ($ j = 1, 2, \dots, n_i $).
- $ \bar{X}_i $: среднее значение $ i $-й группы:
  $$
  \bar{X}_i = \frac{1}{n_i} \sum_{j=1}^{n_i} X_{ij}.
  $$
- $ \bar{X} $: общее среднее значение всех наблюдений:
  $$
  \bar{X} = \frac{1}{N} \sum_{i=1}^k \sum_{j=1}^{n_i} X_{ij}.
  $$

Цель ANOVA — разделить общую вариацию данных на две части:
1. **Межгрупповую вариацию** (Between-group variation): отражает различия между группами.
2. **Внутригрупповую вариацию** (Within-group variation): отражает вариабельность внутри каждой группы.



## 2. Разложение общей суммы квадратов (SST)

Общая сумма квадратов (Total Sum of Squares, SST) измеряет полную вариацию данных вокруг общего среднего значения:
$$
SST = \sum_{i=1}^k \sum_{j=1}^{n_i} (X_{ij} - \bar{X})^2.
$$

Эта величина может быть разложена на две компоненты:
$$
SST = SSB + SSW,
$$
где:
- $ SSB $: межгрупповая сумма квадратов (Between-group Sum of Squares),
- $ SSW $: внутригрупповая сумма квадратов (Within-group Sum of Squares).

### 2.1. Межгрупповая сумма квадратов (SSB)
$ SSB $ измеряет вариацию, вызванную различиями между группами:
$$
SSB = \sum_{i=1}^k n_i (\bar{X}_i - \bar{X})^2.
$$
Здесь $ n_i (\bar{X}_i - \bar{X})^2 $ — вклад $ i $-й группы в межгрупповую вариацию.

### 2.2. Внутригрупповая сумма квадратов (SSW)
$ SSW $ измеряет вариацию внутри каждой группы:
$$
SSW = \sum_{i=1}^k \sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2.
$$
Здесь $ (X_{ij} - \bar{X}_i)^2 $ — вклад каждого наблюдения в вариацию внутри $ i $-й группы.



## 3. Степени свободы

Каждая сумма квадратов связана с определенным числом степеней свободы:
- Общая сумма квадратов ($ SST $): $ N - 1 $ степеней свободы.
- Межгрупповая сумма квадратов ($ SSB $): $ k - 1 $ степеней свободы.
- Внутригрупповая сумма квадратов ($ SSW $): $ N - k $ степеней свободы.

Связь между степенями свободы:
$$
(N - 1) = (k - 1) + (N - k).
$$



## 4. Средние квадраты

Для дальнейшего анализа дисперсии используются средние квадраты (Mean Squares), которые представляют собой нормированные суммы квадратов:
- **Межгрупповое среднее квадратическое отклонение (MSB)**:
  $$
  MSB = \frac{SSB}{k - 1}.
  $$
- **Внутригрупповое среднее квадратическое отклонение (MSW)**:
  $$
  MSW = \frac{SSW}{N - k}.
  $$



## 5. F-статистика

F-статистика используется для проверки гипотезы о равенстве средних значений групп. Она вычисляется как отношение межгруппового среднего квадрата к внутригрупповому среднему квадрату:
$$
F = \frac{MSB}{MSW}.
$$

Если нулевая гипотеза ($ H_0 $) верна (т.е. средние значения групп равны), то $ MSB $ и $ MSW $ должны быть близки, и $ F $ будет близко к 1. Если $ F $ значительно больше 1, это указывает на наличие статистически значимых различий между группами.



## 6. Распределение F и p-значение

F-статистика следует F-распределению с параметрами:
- Числитель: $ k - 1 $ (степени свободы $ SSB $),
- Знаменатель: $ N - k $ (степени свободы $ SSW $).

Используя таблицы F-распределения или программные инструменты, можно найти критическое значение $ F_{крит} $ для заданного уровня значимости $ \alpha $. Если $ F > F_{крит} $, нулевая гипотеза отвергается.

Альтернативно, можно вычислить p-значение:
$$
p = P(F > F_{\text{наблюдаемое}}).
$$
Если $ p < \alpha $, нулевая гипотеза также отвергается.



## 7. Предположения ANOVA

Для корректного применения ANOVA необходимо выполнение следующих предположений:
1. **Нормальность распределения**: Наблюдения в каждой группе должны быть нормально распределены.
2. **Гомоскедастичность**: Дисперсии в группах должны быть равны ($ \sigma_1^2 = \sigma_2^2 = \dots = \sigma_k^2 $).
3. **Независимость наблюдений**: Наблюдения в разных группах не должны зависеть друг от друга.

Если эти предположения нарушаются, результаты ANOVA могут быть некорректными. В таких случаях применяются альтернативные методы, такие как непараметрический тест Краскела-Уоллиса.



## 8. Пример расчета ANOVA

Рассмотрим пример с тремя группами:

| Группа | Наблюдения |
|--||
| A      | 85, 88, 90 |
| B      | 78, 80, 82 |
| C      | 92, 94, 96 |

### Шаги:
1. Вычислить общее среднее ($ \bar{X} $):
   $$
   \bar{X} = \frac{85 + 88 + 90 + 78 + 80 + 82 + 92 + 94 + 96}{9} = 87.
   $$

2. Вычислить средние для каждой группы:
   $$
   \bar{X}_A = \frac{85 + 88 + 90}{3} = 87.67, \quad
   \bar{X}_B = \frac{78 + 80 + 82}{3} = 80, \quad
   \bar{X}_C = \frac{92 + 94 + 96}{3} = 94.
   $$

3. Вычислить $ SSB $, $ SSW $, $ SST $:
   - $ SSB = 3(87.67 - 87)^2 + 3(80 - 87)^2 + 3(94 - 87)^2 = 294.67 $,
   - $ SSW = (85 - 87.67)^2 + (88 - 87.67)^2 + \dots + (96 - 94)^2 = 14.67 $,
   - $ SST = SSB + SSW = 294.67 + 14.67 = 309.34 $.

4. Вычислить $ MSB $ и $ MSW $:
   - $ MSB = \frac{SSB}{k - 1} = \frac{294.67}{3 - 1} = 147.33 $,
   - $ MSW = \frac{SSW}{N - k} = \frac{14.67}{9 - 3} = 2.44 $.

5. Вычислить $ F $:
   $$
   F = \frac{MSB}{MSW} = \frac{147.33}{2.44} = 60.38.
   $$

6. Определить критическое значение $ F_{крит} $ для $ \alpha = 0.05 $, $ df_1 = 2 $, $ df_2 = 6 $. Из таблиц F-распределения: $ F_{крит} = 5.14 $.

7. Сравнить $ F $ и $ F_{крит} $:
   $$
   F = 60.38 > F_{крит} = 5.14.
   $$

Таким образом, нулевая гипотеза отвергается, и делается вывод о наличии статистически значимых различий между группами.




# Использование ANOVA в машинном обучении (ML) и глубоком обучении (DL)

ANOVA (дисперсионный анализ) — это мощный статистический инструмент, который находит широкое применение в задачах машинного обучения (ML) и глубокого обучения (DL). В этой части лекции мы подробно рассмотрим, как ANOVA используется для решения задач предварительной обработки данных, отбора признаков, оценки моделей и интерпретации результатов.



## 1. Отбор признаков (Feature Selection)

### 1.1. Зачем нужен отбор признаков?
В реальных задачах ML и DL часто возникают наборы данных с большим количеством признаков (features). Однако не все признаки одинаково полезны:
- Некоторые признаки могут быть шумовыми или избыточными.
- Другие признаки могут не иметь значимой связи с целевой переменной.

Отбор признаков помогает:
- Уменьшить размерность данных.
- Улучшить производительность модели.
- Снизить риск переобучения.
- Ускорить процесс обучения.

ANOVA — это метод фильтрационного отбора признаков, который позволяет выявить признаки, наиболее сильно связанные с целевой переменной.



### 1.2. Как работает ANOVA для отбора признаков?

ANOVA используется для оценки значимости каждого признака в объяснении вариации целевой переменной. Процесс состоит из следующих шагов:

1. **Вычисление F-статистики для каждого признака**:
   Для каждого признака $ X_j $ выполняется однофакторный ANOVA. Цель — проверить, влияет ли $ X_j $ на целевую переменную $ Y $:
   - Если $ Y $ категориальная (например, классы), используется дисперсионный анализ для сравнения средних значений $ X_j $ в разных классах.
   - Если $ Y $ непрерывная, используется регрессионный анализ (аналог ANOVA).

2. **Ранжирование признаков по значимости**:
   Признаки ранжируются по их F-статистикам. Чем выше значение F, тем больше вероятность того, что признак значимо влияет на $ Y $.

3. **Выбор подмножества признаков**:
   На основе заданного порога (например, топ-$ k $ признаков или p-значение ниже определенного уровня) выбирается подмножество наиболее информативных признаков.



### 1.3. Пример: Отбор признаков с использованием ANOVA в Python

```python
from sklearn.datasets import load_iris
from sklearn.feature_selection import f_classif, SelectKBest
import pandas as pd

# Загрузка данных
data = load_iris()
X = data.data
y = data.target
feature_names = data.feature_names

# Вычисление F-статистики для каждого признака
f_values, p_values = f_classif(X, y)

# Создание DataFrame для анализа
results = pd.DataFrame({
    'Feature': feature_names,
    'F-value': f_values,
    'p-value': p_values
})

# Вывод результатов
print(results.sort_values(by='F-value', ascending=False))

# Выбор топ-2 признаков
selector = SelectKBest(score_func=f_classif, k=2)
X_new = selector.fit_transform(X, y)
```

**Объяснение**:
- Мы используем датасет Iris, где есть 4 признака и 3 класса.
- Для каждого признака вычисляется F-статистика и p-значение.
- Признаки с наибольшими F-значениями считаются наиболее значимыми.



## 2. Оценка качества моделей

### 2.1. Модели с категориальными факторами
В задачах классификации ANOVA может быть использован для оценки того, насколько хорошо модель разделяет классы. Например:
- После обучения модели можно разделить объекты на группы по прогнозируемым классам.
- Затем выполнить ANOVA для проверки, есть ли статистически значимые различия между группами.

Если различия значимы, это указывает на то, что модель успешно разделяет данные.



### 2.2. Интерпретация коэффициентов в линейных моделях
В линейной регрессии ANOVA помогает понять, какие признаки наиболее сильно влияют на целевую переменную. Например:
- Каждый признак можно рассматривать как фактор.
- ANOVA проверяет значимость каждого коэффициента в модели.

Это особенно полезно для интерпретации моделей, таких как линейная регрессия или логистическая регрессия.



## 3. ANOVA в глубоком обучении (Deep Learning)

Глубокое обучение (DL) часто работает с большими объемами данных и сложными архитектурами, но ANOVA также может быть полезен в этом контексте.

### 3.1. Анализ активаций нейронов
Глубокие нейронные сети (DNN) состоят из множества слоев, каждый из которых генерирует активации (outputs). ANOVA может быть использован для анализа этих активаций:
- Разделите данные на группы (например, по классам).
- Проверьте, есть ли значимые различия в активациях между группами.

Это помогает понять, какие нейроны или слои наиболее чувствительны к различным классам.



### 3.2. Оценка важности входных признаков
В задачах, где DNN работает с табличными данными, ANOVA может быть использован для оценки важности входных признаков:
- Обучите DNN на исходных данных.
- Выполните ANOVA для каждого признака относительно выходов сети.

Это позволяет выявить признаки, которые наиболее сильно влияют на прогнозы модели.



## 4. Преимущества использования ANOVA в ML/DL

1. **Простота реализации**: ANOVA легко интегрируется в существующие конвейеры ML/DL.
2. **Интерпретируемость**: ANOVA предоставляет четкие метрики (F-статистика, p-значение), которые помогают интерпретировать результаты.
3. **Универсальность**: ANOVA применим как для категориальных, так и для непрерывных данных.
4. **Снижение размерности**: Отбор признаков с помощью ANOVA улучшает производительность моделей.



## 5. Ограничения использования ANOVA в ML/DL

1. **Предположения ANOVA**:
   - Нормальность распределения данных.
   - Гомоскедастичность (равенство дисперсий).
   Эти предположения могут нарушаться в реальных данных.

2. **Линейные взаимосвязи**:
   ANOVA эффективен только для линейных зависимостей. В случае сложных нелинейных взаимосвязей (часто встречающихся в DL) он может быть менее полезен.

3. **Шумовые данные**:
   ANOVA чувствителен к выбросам и шумовым данным, что может привести к некорректным выводам.



## 6. Альтернативы ANOVA в ML/DL

Если предположения ANOVA нарушаются, можно использовать альтернативные методы:
- **Методы, основанные на корреляции**: Например, коэффициент корреляции Пирсона или Спирмена.
- **Методы, основанные на деревьях решений**: Например, Feature Importance в случайных лесах.
- **Непараметрические тесты**: Например, тест Краскела-Уоллиса.



## 7. Пример практического применения ANOVA в ML

### Задача: Классификация видов цветов (Iris Dataset)

**Цель**: Использовать ANOVA для отбора признаков перед обучением модели.

```python
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.3, random_state=42)

# Обучение модели SVM
model = SVC(kernel='linear')
model.fit(X_train, y_train)

# Предсказания
y_pred = model.predict(X_test)

# Оценка точности
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
```

**Объяснение**:
- Мы используем топ-2 признака, выбранных с помощью ANOVA.
- Обучаем модель SVM и оцениваем её точность.
- Этот подход демонстрирует, как ANOVA помогает улучшить качество модели за счет отбора признаков.



## 8. Заключение

ANOVA — это универсальный инструмент, который находит применение в различных аспектах машинного обучения и глубокого обучения. Его использование позволяет:
- Эффективно отбирать признаки.
- Оценивать качество моделей.
- Интерпретировать результаты.

Однако важно помнить о предположениях ANOVA и ограничениях его применения. В сочетании с другими методами ANOVA становится мощным инструментом для анализа данных и построения высококачественных моделей.
