# 🧠 Урок 32: Статистика и теория вероятностей для машинного обучения
**Цель урока:** Понять основы статистики и теории вероятностей, необходимые для машинного обучения, и научиться применять их на практике. Подходит для новичков.

## 📌 Зачем нужны статистика и вероятности в ML?
- **Статистика** помогает анализировать данные, оценивать их распределение и находить закономерности.
- **Теория вероятностей** позволяет моделировать неопределенность и строить вероятностные модели.
- **Примеры применения:**
  - **Классификация:** Наивный Байес, логистическая регрессия.
  - **Оценка качества:** p-value, доверительные интервалы, статистические тесты (t-тест, chi2).
  - **Регуляризация:** L1/L2-регуляризация через вероятностные модели.
- **Аналогия:** Если ML — это карта, то статистика и вероятности — это компас, который помогает ориентироваться в данных [[1]].

## 🧩 Основы теории вероятностей
### 1. Что такое вероятность?
- **Вероятность** — это числовая мера того, насколько вероятно наступление события.
- **Формула:**
  ```python
  P(A) = число_благоприятных_исходов / число_всех_исходов
  ```
- **Пример:** Вероятность выпадения решки при броске монеты — 0.5.
- **Аналогия:** Вероятность — как прогноз погоды: вы оцениваете, как часто будет идти дождь в вашем городе.

### 2. Условная вероятность
- **Что это?** Вероятность события A при условии, что B произошло.
- **Формула:**
  ```python
  P(A|B) = P(A и B) / P(B)
  ```
- **Пример:** Вероятность болезни при положительном тесте.
- **Аналогия:** Если вы увидели облака, вероятность дождя выше, чем если бы их не было.

### 3. Байесовская теория
- **Байесовский подход:** Обновление вероятности гипотезы с учетом новых данных.
- **Формула Байеса:**
  ```python
  P(H|D) = P(D|H) * P(H) / P(D)
  ```
- **Где используется?** В классификации, фильтрации спама, рекомендательных системах.
- **Пример:**
  ```python
  from sklearn.naive_bayes import GaussianNB
  model = GaussianNB()
  model.fit(X_train, y_train)
  ```
- **Аналогия:** Байес — как врач, который обновляет диагноз на основе новых анализов.

## 📊 Распределения вероятностей
### 1. Равномерное распределение
- **Определение:** Все исходы равновероятны.
- **Пример:** Бросок игральной кости.
- **Преимущества:** Простое для анализа, часто используется в симуляциях.
- **График:**
  ```python
  import numpy as np
  import matplotlib.pyplot as plt
  
  data = np.random.uniform(0, 1, 1000)
  plt.hist(data, bins=50, alpha=0.7, color='blue')
  plt.title('Равномерное распределение')
  plt.show()
  ```

### 2. Биномиальное распределение
- **Определение:** Вероятность успехов в n испытаниях (например, подбрасывание монеты).
- **Формула:**
  ```python
  P(k) = C(n, k) * p^k * (1-p)^{n-k}
  ```
- **Пример:** Вероятность 5 решек при 10 бросках.
- **График:**
  ```python
  from scipy.stats import binom
  import numpy as np
  import matplotlib.pyplot as plt
  
  n, p = 10, 0.5
  x = np.arange(0, n+1)
  pmf = binom.pmf(x, n, p)
  plt.bar(x, pmf)
  plt.title('Биномиальное распределение')
  plt.xlabel('Число успехов')
  plt.ylabel('Вероятность')
  plt.grid(True)
  plt.show()
  ```

### 3. Нормальное распределение (Гауссово)
- **Определение:** Распределение, где значения группируются вокруг среднего.
- **Формула плотности:**
  ```python
  f(x) = 1/(σ√(2π)) * exp(-(x-μ)^2 / (2σ²))
  ```
- **Зачем?** Многие признаки в природе (например, рост людей) имеют нормальное распределение.
- **Пример:**
  ```python
  mu, sigma = 0, 1
  data = np.random.normal(mu, sigma, 1000)
  plt.hist(data, bins=50, density=True, alpha=0.7, color='green')
  plt.title('Нормальное распределение')
  plt.show()
  ```
- **Аналогия:** Нормальное распределение — как распределение оценок в классе: большинство близко к среднему, редкие — на экстремумах.

## 📐 Статистические метрики
- **Среднее значение:** Центр данных.
  ```python
  mean = np.mean(data)
  ```
- **Дисперсия:** Мера разброса данных.
  ```python
  variance = np.var(data)
  ```
- **Стандартное отклонение:** Корень из дисперсии.
  ```python
  std = np.std(data)
  ```
- **Медиана:** Среднее значение в отсортированном списке.
  ```python
  median = np.median(data)
  ```
- **Квартили и IQR:** Для анализа выбросов.
  ```python
  q1 = np.percentile(data, 25)
  q3 = np.percentile(data, 75)
  iqr = q3 - q1
  ```
- **Аналогия:** Среднее — как средняя зарплата в компании, дисперсия — как разница между самой высокой и самой низкой зарплатой.

## 🧪 Практика: Анализ данных с точки зрения статистики
### Шаг 1: Загрузка данных

In [None]:
from sklearn.datasets import fetch_openml
import numpy as np

# Загрузка MNIST
mnist = fetch_openml('mnist_784', version=1)
X, y = mnist['data'], mnist['target']
X = X / 255.0  # Нормализация
X_train, X_test = X[:60000], X[60000:]
y_train, y_test = y[:60000], y[60000:]

### Шаг 2: Расчет статистик

In [None]:
import pandas as pd

# Статистика по MNIST
df = pd.DataFrame(X_train)
print(df.describe())  # Среднее, дисперсия, квартили

### Шаг 3: Визуализация распределений

In [None]:
import seaborn as sns

# Гистограмма для одного признака
sns.histplot(X_train[0], kde=True)
plt.title('Распределение пикселей в изображении')
plt.show()

## 📈 Вероятностные модели в ML
- **Наивный Байес:** Использует вероятности для классификации.
- **Логистическая регрессия:** Оценивает вероятность принадлежности к классу.
- **Пример:**
  ```python
  from sklearn.naive_bayes import GaussianNB
  model = GaussianNB()
  model.fit(X_train, y_train)
  print(model.score(X_test, y_test))  # Точность
  ```
- **Аналогия:** Вероятностная модель — как прогноз погоды, где учитываются предыдущие данные [[2]].

## 📊 Статистические тесты
- **T-тест:** Проверяет, отличаются ли средние значения двух выборок.
- **Chi2-тест:** Для категориальных данных.
- **p-value:** Вероятность случайного совпадения. Если p < 0.05 — гипотеза отвергается.
- **Пример:**
  ```python
  from scipy.stats import ttest_ind
  
  group1 = np.random.normal(0, 1, 100)
  group2 = np.random.normal(1, 1, 100)
  t_stat, p_value = ttest_ind(group1, group2)
  print(f'p-value: {p_value:.3f}')
  ```
- **Аналогия:** Статистический тест — как детектор лжи: он показывает, насколько правдоподобно ваше утверждение [[6]].

## 📝 Домашнее задание
**Задача 1:** Рассчитайте среднее, дисперсию и медиану для одного столбца MNIST.
**Задача 2:** Постройте гистограммы для трех разных классов из MNIST (например, 0, 1, 2).
**Задача 3:** Напишите отчет (200–300 слов), где:
- Опишите, какие статистики вы рассчитали.
- Объясните, как распределение пикселей влияет на обучение.
- Приведите примеры, где статистические тесты полезны (например, сравнение моделей).
- Объясните, почему нормализация важна для вероятностных моделей.

In [None]:
# Ваш код здесь
import numpy as np
import matplotlib.pyplot as plt

# Статистика для одного признака
feature_index = 0
mean = np.mean(X_train[:, feature_index])
variance = np.var(X_train[:, feature_index])
median = np.median(X_train[:, feature_index])
print(f'Среднее: {mean:.2f}, Дисперсия: {variance:.4f}, Медиана: {median:.2f}')

In [None]:
# Гистограммы для разных классов
for digit in [0, 1, 2]:
    plt.figure()
    indices = (y_train == str(digit))
    plt.hist(X_train[indices][:, feature_index], bins=50, alpha=0.7, label=str(digit))
    plt.title(f'Распределение пикселей для цифры {digit}')
    plt.xlabel('Значение пикселя')
    plt.ylabel('Частота')
    plt.legend()
    plt.show()

## ✅ Рекомендации по выполнению
- **Задача 1:** Используйте `np.mean`, `np.var`, `np.median`.
- **Задача 2:** Выберите разные `digit` и постройте гистограммы.
- **Подсказка:** Если распределения сильно пересекаются, классы трудно разделить.