# Статистический анализ данных: конспект для аналитика
**Цель**: выявление закономерностей, проверка гипотез и принятие решений на основе данных.

## Основные понятия
- **Генеральная совокупность** — все объекты/наблюдения, которые мы хотим изучить (например, все клиенты банка).
- **Выборка** — подмножество генеральной совокупности, используемое для анализа (например, 1000 случайно выбранных клиентов).
- **Переменные** — характеристики, которые измеряются:
  - *Зависимая переменная* (Y) — то, что мы прогнозируем (например, отток клиентов).
  - *Независимая переменная* (X) — факторы, влияющие на Y (например, возраст, доход).

**Простыми словами**: 
Генеральная совокупность — это «все возможные данные», выборка — «кусочек данных, с которым мы реально работаем». Переменные — это столбцы в таблице: один показывает результат (Y), другие — причины (X).

## Типы данных
- **Количественные** (числа):
  - *Дискретные*: целые числа (количество покупок).
  - *Непрерывные*: любые значения в диапазоне (вес, доход).
- **Категориальные** (группы):
  - *Номинальные*: категории без порядка (цвета, пол).
  - *Порядковые*: категории с порядком (уровень удовлетворённости: низкий/средний/высокий).

**Простыми словами**: 
Количественные данные — это то, что можно посчитать («5 яблок»). Категориальные — это метки («красные яблоки», «зелёные яблоки»). Порядковые категории можно ранжировать («маленький», «средний», «большой»).

## Описательная статистика
Методы для краткого описания данных:
- **Меры центра**: 
  - Среднее ($\bar{x} = \frac{\sum x_i}{n}$),
  - Медиана (середина упорядоченных данных),
  - Мода (самое частое значение).
- **Меры разброса**:
  - Дисперсия ($\sigma^2 = \frac{\sum (x_i - \bar{x})^2}{n}$),
  - Стандартное отклонение ($\sigma$),
  - Размах (разница между max и min).

## Проверка гипотез
- **H0 (нулевая гипотеза)**: «ничего не изменилось» (например, средний чек одинаков до и после акции).
- **H1 (альтернативная гипотеза)**: «есть эффект» (средний чек вырос).
- **p-value**: вероятность получить такие данные, если H0 верна.
- **Уровень значимости (α)**: порог для отклонения H0 (обычно 0.05). Если p-value < α — отвергаем H0.

### 🔍 Доверительные интервалы
> **Что это**: Диапазон значений, в котором с заданной вероятностью лежит истинное значение параметра.
> **Формула**: $\text{Среднее} \pm z \cdot \frac{\sigma}{\sqrt{n}}$
> **Пример**: Средний чек = 5000 руб. (95% ДИ: [4800, 5200]).

**Простыми словами**: Это «диапазон уверенности». Если провести 100 экспериментов, в 95 из них истинное значение попадёт в этот интервал.

In [None]:
# Пример расчёта 95% доверительного интервала для среднего
import scipy.stats as stats
import numpy as np

# Данные: выборка из 100 клиентов
sample = [5000, 5200, 4800, 5100, 4900]  # Пример небольшой выборки
mean = np.mean(sample)
std = np.std(sample, ddof=1)  # ddof=1 для несмещённой оценки
n = len(sample)

# Расчёт ДИ
z = stats.norm.ppf(0.975)  # z-значение для 95% ДИ
ci_lower = mean - z * (std / np.sqrt(n))
ci_upper = mean + z * (std / np.sqrt(n))

print(f"95% ДИ: [{ci_lower:.2f}, {ci_upper:.2f}]")

### ⚠️ Ошибки I и II рода
| Ошибка | Описание | Как избежать |
|--------|----------|--------------|
| **I рода (α)** | Ложноположительный результат (отвергли H0, когда она верна) | Уменьшить α (но это увеличит риск ошибки II рода) |
| **II рода (β)** | Ложноотрицательный результат (не отвергли H0, когда она ложна) | Увеличить размер выборки или мощность теста |

**Простыми словами**:  
- Ошибка I рода: «Больной здоров» (тест показал, что лекарство работает, но это не так).  
- Ошибка II рода: «Здоров больной» (тест не заметил эффект, хотя он есть).

## Основные статистические тесты
- **t-тест**: сравнение средних 2 групп (например, доход мужчин и женщин).
- **ANOVA**: сравнение средних ≥3 групп (например, эффективность 3 лекарств).
- **χ²-тест**: проверка связи между категориальными переменными (например, зависимость пола от предпочтения товара).

### 📌 Проверка предположений тестов
- **Нормальность**: тест Шапиро-Уилка или QQ-plot.
- **Гомоскедастичность**: тест Левена.
- **Минимальный размер ячейки (χ²)**: ожидаемые частоты > 5.

In [None]:
# Проверка нормальности (Shapiro-Wilk)
from scipy import stats

data = [5000, 5200, 4800, 5100, 4900]
stat, p = stats.shapiro(data)
print(f"p-value нормальности: {p:.4f}")
if p > 0.05:
    print("Распределение нормальное (H0 не отвергнута)")
else:
    print("Распределение НЕ нормальное")

# Проверка гомоскедастичности (Levene)
group1 = [5000, 5200, 4800]
group2 = [4900, 5100, 5050]
stat, p = stats.levene(group1, group2)
print(f"\np-value гомоскедастичности: {p:.4f}")

### 🧪 Шпаргалка по выбору теста
| Задача | Тип данных | Тест |
|--------|------------|------|
| Сравнение 2 средних | Количественные, нормальное распределение | t-тест |
| Сравнение ≥3 средних | Количественные, нормальное распределение | ANOVA |
| Проверка связи категорий | Категориальные | χ²-тест |
| Сравнение средних без нормальности | Количественные, ненормальное распределение | U-тест Манна-Уитни |
| Оценка связи переменных | Количественные | Корреляция Пирсона/Спирмена |

**Простыми словами**:  
t-тест — «кто круче из двоих», ANOVA — «кто круче из троих», χ²-тест — «зависит ли выбор цвета от пола?».

## Корреляция и ковариация
- **Ковариация**: показывает направление связи между переменными (положительная/отрицательная).
- **Корреляция (Пирсон)**: стандартизированная ковариация (-1 ≤ r ≤ 1):
  - $r = 0$: связи нет,
  - $r > 0$: прямая связь,
  - $r < 0$: обратная связь.
- **Корреляция Спирмена**: для нелинейных связей (работает с рангами).

In [None]:
# Расчёт корреляции Пирсона и Спирмена
import pandas as pd

df = pd.DataFrame({
    'Возраст': [25, 30, 35, 40, 45],
    'Траты': [10000, 12000, 15000, 13000, 11000]
})

pearson = df['Возраст'].corr(df['Траты'], method='pearson')
spearman = df['Возраст'].corr(df['Траты'], method='spearman')

print(f"Корреляция Пирсона: {pearson:.2f}")
print(f"Корреляция Спирмена: {spearman:.2f}")

## Как интерпретировать результаты тестов
1. **p-value < α (0.05)**: отвергаем H0, эффект статистически значим.
2. **p-value ≥ α**: не отвергаем H0, данных недостаточно для выводов.
3. **Корреляция**:
   - |r| > 0.7: сильная связь,
   - 0.3 < |r| < 0.7: умеренная,
   - |r| < 0.3: слабая.

**Важно**: корреляция ≠ причинно-следственная связь!

### 📏 Размер эффекта
> **Зачем**: p-value говорит о статистической значимости, но не о практической важности.
> - **Коэффициент Кобена (d)**: $d = 0.2$ — слабый, $d = 0.5$ — умеренный, $d = 0.8$ — сильный.
> - **Эта-квадрат (η²)**: доля объяснённой дисперсии.

In [None]:
# Расчёт размера эффекта (коэффициент Кобена)
def cohen_d(group1, group2):
    n1, n2 = len(group1), len(group2)
    s1, s2 = np.var(group1, ddof=1), np.var(group2, ddof=1)
    pooled_std = np.sqrt(((n1 - 1) * s1 + (n2 - 1) * s2) / (n1 + n2 - 2))
    return (np.mean(group1) - np.mean(group2)) / pooled_std

group1 = [5000, 5200, 4800]
group2 = [4900, 5100, 5050]
d = cohen_d(group1, group2)
print(f"Коэффициент Кобена: {d:.2f}")

### 🔁 Множественная проверка гипотез
> **Проблема**: При 20 тестах с α=0.05 вероятность ложноположительного результата = 64%.
> **Решение**:
> - Коррекция Бонферрони: $\alpha_{\text{новый}} = \frac{\alpha}{k}$
> - Метод Холма: пошаговая коррекция.

In [None]:
# Коррекция Бонферрони
p_values = [0.01, 0.04, 0.06, 0.001]
alpha = 0.05
bonferroni_alpha = alpha / len(p_values)

significant = [p < bonferroni_alpha for p in p_values]
print(f"Коррекция Бонферрони (α={bonferroni_alpha:.4f})")
for i, p in enumerate(p_values):
    print(f"Тест {i+1}: p={p:.3f}, значим? {significant[i]}")

## Практические задания
1. В выборке 100 клиентов средний возраст = 35 лет, стандартное отклонение = 10. Какой диапазон покрывает 95% данных по правилу 3σ?
2. p-value для t-теста = 0.03 при α = 0.05. Что можно утверждать?
3. Корреляция между доходом и тратами r = 0.85. Как интерпретировать?
4. Какой тест использовать для сравнения конверсии 4 рекламных баннеров?
5. В χ²-тесте p-value = 0.12. Что это означает для гипотезы о связи пола и выбора продукта?
6. (Дополнительное) Для данных [500, 520, 480, 510, 490] рассчитайте 95% доверительный интервал для среднего.
7. (Дополнительное) Объясните, почему p-value=0.05 не гарантирует, что эффект «реальный».