# Статистический анализ данных: конспект для аналитика
**Цель**: выявление закономерностей, проверка гипотез и принятие решений на основе данных.

## Основные понятия
- **Генеральная совокупность** — все объекты/наблюдения, которые мы хотим изучить (например, все клиенты банка).
- **Выборка** — подмножество генеральной совокупности, используемое для анализа (например, 1000 случайно выбранных клиентов).
- **Переменные** — характеристики, которые измеряются:
  - *Зависимая переменная* (Y) — то, что мы прогнозируем (например, отток клиентов).
  - *Независимая переменная* (X) — факторы, влияющие на Y (например, возраст, доход).

**Простыми словами**: 
Генеральная совокупность — это «все возможные данные», выборка — «кусочек данных, с которым мы реально работаем». Переменные — это столбцы в таблице: один показывает результат (Y), другие — причины (X).

## Типы данных
- **Количественные** (числа):
  - *Дискретные*: целые числа (количество покупок).
  - *Непрерывные*: любые значения в диапазоне (вес, доход).
- **Категориальные** (группы):
  - *Номинальные*: категории без порядка (цвета, пол).
  - *Порядковые*: категории с порядком (уровень удовлетворённости: низкий/средний/высокий).

**Простыми словами**: 
Количественные данные — это то, что можно посчитать («5 яблок»). Категориальные — это метки («красные яблоки», «зелёные яблоки»). Порядковые категории можно ранжировать («маленький», «средний», «большой»).

## Описательная статистика
Методы для краткого описания данных:
- **Меры центра**: 
  - Среднее ($\bar{x} = \frac{\sum x_i}{n}$),
  - Медиана (середина упорядоченных данных),
  - Мода (самое частое значение).
- **Меры разброса**:
  - Дисперсия ($\sigma^2 = \frac{\sum (x_i - \bar{x})^2}{n}$),
  - Стандартное отклонение ($\sigma$),
  - Размах (разница между max и min).

## Проверка гипотез
- **H0 (нулевая гипотеза)**: «ничего не изменилось» (например, средний чек одинаков до и после акции).
- **H1 (альтернативная гипотеза)**: «есть эффект» (средний чек вырос).
- **p-value**: вероятность получить такие данные, если H0 верна.
- **Уровень значимости (α)**: порог для отклонения H0 (обычно 0.05). Если p-value < α — отвергаем H0.

**Простыми словами**: 
p-value — это «шанс случайности». Если p-value = 0.01, значит, только 1% вероятности, что наблюдаемый эффект — случайность. Тогда мы верим, что эффект реальный.

## Основные статистические тесты
- **t-тест**: сравнение средних 2 групп (например, доход мужчин и женщин).
- **ANOVA**: сравнение средних ≥3 групп (например, эффективность 3 лекарств).
- **χ²-тест**: проверка связи между категориальными переменными (например, зависимость пола от предпочтения товара).

**Простыми словами**: 
t-тест — «кто круче из двоих», ANOVA — «кто круче из троих», χ²-тест — «зависит ли выбор цвета от пола?».

## Корреляция и ковариация
- **Ковариация**: показывает направление связи между переменными (положительная/отрицательная).
- **Корреляция (Пирсон)**: стандартизированная ковариация (-1 ≤ r ≤ 1):
  - $r = 0$: связи нет,
  - $r > 0$: прямая связь,
  - $r < 0$: обратная связь.
- **Корреляция Спирмена**: для нелинейных связей (работает с рангами).

## Как интерпретировать результаты тестов
1. **p-value < α (0.05)**: отвергаем H0, эффект статистически значим.
2. **p-value ≥ α**: не отвергаем H0, данных недостаточно для выводов.
3. **Корреляция**:
   - |r| > 0.7: сильная связь,
   - 0.3 < |r| < 0.7: умеренная,
   - |r| < 0.3: слабая.

**Важно**: корреляция ≠ причинно-следственная связь!

## Практические задания
1. В выборке 100 клиентов средний возраст = 35 лет, стандартное отклонение = 10. Какой диапазон покрывает 95% данных по правилу 3σ?
2. p-value для t-теста = 0.03 при α = 0.05. Что можно утверждать?
3. Корреляция между доходом и тратами r = 0.85. Как интерпретировать?
4. Какой тест использовать для сравнения конверсии 4 рекламных баннеров?
5. В χ²-тесте p-value = 0.12. Что это означает для гипотезы о связи пола и выбора продукта?