<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/%D0%9F%D1%80%D0%B5%D0%B4%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Предобработка данных

Предобработка данных — это важный этап в анализе и подготовке данных перед их использованием в машинном обучении, визуализации или других задачах. Она направлена на улучшение качества данных, чтобы последующие модели были более точными и надежными.

# 1. Изучение данных (Data Understanding)

## Введение

Изучение данных (Data Understanding) является ключевым этапом в процессе анализа данных и разработки моделей машинного обучения. На данном этапе исследователь проводит первичный анализ структуры и содержания набора данных, выявляет потенциальные проблемы, формирует гипотезы о взаимосвязях между переменными и готовится к последующему этапу предварительной обработки данных. Целью данного этапа является глубокое понимание характеристик исходных данных, что позволяет принимать более обоснованные решения на дальнейших этапах проекта.



## 1. Загрузка данных

### Определение

Загрузка данных — это процесс импорта информации из внешних источников в рабочую среду для последующего анализа. Данный шаг является технической основой всего исследования.

### Форматы файлов

Наиболее распространённые форматы хранения табличных данных:

- **CSV** (Comma-Separated Values) — текстовый формат с разделителями.
- **Excel (.xlsx)** — формат электронных таблиц Microsoft Excel.
- **JSON** — структурированный формат для представления данных.
- **SQL Базы данных** — реляционные базы данных.
- **Parquet, HDF5, Pickle** — специализированные форматы для работы с большими объемами данных.

### Пример реализации на Python

```python
import pandas as pd

# Загрузка CSV файла
df = pd.read_csv('data.csv')

# Загрузка Excel файла
# df = pd.read_excel('data.xlsx')
```

> Примечание: перед загрузкой необходимо убедиться, что файл находится в правильной директории или указан корректный путь к нему.



## 2. Осмотр структуры данных

Цель данного подэтапа — получить общее представление о размерности, типах данных и наличии пропущенных значений.

### a) Размерность датасета

Для определения количества строк и столбцов используется атрибут `.shape` объекта DataFrame.

```python
print(df.shape)
```

Результатом будет кортеж `(количество_строк, количество_столбцов)`.

Пример:
```
(1000, 10)
```
означает, что датасет содержит 1000 строк и 10 столбцов.

### b) Информация о типах данных

Метод `.info()` выводит информацию о структуре DataFrame, включая:

- Имена колонок;
- Количество непропущенных значений;
- Типы данных (`int64`, `float64`, `object` и другие).

```python
print(df.info())
```

Особое внимание следует обратить на столбцы типа `object`, которые могут быть категориальными признаками или ошибками парсинга числовых значений.

### c) Статистическое описание числовых признаков

Функция `.describe()` предоставляет статистическую сводку по числовым столбцам:

```python
print(df.describe())
```

Выводимые метрики:
- Count — количество заполненных значений;
- Mean — среднее значение;
- Std — стандартное отклонение;
- Min/Max — минимальное и максимальное значения;
- Перцентили: 25%, 50% (медиана), 75%.

Для получения аналогичной статистики по категориальным признакам используется вызов метода с параметром `include=['O']`:

```python
print(df.describe(include=['O']))
```


## 3. Первичный осмотр первых N строк

Для визуального анализа структуры и содержания данных рекомендуется просмотреть первые несколько строк.

```python
print(df.head(5))  # Отображение первых 5 строк
```

Этот шаг позволяет:

- Понять, как представлены данные в каждой колонке;
- Обнаружить возможные ошибки ввода, несоответствия форматов;
- Получить интуитивное представление о смысле каждого столбца.



## 4. Понимание значений признаков и целевой переменной

### a) Анализ названий и значений признаков

На этом этапе важно интерпретировать смысл каждого столбца. Например:

- Колонка `Age` может означать возраст клиента;
- `X1`, `Var_2`, `feature_17` — требуют дополнительного контекста или документации.

Если доступна информация о словаре данных, её использование существенно ускоряет и углубляет процесс анализа.

### b) Наличие целевой переменной

Если задача относится к классификации или регрессии, то в датасете должна присутствовать **целевая переменная (label)**.

Примеры:

- `Churn` (значения: "Yes"/"No") — задача бинарной классификации;
- `Price` — задача линейной регрессии.

Целевая переменная обычно выделяется отдельно от остальных признаков:

```python
y = df['Churn']  # Целевая переменная
X = df.drop('Churn', axis=1)  # Матрица признаков
```



## 5. Выявление категориальных и числовых признаков

Классификация признаков по типам необходима для выбора подходящих методов анализа и моделирования.

### a) Числовые признаки (Numerical Features)

Числовые признаки делятся на два подтипа:

- **Дискретные** — принимают только целочисленные значения (например, `Number of Children`);
- **Непрерывные** — принимают любые вещественные значения (например, `Height`, `Weight`).

Для их выделения в Pandas используется следующий код:

```python
numerical_cols = df.select_dtypes(include=['number']).columns.tolist()
print(numerical_cols)
```

### b) Категориальные признаки (Categorical Features)

Категориальные признаки представляют собой качественные характеристики и часто имеют тип `object`.

```python
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
print(categorical_cols)
```

> Важно! Иногда категориальные признаки могут быть закодированы числами (например, `0`, `1`). Такие случаи требуют дополнительной проверки.



## Дополнительные рекомендации

- **Использование словаря данных** — если он предоставлен, его применение позволяет значительно повысить точность интерпретации признаков.
- **Автоматизация анализа** — для автоматического создания отчётов можно использовать библиотеки `pandas-profiling` или `sweetviz`.

Пример использования `pandas-profiling`:

```bash
pip install pandas-profiling
```

```python
from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Pandas Profiling Report")
profile.to_file("report.html")
```

- **Формулирование вопросов** — задавайте вопросы: «Что мы хотим предсказать?», «Как связаны признаки между собой?», «Какие закономерности можно наблюдать?».



## Заключение

Этап изучения данных является фундаментальной частью любого аналитического или ML-проекта. Ниже приведена таблица с кратким описанием каждого этапа:

| Этап | Описание |
|------|----------|
| Загрузка данных | Чтение данных из внешнего источника |
| Осмотр структуры | Определение размерности, типов данных, наличия пропусков |
| Первичный просмотр | Анализ первых строк датасета |
| Интерпретация признаков | Определение смысла каждого столбца и наличие целевой переменной |
| Разделение признаков | Выделение числовых и категориальных признаков |



## Домашнее задание

1. Загрузите открытый набор данных (например, [Titanic](https://www.kaggle.com/c/titanic/data), [Iris](https://archive.ics.uci.edu/ml/datasets/Iris)).
2. Выполните все этапы, рассмотренные выше: загрузите данные, изучите структуру, просмотрите первые строки, интерпретируйте признаки, разделите их на числовые и категориальные.
3. Создайте сводной отчёт с использованием библиотеки `pandas-profiling`.


# 🔹 2. Очистка данных (Data Cleaning)  
## a. Обработка пропущенных значений

Очистка данных — это один из ключевых этапов предварительной обработки, который позволяет улучшить качество набора данных и повысить точность последующего анализа или моделирования. Одним из самых распространённых аспектов очистки является **обработка пропущенных значений** (missing data). Пропуски могут возникать по различным причинам: ошибки ввода, неполные данные, технические сбои и т.д.



## 📌 Цели обработки пропущенных значений

1. Устранение или корректная замена отсутствующих данных.
2. Сохранение максимального объёма информации.
3. Предотвращение систематических ошибок (bias), которые могут возникнуть при игнорировании пропусков.
4. Подготовка данных к дальнейшему анализу или обучению моделей.



## 1. Выявление пропущенных значений

Перед тем как обрабатывать пропуски, необходимо их **обнаружить**. В Python библиотека `pandas` предоставляет удобные инструменты для этого.

```python
import pandas as pd

# Показывает True там, где есть пропуск
df.isnull()

# Количество пропусков по столбцам
df.isnull().sum()

# Процент пропусков по столбцам
(df.isnull().sum() / len(df)) * 100
```

Также можно использовать визуализацию (например, `missingno`, `seaborn`) для более наглядного представления.


## 2. Удаление строк/столбцов с большим количеством пропусков

Если пропуски составляют очень большую долю данных (например, >70%), то может быть целесообразно удалить такие строки или столбцы.

### a) Удаление строк (axis=0)

```python
# Удаляем все строки, где есть хотя бы один пропуск
df_clean = df.dropna(axis=0)

# Удаляем только те строки, где пропущено больше N значений
df_clean = df.dropna(thresh=5)
```

> **Плюсы**: простота, скорость.  
> **Минусы**: потеря информации, возможное нарушение структуры данных.

### b) Удаление столбцов (axis=1)

```python
# Удаляем столбцы, где больше 70% пропусков
threshold = len(df) * 0.7
df_clean = df.dropna(axis=1, thresh=threshold)
```

> Используется редко, если столбец не важен или восстановим из других.



## 3. Заполнение пропущенных значений

В отличие от удаления, заполнение позволяет сохранить структуру данных и использовать всю информацию. Существует несколько подходов:

### a) Заполнение средним (для числовых признаков)

Используется, когда распределение данных примерно нормальное.

```python
mean_value = df['column_name'].mean()
df['column_name'].fillna(mean_value, inplace=True)
```

> **Плюсы**: простота, устойчивость к выбросам (при использовании медианы).  
> **Минусы**: может занижать дисперсию, если много пропусков.

### b) Заполнение медианой (для числовых признаков)

Рекомендуется при наличии выбросов.

```python
median_value = df['column_name'].median()
df['column_name'].fillna(median_value, inplace=True)
```

### c) Заполнение модой (для категориальных признаков)

Для категориальных переменных наиболее логичным способом заполнения является использование **моды** — наиболее часто встречающегося значения.

```python
mode_value = df['category_column'].mode()[0]
df['category_column'].fillna(mode_value, inplace=True)
```

> Также можно использовать "Unknown" или "Missing" как отдельную категорию.

#### 🆕 Альтернатива: заполнение специальным значением (например `'Unknown'`)

Если мода может вносить смещение или пропуски являются информативными, лучше заполнить их специальным значением:

```python
df['category_column'].fillna('Unknown', inplace=True)
```

Это особенно актуально, если пропуски свидетельствуют о скрытой категории.

> ✅ Плюсы:
- Сохраняет информацию о том, что значение было пропущено;
- Может быть полезно для модели, если пропуски закономерны.



### d) Интерполяция (временные ряды)

Для временных рядов можно применять интерполяцию.

```python
df['column_name'].interpolate(method='linear', inplace=True)
```

Методы: `linear`, `polynomial`, `spline`, `time`.



### e) Использование моделей для предсказания пропущенных значений

Более сложный, но потенциально более точный метод — прогнозирование пропущенных значений с помощью регрессии или классификации.

#### Пример:
Если пропущены значения в числовом столбце `Age`, можно обучить модель на остальных признаках, чтобы предсказать недостающие значения.

```python
from sklearn.ensemble import RandomForestRegressor

# Разделение на известные и неизвестные
known = df[df['Age'].notnull()]
unknown = df[df['Age'].isnull()]

X_train = known.drop('Age', axis=1)
y_train = known['Age']
X_test = unknown.drop('Age', axis=1)

model = RandomForestRegressor()
model.fit(X_train, y_train)
predicted = model.predict(X_test)

# Заполняем пропуски
df.loc[df['Age'].isnull(), 'Age'] = predicted
```

> **Плюсы**: высокая точность.  
> **Минусы**: требует времени, ресурсов, знаний, может привести к переобучению.



## 4. Флагирование пропусков (Создание новых признаков)

Этот подход заключается в том, что вместо простого заполнения пропусков мы создаём **новый бинарный признак**, указывающий, было ли значение пропущено.

### Пример:

```python
df['Age_missing'] = df['Age'].isnull().astype(int)
```

Затем можно заполнить пропуски, например, медианой:

```python
df['Age'].fillna(df['Age'].median(), inplace=True)
```

> **Плюсы**: модель получает дополнительную информацию о том, были ли данные пропущены. Это может быть важно, если пропуски не случайны.  
> **Минусы**: увеличение размерности данных.



## 🧠 Рекомендации по выбору метода

| Метод | Когда использовать | Преимущества | Недостатки |
|------|---------------------|---------------|-------------|
| Удаление строк/столбцов | Если пропусков очень много (>70%) или они не критичны | Просто и быстро | Потеря информации |
| Заполнение средним/медианой | Для числовых признаков с нормальным распределением или наличием выбросов | Быстро, легко реализовать | Может снижать дисперсию |
| Заполнение модой | Для категориальных признаков | Логично и просто | Может создавать смещение |
| Заполнение `'Unknown'` | Для категориальных признаков, если пропуск информативен | Сохраняет информацию о пропуске | Требует корректной интерпретации |
| Интерполяция | Для временных рядов | Учитывает порядок | Не подходит для неупорядоченных данных |
| Модели машинного обучения | При высокой цене за неточность данных | Точнее других методов | Сложно, долго, требует опыта |
| Флагирование пропусков | Если пропуски информативны | Добавляет полезную информацию | Увеличивает размерность |



## ✅ Итоги

Обработка пропущенных значений — это ответственный процесс, требующий понимания данных и задачи. Ниже представлен общий алгоритм действий:

1. **Выявить** наличие пропусков.
2. **Проанализировать** характер пропусков: случайны они или закономерны.
3. **Выбрать** метод обработки в зависимости от типа признака и объёма пропусков.
4. **Применить** выбранный метод.
5. **Зафиксировать** изменения и, при необходимости, добавить новые признаки (флаги).



## 📚 Домашнее задание

1. Возьмите любой открытый датасет с пропущенными значениями (например, [Titanic](https://www.kaggle.com/c/titanic/data)).
2. Проверьте наличие пропусков.
3. Примените следующие методы:
   - Удаление строк или столбцов;
   - Заполнение средним/медианой и модой;
   - Создайте флаговые признаки;
   - По желанию: попробуйте заполнить пропуски моделью.
4. Сравните, как разные методы влияют на статистики признаков.


# 🔹 2. Очистка данных (Data Cleaning)  
## b. Удаление дубликатов

Дубликаты — это повторяющиеся записи в наборе данных, которые могут искажать результаты анализа или обучения модели. Они могут быть **полными** (повторяются все значения в строке) или **частичными** (повторяются только ключевые поля). Их удаление — важный этап подготовки данных.



### 📌 Цели удаления дубликатов

1. **Устранение избыточности данных**, которая может привести к смещению статистических оценок.
2. **Повышение точности анализа** и качества моделей машинного обучения.
3. **Сохранение чистоты и логической целостности данных.**



### 1. Полные дубликаты (строки)

Это строки, где все значения во всех столбцах совпадают. Такие дубликаты обычно легко обнаружить и удалить.

#### Пример:

```python
# Показывает дубликаты (кроме первой встречаемой)
df.duplicated()

# Подсчёт количества полных дубликатов
df.duplicated().sum()

# Удаление дубликатов
df_clean = df.drop_duplicates()
```

> ⚠️ По умолчанию `drop_duplicates()` сохраняет первую встреченную строку и удаляет последующие. Чтобы сохранять последнюю, используйте параметр:  
> ```python
> df.drop_duplicates(keep='last')
> ```



### 2. Частичные дубликаты (по ключевым полям)

Иногда важно проверить дублирование только по определённым признакам — например, по ID клиента, номеру транзакции, дате события и т.д.

#### Пример:

```python
# Удаление дубликатов только по ключевому столбцу 'customer_id'
df_clean = df.drop_duplicates(subset=['customer_id'])

# Можно указать несколько полей:
df_clean = df.drop_duplicates(subset=['customer_id', 'transaction_date'])
```

> ✅ Это особенно актуально при работе с таблицами, где уникальность определяется несколькими полями.



## 🧠 Рекомендации

| Ситуация | Что делать |
|---------|------------|
| Полные дубликаты | Удалить с помощью `drop_duplicates()` |
| Частичные дубликаты | Указать `subset` с ключевыми столбцами |
| Нужно оставить все дубликаты для анализа | Не удалять, а анализировать отдельно |



## c. Исправление ошибок

Ошибки в данных — ещё один распространённый источник проблем. Они могут быть как техническими (например, некорректный тип), так и смысловыми (логические несоответствия).



### 1. Типографические ошибки

Часто встречаются в категориальных переменных. Например:

- `'Yees'`, `'No'` вместо `'Yes'`;
- `'Malee'`, `'M'` вместо `'Male'`.

#### Пример исправления:

```python
# Используем replace для замены значений
df['Gender'] = df['Gender'].replace({'Malee': 'Male', 'M': 'Male', 'Femal': 'Female'})

# Для множества ошибок можно использовать регулярные выражения
import pandas as pd

df['Answer'] = df['Answer'].str.replace(r'(?i)y.*s', 'Yes', regex=True)
df['Answer'] = df['Answer'].str.replace(r'(?i)n.*', 'No', regex=True)
```

> 💡 Использование библиотеки `fuzzywuzzy` позволяет автоматически находить и исправлять неточности на основе "расстояния Левенштейна".



### 2. Логические ошибки

Эти ошибки связаны с нарушением здравого смысла или бизнес-правил. Например:

- Отрицательный возраст;
- Дата рождения в будущем;
- Зарплата меньше прожиточного минимума (при явном заведомо неверном значении);
- Возраст ребёнка старше родителя и т.д.

#### Примеры обработки:

##### a) Отрицательный возраст

```python
# Установим минимальный возраст равным 0
df = df[df['Age'] >= 0]
```

или заполним неверные значения медианой:

```python
median_age = df['Age'][df['Age'] > 0].median()
df.loc[df['Age'] < 0, 'Age'] = median_age
```

##### b) Дата рождения в будущем

```python
from datetime import datetime

current_year = datetime.now().year
df = df[df['Birth_Date'].dt.year <= current_year]
```

##### c) Использование условий для фильтрации

```python
# Если зарплата меньше 1000 — возможно, ошибка
df = df[df['Salary'] >= 1000]
```

> ⚠️ Важно понимать контекст: иногда такие значения могут быть допустимыми (например, тестовые данные, дети и т.п.).



## d. Приведение к правильным типам данных

Правильное определение типа данных — ключевой шаг, влияющий на корректность вычислений, визуализаций и моделирования.



### 1. Изменение типа столбцов

Иногда при загрузке данных Pandas неправильно определяет типы (например, числа интерпретируются как строки, даты как объекты и т.д.).

#### Примеры:

##### a) Преобразование в числовой тип

```python
df['Price'] = pd.to_numeric(df['Price'], errors='coerce')
```

> `errors='coerce'` преобразует некорректные значения в `NaN`.

##### b) Преобразование в дату

```python
df['Date'] = pd.to_datetime(df['Date'], errors='coerce')
```

##### c) Преобразование в категориальный тип

```python
df['Category'] = df['Category'].astype('category')
```

> Это уменьшает объём памяти и ускоряет операции.

##### d) Явное указание типов при загрузке

```python
dtypes = {
    'ID': 'int64',
    'Name': 'object',
    'Birth_Date': 'datetime64[ns]',
    'Gender': 'category'
}

df = pd.read_csv('data.csv', dtype=dtypes)
```


### 2. Автоматическое определение типов

Если типы неизвестны, можно воспользоваться функцией `infer_objects()`:

```python
df = df.infer_objects()
```

> Эта функция пытается автоматически преобразовать столбцы в более подходящие типы.



## ✅ Общий алгоритм очистки данных

1. **Поиск и удаление дубликатов**:
   - Полные и частичные дубликаты.
2. **Исправление ошибок**:
   - Типографические и логические ошибки.
3. **Приведение к правильным типам данных**:
   - Числовые, даты, категориальные значения.



## 📚 Домашнее задание

1. Загрузите любой открытый датасет (например, [Titanic](https://www.kaggle.com/c/titanic/data), [Adult Income](https://archive.ics.uci.edu/ml/datasets/Adult)).
2. Выполните следующее:
   - Найдите и удалите полные и частичные дубликаты.
   - Проверьте наличие типографических и логических ошибок — исправьте их.
   - Приведите все столбцы к правильным типам данных.
3. Сохраните очищенный датасет и сравните его с исходным по размеру и структуре.



# 🔹 3. Работа с выбросами (Outliers)

## 📌 Введение

**Выбросы (outliers)** — это аномальные значения в наборе данных, которые существенно отличаются от остальных наблюдений. Они могут возникать вследствие ошибок измерения, сбора данных или быть результатом редких, но закономерных событий.

### Возможные причины появления выбросов:

- Технические ошибки при вводе/сборе данных;
- Аномалии в системе (например, неисправность оборудования);
- Естественные отклонения от среднего (например, высокий доход клиента в выборке со средним уровнем достатка);
- Сбои программного обеспечения.



## 🧠 Значение работы с выбросами

Учет и корректная обработка выбросов важны по следующим причинам:

1. **Влияние на статистические показатели**: выбросы могут сильно исказить такие метрики, как среднее значение, дисперсия, стандартное отклонение.
2. **Снижение качества моделей машинного обучения**, особенно тех, которые чувствительны к расстояниям между точками (линейная регрессия, KNN, SVM).
3. **Искажение графиков и визуализаций**, что затрудняет восприятие основной тенденции.
4. **Потенциальная полезность информации**: в задачах детектирования мошенничества, анализа аномалий, прогнозирования отказов оборудование выбросы могут содержать ключевые данные.



## 1. Визуализация распределения

Первым этапом в работе с выбросами является их **визуальное обнаружение**. Ниже приведены наиболее распространённые методы визуализации для выявления аномалий.

### a) Boxplot (ящик с усами)

Boxplot — один из самых популярных способов визуального определения выбросов. Он отображает медиану, квартили, а также точки, выходящие за пределы "усов" графика.

```python
import seaborn as sns
sns.boxplot(x=df['Age'])
```

> ✅ Преимущества: наглядно, простая интерпретация.  
> ⚠️ Недостатки: может давать ложные сигналы при ненормальном распределении.



### b) Scatter plot (диаграмма рассеивания)

Диаграмма рассеивания позволяет анализировать выбросы в двумерном пространстве.

```python
import matplotlib.pyplot as plt
plt.scatter(df['Age'], df['Salary'])
```

> ✅ Полезно для выявления аномалий в зависимости между двумя числовыми переменными.

---

### c) Гистограммы и KDE (ядерная оценка плотности)

Гистограммы и графики плотности позволяют понять форму распределения и заметить хвосты, указывающие на наличие выбросов.

```python
import seaborn as sns
sns.histplot(df['Age'], kde=True)
```

> ✅ Хорошо подходит для анализа формы распределения и оценки его симметрии.



## 2. Статистические методы обнаружения выбросов

Кроме визуального анализа, можно использовать **количественные методы**, позволяющие формально определить, какие значения следует считать выбросами.

### a) Z-score (стандартизированное отклонение)

Z-score используется для нормально распределённых данных и показывает, насколько стандартных отклонений значение отклоняется от среднего.

#### Формула:
$$
z = \frac{x - \mu}{\sigma}
$$
где:
- $ x $ — текущее значение,
- $ \mu $ — среднее,
- $ \sigma $ — стандартное отклонение.

#### Пример:

```python
from scipy import stats
import numpy as np

z_scores = np.abs(stats.zscore(df['Age']))
threshold = 3
df_clean = df[z_scores < threshold]
```

> ✅ Подходит для нормального распределения.  
> ❌ Может быть неприменим при наличии сильной асимметрии.



### b) IQR — Межквартильный размах

IQR (Interquartile Range) — универсальный метод, который применяется даже при ненормальном распределении данных.

#### Формула:
$$
IQR = Q3 - Q1
$$
Значения считаются выбросами, если они:
- меньше $ Q1 - 1.5 \cdot IQR $
- больше $ Q3 + 1.5 \cdot IQR $

#### Пример:

```python
Q1 = df['Age'].quantile(0.25)
Q3 = df['Age'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

df_clean = df[(df['Age'] >= lower_bound) & (df['Age'] <= upper_bound)]
```

> ✅ Универсальный подход, работает с любым типом распределения.  
> ⚠️ Чувствителен к размеру выборки.



## 📘 Что такое скошенное (асимметричное) распределение?

**Скошенное распределение (skewed distribution)** — это несимметричное распределение, в котором хвост значений смещён либо влево, либо вправо относительно центральной части.

### Два типа асимметрии:

- **Правосторонняя (положительная) асимметрия** — длинный правый хвост. Среднее > медианы.
- **Левосторонняя (отрицательная) асимметрия** — длинный левый хвост. Среднее < медианы.

#### Причины скошенности:
- Наличие очень больших значений (например, зарплаты, стоимость недвижимости).
- Ограничения на минимальные/максимальные значения.

#### Пример скошенного распределения:
Рассмотрим столбец `Income` — большинство людей имеют средний доход, но есть несколько с очень высоким доходом, что создаёт длинный правый хвост.

```python
sns.histplot(df['Income'], kde=True)
```

#### Как исправить?
Для работы с скошенным распределением часто используются **преобразования**, например:
- Логарифмирование: `np.log(x)`
- Квадратный корень: `np.sqrt(x)`
- Box-Cox преобразование (только для положительных значений)



## 3. Решения по работе с выбросами

После обнаружения выбросов необходимо принять решение, как с ними поступить. Ниже представлены основные стратегии.



### a) Удаление записей

Если выбросы являются явной ошибкой или их количество невелико, можно удалить соответствующие строки.

```python
df_clean = df[(df['Age'] >= lower_bound) & (df['Age'] <= upper_bound)]
```

> ✅ Простой и быстрый способ.  
> ❌ Может привести к потере важной информации.



### b) Каппинг (ограничение значений)

Можно ограничить значения до определённого порога вместо удаления.

```python
df['Age'] = np.where(df['Age'] > upper_bound, upper_bound, df['Age'])
df['Age'] = np.where(df['Age'] < lower_bound, lower_bound, df['Age'])
```

> ✅ Сохраняет объём выборки.  
> ❌ Может исказить реальное распределение.



### c) Трансформация (логарифмирование, степенные преобразования)

Для уменьшения влияния выбросов и устранения скошенности применяются различные математические преобразования.

#### Логарифмическое преобразование:

```python
df['Log_Age'] = np.log(df['Age'] + 1)  # +1 чтобы избежать log(0)
```

#### Box-Cox преобразование:

```python
from scipy.stats import boxcox
df['Transformed_Age'], lambda_val = boxcox(df['Age'] + 1)
```

> ✅ Полезно для моделей, требующих нормального распределения.  
> ❌ Требует интерпретации преобразованных данных.



### d) Игнорирование, если модель нечувствительна к выбросам

Некоторые модели машинного обучения менее чувствительны к выбросам:

- **Деревья решений**
- **Случайный лес**
- **Градиентный бустинг (XGBoost, LightGBM, CatBoost)**

> ✅ Не теряем данные, экономим время.  
> ❌ Выбросы всё ещё могут влиять на обучение, особенно в ансамблях.



## 🧠 Как выбрать метод работы с выбросами?

| Метод | Когда использовать | Преимущества | Недостатки |
|------|---------------------|---------------|-------------|
| Удаление | Если выбросы — ошибки и их мало | Простота | Потеря информации |
| Каппинг | Если выбросы возможны, но не критичны | Сохраняет размерность | Искажает распределение |
| Логарифмирование | При скошенных данных и необходимости нормализации | Уменьшает влияние больших значений | Требует интерпретации |
| Игнорирование | Если модель нечувствительна к выбросам | Экономия времени | Риск недообучения или переобучения |



## ✅ Общий алгоритм работы с выбросами

1. **Визуализируйте** данные (boxplot, гистограмма, scatter plot).
2. **Обнаружьте** выбросы с помощью статистических методов (IQR, Z-score).
3. **Проанализируйте** контекст: ошибка или закономерность?
4. **Примените** подходящий метод:
   - Удаление,
   - Каппинг,
   - Трансформация,
   - Игнорирование.
5. **Оцените** влияние изменений на модель или анализ.



## 📚 Домашнее задание

1. Загрузите любой числовой датасет (например, [Boston House Prices](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html)).
2. Постройте визуализации (boxplot, гистограмма, scatter plot) для нескольких числовых столбцов.
3. Обнаружьте выбросы с помощью IQR и Z-score.
4. Примените разные методы:
   - Удаление;
   - Каппинг;
   - Логарифмирование.
5. Сравните, как эти методы повлияли на распределение и статистику признаков.


# 🔹 4. Кодирование категориальных признаков (Categorical Encoding)

## 📌 Введение

Категориальные признаки — это переменные, которые принимают значения из ограниченного набора возможных вариантов (например: `['Male', 'Female']`, `['Red', 'Green', 'Blue']`).

Большинство алгоритмов машинного обучения не могут напрямую обрабатывать текстовые или категориальные данные, поэтому их необходимо **закодировать** в числовом виде.



## 🧮 Типы категориальных признаков

| Тип | Описание | Пример |
|-----|----------|--------|
| **Номинальные (Nominal)** | Нет естественного порядка | Пол (`Male`, `Female`), Цвет (`Red`, `Blue`) |
| **Ординальные (Ordinal)** | Есть упорядоченность | Уровень удовлетворённости (`Low`, `Medium`, `High`), Образование (`High School`, `Bachelor`, `Master`, `PhD`) |



## 🧠 Задача кодирования

Цель кодирования:
- Перевести категориальные значения в числа.
- Сохранить информацию о различиях и взаимосвязях между категориями.
- Избежать ложной интерпретации порядка (например, чтобы модель не думала, что `1 < 2 < 3` для номинальных данных).



## 🔢 Подробный разбор методов кодирования

### 1. **One-Hot Encoding**

Преобразует каждую категорию в отдельный бинарный столбец (0 или 1), указывающий наличие этой категории.

#### Пример:

| Original | A | B | C |
|----------|---|---|---|
| A        | 1 | 0 | 0 |
| B        | 0 | 1 | 0 |
| C        | 0 | 0 | 1 |

```python
pd.get_dummies(df, columns=['Category'])
```

> ✅ Плюсы:
- Не предполагает порядок;
- Просто реализуется.

> ❌ Минусы:
- Создаёт много новых признаков (curse of dimensionality);
- Не подходит для категорий с высокой кардинальностью.



### 2. **Label Encoding**

Присваивает каждой уникальной категории целое число от 0 до n_classes - 1.

#### Пример:

| Original | Encoded |
|----------|---------|
| Red      | 0       |
| Green    | 1       |
| Blue     | 2       |

```python
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['Encoded'] = le.fit_transform(df['Color'])
```

> ✅ Плюсы:
- Простота реализации;
- Экономия памяти.

> ❌ Минусы:
- Модель может ошибочно интерпретировать числа как порядковые значения;
- Не рекомендуется использовать для номинальных признаков.


### 3. **Ordinal Encoding**

Аналогичен Label Encoding, но позволяет явно задать порядок категорий.

#### Пример:

| Original | Encoded |
|----------|---------|
| Low      | 0       |
| Medium   | 1       |
| High     | 2       |

```python
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder(categories=[['Low', 'Medium', 'High']])
df['Encoded'] = encoder.fit_transform(df[['Rating']])
```

> ✅ Плюсы:
- Учитывает порядок;
- Подходит для ординальных данных.

> ❌ Минусы:
- Не подходит для номинальных категорий.



### 4. **Target Encoding / Mean Encoding**

Заменяет категорию на среднее значение целевой переменной для этой категории.

#### Пример:

Для задачи классификации с целевой переменной `Churn` (0/1):

| City       | Churn_mean |
|------------|------------|
| Moscow     | 0.35       |
| Saint-Petersburg | 0.28 |
| Kazan      | 0.42       |

```python
from category_encoders import TargetEncoder
te = TargetEncoder()
df['City_encoded'] = te.fit_transform(df['City'], df['Churn'])
```

> ✅ Плюсы:
- Работает с высокой кардинальностью;
- Использует информацию о целевой переменной.

> ❌ Минусы:
- Может вызвать переобучение (особенно на малых выборках);
- Требует защиты от data leakage (например, кросс-валидационное кодирование).



### 5. **Frequency Encoding**

Каждая категория заменяется частотой её появления в датасете.

#### Пример:

| City       | Frequency |
|------------|-----------|
| Moscow     | 0.4       |
| Saint-Petersburg | 0.3 |
| Kazan      | 0.3       |

```python
freq = df['City'].value_counts(normalize=True)
df['City_freq'] = df['City'].map(freq)
```

> ✅ Плюсы:
- Простота;
- Хорошо работает, когда частота связана с целевой переменной.

> ❌ Минусы:
- Может быть шумным;
- Не учитывает связь с целевой переменной напрямую.

---

### 6. **Binary Encoding**

Сначала категории кодируются числами (как в Label Encoding), затем эти числа переводятся в двоичную систему и разбиваются на биты.

```python
from category_encoders import BinaryEncoder
be = BinaryEncoder()
df_binary = be.fit_transform(df['City'])
```

> ✅ Плюсы:
- Меньше колонок, чем One-Hot;
- Сохраняет часть информации.

> ❌ Минусы:
- Сложно интерпретируемый;
- Менее точный, чем Target Encoding.

---

### 7. **Hashing Encoding (Feature Hashing)**

Использует хэш-функцию для преобразования категорий в фиксированное количество чисел (обычно меньше исходного числа категорий).

```python
from sklearn.feature_extraction import FeatureHasher
hasher = FeatureHasher(n_features=4, input_type='string')
hashed_features = hasher.transform(df['City'])
```

> ✅ Плюсы:
- Подходит для больших категорий;
- Фиксированная размерность.

> ❌ Минусы:
- Возможны коллизии (разные категории получают один и тот же хэш);
- Потеря интерпретируемости.

---

### 8. **Leave-One-Out Encoding**

Похож на Target Encoding, но при кодировании конкретной строки не учитывается сама эта строка (минимизация утечки данных).

```python
from category_encoders import LeaveOneOutEncoder
looe = LeaveOneOutEncoder()
df_loo = looe.fit_transform(df['City'], df['Churn'])
```

> ✅ Плюсы:
- Защищено от data leakage;
- Высокая эффективность.

> ❌ Минусы:
- Требует больше вычислений.

---

### 9. **James-Stein Encoder**

Основан на статистическом подходе Штейна — сглаживает средние значения целевой переменной по группам, "схлопывая" их к общему среднему.

```python
from category_encoders import JamesSteinEncoder
jse = JamesSteinEncoder()
df_jse = jse.fit_transform(df['City'], df['Churn'])
```

> ✅ Плюсы:
- Снижает влияние шума в редких категориях;
- Хорошо работает с малыми выборками.

> ❌ Минусы:
- Сложнее в интерпретации.

---

### 10. **M-Estimator Encoding**

Упрощённая версия Target Encoding, где категория кодируется средним значением целевой переменной, скорректированным с учетом априорного распределения.

```python
from category_encoders import MEstimateEncoder
mee = MEstimateEncoder(m=10)  # m — вес априорного среднего
df_mee = mee.fit_transform(df['City'], df['Churn'])
```

> ✅ Плюсы:
- Баланс между общей средней и средней по категории;
- Устойчив к выбросам.

> ❌ Минусы:
- Требует настройки параметра `m`.

---

### 11. **Helmert Encoding**

Сравнивает уровни фактора с **средним всех предыдущих уровней** (Reverse Helmert — наоборот).

```python
from category_encoders import HelmertEncoder
he = HelmertEncoder()
df_he = he.fit_transform(df['Education'])
```

> ✅ Плюсы:
- Используется в ANOVA и регрессионном анализе.

> ❌ Минусы:
- Требует понимания порядка категорий;
- Редко используется в ML.

---

### 12. **Polynomial Encoding**

Используется, если категория имеет **количественную природу** и можно привязать её к полиномиальным функциям (линейный, квадратичный тренд и т.д.).

```python
from category_encoders import PolynomialEncoder
pe = PolynomialEncoder()
df_pe = pe.fit_transform(df['Education'])
```

> ✅ Плюсы:
- Учитывает числовую природу категорий.

> ❌ Минусы:
- Редко применяется в практике ML.

---

### 13. **Sum (Deviation) Encoding**

Каждый уровень кодируется отклонением от общего среднего значения целевой переменной.

```python
from category_encoders import SumEncoder
se = SumEncoder()
df_se = se.fit_transform(df['City'], df['Churn'])
```

> ✅ Плюсы:
- Подходит для анализа отклонений.

> ❌ Минусы:
- Сложно интерпретируемый;
- Редко используется.

---

### 14. **CatBoost Encoding**

Реализация Target Encoding с защитой от утечки данных. Используется внутри самого CatBoost.

```python
from catboost import CatBoostClassifier
model = CatBoostClassifier()
model.fit(X_train, y_train, cat_features=[0, 1, 2])  # Индексы категориальных признаков
```

> ✅ Плюсы:
- Встроенная защита от утечки;
- Высокая производительность.

> ❌ Минусы:
- Работает только с CatBoost.

---

### 15. **Entity Embeddings (для нейронных сетей)**

Используется в глубоком обучении: каждая категория кодируется вектором непрерывных чисел (эмбеддингом), который обучается вместе с моделью.

```python
import tensorflow as tf
from tensorflow.keras.layers import Input, Embedding, Flatten, Dense
from tensorflow.keras.models import Model

inputs = Input(shape=(1,))
embedding = Embedding(input_dim=len(unique_categories), output_dim=embedding_dim)(inputs)
flattened = Flatten()(embedding)
output = Dense(1)(flattened)

model = Model(inputs=inputs, outputs=output)
```

> ✅ Плюсы:
- Ловит сложные зависимости;
- Подходит для больших категорий.

> ❌ Минусы:
- Требует больших данных;
- Сложно интерпретируемый;
- Работает только в нейросетях.

---

## 📊 Сводная таблица методов

| Метод | Для каких данных | Порядок | Учет целевой | Преимущества | Недостатки |
|-------|------------------|---------|--------------|---------------|-------------|
| One-Hot | Номинальные | ❌ | ❌ | Простота | Большая размерность |
| Label | Номинальные | ❌ | ❌ | Простота | Ложный порядок |
| Ordinal | Ординальные | ✅ | ❌ | Учитывает порядок | Только для ординальных |
| Target | Любые | ❌ | ✅ | Высокая мощность | Risk overfitting |
| Frequency | Любые | ❌ | ❌ | Простота | Слабая связь с целевой |
| Binary | Любые | ❌ | ❌ | Меньше колонок | Менее точный |
| Hashing | Любые | ❌ | ❌ | Фиксированная размерность | Коллизии |
| Leave-One-Out | Любые | ❌ | ✅ | Без утечки | Вычислительно затратно |
| James-Stein | Любые | ❌ | ✅ | Сглаживание | Сложность |
| M-Estimator | Любые | ❌ | ✅ | Баланс | Настройка параметра |
| Helmert | Ординальные | ✅ | ❌ | Для ANOVA | Редко используется |
| Polynomial | Ординальные | ✅ | ❌ | Учитывает численность | Редко используется |
| Sum | Любые | ❌ | ✅ | Отклонения | Сложно интерпретировать |
| CatBoost | Любые | ❌ | ✅ | Встроенный | Только в CatBoost |
| Entity Embedding | Любые | ❌ | ✅ | Глубокие связи | Только в DL |



## ✅ Рекомендации по выбору метода



## 📊 Сводная таблица с формулами и обозначениями

| Метод | Формула | Обозначения |
|-------|---------|-------------|
| **One-Hot Encoding** | $ x_i^{(k)} = \begin{cases} 1, & x_i = c_k \\ 0, & \text{иначе} \end{cases} $ | $ x_i $ — значение признака у i-го объекта; $ c_k $ — k-я категория; $ x_i^{(k)} $ — новое бинарное значение |
| **Label Encoding** | $ x_{\text{encoded}} = \text{rank}(x_i) $ | Каждой категории присваивается уникальный номер (целое число) |
| **Ordinal Encoding** | $ x_{\text{encoded}} = f(c_1) < f(c_2) < \dots < f(c_K) $ | $ f(\cdot) $ — заданное числовое отображение для упорядоченных категорий |
| **Target / Mean Encoding** | $ x_{\text{encoded}}(c_k) = \frac{\sum y_i \cdot \mathbb{I}(x_i = c_k)}{\sum \mathbb{I}(x_i = c_k)} $ | $ y_i $ — целевая переменная; $ \mathbb{I}(\cdot) $ — индикатор равенства категории |
| **Frequency Encoding** | $ x_{\text{encoded}}(c_k) = \frac{\#\{x_i = c_k\}}{n} $ | $ n $ — общее количество наблюдений |
| **Binary Encoding** | $ x_{\text{binary}} = \text{binarize}(\text{label\_encode}(x_i)) $ | Сначала Label Encoding, затем перевод в бинарную форму и разделение на биты |
| **Hashing Encoding** | $ x_{\text{hashed}} = h(x_i) \mod N $ | $ h(\cdot) $ — хэш-функция; $ N $ — размер выходного пространства |
| **Leave-One-Out Encoding** | $ x_{\text{loo}}(c_k) = \frac{\sum_{j \neq i} y_j \cdot \mathbb{I}(x_j = c_k)}{\sum_{j \neq i} \mathbb{I}(x_j = c_k)} $ | Для каждого объекта среднее считается без него |
| **James-Stein Encoder** | $ x_{\text{JS}}(c_k) = w_k \cdot \mu_k + (1 - w_k) \cdot \mu_{\text{global}} $ | $ \mu_k $ — среднее таргета по категории; $ \mu_{\text{global}} $ — общее среднее; $ w_k = \frac{n_k}{n_k + m} $ |
| **M-Estimator Encoding** | $ x_{\text{ME}}(c_k) = \frac{n_k \cdot \mu_k + m \cdot \mu_{\text{global}}}{n_k + m} $ | $ n_k $ — кол-во объектов в категории; $ m $ — параметр регуляризации |
| **Helmert Encoding** | $ x_{\text{helmert}}(c_k) = \bar{y}_k - \frac{1}{k - 1} \sum_{j=1}^{k - 1} \bar{y}_j $ | Сравнение текущей категории со средним предыдущих |
| **Polynomial Encoding** | $ x_{\text{poly}} = [P_1(z_k), ..., P_d(z_k)] $ | $ z_k $ — числовое представление категории (например, ранг); $ P_d $ — ортогональные полиномы |
| **Sum Encoding (Deviation)** | $ x_{\text{sum}}(c_k) = \mu_k - \mu_{\text{global}} $ | Отклонение среднего категории от общего среднего значения |
| **CatBoost Encoding** | $ x_{\text{catboost}}(c_k) = \frac{\sum_{i \in S_{<t}} y_i}{|S_{<t}|} $ | $ S_{<t} $ — данные, наблюдавшиеся до текущего шага обучения (для избежания утечки) |
| **Entity Embedding** | $ x_{\text{embedding}}(c_k) = v_k \in \mathbb{R}^d $ | $ v_k $ — обучаемый d-мерный вектор для категории $ c_k $ |



## ✅ Рекомендации по выбору метода

| Задача / Контекст | Подходящие методы |
|-------------------|------------------|
| Научная работа / статистика | M-Estimator, James-Stein, Target Encoding |
| Интерпретируемость важна | One-Hot, Ordinal, Frequency Encoding |
| Глубокое обучение / нейросети | Entity Embeddings |
| Большие данные / много категорий | Target Encoding, Hashing Encoding, CatBoost Encoding |
| Деревья / ансамбли | Label/Ordinal Encoding, Target Encoding, CatBoost Encoding |



## 📚 Домашнее задание

1. Загрузите любой открытый датасет с категориальными признаками (например, [Titanic](https://www.kaggle.com/c/titanic/data)).
2. Примените следующие методы кодирования:
   - One-Hot Encoding
   - Label Encoding
   - Target Encoding
   - CatBoost Encoding
   - Binary Encoding
3. Обучите простую модель (например, LogisticRegression или RandomForest).
4. Сравните качество моделей после применения разных кодирований.


# 🔹 5. Масштабирование признаков (Feature Scaling)

## 📌 Введение

**Масштабирование признаков (Feature Scaling)** — это процесс приведения числовых значений различных признаков к одному масштабу. Это важно, потому что **многие алгоритмы машинного обучения чувствительны к разнице в диапазонах между признаками**, особенно те, которые используют **расстояние или градиенты**.



## 🧠 Почему важно масштабировать признаки?

1. **Ускоряет обучение**: особенно для методов на основе градиентного спуска.
2. **Повышает точность модели**: предотвращает доминирование признака с большим масштабом.
3. **Улучшает интерпретируемость**: все признаки находятся в одинаковых условиях.
4. **Необходимо для некоторых алгоритмов**, например:
   - KNN
   - SVM
   - Логистическая регрессия с регуляризацией
   - Градиентный бустинг (частично)
   - PCA
   - Нейронные сети

---

## 📈 Основные методы масштабирования

| Метод | Чувствителен к выбросам | Диапазон | Формула |
|-------|--------------------------|----------|---------|
| Standardization (Z-score) | ✅ Да | $ (-\infty, +\infty) $ | $ z = \frac{x - \mu}{\sigma} $ |
| Min-Max Normalization | ✅ Да | $ [0, 1] $ | $ x' = \frac{x - x_{min}}{x_{max} - x_{min}} $ |
| Robust Scaler | ❌ Нет | $ [-1, 1] $ (по умолчанию) | $ x' = \frac{x - Q_2}{Q_3 - Q_1} $ |



## 🧮 Подробное описание методов



### 1. **Standardization (Z-score scaling)**

Преобразует данные так, чтобы они имели **нулевое среднее и единичное стандартное отклонение**.

### Формула:
$$
z = \frac{x - \mu}{\sigma}
$$

Где:
- $ x $ — исходное значение;
- $ \mu $ — среднее значение по признаку:  
  $$ \mu = \frac{1}{n} \sum_{i=1}^{n} x_i $$
- $ \sigma $ — стандартное отклонение:  
  $$ \sigma = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \mu)^2} $$

> ✅ Результат: среднее = 0, дисперсия = 1.


#### Пример:

```python
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
```

> ✅ Преимущества:
- Хорошо работает, если данные нормально распределены;
- Подходит для моделей, использующих нормальное распределение (например, линейная регрессия).

> ❌ Недостатки:
- Чувствителен к выбросам (из-за использования среднего и дисперсии).



### 2. **Min-Max Normalization**

Приводит значения к диапазону **[0, 1]**.

#### Формула:
$$
x' = \frac{x - x_{min}}{x_{max} - x_{min}}
$$

Где:
- $ x_{min} $ — минимальное значение по признаку;
- $ x_{max} $ — максимальное значение по признаку.

> ✅ Результат: все значения лежат между 0 и 1.

#### Пример:

```python
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)
```

> ✅ Преимущества:
- Все значения легко интерпретируются;
- Полезно, когда известны границы данных (например, измерения температуры от 0 до 100°C).

> ❌ Недостатки:
- Также чувствителен к выбросам;
- Не сохраняет формы распределения.



### 3. **Robust Scaling (устойчивый к выбросам)**

Использует медиану и межквартильный размах (IQR), поэтому устойчив к выбросам.

#### Формула:
$$
x' = \frac{x - Q_2}{Q_3 - Q_1}
$$

Где:
- $ Q_2 $ — медиана (50-й перцентиль);
- $ Q_3 $ — 75-й перцентиль;
- $ Q_1 $ — 25-й перцентиль;
- $ IQR = Q_3 - Q_1 $

> ✅ Результат: данные центрированы около медианы и нормализованы по IQR.

#### Пример:

```python
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
X_scaled = scaler.fit_transform(X)
```

> ✅ Преимущества:
- Устойчив к выбросам;
- Хорошо подходит, если данные имеют тяжёлые хвосты или аномалии.

> ❌ Недостатки:
- Результат зависит от распределения;
- Может быть неудобен, если требуется фиксированный диапазон, например [0, 1].



## 🧩 Другие полезные методы

Хотя они не всегда относятся к классическому "масштабированию", иногда применяются для преобразования признаков:

### a) **Max Absolute Scaling**

Приводит значения к диапазону **[-1, 1]**, деля каждое значение на максимум по модулю.

#### Формула:
$$
x' = \frac{x}{|x_{max}|}
$$

Где:
- $ x_{max} $ — максимальное значение по модулю:  
  $$ |x_{max}| = \max(|x_1|, |x_2|, ..., |x_n|) $$

> ✅ Результат: сохраняет структуру распределения и знак.

Пример

```python
from sklearn.preprocessing import MaxAbsScaler
scaler = MaxAbsScaler()
X_scaled = scaler.fit_transform(X)
```



### b) **Quantile Transformer / Rank Transformation**

Преобразует значения в равномерное или нормальное распределение, основываясь на рангах.

#### Формула (равномерное распределение):
$$
x'_i = \frac{\text{rank}(x_i)}{n}
$$

Где:
- $ \text{rank}(x_i) $ — позиция $ x_i $ в отсортированном списке значений;
- $ n $ — общее количество наблюдений.

Можно также преобразовать в нормальное с помощью обратной функции ошибок:
$$
x'_i = \Phi^{-1}\left(\frac{\text{rank}(x_i)}{n + 1}\right)
$$

Где $ \Phi^{-1} $ — обратная функция стандартного нормального распределения.

> ✅ Результат: значения следуют заданному закону распределения.

Пример

```python
from sklearn.preprocessing import QuantileTransformer
scaler = QuantileTransformer(output_distribution='normal')
X_scaled = scaler.fit_transform(X)
```

> ✅ Полезно для негладких распределений и нелинейных зависимостей.



### c) **Power Transformer (Yeo-Johnson, Box-Cox)**


Применяется для приведения распределения к нормальному виду.

#### a) **Box-Cox Transformation** (работает только для положительных значений):

##### Формула:
$$
x' =
\begin{cases}
\frac{x^\lambda - 1}{\lambda}, & \text{если } \lambda \neq 0 \\
\ln(x), & \text{если } \lambda = 0
\end{cases}
$$

#### b) **Yeo-Johnson Transformation** (работает для любых значений, включая отрицательные):

##### Формула:

$$
x' =
\begin{cases}
\frac{(x + 1)^\lambda - 1}{\lambda}, & \text{если } x \geq 0, \lambda \neq 0 \\
\ln(x + 1), & \text{если } x \geq 0, \lambda = 0 \\
\frac{(-x + 1)^{2 - \lambda} - 1}{2 - \lambda}, & \text{если } x < 0, \lambda \neq 2 \\
-\ln(-x + 1), & \text{если } x < 0, \lambda = 2
\end{cases}
$$

> Параметр $ \lambda $ подбирается так, чтобы минимизировать асимметрию (например, через MLE).



## ✅ 1. Использование `PowerTransformer`

```python
from sklearn.preprocessing import PowerTransformer
import numpy as np

# Генерация данных
np.random.seed(42)
data = np.random.exponential(scale=2.0, size=(1000, 1))

# Создаем трансформер
pt = PowerTransformer(method='yeo-johnson')  # или 'box-cox'
pt.fit(data)

# Применяем преобразование
transformed_data = pt.transform(data)

print("Оптимальный λ:", pt.lambdas_)
```

> ⚠️ `method='box-cox'` требует, чтобы данные были **строго положительными**, иначе будет ошибка.

---

## ✅ 2. Использование `scipy.stats.boxcox`

Если тебе нужно именно **Box-Cox** преобразование:

```python
from scipy.stats import boxcox
import numpy as np

# Генерация данных
np.random.seed(42)
data = np.random.exponential(scale=2.0, size=1000)

# Применяем Box-Cox
transformed_data, lambda_ = boxcox(data)

print("Оптимальный λ:", lambda_)
```

> 📌 Этот метод работает только с **положительными числами**.



## 🧪 Визуализация до/после

Можно добавить график распределения до и после преобразования:

```python
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.hist(data, bins=30, color='skyblue', edgecolor='black')
plt.title('До преобразования')

plt.subplot(1, 2, 2)
plt.hist(transformed_data, bins=30, color='salmon', edgecolor='black')
plt.title('После Yeo-Johnson')

plt.show()
```



## ⚠️ Ограничения:

- Box-Cox работает **только с положительными числами**.
- Yeo-Johnson — **работает с любыми числами**, включая отрицательные и ноль.


## 📊 Сравнение методов масштабирования

| Метод | Диапазон | Устойчивость к выбросам | Когда использовать |
|------|----------|--------------------------|---------------------|
| Standardization | $ (-\infty, +\infty) $ | ❌ Нет | Нормальное распределение, PCA, градиентный спуск |
| Min-Max | $ [0, 1] $ | ❌ Нет | Обучение нейросетей, визуализация |
| Robust | $ [-1, 1] $ | ✅ Да | Выбросы, IQR |
| Max Abs | $ [-1, 1] $ | ❌ Нет | Разреженные данные |
| Quantile | Задаётся пользователем | ✅ Да | Нелинейные зависимости |
| Power Transformer | Зависит от метода | ✅ Да | Скошенные распределения |



## 🤖 Какие алгоритмы требуют масштабирования?

| Алгоритм | Требуется масштабирование? | Причина |
|----------|-----------------------------|---------|
| KNN | ✅ | Использует евклидово расстояние |
| SVM | ✅ | На основе расстояний |
| Logistic Regression (с L1/L2) | ✅ | Регуляризация зависит от масштаба |
| Linear Regression (OLS) | ❌ | Коэффициенты адаптируются автоматически |
| Decision Trees | ❌ | Не использует расстояния |
| Random Forest | ❌ | На основе деревьев |
| Gradient Boosting | ❌ | На основе деревьев |
| Neural Networks | ✅ | Градиентный спуск |
| PCA | ✅ | Основан на дисперсии |
| Clustering (K-means и др.) | ✅ | На основе расстояний |



## ✅ Общий алгоритм применения масштабирования

1. **Разделите данные на обучающую и тестовую выборки.**
2. **Обучите scaler только на обучающей выборке** (`fit_transform`).
3. **Примените его к тестовой выборке** (`transform`).
4. **Обучите модель на масштабированных данных.**

```python
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

> ⚠️ Никогда не делайте `fit_transform` на тестовой выборке — это вызовет **утечку данных**.



## 📚 Домашнее задание

1. Загрузите любой числовой набор данных (например, `Boston`, `Iris`, `Wine`).
2. Постройте графики распределения нескольких признаков.
3. Примените разные методы масштабирования: Standardization, Min-Max, Robust Scaling.


# 🔹 7. Работа с датами и временем (Date and Time Feature Engineering)

## 📌 Введение

В реальных задачах анализа данных и машинного обучения часто встречаются **признаки, связанные с датой и временем**. Это может быть:
- Дата рождения клиента;
- Дата регистрации;
- Время последнего посещения;
- Момент совершения транзакции и т.д.

Эти данные изначально могут быть представлены в виде строк (`str`) или других форматов, поэтому их необходимо **преобразовать в `datetime`-объект**, а затем — **извлечь полезные признаки**, которые помогут улучшить модель.



## 🧮 Этапы работы с датами и временем

1. **Преобразование в datetime-объект**
2. **Извлечение временных признаков**
3. **Работа с разницей между датами**
4. **Обогащение данными: выходные, праздники и т.д.**



## 1. Преобразование в datetime-объект

Часто даты хранятся как строки (`str`). Для корректной обработки нужно преобразовать их в объект типа `datetime`.

### Пример:

```python
import pandas as pd

df = pd.DataFrame({'date_str': ['2025-01-01', '2025-01-02', '2025-01-03']})
df['date'] = pd.to_datetime(df['date_str'])
```

Можно указать формат, если он не определяется автоматически:

```python
df['date'] = pd.to_datetime(df['date_str'], format='%Y-%m-%d')
```

> ⚠️ Если дата содержит ошибки, можно использовать параметр `errors='coerce'`, чтобы создать `NaT` (Not a Time) вместо ошибки:
```python
df['date'] = pd.to_datetime(df['date_str'], errors='coerce')
```



## 2. Извлечение признаков из даты и времени

После преобразования в `datetime` можно **извлекать информативные признаки**, такие как год, месяц, день, час и другие.

### Основные компоненты даты и времени:

| Компонент | Пример кода |
|----------|-------------|
| Год      | `df['date'].dt.year` |
| Месяц    | `df['date'].dt.month` |
| День     | `df['date'].dt.day` |
| Час      | `df['date'].dt.hour` |
| Минута   | `df['date'].dt.minute` |
| Секунда  | `df['date'].dt.second` |

#### Пример:
```python
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['hour'] = df['date'].dt.hour
df['weekday'] = df['date'].dt.weekday  # 0=Пн, ..., 4=Пт, 5=Сб, 6=Вс
```


### День недели и выходные

День недели может быть важным признаком, особенно для задач прогнозирования спроса, продаж, активности пользователей и т.д.

#### Пример: флаг выходного дня

```python
df['is_weekend'] = df['date'].dt.weekday >= 5  # True - выходной
```

Если нужны названия дней:

```python
df['day_name'] = df['date'].dt.strftime('%A')  # Monday, Tuesday...
```


### Временные интервалы

Можно выделить:
- Квартал года;
- Номер недели;
- Утро/день/вечер;
- Сезонность (весна, лето...).

#### Примеры:

```python
df['quarter'] = df['date'].dt.quarter
df['week_of_year'] = df['date'].dt.isocalendar().week
```

#### Утро/день/вечер:

```python
def time_of_day(hour):
    if 5 <= hour < 12:
        return 'Morning'
    elif 12 <= hour < 17:
        return 'Afternoon'
    elif 17 <= hour < 21:
        return 'Evening'
    else:
        return 'Night'

df['time_of_day'] = df['hour'].apply(time_of_day)
```


## 3. Разница между датами (временные метрики)

Одним из самых популярных приёмов является **вычисление временной разницы** между двумя датами.

### Пример 1: Возраст клиента

```python
from datetime import datetime

df['birthdate'] = pd.to_datetime(df['birthdate'])
current_date = datetime.now()
df['age_days'] = (current_date - df['birthdate']).dt.days
df['age_years'] = df['age_days'] / 365.25
```

### Пример 2: Время с момента регистрации до последней активности

```python
df['registration_date'] = pd.to_datetime(df['registration_date'])
df['last_login'] = pd.to_datetime(df['last_login'])

df['days_since_registration'] = (df['last_login'] - df['registration_date']).dt.days
```

> 💡 Разницу можно получать в днях, часах, минутах, секундах и даже в микросекундах.



## 4. Обогащение данными: праздники, события и т.п.

Для некоторых задач полезно знать, была ли дата:
- Праздником?
- Выходным?
- Днем особого события?

Можно использовать библиотеки, такие как `holidays`:

```bash
pip install holidays
```

```python
import holidays

ru_holidays = holidays.RU(years=[2025])
df['is_holiday'] = df['date'].isin(ru_holidays)
```

Теперь столбец `is_holiday` будет содержать `True`, если дата совпадает с государственным праздником.


## ✅ Общий алгоритм работы с датами

1. **Преобразуйте** исходные значения в `datetime`.
2. **Извлеките** нужные компоненты: год, месяц, день, день недели, время суток.
3. **Вычислите** разницу между датами (например, возраст).
4. **Добавьте** дополнительные фичи: выходной, праздник, квартал и т.д.
5. **Удалите** оригинальный столбец с датой, если он больше не нужен.



## 📊 Пример конечного набора признаков на основе даты

| Исходная дата | year | month | day | weekday | is_weekend | time_of_day | days_since_registration | is_holiday |
|---------------|------|-------|-----|----------|------------|--------------|------------------------|-------------|
| 2025-01-01    | 2025 | 1     | 1   | 2        | False      | Morning      | 365                    | True        |
| 2025-01-05    | 2025 | 1     | 5   | 6        | True       | Evening      | 369                    | False       |



## 📚 Домашнее задание

1. Загрузите любой датасет, содержащий даты (например, [Air Passenger](https://www.kaggle.com/rakannimer/air-passengers), [Bike Sharing Dataset](https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset)).
2. Преобразуйте даты в `datetime`-объекты.
3. Извлеките следующие признаки:
   - Год, месяц, день, час
   - День недели
   - Признак "выходной"
   - Время суток
   - Квартал
4. Вычислите разницу между двумя датами (например, сколько прошло времени с первой записи до текущей).
5. Добавьте информацию о праздниках (через библиотеку `holidays`).
6. Сохраните новый датасет и сравните его с исходным.


# 🔹 8. Обработка текстовых данных (Text Data Processing)

## 📌 Введение

Текстовые данные — это один из самых распространённых типов неструктурированной информации: отзывы, сообщения, статьи, твиты, описания товаров и т.д.

Для работы с текстами в машинном обучении необходима **предварительная обработка**, которая превращает текст в числовые признаки, понятные модели. Этот процесс называется **текстовой инженерией (text feature engineering)**.



## 🧠 Почему важна предобработка текста?

1. **Модели не понимают слова** — им нужны числа.
2. **Одинаковые слова могут быть записаны по-разному** (например, `«бегать»` и `«бежал»`).
3. **Шум снижает качество моделей** (мусорные слова, пунктуация, стоп-слова).
4. **Контекст и семантика важны** — современные методы учитывают значение слов (`Word2Vec`, `BERT`).



## 🔢 Этапы обработки текстовых данных

| Этап | Цель |
|------|------|
| Токенизация | Разбить текст на отдельные слова или фразы |
| Очистка | Удаление лишних символов, стоп-слов, знаков препинания |
| Нормализация | Привести слова к базовой форме (лемматизация / стемминг) |
| Векторизация | Перевести слова в числовое представление |



## 1. Токенизация

Разбиение текста на **токены** — минимальные единицы анализа: слова, символы, n-граммы.

### Пример:
```
"Я люблю машинное обучение"
→ ["Я", "люблю", "машинное", "обучение"]
```

### Реализация:

```python
from nltk.tokenize import word_tokenize

text = "Я люблю машинное обучение!"
tokens = word_tokenize(text)
print(tokens)
# ['Я', 'люблю', 'машинное', 'обучение', '!']
```

> ✅ Также можно использовать `RegexpTokenizer`, `TweetTokenizer` (для соцсетей), `sent_tokenize` для разбиения на предложения.


## 2. Удаление стоп-слов и мусора

Стоп-слова — часто встречающиеся, но малоинформативные слова: `«и»`, `«в»`, `«на»`, `«я»`.

### Пример:

```python
from nltk.corpus import stopwords

stop_words = set(stopwords.words('russian'))  # или 'english'
filtered_tokens = [word for word in tokens if word.lower() not in stop_words and word.isalpha()]
```

Также удаляем:
- Знаки препинания
- Числа
- HTML-теги
- Ссылки
- Эмодзи и спецсимволы



## 3. Нормализация: лемматизация и стемминг

Цель — привести слова к их базовой форме, чтобы объединить варианты одного и того же слова.

### a) **Стемминг (Stemming)**  
Обрезает окончания, оставляя корень. Быстрый, но менее точный.

```python
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer("russian")
stems = [stemmer.stem(word) for word in filtered_tokens]
```

Пример:  
`машинное → машинн, обучение → обучен`



### b) **Лемматизация (Lemmatization)**  
Использует словарь, чтобы привести слово к начальной форме (лемме). Более точный, чем стемминг.

```python
import spacy

nlp = spacy.load("ru_core_news_sm")  # модель для русского языка
doc = nlp("Машина быстро бежала")
lemmas = [token.lemma_ for token in doc]
```

Пример:  
`бежала → бежать`

> ✅ Лемматизация рекомендуется для большинства задач NLP, особенно где важна семантика.



## 4. Векторизация текста

После очистки и нормализации нужно перевести текст в числа — это этап **векторизации**. Ниже основные подходы:

---

### a) **Bag of Words (BoW)**

Создаёт матрицу, где каждая строка — документ, столбцы — уникальные слова, значения — частота встречаемости.

#### Пример:

```python
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)
```

> ✅ Простой и быстрый метод.  
> ❌ Не учитывает порядок слов и семантику.



### b) **TF-IDF (Term Frequency - Inverse Document Frequency)**

Учитывает, насколько часто слово встречается в документе и насколько оно редко в корпусе.

#### Формула:
$$
\text{TF-IDF}(t,d,D) = \text{TF}(t,d) \times \text{IDF}(t,D)
$$

Где:
- $ \text{TF}(t,d) = \frac{\text{кол-во вхождений } t \text{ в } d}{\text{общее кол-во слов в } d} $
- $ \text{IDF}(t,D) = \log\left(\frac{|D|}{|\{d \in D : t \in d\}|}\right) $

#### Реализация:

```python
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texts)
```

> ✅ Улучшает BoW за счёт учёта важности слов.  
> ❌ Требует больше памяти, всё ещё не учитывает контекст.



### c) **Word Embeddings**

Векторизация через **встраивания слов (word embeddings)** — это переход от простых частот к плотным векторам, которые несут в себе **семантическую информацию**.

#### Популярные методы:

| Метод | Краткое описание | Реализация |
|-------|------------------|------------|
| **Word2Vec** | Обучается на больших корпусах, кодирует семантику слов | Gensim, spaCy |
| **GloVe** | Глобальная матрица ко-окуррентностей | Stanford NLP |
| **FastText** | Учитывает подслова, хорошо работает с редкими словами | Facebook AI |
| **BERT, RoBERTa, RuBERT** | Контекстуальные эмбеддинги | HuggingFace Transformers |

#### Пример с Word2Vec (на английском):

```python
from gensim.models import Word2Vec

model = Word2Vec(sentences, vector_size=100, window=5, min_count=1)
vector = model.wv['king']  # Получаем вектор для слова "king"
```

> ✅ Учитывает смысл слов.  
> ❌ Требует больших вычислений и данных.


### d) **Sentence Embeddings**

Если нужен вектор для целого предложения или документа, можно использовать:

- **Sentence-BERT (SBERT)**
- **Universal Sentence Encoder (USE)**
- **LaBSE (языковые BERT-эмбеддинги)**
- **MPNet, DistilBERT и др.**

```python
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM')
embeddings = model.encode(["Это пример текста", "И еще один"])
```

> ✅ Подходит для классификации, кластеризации, поиска схожих документов.  
> ❌ Высокие требования к памяти и времени.



## 🧮 Сравнение методов векторизации

| Метод | Учитывает порядок слов | Учитывает семантику | Размерность | Когда использовать |
|-------|------------------------|----------------------|-------------|--------------------|
| Bag of Words | ❌ | ❌ | Высокая | Простые задачи, небольшие выборки |
| TF-IDF | ❌ | ❌ | Высокая | То же + лучшая точность |
| Word2Vec | ❌ | ✅ | Низкая–средняя | Классификация, поиск синонимов |
| FastText | ❌ | ✅ | Низкая–средняя | Работа с редкими словами |
| BERT / SBERT | ❌ / ✅ | ✅ | Средняя | Контекстуальные задачи, перевод, вопросы-ответы |



## 🧪 Пример полного пайплайна обработки текста

```python
import re
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer

def preprocess_text(text):
    text = re.sub(r'[^а-яА-ЯёЁ ]', '', text.lower())
    tokens = text.split()
    tokens = [word for word in tokens if word not in stopwords.words('russian')]
    stemmer = SnowballStemmer('russian')
    return ' '.join([stemmer.stem(word) for word in tokens])

cleaned_texts = [preprocess_text(text) for text in texts]

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(cleaned_texts)
```



## 🤖 Глубокие методы (Deep Learning)

Если вы используете **нейронные сети**, то лучше работать с **токенизацией через BPE или WordPiece** и передавать последовательности в модели типа:

- **BERT**, **RoBERTa**, **DistilBERT**, **XLM-RoBERTa**
- **CNN**, **RNN**, **LSTM**, **GRU**
- **Transformer-based модели**

### Пример использования Hugging Face Transformers:

```python
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("bert-base-multilingual-cased")
model = AutoModel.from_pretrained("bert-base-multilingual-cased")

inputs = tokenizer("Пример текста", return_tensors="pt", padding=True, truncation=True)
outputs = model(**inputs)
```

> ✅ Учитывает контекст и семантику.  
> ❌ Требует GPU и много памяти.



## ✅ Общий алгоритм обработки текстовых данных

1. **Токенизация**: разделение на слова или фразы.
2. **Очистка**: удаление стоп-слов, пунктуации, HTML-тегов и т.д.
3. **Нормализация**: стемминг или лемматизация.
4. **Векторизация**:
   - BoW / TF-IDF (для классических ML),
   - Word2Vec, FastText (для глубокого обучения),
   - BERT и др. (для контекстуальных задач).
5. **Обучение модели**:
   - Logistic Regression, SVM, Random Forest,
   - LSTM, GRU, Transformer (в зависимости от задачи).


## 📚 Домашнее задание

1. Возьмите датасет с текстовыми данными (например, [IMDB Movie Reviews](https://www.kaggle.com/lakshmi25n/tagline-dataset), [RuSentiment](https://github.com/text-machine-lab/rusentiment)).
2. Примените полную предобработку:
   - Токенизация
   - Удаление стоп-слов
   - Стемминг / лемматизация
3. Примените разные методы векторизации:
   - Bag of Words
   - TF-IDF
   - Word2Vec (или FastText)
   - BERT
4. Обучите модель классификации (например, LogisticRegression) и сравните метрики.



## 📚 Полезные библиотеки

| Библиотека | Описание |
|------------|----------|
| **NLTK** | Базовая обработка текста, токенизация, стоп-слова |
| **spaCy** | Продвинутая обработка на Python, лемматизация |
| **scikit-learn** | BoW, TF-IDF |
| **Gensim** | Word2Vec, FastText, LDA |
| **Transformers (HuggingFace)** | BERT, RoBERTa, XLM и другие |
| **Sentence Transformers** | Контекстуальные эмбеддинги предложений |
| **langdetect**, **fasttext-langdetect** | Определение языка текста |



# 🔹 9. Создание новых признаков (Feature Engineering)

## 📌 Введение

**Создание новых признаков (Feature Engineering)** — это процесс **генерации полезных переменных из существующих данных**, чтобы улучшить качество модели машинного обучения. Это один из самых важных этапов в работе с данными, поскольку даже самая мощная модель не сможет хорошо работать на плохих или плохо подготовленных данных.

> 💡 По словам Эндрю Нг:  
> *"Фичи определяют результат, всё остальное — детали."*


## 🧠 Почему важно создавать новые признаки?

1. **Увеличивает информативность данных**.
2. **Позволяет выявлять скрытые закономерности**.
3. **Повышает точность и обобщающую способность модели**.
4. **Упрощает интерпретацию модели**.
5. **Может компенсировать недостаток данных**.



## 🧪 Основные подходы к созданию новых признаков

| Категория | Описание |
|----------|----------|
| Комбинирование признаков | Сложение, умножение, деление, разность между признаками |
| Индикаторы (флаги) | Бинарные признаки, отмечающие наличие/отсутствие условия |
| Агрегированные признаки | Среднее, медиана, сумма по группам |
| Временные признаки | Год, месяц, день, временные окна |
| Доменная экспертиза | Признаки, основанные на знании предметной области |



## 1. Комбинирование существующих признаков

Часто полезные признаки можно получить путём простых математических операций над уже имеющимися.

### Примеры:

- `Income / Expenses` → отношение дохода к расходам;
- `TotalSpent = ProductA + ProductB + ProductC` → общий объем трат;
- `Price per Unit = TotalCost / Quantity` → цена за единицу товара;
- `BMI = Weight / Height²` → индекс массы тела.

```python
df['bmi'] = df['weight'] / (df['height'] ** 2)
df['price_per_unit'] = df['total_cost'] / df['quantity']
```

> ✅ Полезно для моделей, которые не умеют "видеть" такие зависимости самостоятельно.



## 2. Создание индикаторов (бинарные флаги)

Индикаторы — это **бинарные признаки (0/1)**, которые показывают выполнение какого-либо условия.

### Примеры:

- `IsSenior = Age >= 60`
- `IsVIP = TotalPurchases > 10000`
- `HasMissingValues = pd.isnull(df['Age'])`
- `IsWeekend = df['date'].dt.weekday >= 5`

```python
df['is_senior'] = (df['age'] >= 60).astype(int)
df['is_vip'] = (df['total_purchases'] > 10000).astype(int)
```

> ✅ Такие признаки могут быть очень информативными, особенно в задачах классификации.



## 3. Агрегированные признаки

Агрегация — это вычисление статистик по группам. Например, среднее значение по категории, количество событий на пользователя и т.д.

### Примеры:

- `avg_salary_by_dept` — средняя зарплата по отделу;
- `user_activity_count` — количество действий пользователя за период;
- `avg_order_value_per_customer` — средний чек клиента.

```python
# Пример агрегации с помощью groupby
df['avg_salary_by_dept'] = df.groupby('department')['salary'].transform('mean')
df['total_orders_per_user'] = df.groupby('user_id')['order_id'].transform('count')
```

> ✅ Особенно эффективны в задачах с категориальными группами (клиенты, продукты, регионы).
> ⚠️ Не забывайте использовать `.transform()` вместо `.agg()`, если хотите сохранить размерность DataFrame.



## 4. Временные признаки и оконные функции (для временных рядов)

Для дат и времени можно строить **временные признаки** и использовать **оконные функции**, чтобы выявить сезонность и тренды.

### a) Временные признаки

```python
df['year'] = df['datetime'].dt.year
df['month'] = df['datetime'].dt.month
df['day_of_week'] = df['datetime'].dt.dayofweek
df['hour'] = df['datetime'].dt.hour
df['is_weekend'] = (df['datetime'].dt.dayofweek >= 5).astype(int)
```

### b) Оконные функции

Оконные функции позволяют вычислять скользящие средние, накопительные суммы и другие метрики.

#### Пример: скользящее среднее по клиенту

```python
df.sort_values(['customer_id', 'date'], inplace=True)
df['rolling_avg_7d'] = df.groupby('customer_id')['amount'].transform(
    lambda x: x.rolling(window=7).mean()
)
```

#### Пример: накопительная сумма

```python
df['cumulative_spent'] = df.groupby('customer_id')['purchase_amount'].cumsum()
```

> ✅ Эти признаки особенно важны в задачах прогнозирования и анализа поведения пользователей.



## 5. Использование доменной экспертизы

**Доменная экспертиза (domain knowledge)** — это использование знаний о предметной области для создания более осмысленных признаков.

### Примеры:

| Задача | Признак | Обоснование |
|--------|---------|-------------|
| Финансы | `Debt to Income Ratio = Debt / Income` | Показывает платежеспособность |
| Маркетинг | `Customer Lifetime Value = AvgOrderValue * PurchaseFrequency` | Оценка ценности клиента |
| Ритейл | `Stockout Flag = Stock == 0` | Индикатор того, что товар закончился |
| Здравоохранение | `BMI = Weight / Height²` | Индикатор риска заболеваний |
| E-commerce | `Days Since Last Purchase` | Мера активности клиента |

### Пример:

```python
# Доля просроченных платежей
df['late_payment_ratio'] = df['num_late_payments'] / df['total_payments']

# Расстояние до ближайшего магазина
df['distance_to_nearest_store_km'] = haversine_distance(lat1, lon1, lat2, lon2)
```

> ✅ Это самый ценный тип признаков — он может кардинально улучшить качество модели, если вы понимаете бизнес-задачу.



## 🧮 Типы агрегаций и преобразований

| Тип | Пример | Когда использовать |
|-----|--------|---------------------|
| Арифметические | `x + y`, `x / y` | Когда есть смысл комбинировать признаки |
| Логические | `x > y`, `x.isin([...])` | Для создания индикаторов |
| Условные | `np.where(x > threshold, 1, 0)` | Для пороговых флагов |
| Статистики по группам | `groupby().mean(), .std(), .nunique()` | Для работы с категориальными группами |
| Временные | `diff()`, `shift()`, `rolling()` | Для временных рядов |
| Сложные формулы | `BMI`, `CLV`, `Churn Score` | На основе доменной экспертизы |



## 📊 Примеры Feature Engineering

### a) **Клиентская аналитика**

Допустим, у нас есть данные о покупках клиентов:

| CustomerID | Date       | Amount |
|------------|------------|--------|
| 1          | 2024-01-01 | 100    |
| 1          | 2024-01-15 | 200    |
| 2          | 2024-01-05 | 50     |

#### Возможные признаки:
- `TotalSpentPerCustomer` — общий доход от клиента;
- `AvgPurchaseValue` — средний чек;
- `DaysSinceLastPurchase` — сколько дней прошло с последней покупки;
- `IsHighSpender` — флаг, если клиент потратил больше X рублей.

```python
# Общая сумма по клиенту
df['total_spent'] = df.groupby('CustomerID')['Amount'].transform('sum')

# Средний чек
df['avg_purchase'] = df.groupby('CustomerID')['Amount'].transform('mean')

# Последняя дата покупки
last_purchase = df.groupby('CustomerID')['Date'].transform('max')
df['days_since_last_purchase'] = (pd.to_datetime('today') - last_purchase).dt.days

# Флаг VIP
df['is_vip'] = (df['total_spent'] > 10000).astype(int)
```



### b) **Текстовые признаки**

Если у вас есть текстовые поля (например, описание продукта), можно извлекать числовые метрики:

- `text_length = len(text)`
- `word_count = text.split().len()`
- `has_discount = 'скидка' in text`
- `sentiment_score = sentiment_model.predict(text)`

```python
df['text_len'] = df['description'].str.len()
df['word_count'] = df['description'].str.split().str.len()
df['has_promo'] = df['description'].str.contains('распродажа|скидка|акция', case=False).astype(int)
```


## 📈 Примеры использования оконных функций

### a) Скользящее среднее (Moving Average)

```python
df['ma_7_days'] = df.groupby('product_id')['sales'].transform(lambda x: x.rolling(7).mean())
```

### b) Накопительная сумма (Cumulative Sum)

```python
df['cum_sales'] = df.groupby('product_id')['sales'].cumsum()
```

### c) Разница между текущим и предыдущим значением

```python
df['delta_prev_day'] = df.groupby('product_id')['sales'].diff()
```



## 🎯 Как придумать хорошие признаки?

1. **Знай свою задачу**: чем лучше ты понимаешь бизнес-объект, тем точнее признаки можешь создать.
2. **Изучи данные**: анализируй корреляции, распределения, выбросы.
3. **Проверяй гипотезы**: например, "пользователи с высокой частотой покупок чаще уходят".
4. **Используй визуализации**: графики помогают находить скрытые связи.
5. **Тестируй признаки**: добавь их в модель и проверь, улучшилось ли качество.



## 🧰 Инструменты для Feature Engineering

| Инструмент | Возможности |
|-----------|-------------|
| **Pandas** | groupby, rolling, transform, apply |
| **NumPy** | np.where, np.select, np.clip |
| **Scikit-learn** | FunctionTransformer, ColumnTransformer |
| **Feature-engine** | Автоматическое создание признаков |
| **tsfresh / featuretools** | Автоматическая генерация признаков (для временных рядов и общих задач) |
| **Category Encoders** | Преобразование категориальных признаков с учетом целевой переменной |



## 📦 Пример набора новых признаков

| Исходные признаки | Новые признаки |
|------------------|----------------|
| `income`, `expenses` | `savings = income - expenses` |
| `latency`, `response_time` | `is_slow = latency > mean_latency` |
| `start_date`, `end_date` | `duration_days = end_date - start_date` |
| `clicks`, `views` | `CTR = clicks / views` |
| `latitude`, `longitude` | `distance_from_home` (если известны координаты дома) |
| `order_date`, `delivery_date` | `delivery_delay_days = delivery_date - order_date` |
| `temperature`, `humidity` | `heat_index = f(temperature, humidity)` |
| `transaction_amount`, `time` | `rolling_avg_30d` — скользящее среднее за 30 дней |



## 🧪 Пример кода: автоматизация Feature Engineering

```python
import pandas as pd

def engineer_features(df):
    # Комбинирование
    df['income_expense_diff'] = df['income'] - df['expenses']
    df['ratio_income_expenses'] = df['income'] / df['expenses']

    # Флаги
    df['is_high_risk'] = (df['debt_ratio'] > 0.8).astype(int)
    df['is_new_customer'] = (df['first_purchase_date'] > '2024-01-01').astype(int)

    # Агрегации
    df['avg_purchase_by_city'] = df.groupby('city')['purchase_amount'].transform('mean')
    df['total_purchases_by_user'] = df.groupby('user_id')['amount'].cumsum()

    # Временные признаки
    df['signup_year'] = df['signup_date'].dt.year
    df['is_weekend'] = df['visit_date'].dt.weekday >= 5

    return df

df = engineer_features(df)
```



## 📊 Сводная таблица

| Тип признака | Что это | Примеры | Инструменты |
|--------------|---------|----------|-------------|
| Комбинированные | Новые признаки из нескольких старых | `income / expenses`, `price per unit` | Pandas |
| Индикаторы | Бинарные признаки | `is_weekend`, `is_vip` | np.where, isin |
| Агрегации | Статистики по группам | `avg_salary_by_dept`, `total_orders_per_user` | groupby, transform |
| Временные | Признаки из дат | `year`, `day_of_week`, `days_since_last_visit` | dt, diff, shift |
| Доменная экспертиза | Признаки из контекста | `CLV`, `Churn Risk`, `LTV` | Pandas, NumPy, domain logic |



## 📚 Домашнее задание

1. Возьми любой датасет (например, [Titanic](https://www.kaggle.com/c/titanic/data), [Telco Churn](https://www.kaggle.com/blastchar/telco-customer-churn)).
2. Выполни следующие шаги:
   - Создай 2–3 новых признака через комбинирование (например, отношение, разность, произведение);
   - Добавь 2–3 индикатора (например, `is_vip`, `has_missing`);
   - Добавь 1–2 агрегированных признака (например, среднее по группе);
   - Если есть даты — сделай 2–3 временных признака;
   - По желанию: используй доменную экспертизу и создай 1–2 признака, основанных на логике задачи.
3. Обучи простую модель (например, LogisticRegression) до и после добавления признаков — сравни качество.



## 📚 Дополнительные библиотеки

| Библиотека | Описание |
|-------------|----------|
| **FeatureTools** | Автоматический Feature Engineering |
| **tsfresh** | Автоматическая генерация признаков для временных рядов |
| **AutoFeat** | Библиотека для автоматической генерации фичей |
| **sklearn.preprocessing.FunctionTransformer** | Встраивание собственных функций в пайплайн |



## 🧠 Заключение

Feature Engineering — это искусство и наука одновременно. Он требует как технических навыков, так и понимания предметной области. Хорошо спроектированные признаки могут:
- **Сэкономить время на подбор модели**;
- **Снизить риск переобучения**;
- **Увеличить точность модели без сложных алгоритмов**;
- **Ускорить обучение и сделать его более устойчивым**.


# 🔹 10. Уменьшение размерности (Dimensionality Reduction)  
## 📌 Введение

**Уменьшение размерности** — это процесс упрощения набора данных за счёт **уменьшения количества признаков**, сохраняя при этом как можно больше информации.

Это особенно важно, когда:
- Признаков слишком много (curse of dimensionality).
- Есть коррелирующие или шумные признаки.
- Нужно ускорить обучение модели или улучшить интерпретируемость.



## 🧠 Почему нужно уменьшать размерность?

| Проблема | Решение |
|---------|---------|
| Много признаков → переобучение | Отбор важных признаков |
| Высокая вычислительная сложность | Снижение размерности |
| Корреляции между признаками → мультиколлинеарность | PCA, удаление зависимых признаков |
| Шум в данных → снижение качества | Фильтрация по дисперсии |



## 🧮 Основные методы уменьшения размерности

| Категория | Метод | Тип | Когда использовать |
|-----------|-------|-----|---------------------|
| Удаление нерелевантных/коррелирующих признаков | Дисперсионный отбор, корреляционный анализ | Фильтры | Быстрая очистка |
| Линейные проекции | PCA, LDA | Преобразование | Для числовых признаков, нормализованных данных |
| Отбор признаков | Filter, Wrapper, Embedded | Отбор | Общие задачи ML |



## 1. Удаление нерелевантных и коррелирующих признаков

### a) Удаление признаков с низкой дисперсией

Признаки, которые почти не меняются, не несут полезной информации.

```python
from sklearn.feature_selection import VarianceThreshold

selector = VarianceThreshold(threshold=0.01)
X_reduced = selector.fit_transform(X)
```

> ✅ Полезен для разреженных или бинарных признаков.



### b) Удаление сильно коррелированных признаков

Мультиколлинеарность может ухудшить модель и её интерпретацию.

#### Пример:

```python
import seaborn as sns
import numpy as np

corr_matrix = df.corr().abs()
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))
to_drop = [column for column in upper.columns if any(upper[column] > 0.9)]

df.drop(to_drop, axis=1, inplace=True)
```

> ✅ Уменьшает избыточность и повышает стабильность модели.



## 2. Метод главных компонент (PCA)

**Principal Component Analysis (PCA)** — это линейный метод уменьшения размерности, который находит ортогональные направления (главные компоненты), объясняющие максимальную дисперсию данных.

### Алгоритм работы:
1. Центрирование данных (Standardization).
2. Вычисление ковариационной матрицы.
3. Нахождение собственных векторов и значений.
4. Проекция данных на первые `k` собственных векторов.

#### Реализация:

```python
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

X_scaled = StandardScaler().fit_transform(X)
pca = PCA(n_components=0.95)  # Сохраняем 95% дисперсии
X_pca = pca.fit_transform(X_scaled)
```

> ✅ Полезно при большом числе признаков и их корреляции.  
> ❌ Новые признаки трудно интерпретировать.



## 3. Линейный дискриминантный анализ (LDA)

**LDA (Linear Discriminant Analysis)** — метод, аналогичный PCA, но учитывающий **целевую переменную**. Используется только в задачах **классификации**.

### Цель:
Найти проекцию, которая **максимизирует разделение классов**.

```python
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

lda = LinearDiscriminantAnalysis(n_components=2)
X_lda = lda.fit_transform(X, y)
```

> ✅ Хорошо работает, если данные линейно разделимы.  
> ❌ Только для задач классификации.



## 4. Отбор признаков

Отличается от преобразования: мы **выбираем подмножество исходных признаков**, а не создаём новые.

### a) **Filter Methods (Фильтрационные методы)**

Выбор признаков на основе статистик без участия модели.

#### Примеры:
- Коэффициент корреляции Пирсона
- Мера информативности (Mutual Information)
- ANOVA F-value

```python
from sklearn.feature_selection import SelectKBest, f_classif

selector = SelectKBest(score_func=f_classif, k=10)
X_selected = selector.fit_transform(X, y)
```

> ✅ Простота, быстродействие.  
> ❌ Не учитывает взаимосвязь между признаками.



### b) **Wrapper Methods (Обёрточные методы)**

Используют модель для оценки важности признаков.

#### Пример: Recursive Feature Elimination (RFE)

```python
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
rfe = RFE(estimator=model, n_features_to_select=10)
X_rfe = rfe.fit_transform(X, y)
```

> ✅ Учитывает взаимодействие между признаками.  
> ❌ Вычислительно затратно.



### c) **Embedded Methods (Встроенные методы)**

Совмещают отбор признаков и обучение модели.

#### Примеры:
- **Lasso (L1-регуляризация)** — обнуляет коэффициенты малозначимых признаков.
- **Деревья решений, Random Forest, XGBoost** — используют feature importance.

##### Lasso (линейная регрессия с L1):

```python
from sklearn.linear_model import LassoCV

lasso = LassoCV(cv=5)
lasso.fit(X_scaled, y)

# Признаки с нулевым коэффициентом можно удалить
mask = lasso.coef_ != 0
X_lasso = X[:, mask]
```

##### Feature Importance через деревья:

```python
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X, y)

importances = model.feature_importances_
indices = np.argsort(importances)[::-1]
top_k = indices[:10]  # топ-10 признаков
X_top = X[:, top_k]
```

> ✅ Эффективно, интегрировано в обучение.  
> ❌ Зависит от модели.



## 📊 Сравнение методов

| Метод | Учитывает целевую переменную | Требует обучения модели | Интерпретируемость | Подходит для |
|--------|------------------------------|--------------------------|--------------------|---------------|
| Дисперсионный отбор | ❌ | ❌ | ✅ | Все задачи |
| Корреляционный отбор | ✅ | ❌ | ✅ | Числовые признаки |
| PCA | ❌ | ❌ | ❌ | Все задачи |
| LDA | ✅ | ✅ | ❌ | Классификация |
| Filter Methods | ✅ | ❌ | ✅ | Все задачи |
| Wrapper Methods (RFE) | ✅ | ✅ | ✅ | Все задачи |
| Embedded Methods (Lasso, Tree-based) | ✅ | ✅ | ✅ | Все задачи |



## 📈 Как выбрать количество компонент / признаков?

### a) PCA

```python
pca = PCA().fit(X_scaled)
explained_variance = pca.explained_variance_ratio_.cumsum()
n_components = np.argmax(explained_variance >= 0.95) + 1
```

### b) Feature Importance (деревья)

```python
import matplotlib.pyplot as plt

plt.bar(range(len(importances)), importances[indices])
plt.show()
```

### c) RFE

```python
from sklearn.model_selection import GridSearchCV

param_grid = {'n_features_to_select': range(5, 20)}
grid = GridSearchCV(rfe, param_grid, scoring='accuracy', cv=5)
grid.fit(X, y)
best_n = grid.best_params_['n_features_to_select']
```



## 🧪 Когда использовать каждый метод?

| Задача | Рекомендуемый метод |
|--------|----------------------|
| Много числовых признаков, нет цели интерпретации | PCA |
| Классификация, есть метки | LDA |
| Нужны интерпретируемые признаки | Filter, Embedded |
| Есть время и ресурсы, нужна точность | Wrapper (RFE) |
| Мало данных, нужны важные признаки | Embedded (Lasso, Random Forest) |



## 📉 Пример конвейера отбора признаков

```python
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier

pipeline = Pipeline([
    ('feature_selection', SelectKBest(score_func=f_classif, k=10)),
    ('dimensionality_reduction', PCA(n_components=5)),
    ('clf', RandomForestClassifier())
])

pipeline.fit(X_train, y_train)
```



## 📚 Домашнее задание

1. Загрузите любой датасет со многими признаками (например, [Breast Cancer](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html), [Digits](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html)).
2. Примените следующие методы:
   - Удаление признаков с низкой дисперсией;
   - Удаление коррелированных признаков;
   - PCA;
   - LDA (если классификация);
   - Filter / Embedded / Wrapper методы отбора признаков.
3. Обучите модель до и после уменьшения размерности — сравните качество.
4. Постройте графики важности признаков и доли объяснённой дисперсии.



## 📚 Дополнительные библиотеки

| Библиотека | Описание |
|------------|----------|
| **Scikit-learn** | PCA, LDA, RFE, SelectKBest |
| **Feature-engine** | Автоматический отбор |
| **Boruta** | Расширение Random Forest для отбора признаков |
| **SHAP / LIME** | Анализ важности признаков с точки зрения модели |
| **eli5** | Интерпретация и оценка важности признаков |



## 🧠 Заключение

Уменьшение размерности — мощный инструмент, который позволяет:
- **Снизить риск переобучения**,
- **Ускорить обучение модели**,
- **Упростить интерпретацию**,
- **Сохранить важную информацию**.

Правильно применённое уменьшение размерности может значительно повысить производительность моделей, особенно в условиях высокой размерности данных.


# 🔹 11. Разделение выборки  
## 📌 Введение

**Разделение выборки** — это ключевой этап в подготовке данных для машинного обучения. Оно позволяет:
- **Обучить модель** на части данных,
- **Оценить её качество** на невидимых примерах (валидация),
- **Проверить финальную модель** на независимой тестовой выборке.

Правильное разделение данных помогает избежать **утечки информации**, обеспечивает **объективную оценку модели** и снижает риск **переобучения**.



## 🧠 Почему важно правильно разделять данные?

| Проблема | Решение |
|---------|----------|
| Утечка данных | Разделение до обработки |
| Нестабильная оценка качества | Кросс-валидация |
| Смещённая оценка качества | Стратифицированное разделение |
| Нарушение временного порядка | TimeSeriesSplit |



## 📊 Основные типы разделения

| Метод | Когда использовать | Особенности |
|-------|---------------------|-------------|
| `train_test_split()` | Быстрое разделение на train и test | Просто, но может быть нестабильно |
| K-Fold | Для более надёжной оценки | Повторяется несколько раз |
| Stratified K-Fold | Для задач классификации с несбалансированными классами | Сохраняет распределение целевой переменной |
| TimeSeriesSplit | Для временных рядов | Учитывает хронологический порядок |



## 1. Обычное разделение: `train_test_split`

Это самый простой и часто используемый способ разделить данные на **обучающую** и **тестовую** выборки.

### Реализация:

```python
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```

Где:
- `test_size` — доля данных, выделяемых под тест;
- `random_state` — фиксирует случайность для воспроизводимости;
- `stratify=y` — сохраняет пропорции классов (для классификации).

#### Пример с `stratify`:

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)
```

> ✅ Просто и быстро.  
> ❌ Не устойчив к вариации данных.



## 2. K-Fold Cross Validation

**K-Fold** — метод, при котором данные делятся на `k` частей (фолдов), и модель обучается `k` раз, каждый раз на `k-1` фолдах и тестируется на оставшемся.

### Этапы:
1. Данные делятся на `k` равных частей.
2. На каждой итерации одна часть используется как валидационная, остальные — как обучающие.
3. Итоговая метрика — среднее по всем `k` итерациям.

### Реализация:

```python
from sklearn.model_selection import KFold, cross_val_score
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
kf = KFold(n_splits=5, shuffle=True, random_state=42)

scores = cross_val_score(model, X, y, cv=kf, scoring='accuracy')
print("Средняя точность:", scores.mean())
```

> ✅ Более стабильная оценка качества.  
> ❌ Требует больше времени на обучение.



## 3. Stratified K-Fold (для классификации)

Аналогичен K-Fold, но **сохраняет соотношение классов** в каждом фолде. Это особенно важно, если классы несбалансированы.

### Реализация:

```python
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

for train_index, val_index in skf.split(X, y):
    X_train, X_val = X[train_index], X[val_index]
    y_train, y_val = y[train_index], y[val_index]
    model.fit(X_train, y_train)
    score = model.score(X_val, y_val)
    print("Валидационная точность:", score)
```

> ✅ Подходит для задач с несбалансированными классами.  
> ❌ Не подходит для временных рядов.



## 4. TimeSeriesSplit (для временных рядов)

Для временных данных нельзя просто перемешивать данные — это нарушит временную зависимость. Поэтому используется специальный метод **TimeSeriesSplit**, где данные делятся в порядке возрастания времени.

### Реализация:

```python
from sklearn.model_selection import TimeSeriesSplit

tscv = TimeSeriesSplit(n_splits=5)

for train_index, val_index in tscv.split(X):
    X_train, X_val = X[train_index], X[val_index]
    y_train, y_val = y[train_index], y[val_index]
    model.fit(X_train, y_train)
    score = model.score(X_val, y_val)
    print("Временная валидация — точность:", score)
```

> ✅ Учитывает временной порядок.  
> ❌ Нельзя перемешивать данные.



## 5. Отложенная тестовая выборка (Hold-out)

Иногда используется **трехчастное разделение**:  
- `train` — обучение модели,  
- `validation` — настройка гиперпараметров,  
- `test` — финальная оценка.

### Реализация:

```python
# Сначала делим на train и test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

# Затем делим train на train и validation
X_train_, X_val, y_train_, y_val = train_test_split(X_train, y_train, test_size=0.25, stratify=y_train, random_state=42)
```

> ✅ Подходит для ранней оценки и сравнения моделей.  
> ❌ Требует достаточного объёма данных.



## 6. Групповое разделение (Group-based Splitting)

Если данные содержат **группы** (например, пользователи, пациенты, клиенты), то важно **не допустить попадания одной группы в train и test**.

### Пример: GroupKFold

```python
from sklearn.model_selection import GroupKFold

gkf = GroupKFold(n_splits=5)

for train_idx, val_idx in gkf.split(X, y, groups=groups):
    X_train, X_val = X[train_idx], X[val_idx]
    y_train, y_val = y[train_idx], y[val_idx]
    model.fit(X_train, y_train)
    score = model.score(X_val, y_val)
    print("Точность на валидации:", score)
```

> ✅ Избегаем утечки между группами.  
> ❌ Требуется знать групповые метки.



## 7. Leave-One-Out (LOO) — редко используется

Каждая точка используется как валидационная один раз, остальные — обучающие.

### Реализация:

```python
from sklearn.model_selection import LeaveOneOut, cross_val_score

loo = LeaveOneOut()
scores = cross_val_score(model, X, y, cv=loo)
```

> ⚠️ Очень медленный метод.  
> ❌ Используется редко из-за высоких вычислительных затрат.



## 🧮 Как выбрать количество фолдов?

| Метод | Рекомендуемое число фолдов |
|--------|-----------------------------|
| K-Fold / Stratified K-Fold | 5 или 10 |
| TimeSeriesSplit | 3–5 |
| Leave-One-Out | Все точки (очень долго) |
| Hold-out | 80% / 20% |

Чем меньше данных — тем больше фолдов нужно, чтобы оценка была устойчивой.



## 📈 Пример: сравнение разных стратегий

| Метод | Размер train | Размер test | Особенности |
|--------|--------------|-------------|-------------|
| `train_test_split(0.2)` | 80% | 20% | Одно разбиение |
| K-Fold (n=5) | ~80% | ~20% | 5 разбиений, усреднение |
| Stratified K-Fold | ~80% | ~20% | То же + сохранение баланса классов |
| TimeSeriesSplit (n=5) | По возрастанию времени | Последние наблюдения | Учет временного тренда |
| GroupKFold (n=5) | Без пересечения групп | Без пересечения групп | Устранение утечки между группами |



## 📦 Пример полного пайплайна предобработки и разделения

```python
import pandas as pd
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier

# Предобработка
df = pd.read_csv('data.csv')
X = df.drop('target', axis=1)
y = df['target']

# Разделение на train и test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

# Создание пайплайна
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('clf', RandomForestClassifier())
])

# Кросс-валидация
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
scores = []

for train_idx, val_idx in skf.split(X_train, y_train):
    pipeline.fit(X_train.iloc[train_idx], y_train.iloc[train_idx])
    score = pipeline.score(X_train.iloc[val_idx], y_train.iloc[val_idx])
    scores.append(score)

print("Средняя точность на валидации:", np.mean(scores))

# Финальное обучение на всех train данных
pipeline.fit(X_train, y_train)

# Оценка на тесте
final_score = pipeline.score(X_test, y_test)
print("Финальная точность на тесте:", final_score)
```



## 📊 Советы по разделению данных

| Ситуация | Что делать |
|----------|-------------|
| Мало данных | Использовать K-Fold (5 или 10 фолдов) |
| Несбалансированные классы | Stratified K-Fold |
| Временные ряды | TimeSeriesSplit |
| Группы в данных | GroupKFold |
| Контроль утечки данных | Всегда делить до предобработки и фиче-инженерии |
| Выбор числа фолдов | 5 или 10 — оптимальный компромисс между качеством и скоростью |



## 📚 Домашнее задание

1. Загрузите любой датасет (например, [Breast Cancer](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html)).
2. Разделите данные следующими способами:
   - `train_test_split`
   - `K-Fold`
   - `StratifiedKFold`
   - `TimeSeriesSplit` (если есть временной фактор)
3. Обучите модель (например, `RandomForestClassifier`) на каждом из них.
4. Сравните полученные метрики (accuracy, F1-score).
5. Постройте графики распределения оценок качества.



## 🧠 Заключение

Правильное разделение выборки — основа корректной оценки модели. Вот основные рекомендации:

- **Используйте `train_test_split()`** для быстрого эксперимента.
- **Применяйте `K-Fold` или `Stratified K-Fold`**, если нужна стабильная оценка.
- **Используйте `TimeSeriesSplit`**, если данные имеют временной фактор.
- **Учитывайте групповую структуру**, если есть повторяющиеся объекты (например, пользователи).
- **Не забывайте про стратификацию**, особенно если классы несбалансированы.

Хочешь, чтобы я показал реализацию для конкретной задачи? Например, как разделить данные для временных рядов или с учётом пользовательских ID — пиши, сделаю!

# 🔹 12. Балансировка классов (Class Imbalance Handling)  
## 📌 Введение

**Балансировка классов** — это важный этап при работе с задачами **классификации**, в которых **классы распределены неравномерно**. Например, в задаче детектирования мошенничества нормальные транзакции могут составлять 99.9% данных, а мошеннические — лишь 0.1%. Такие данные называются **несбалансированными (imbalanced)**.

Если не учитывать дисбаланс, модель может:
- **игнорировать редкий класс**,
- давать высокую метрику (например, `accuracy`), но быть бесполезной на практике,
- **переобучаться на частом классе** и плохо работать на редком.



## 🧠 Почему балансировка важна?

| Проблема | Решение |
|---------|----------|
| Низкое качество на редких классах | Балансировка |
| Завышенная оценка качества (`accuracy`) | Изменение метрики |
| Утечка данных из train во время обучения | Корректное разделение выборки |
| Смещённая оценка модели | Oversampling / Undersampling |



## 🔢 Типы подходов к балансировке классов

| Метод | Описание | Когда использовать |
|--------|----------|---------------------|
| **Undersampling** | Уменьшение числа объектов большого класса | Много данных, малая цена потери информации |
| **Oversampling** | Увеличение числа объектов малого класса | Мало данных, важно сохранить все примеры |
| **Синтетические методы (SMOTE, ADASYN)** | Генерация новых примеров для малого класса | Мало данных, нужно увеличение |
| **Взвешивание классов (`class_weight`)** | Учет весов классов в обучении | Когда нельзя менять данные |
| **Изменение метрики оценки** | Использование F1, ROC AUC вместо accuracy | При оценке качества модели |



## 1. Oversampling: увеличение редкого класса

### a) **Random Oversampling**

Просто **дублирует случайные образцы** из редкого класса.

```python
from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler()
X_res, y_res = ros.fit_resample(X_train, y_train)
```

> ✅ Простой способ уравнять классы.  
> ❌ Может вызвать переобучение.



### b) **SMOTE (Synthetic Minority Over-sampling Technique)**

Генерирует **синтетические примеры** между соседями редкого класса.

```python
from imblearn.over_sampling import SMOTE

smote = SMOTE()
X_res, y_res = smote.fit_resample(X_train, y_train)
```

#### Плюсы:
- Не просто копирует данные.
- Сохраняет структуру признакового пространства.

#### Минусы:
- Может создать шумовые образцы.
- Требует корректного определения соседей.



### c) **ADASYN (Adaptive Synthetic Sampling)**

Аналог SMOTE, но делает больше синтетических примеров в сложных областях.

```python
from imblearn.over_sampling import ADASYN

adasyn = ADASYN()
X_res, y_res = adasyn.fit_resample(X_train, y_train)
```

> ✅ Подходит, если редкий класс сложно разделить.  
> ❌ Требует больше вычислений.



## 2. Undersampling: уменьшение большого класса

### a) **Random Undersampling**

Случайным образом **удаляет объекты из большого класса**.

```python
from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler()
X_res, y_res = rus.fit_resample(X_train, y_train)
```

> ✅ Ускоряет обучение.  
> ❌ Может привести к потере важной информации.



### b) **Tomek Links**

Находит **"противоречивые" точки** между классами и удаляет их.

```python
from imblearn.under_sampling import TomekLinks

tl = TomekLinks()
X_res, y_res = tl.fit_resample(X_train, y_train)
```

> ✅ Убирает "шум" между классами.  
> ❌ Требует анализа границы разделения.



### c) **NearMiss**

Выбирает представительные образцы из большого класса, основываясь на расстоянии до малого класса.

```python
from imblearn.under_sampling import NearMiss

nm = NearMiss(version=1)
X_res, y_res = nm.fit_resample(X_train, y_train)
```

> ✅ Сохраняет информативные примеры.  
> ❌ Требует больше вычислений.



## 3. Комбинированный подход

Можно комбинировать oversampling и undersampling:

```python
from imblearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler

over = SMOTE(sampling_strategy=0.5)  # Увеличиваем до 50% от большого класса
under = RandomUnderSampler(sampling_strategy=0.7)  # Уменьшаем до 70%

pipeline = Pipeline(steps=[('o', over), ('u', under)])
X_res, y_res = pipeline.fit_resample(X_train, y_train)
```

> ✅ Баланс между качеством и количеством данных.  
> ❌ Требует подбора параметров.



## 4. Взвешивание классов (class_weight)

Некоторые алгоритмы позволяют задать **веса классов**, чтобы модель уделяла больше внимания редкому классу.

### Пример: RandomForestClassifier

```python
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(class_weight='balanced')
model.fit(X_train, y_train)
```

### Пример: XGBoost

```python
from xgboost import XGBClassifier

model = XGBClassifier(scale_pos_weight=weight_for_positive_class)
model.fit(X_train, y_train)
```

> ✅ Простой и эффективный способ.  
> ❌ Не всегда помогает при сильном дисбалансе.



## 5. Изменение метрики оценки

Accuracy — плохая метрика для несбалансированных данных. Лучше использовать:

| Метрика | Когда использовать |
|--------|---------------------|
| **F1-score** | Когда важны и precision, и recall |
| **Precision / Recall** | Если важна точность или полнота |
| **ROC AUC** | Для двоичной классификации |
| **PR AUC (Precision-Recall AUC)** | Если положительный класс редкий |
| **Balanced Accuracy** | Если классы сильно несбалансированы |

### Пример:

```python
from sklearn.metrics import classification_report, roc_auc_score

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
print("ROC AUC:", roc_auc_score(y_test, model.predict_proba(X_test)[:, 1]))
```



## 📊 Сводная таблица методов

| Метод | Подходит для | Преимущества | Недостатки |
|--------|---------------|---------------|-------------|
| Random Oversampling | Мало данных | Просто реализуется | Может вызвать переобучение |
| SMOTE | Мало данных | Создаёт новые образцы | Может генерировать шум |
| ADASYN | Сложные области редкого класса | Адаптивно генерирует | Высокие затраты |
| Random Undersampling | Много данных | Ускоряет обучение | Потеря информации |
| Tomek Links | Чистка данных | Убирает шум между классами | Уменьшает размер выборки |
| NearMiss | Экономия памяти | Сохраняет важные примеры | Может потерять информацию |
| Class Weight | Все случаи | Без изменения данных | Может быть недостаточно |
| Изменение метрики | Все случаи | Объективная оценка | Не влияет на обучение |



## 📈 Как выбрать метод балансировки?

| Задача | Рекомендация |
|--------|---------------|
| Очень мало данных по редкому классу | SMOTE / ADASYN |
| Есть много данных, можно терять часть | Undersampling |
| Нельзя менять данные | class_weight |
| Нужно учесть сложные зоны редкого класса | ADASYN |
| Нужно убрать шум между классами | Tomek Links |
| Нужно уменьшить больший класс | NearMiss / Random Under |
| Нужно улучшить обобщающую способность | SMOTE + Tomek Links (гибрид) |



## 🧪 Пример полного пайплайна с балансировкой

```python
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline as imbpipeline
from sklearn.metrics import classification_report

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

# Создание пайплайна
pipeline = imbpipeline([
    ('smote', SMOTE(random_state=42)),
    ('classifier', RandomForestClassifier())
])

# Обучение
pipeline.fit(X_train, y_train)

# Оценка
y_pred = pipeline.predict(X_test)
print(classification_report(y_test, y_pred))
```



## 📉 Что делать, если классы сильно несбалансированы?

### a) Взвешенная метрика

Используйте `f1_weighted`, `precision_weighted`, `recall_weighted`.

```python
from sklearn.metrics import f1_score

score = f1_score(y_test, y_pred, average='weighted')
```

### b) Кросс-валидация с учетом дисбаланса

```python
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=5)
for train_idx, val_idx in skf.split(X, y):
    X_train, X_val = X[train_idx], X[val_idx]
    y_train, y_val = y[train_idx], y[val_idx]
    pipeline.fit(X_train, y_train)
    score = pipeline.score(X_val, y_val)
    print("Validation Score:", score)
```



## 📦 Пример: сравнение метрик до и после балансировки

| Метрика | До балансировки | После SMOTE |
|--------|------------------|--------------|
| Accuracy | 0.98 | 0.95 |
| Precision (positive) | 0.35 | 0.72 |
| Recall (positive) | 0.10 | 0.68 |
| F1-score | 0.15 | 0.70 |

> 💡 Даже если accuracy упал, другие метрики показывают улучшение!



## 🧰 Полезные библиотеки

| Библиотека | Возможности |
|------------|-------------|
| **scikit-learn** | class_weight, метрики |
| **imbalanced-learn (imblearn)** | SMOTE, ADASYN, RandomOverSampler, TomekLinks и др. |
| **xgboost / lightgbm / catboost** | scale_pos_weight |
| **sklearn.metrics** | weighted, macro, micro метрики |
| **eli5 / shap** | Анализ важности признаков с учётом дисбаланса |



## 📚 Домашнее задание

1. Загрузите датасет с несбалансированными классами (например, [Credit Card Fraud Detection](https://www.kaggle.com/mlg-ulb/creditcardfraud)).
2. Примените следующие методы:
   - Random Oversampling
   - SMOTE
   - Random Undersampling
   - Tomek Links
   - ADASYN
3. Обучите модель (например, `RandomForestClassifier`) на каждом из них.
4. Сравните результаты по метрикам:
   - Accuracy
   - F1-score
   - ROC AUC
   - Precision / Recall
5. Сделайте вывод: какой метод дал лучшие результаты и почему?



## 🧠 Заключение

Балансировка классов — один из ключевых шагов в подготовке данных для задач классификации. Она позволяет:
- **улучшить качество модели на редких классах**;
- **избежать завышенной оценки** через `accuracy`;
- **сохранить ценную информацию** о редких событиях (мошенничество, отказ оборудования, болезни и т.д.).

Правильно подобранный метод балансировки может существенно повысить производительность модели, особенно если редкий класс имеет большое значение.
