# 🧹 Урок 15: Работа с данными — Очистка, нормализация и визуализация
**Цель урока:** Научиться готовить данные для машинного обучения: очищать, нормализовать и анализировать с помощью визуализации. Подходит для новичков.

## 📌 Зачем чистить данные?
- **Пропуски:** Если данные неполные, модель может дать неверный результат.
- **Шум:** Ошибки измерений или случайные значения, которые мешают модели.
- **Выбросы:** Аномальные значения, искажающие закономерности [[3]].

💡 **Аналогия:** Представьте, что вы учитесь по учебнику с испорченными страницами — модель тоже «обучается» на данных, и если они грязные, она будет делать ошибки.

## 🧼 Очистка данных
### 1. Обработка пропущенных значений
- **Удаление строк/столбцов:** Если пропусков много, можно удалить их.
- **Заполнение средним/медианой/модой:** Если пропусков мало, можно заполнить.
- **Предсказание пропусков:** Использовать ML для восстановления данных.

**Пример:**
```python
import pandas as pd
df = pd.DataFrame({'Age': [25, None, 35], 'Income': [50000, 60000, None]})
print(df)
```
**Результат:**
```
   Age    Income
0  25.0  50000.0
1   NaN  60000.0
2  35.0      NaN
```

### 2. Удаление пропусков
```python
df_cleaned = df.dropna()
print(df_cleaned)  # Удалены строки с пропусками
```

### 3. Заполнение пропусков
```python
df_filled = df.fillna({'Age': df['Age'].mean(), 'Income': df['Income'].median()})
print(df_filled)  # Пропуски заменены на среднее/медиану
```

### 4. Обнаружение и обработка выбросов
- **Метод IQR:**
  ```python
  Q1 = df['Age'].quantile(0.25)
  Q3 = df['Age'].quantile(0.75)
  IQR = Q3 - Q1
  outliers = df[(df['Age'] < (Q1 - 1.5 * IQR)) | (df['Age'] > (Q3 + 1.5 * IQR))]
  ```

## 🔄 Преобразование типов данных
- **Зачем это нужно?** Модели ML работают с числовыми данными, поэтому текстовые значения нужно преобразовать.
- **Пример:** Преобразование категориальных данных:
  ```python
  df['Gender'] = df['Gender'].map({'Male': 0, 'Female': 1})
  ```
- **Кодирование категорий:** `One-Hot Encoding` для нескольких категорий.
  ```python
  df = pd.get_dummies(df, columns=['City'])
  ```

## 📏 Нормализация и стандартизация
- **Нормализация (MinMaxScaler):** Приводит данные к диапазону [0, 1].
  ```python
  from sklearn.preprocessing import MinMaxScaler
  scaler = MinMaxScaler()
  df_scaled = scaler.fit_transform(df)
  ```
- **Стандартизация (StandardScaler):** Приводит данные к среднему 0 и дисперсии 1.
  ```python
  from sklearn.preprocessing import StandardScaler
  scaler = StandardScaler()
  df_standardized = scaler.fit_transform(df)
  ```

💡 **Когда что использовать?**
- **Нормализация:** Если данные имеют нестандартное распределение (например, изображения).
- **Стандартизация:** Если данные нормально распределены [[7]].

## 📊 Визуализация данных
- **Гистограмма:** Распределение данных.
  ```python
  import matplotlib.pyplot as plt
  df['Age'].hist()
  plt.title('Распределение возраста')
  plt.show()
  ```
- **Boxplot:** Поиск выбросов.
  ```python
  df.boxplot(column='Income')
  plt.title('Доход')
  plt.show()
  ```
- **Scatter Plot:** Связь между двумя переменными.
  ```python
  plt.scatter(df['Age'], df['Income'])
  plt.xlabel('Возраст')
  plt.ylabel('Доход')
  plt.title('Возраст vs Доход')
  plt.show()
  ```
- **Heatmap (корреляция):** Связь между признаками.
  ```python
  import seaborn as sns
  sns.heatmap(df.corr(), annot=True)
  plt.title('Корреляционная матрица')
  plt.show()
  ```

## 📈 Основы анализа данных
- **Корреляция:** Мера зависимости между переменными (от -1 до 1).
- **Распределение:** Как данные распределены (нормальное, скошенное).
- **Группировка:** Анализ данных по категориям.
  ```python
  df.groupby('Gender')['Income'].mean()
  ```

## 🧪 Практика: Анализ датасета
### Шаг 1: Загрузите датасет
```python
from sklearn.datasets import fetch_openml
import pandas as pd

# Загрузка данных
data = fetch_openml(name='titanic', version=1, as_frame=True)
df = data.frame
print(df.head())
```

### Шаг 2: Найдите и обработайте пропуски
```python
print(df.isnull().sum())  # Сколько пропусков
df['Age'].fillna(df['Age'].median(), inplace=True)  # Заполнить медианой
df.dropna(subset=['Embarked'], inplace=True)  # Удалить строки
```

### Шаг 3: Нормализуйте числовые признаки
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df[['Age', 'Fare']] = scaler.fit_transform(df[['Age', 'Fare']])
```

### Шаг 4: Визуализация данных
```python
import seaborn as sns
sns.histplot(df['Age'], kde=True)
plt.title('Возраст после стандартизации')
plt.show()

sns.boxplot(x='Survived', y='Fare', data=df)
plt.title('Выжившие vs Не выжившие по стоимости билета')
plt.show()

sns.scatterplot(x='Age', y='Fare', hue='Survived', data=df)
plt.title('Возраст vs Стоимость билета')
plt.show()
```

## 📝 Домашнее задание
**Задача 1:** Скачайте любой открытый датасет (например, [Kaggle](https://www.kaggle.com ) или `sklearn.datasets`).
**Задача 2:** Проведите базовую очистку и визуализацию:
- Найдите пропуски и обработайте их.
- Преобразуйте категориальные признаки в числа.
- Нормализуйте числовые признаки.
- Постройте графики: гистограмма, boxplot, scatter plot.
- Напишите краткий отчет (200–300 слов) с выводами по каждому этапу.

💡 **Рекомендации:**
- Используйте `df.info()` для проверки типов данных.
- Для нормализации — `StandardScaler` или `MinMaxScaler`.
- Для визуализации — `matplotlib` и `seaborn`.