
---

## (13.09) 2. Подготовка данных

Подготовка данных — ключевой этап в процессе работы с задачами машинного обучения, такими как классификация, регрессия и кластеризация. Для построения точных моделей необходимо привести данные в надлежащий вид.

#### Основные шаги подготовки данных:
1. **Сбор данных**: данные могут поступать из разных источников — от баз данных и API до внешних наборов данных (например, с платформы Kaggle).
2. **Очистка данных**: этот этап включает обработку пропущенных значений, удаление аномалий, устранение дубликатов и преобразование данных в нужный формат.
3. **Предобработка данных**: может включать нормализацию или стандартизацию признаков, кодирование категориальных переменных и уменьшение размерности.
4. **Разделение данных**: важно разделить данные на обучающую и тестовую выборки, чтобы проверить модель на новых данных после обучения.
5. **Анализ данных**: включает исследование распределений признаков, их взаимосвязей и визуализацию для лучшего понимания структуры данных.

#### Пример работы с данными

Рассмотрим процесс подготовки данных на примере библиотеки `pandas`:

```python
import pandas as pd
import numpy as np

# Создаем набор данных
data = {
    'experience': [1, 2, 5, 7, np.nan, 10],
    'salary': [30000, 40000, 70000, 80000, 120000, np.nan]
}

df = pd.DataFrame(data)
print("Исходные данные:")
print(df)

# 1. Обработка пропусков
df['experience'].fillna(df['experience'].mean(), inplace=True)  # Заполнение пропущенных значений средним значением
df['salary'].fillna(df['salary'].median(), inplace=True)        # Заполнение пропусков медианным значением

print("\nДанные после обработки пропусков:")
print(df)

# 2. Нормализация признаков
df['salary_normalized'] = (df['salary'] - df['salary'].min()) / (df['salary'].max() - df['salary'].min())
print("\nДанные после нормализации зарплаты:")
print(df)

# 3. Разделение данных на обучающую и тестовую выборки
from sklearn.model_selection import train_test_split

X = df[['experience']]  # Независимая переменная
y = df['salary']        # Зависимая переменная

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print("\nОбучающие данные:")
print(X_train)
print("\nТестовые данные:")
print(X_test)
```

---
