# Очистка данных

Правильный порядок очистки данных в датасете с использованием *pandas*

1. **Импорт данных**
2. Первичный осмотр
* df.head()        # первые 5 строк
* df.info()        # типы данных и пропуски
* df.describe()    # статистика для числовых столбцов
* df.shape         # размерность данных (строки, столбцы)
* df.columns       # список названий столбцов
3. **Удаление ненужных столбцов**\
df.drop(columns=['Unnamed: 0', 'id'], inplace=True)  # удалить столбцы

4. **Обработка пропусков (NaN)**\
df.dropna(subset=['important_column'], inplace=True)  # удалить строки с пропусками в ключевом столбце
df['numeric_column'].fillna(df['numeric_column'].mean(), inplace=True)  # замена на среднее значение
df['text_column'].fillna('Unknown', inplace=True)  # замена для текстовых данных

5. **Удаление дубликатов**\
df.drop_duplicates(inplace=True)  # удалить полные дубликаты строк
* Использовать assert для автоматической проверки.\
assert df['user_id'].nunique() == len(df), "Есть дубликаты ID!"

6. **Обработка выбросов**
* Метод межквартильного размаха (IQR):\
Q1 = df['column'].quantile(0.25)\
Q3 = df['column'].quantile(0.75)\
IQR = Q3 - Q1\
df = df[~((df['column'] < (Q1 - 1.5 * IQR)) | (df['column'] > (Q3 + 1.5 * IQR)))]

7. **Исправление форматов данных**
df['date_column'] = pd.to_datetime(df['date_column'])  # преобразование в дату
df['numeric_column'] = pd.to_numeric(df['numeric_column'], errors='coerce')  # в числа
df['text_column'] = df['text_column'].astype('category')  # в категории

8. **Обработка текстовых данных**
* Удаление пробелов:\
df['text_column'] = df['text_column'].str.strip()
* Приведение к нижнему регистру:\
df['text_column'] = df['text_column'].str.lower()

9. **Работа с категориальными переменными**
* One-Hot Encoding для категориальных признаков\
df = pd.get_dummies(df, columns=['category_column'])\
*One-hot encoding* — это способ представления категориальных данных в числовом формате, который подходит для использования в алгоритмах машинного обучения.

10. **Переименование столбцов**\
df.rename(columns={'old_name': 'new_name'}, inplace=True)

11. **Нормализация/стандартизация данных**\
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()\
df['numeric_column'] = scaler.fit_transform(df[['numeric_column']])

12. **Проверка результатов**\
df.info()        # убедиться, что типы данных верны\
df.isnull().sum()  # проверить отсутствие пропусков\
df.describe()    # проверить распределения

* ТАК МОЖЕТ ВЫГЛЯДЕТЬ ПОЛНЫЙ ПАЙПЛАЙН\
df = pd.read_csv('data.csv')\
df_clean = (\
    df.copy()\
    .drop(columns=['id'])\
    .dropna(subset=['price'])\
    .fillna({'category': 'Unknown'})\
    .drop_duplicates()\
    .pipe(lambda x: x[x['age'] < 100])\
)