# Обработка данных

**Разделы:**
- [Импортируем библиотеки и загрузим данные](#импортируем-библиотеки-и-загрузим-данные)
- [Анализ и очистка данных](#анализ-и-очистка-данных)
- [Feature Enginnering](#Feature-Enginnering)
- [Сохранение данных](#сохранение-данных)

## Импортируем библиотеки и загрузим данные

In [35]:
import pandas as pd
import numpy as np
import os

In [36]:
# Загрузка данных из data/raw/
data_path = os.path.join('..', 'data', 'raw', 'bmw.csv')
df = pd.read_csv(data_path)

## Анализ и очистка данных

In [37]:
print("Проверка пропусков:")
print(df.isnull().sum())

Проверка пропусков:
model           0
year            0
price           0
transmission    0
mileage         0
fuelType        0
tax             0
mpg             0
engineSize      0
dtype: int64


In [38]:
df['model'] = df['model'].apply(lambda x: x.strip().replace(' ', '_'))

## Feature Enginnering

Большая часть методов кластеризации работает с евклидовым расстоянием, поэтому преобразуем все имеющиеся данные с помощью метода one-hot.

In [39]:
df = pd.get_dummies(
    df,
    columns=df.select_dtypes(['object']).columns,
    drop_first=True
)

In [40]:
numeric_columns = ['year', 'price', 'mileage', 'tax', 'mpg', 'engineSize']
boolean_columns = [col for col in df.columns if col.startswith(('model_', 'transmission_', 'fuelType_'))]

Стандартизируем наши данные

In [41]:
X_numeric = df[numeric_columns].values

Изменяем булевые значения на int

In [42]:
X_boolean = df[boolean_columns].astype(int).values

Обьединяем типы обратно в единый датасет

In [43]:
X = np.hstack([X_numeric, X_boolean])
X = pd.DataFrame(
    data=X,
    columns=[*numeric_columns, *boolean_columns]
)

## Сохранение данных

In [44]:
os.makedirs('../data/processed', exist_ok=True)

X.to_csv('../data/processed/clustering.csv', index=False)