# Feature Engineering

---

**Источники:**

[Искусство Feature Engineering в машинном обучении](https://habr.com/ru/company/mlclass/blog/248129/)

---

Почти любая задача начинается с создания (Engineering) и отбора (Selection) признаков.

In [1]:
import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

## Категориальные признаки

**Пример:**
Цвет (color), т.е. синий (blue), красный (red), зеленый (green).


**Возможное решение:**
- Добавить признаки вида is_red, is_blue, is_green, is_red_or_blue и другие возможные комбинации.
- Категория -> число (LabelEncoding).
- Заменить признаки на их количество (Count Encoding).
- Target Encoding.
- CatBoost Encoding.

In [2]:
df = pd.read_csv("./../data/FuelConsumptionCo2.csv")
df

FileNotFoundError: [Errno 2] No such file or directory: './data/FuelConsumptionCo2.csv'

In [None]:
df_num = df.select_dtypes(include=[np.number])
df_num.info()

In [None]:
df.info()

In [None]:
list(df.MAKE.unique())

In [None]:
acura = df.MAKE.unique()[0]
acura

In [None]:
list(df.MODEL.unique())

In [None]:
list(df.VEHICLECLASS.unique())

In [None]:
list(df.FUELTYPE.unique())

### LabelEncoder

In [None]:
from sklearn.preprocessing import LabelEncoder

cat_features = ['FUELTYPE', 'MAKE', 'VEHICLECLASS']

encoder = LabelEncoder()

# Apply the label encoder to each column
encoded = df[cat_features].apply(encoder.fit_transform)
encoded

In [None]:
new_df = df_num.join(encoded)
new_df

In [None]:
# разделить независимую и зависимую переменные / train и test
y = new_df['CO2EMISSIONS']
X = new_df.drop(['CO2EMISSIONS'], axis=1)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

# импортировать пакет xgboost
import xgboost as xg

# создать объект XGBRegressor
xgb_r = xg.XGBRegressor(n_estimators = 10, max_depth=6)

# обучить модель
xgb_r.fit(X_train, y_train)

# использовать обученную модель для предсказания на test выборке
y_predicted = xgb_r.predict(X_test)

# вывести результаты предсказания
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
print(f'r2_score = {r2_score(y_true=y_test, y_pred=y_predicted)}')
print(f'MSE = {mean_squared_error(y_test, y_predicted, squared=True)}')

#### Count Encoding

Count encoding replaces each categorical value with the number of times it appears in the dataset.

#### Target Encoding

#### CatBoost Encoding

## Даты и время

**Возможное решение:**
- Добавить признаки, соответствующие времени дня, количеству прошеднего времени с определенного момента, выделение сезонов, времен года, кварталов. 
- Разделение времени на часы, минуты и секунды (если время дано в Unix-Time или ISO формате). 

## Числовые переменные

**Возможное решение:**
- Округление или разделение на целую и вещественную часть (+ нормализация).
- Приведение числового признака в категориальный (добавить признаки вида "рост больше X", "рост меньше X").

## Обработка строковых признаков

**Возможное решение:**
- В самих строках зачастую содержится информация ("Mr.", "Mrs." преобразовать в половой признак).

## Результаты других алгоритмов

Если решается задача классификации, можно сначала решить вспомогательную задачу кластеризации, и в качестве признака в первоначальной задаче взять кластер обьекта.

Это обычно происходит на основе первичного анализа данных в случае, когда обьекты хорошо кластеризуются.

## Агрегированные признаки

Признаки, которые агрегируют признаки некоторого обьекта, тем самым также сокращая размерность признакового описания. 

Полезно в задачах, в которых один обьект содержит несколько однотипных параметров.

Например, человек, имеющий несколько автомобилей разной стоимости. В данном случае можно рассмотреть признаки, соответствующие максимальной/минимальной/средней стоимости автомобиля этого человека.

## Добавление новых признаков

Чтобы эффективно решить задачу, необходимо быть экспертом в конкретной области и понимать, что влияет на конкретную целевую переменную. 