# Feature Engineering

---

**Источники:**

[Искусство Feature Engineering в машинном обучении](https://habr.com/ru/company/mlclass/blog/248129/)

---

Почти любая задача начинается с создания (Engineering) и отбора (Selection) признаков.

In [1]:
import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

## Категориальные признаки

**Пример:**
Цвет (color), т.е. синий (blue), красный (red), зеленый (green).


**Возможное решение:**
- Добавить признаки вида is_red, is_blue, is_green, is_red_or_blue и другие возможные комбинации.
- Категория -> число.

In [2]:
df = pd.read_csv("./data/FuelConsumptionCo2.csv")
df

Unnamed: 0,MODELYEAR,MAKE,MODEL,VEHICLECLASS,ENGINESIZE,CYLINDERS,TRANSMISSION,FUELTYPE,FUELCONSUMPTION_CITY,FUELCONSUMPTION_HWY,FUELCONSUMPTION_COMB,FUELCONSUMPTION_COMB_MPG,CO2EMISSIONS
0,2014,ACURA,ILX,COMPACT,2.0,4,AS5,Z,9.9,6.7,8.5,33,196
1,2014,ACURA,ILX,COMPACT,2.4,4,M6,Z,11.2,7.7,9.6,29,221
2,2014,ACURA,ILX HYBRID,COMPACT,1.5,4,AV7,Z,6.0,5.8,5.9,48,136
3,2014,ACURA,MDX 4WD,SUV - SMALL,3.5,6,AS6,Z,12.7,9.1,11.1,25,255
4,2014,ACURA,RDX AWD,SUV - SMALL,3.5,6,AS6,Z,12.1,8.7,10.6,27,244
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1062,2014,VOLVO,XC60 AWD,SUV - SMALL,3.0,6,AS6,X,13.4,9.8,11.8,24,271
1063,2014,VOLVO,XC60 AWD,SUV - SMALL,3.2,6,AS6,X,13.2,9.5,11.5,25,264
1064,2014,VOLVO,XC70 AWD,SUV - SMALL,3.0,6,AS6,X,13.4,9.8,11.8,24,271
1065,2014,VOLVO,XC70 AWD,SUV - SMALL,3.2,6,AS6,X,12.9,9.3,11.3,25,260


In [3]:
df_num = df.select_dtypes(include=[np.number])
df_num.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067 entries, 0 to 1066
Data columns (total 8 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   MODELYEAR                 1067 non-null   int64  
 1   ENGINESIZE                1067 non-null   float64
 2   CYLINDERS                 1067 non-null   int64  
 3   FUELCONSUMPTION_CITY      1067 non-null   float64
 4   FUELCONSUMPTION_HWY       1067 non-null   float64
 5   FUELCONSUMPTION_COMB      1067 non-null   float64
 6   FUELCONSUMPTION_COMB_MPG  1067 non-null   int64  
 7   CO2EMISSIONS              1067 non-null   int64  
dtypes: float64(4), int64(4)
memory usage: 66.8 KB


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067 entries, 0 to 1066
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   MODELYEAR                 1067 non-null   int64  
 1   MAKE                      1067 non-null   object 
 2   MODEL                     1067 non-null   object 
 3   VEHICLECLASS              1067 non-null   object 
 4   ENGINESIZE                1067 non-null   float64
 5   CYLINDERS                 1067 non-null   int64  
 6   TRANSMISSION              1067 non-null   object 
 7   FUELTYPE                  1067 non-null   object 
 8   FUELCONSUMPTION_CITY      1067 non-null   float64
 9   FUELCONSUMPTION_HWY       1067 non-null   float64
 10  FUELCONSUMPTION_COMB      1067 non-null   float64
 11  FUELCONSUMPTION_COMB_MPG  1067 non-null   int64  
 12  CO2EMISSIONS              1067 non-null   int64  
dtypes: float64(4), int64(4), object(5)
memory usage: 108.5+ KB


In [5]:
list(df.MAKE.unique())

['ACURA',
 'ASTON MARTIN',
 'AUDI',
 'BENTLEY',
 'BMW',
 'BUICK',
 'CADILLAC',
 'CHEVROLET',
 'CHRYSLER',
 'DODGE',
 'FIAT',
 'FORD',
 'GMC',
 'HONDA',
 'HYUNDAI',
 'INFINITI',
 'JAGUAR',
 'JEEP',
 'KIA',
 'LAMBORGHINI',
 'LAND ROVER',
 'LEXUS',
 'LINCOLN',
 'MASERATI',
 'MAZDA',
 'MERCEDES-BENZ',
 'MINI',
 'MITSUBISHI',
 'NISSAN',
 'PORSCHE',
 'RAM',
 'ROLLS-ROYCE',
 'SCION',
 'SMART',
 'SRT',
 'SUBARU',
 'TOYOTA',
 'VOLKSWAGEN',
 'VOLVO']

In [6]:
acura = df.MAKE.unique()[0]
acura

'ACURA'

In [7]:
list(df.MODEL.unique())

['ILX',
 'ILX HYBRID',
 'MDX 4WD',
 'RDX AWD',
 'RLX',
 'TL',
 'TL AWD',
 'TSX',
 'DB9',
 'RAPIDE',
 'V8 VANTAGE',
 'V8 VANTAGE S',
 'VANQUISH',
 'A4',
 'A4 QUATTRO',
 'A5 CABRIOLET QUATTRO',
 'A5 QUATTRO',
 'A6 QUATTRO',
 'A6 QUATTRO TDI CLEAN DIESEL',
 'A7 QUATTRO',
 'A7 QUATTRO TDI CLEAN DIESEL',
 'A8',
 'A8 TDI CLEAN DIESEL',
 'A8L',
 'A8L TDI CLEAN DIESEL',
 'ALLROAD QUATTRO',
 'Q5',
 'Q5 HYBRID',
 'Q5 TDI CLEAN DIESEL',
 'Q7',
 'Q7 TDI CLEAN DIESEL',
 'R8',
 'R8 SPYDER',
 'RS5',
 'RS5 CABRIOLET',
 'RS7',
 'S4',
 'S5',
 'S5 CABRIOLET',
 'S6',
 'S7',
 'S8',
 'SQ5',
 'TT COUPE QUATTRO',
 'TT ROADSTER QUATTRO',
 'TTS COUPE QUATTRO',
 'TTS ROADSTER QUATTRO',
 'CONTINENTAL GT',
 'CONTINENTAL GT CONVERTIBLE',
 'CONTINENTAL GT SPEED CONVERTIBLE',
 'CONTINENTAL GTC',
 'FLYING SPUR',
 'MULSANNE',
 '320i',
 '320i xDRIVE',
 '328d xDRIVE',
 '328d xDRIVE TOURING',
 '328i',
 '328i xDRIVE',
 '328i xDRIVE GRAN TURISMO',
 '328i xDRIVE TOURING',
 '335i',
 '335i xDRIVE',
 '335i xDRIVE GRAN TURISMO',

In [8]:
list(df.VEHICLECLASS.unique())

['COMPACT',
 'SUV - SMALL',
 'MID-SIZE',
 'MINICOMPACT',
 'SUBCOMPACT',
 'TWO-SEATER',
 'FULL-SIZE',
 'STATION WAGON - SMALL',
 'SUV - STANDARD',
 'VAN - CARGO',
 'VAN - PASSENGER',
 'PICKUP TRUCK - STANDARD',
 'MINIVAN',
 'SPECIAL PURPOSE VEHICLE',
 'STATION WAGON - MID-SIZE',
 'PICKUP TRUCK - SMALL']

In [9]:
list(df.FUELTYPE.unique())

['Z', 'D', 'X', 'E']

### LabelEncoder

In [10]:
from sklearn.preprocessing import LabelEncoder

cat_features = ['FUELTYPE', 'MAKE', 'VEHICLECLASS']

encoder = LabelEncoder()

# Apply the label encoder to each column
encoded = df[cat_features].apply(encoder.fit_transform)
encoded

Unnamed: 0,FUELTYPE,MAKE,VEHICLECLASS
0,3,0,0
1,3,0,0
2,3,0,0
3,3,0,11
4,3,0,11
...,...,...,...
1062,2,38,11
1063,2,38,11
1064,2,38,11
1065,2,38,11


In [11]:
new_df = df_num.join(encoded)
new_df

Unnamed: 0,MODELYEAR,ENGINESIZE,CYLINDERS,FUELCONSUMPTION_CITY,FUELCONSUMPTION_HWY,FUELCONSUMPTION_COMB,FUELCONSUMPTION_COMB_MPG,CO2EMISSIONS,FUELTYPE,MAKE,VEHICLECLASS
0,2014,2.0,4,9.9,6.7,8.5,33,196,3,0,0
1,2014,2.4,4,11.2,7.7,9.6,29,221,3,0,0
2,2014,1.5,4,6.0,5.8,5.9,48,136,3,0,0
3,2014,3.5,6,12.7,9.1,11.1,25,255,3,0,11
4,2014,3.5,6,12.1,8.7,10.6,27,244,3,0,11
...,...,...,...,...,...,...,...,...,...,...,...
1062,2014,3.0,6,13.4,9.8,11.8,24,271,2,38,11
1063,2014,3.2,6,13.2,9.5,11.5,25,264,2,38,11
1064,2014,3.0,6,13.4,9.8,11.8,24,271,2,38,11
1065,2014,3.2,6,12.9,9.3,11.3,25,260,2,38,11


In [12]:
# разделить независимую и зависимую переменные / train и test
y = new_df['CO2EMISSIONS']
X = new_df.drop(['CO2EMISSIONS'], axis=1)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

# импортировать пакет xgboost
import xgboost as xg

# создать объект XGBRegressor
xgb_r = xg.XGBRegressor(n_estimators = 10, max_depth=6)

# обучить модель
xgb_r.fit(X_train, y_train)

# использовать обученную модель для предсказания на test выборке
y_predicted = xgb_r.predict(X_test)

# вывести результаты предсказания
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
print(f'r2_score = {r2_score(y_true=y_test, y_pred=y_predicted)}')
print(f'MSE = {mean_squared_error(y_test, y_predicted, squared=True)}')

r2_score = 0.975550040145587
MSE = 99.56687835192608


#### Count Encoding

Count encoding replaces each categorical value with the number of times it appears in the dataset.

#### Target Encoding

#### CatBoost Encoding

## Даты и время

**Возможное решение:**
- Добавить признаки, соответствующие времени дня, количеству прошеднего времени с определенного момента, выделение сезонов, времен года, кварталов. 
- Разделение времени на часы, минуты и секунды (если время дано в Unix-Time или ISO формате). 

## Числовые переменные

**Возможное решение:**
- Округление или разделение на целую и вещественную часть (+ нормализация).
- Приведение числового признака в категориальный (добавить признаки вида "рост больше X", "рост меньше X").

## Обработка строковых признаков

**Возможное решение:**
- В самих строках зачастую содержится информация ("Mr.", "Mrs." преобразовать в половой признак).

## Результаты других алгоритмов

Если решается задача классификации, можно сначала решить вспомогательную задачу кластеризации, и в качестве признака в первоначальной задаче взять кластер обьекта.

Это обычно происходит на основе первичного анализа данных в случае, когда обьекты хорошо кластеризуются.

## Агрегированные признаки

Признаки, которые агрегируют признаки некоторого обьекта, тем самым также сокращая размерность признакового описания. 

Полезно в задачах, в которых один обьект содержит несколько однотипных параметров.

Например, человек, имеющий несколько автомобилей разной стоимости. В данном случае можно рассмотреть признаки, соответствующие максимальной/минимальной/средней стоимости автомобиля этого человека.

## Добавление новых признаков

Чтобы эффективно решить задачу, необходимо быть экспертом в конкретной области и понимать, что влияет на конкретную целевую переменную. 