# Конструирование признаков (Feature Engineering): Категориальные признаки

---

**Источники:**

[What are the pros and cons between get_dummies (Pandas) and OneHotEncoder (Scikit-learn)?](https://stackoverflow.com/questions/36631163/what-are-the-pros-and-cons-between-get-dummies-pandas-and-onehotencoder-sciki/38650886#38650886)

[how to maintain natural order when label encoding with scikit learn](https://stackoverflow.com/questions/59065247/how-to-maintain-natural-order-when-label-encoding-with-scikit-learn)

[Encoding categorical variables](https://kiwidamien.github.io/encoding-categorical-variables.html)

[Using a pipeline and transforming data with imputing and OneHotEncoding performs worse than get_dummies](https://datascience.stackexchange.com/questions/56325/using-a-pipeline-and-transforming-data-with-imputing-and-onehotencoding-performs)

---

**Пример:**
Цвет (color), т.е. синий (blue), красный (red), зеленый (green).


**Возможное решение:**
- Добавить признаки вида is_red, is_blue, is_green, is_red_or_blue и другие возможные комбинации.
- Категория -> число (`LabelEncoder` или `OneHotEncoder`).
- Заменить признаки на их количество (`CountEncoder`).
- `TargetEncoder`.
- `CatBoostEncoder`.

In [1]:

import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv("./../../data/FuelConsumptionCo2.csv")
df

Unnamed: 0,MODELYEAR,MAKE,MODEL,VEHICLECLASS,ENGINESIZE,CYLINDERS,TRANSMISSION,FUELTYPE,FUELCONSUMPTION_CITY,FUELCONSUMPTION_HWY,FUELCONSUMPTION_COMB,FUELCONSUMPTION_COMB_MPG,CO2EMISSIONS
0,2014,ACURA,ILX,COMPACT,2.0,4,AS5,Z,9.9,6.7,8.5,33,196
1,2014,ACURA,ILX,COMPACT,2.4,4,M6,Z,11.2,7.7,9.6,29,221
2,2014,ACURA,ILX HYBRID,COMPACT,1.5,4,AV7,Z,6.0,5.8,5.9,48,136
3,2014,ACURA,MDX 4WD,SUV - SMALL,3.5,6,AS6,Z,12.7,9.1,11.1,25,255
4,2014,ACURA,RDX AWD,SUV - SMALL,3.5,6,AS6,Z,12.1,8.7,10.6,27,244
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1062,2014,VOLVO,XC60 AWD,SUV - SMALL,3.0,6,AS6,X,13.4,9.8,11.8,24,271
1063,2014,VOLVO,XC60 AWD,SUV - SMALL,3.2,6,AS6,X,13.2,9.5,11.5,25,264
1064,2014,VOLVO,XC70 AWD,SUV - SMALL,3.0,6,AS6,X,13.4,9.8,11.8,24,271
1065,2014,VOLVO,XC70 AWD,SUV - SMALL,3.2,6,AS6,X,12.9,9.3,11.3,25,260


In [3]:
df_num = df.select_dtypes(include=[np.number])
df_num.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067 entries, 0 to 1066
Data columns (total 8 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   MODELYEAR                 1067 non-null   int64  
 1   ENGINESIZE                1067 non-null   float64
 2   CYLINDERS                 1067 non-null   int64  
 3   FUELCONSUMPTION_CITY      1067 non-null   float64
 4   FUELCONSUMPTION_HWY       1067 non-null   float64
 5   FUELCONSUMPTION_COMB      1067 non-null   float64
 6   FUELCONSUMPTION_COMB_MPG  1067 non-null   int64  
 7   CO2EMISSIONS              1067 non-null   int64  
dtypes: float64(4), int64(4)
memory usage: 66.8 KB


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067 entries, 0 to 1066
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   MODELYEAR                 1067 non-null   int64  
 1   MAKE                      1067 non-null   object 
 2   MODEL                     1067 non-null   object 
 3   VEHICLECLASS              1067 non-null   object 
 4   ENGINESIZE                1067 non-null   float64
 5   CYLINDERS                 1067 non-null   int64  
 6   TRANSMISSION              1067 non-null   object 
 7   FUELTYPE                  1067 non-null   object 
 8   FUELCONSUMPTION_CITY      1067 non-null   float64
 9   FUELCONSUMPTION_HWY       1067 non-null   float64
 10  FUELCONSUMPTION_COMB      1067 non-null   float64
 11  FUELCONSUMPTION_COMB_MPG  1067 non-null   int64  
 12  CO2EMISSIONS              1067 non-null   int64  
dtypes: float64(4), int64(4), object(5)
memory usage: 108.5+ KB


In [5]:
list(df.MAKE.unique())

['ACURA',
 'ASTON MARTIN',
 'AUDI',
 'BENTLEY',
 'BMW',
 'BUICK',
 'CADILLAC',
 'CHEVROLET',
 'CHRYSLER',
 'DODGE',
 'FIAT',
 'FORD',
 'GMC',
 'HONDA',
 'HYUNDAI',
 'INFINITI',
 'JAGUAR',
 'JEEP',
 'KIA',
 'LAMBORGHINI',
 'LAND ROVER',
 'LEXUS',
 'LINCOLN',
 'MASERATI',
 'MAZDA',
 'MERCEDES-BENZ',
 'MINI',
 'MITSUBISHI',
 'NISSAN',
 'PORSCHE',
 'RAM',
 'ROLLS-ROYCE',
 'SCION',
 'SMART',
 'SRT',
 'SUBARU',
 'TOYOTA',
 'VOLKSWAGEN',
 'VOLVO']

In [6]:
acura = df.MAKE.unique()[0]
acura

'ACURA'

In [7]:
list(df.MODEL.unique())

['ILX',
 'ILX HYBRID',
 'MDX 4WD',
 'RDX AWD',
 'RLX',
 'TL',
 'TL AWD',
 'TSX',
 'DB9',
 'RAPIDE',
 'V8 VANTAGE',
 'V8 VANTAGE S',
 'VANQUISH',
 'A4',
 'A4 QUATTRO',
 'A5 CABRIOLET QUATTRO',
 'A5 QUATTRO',
 'A6 QUATTRO',
 'A6 QUATTRO TDI CLEAN DIESEL',
 'A7 QUATTRO',
 'A7 QUATTRO TDI CLEAN DIESEL',
 'A8',
 'A8 TDI CLEAN DIESEL',
 'A8L',
 'A8L TDI CLEAN DIESEL',
 'ALLROAD QUATTRO',
 'Q5',
 'Q5 HYBRID',
 'Q5 TDI CLEAN DIESEL',
 'Q7',
 'Q7 TDI CLEAN DIESEL',
 'R8',
 'R8 SPYDER',
 'RS5',
 'RS5 CABRIOLET',
 'RS7',
 'S4',
 'S5',
 'S5 CABRIOLET',
 'S6',
 'S7',
 'S8',
 'SQ5',
 'TT COUPE QUATTRO',
 'TT ROADSTER QUATTRO',
 'TTS COUPE QUATTRO',
 'TTS ROADSTER QUATTRO',
 'CONTINENTAL GT',
 'CONTINENTAL GT CONVERTIBLE',
 'CONTINENTAL GT SPEED CONVERTIBLE',
 'CONTINENTAL GTC',
 'FLYING SPUR',
 'MULSANNE',
 '320i',
 '320i xDRIVE',
 '328d xDRIVE',
 '328d xDRIVE TOURING',
 '328i',
 '328i xDRIVE',
 '328i xDRIVE GRAN TURISMO',
 '328i xDRIVE TOURING',
 '335i',
 '335i xDRIVE',
 '335i xDRIVE GRAN TURISMO',

In [8]:
list(df.VEHICLECLASS.unique())

['COMPACT',
 'SUV - SMALL',
 'MID-SIZE',
 'MINICOMPACT',
 'SUBCOMPACT',
 'TWO-SEATER',
 'FULL-SIZE',
 'STATION WAGON - SMALL',
 'SUV - STANDARD',
 'VAN - CARGO',
 'VAN - PASSENGER',
 'PICKUP TRUCK - STANDARD',
 'MINIVAN',
 'SPECIAL PURPOSE VEHICLE',
 'STATION WAGON - MID-SIZE',
 'PICKUP TRUCK - SMALL']

In [9]:
list(df.FUELTYPE.unique())

['Z', 'D', 'X', 'E']

In [10]:
cat_features = ['FUELTYPE']    # ['FUELTYPE', 'MAKE', 'VEHICLECLASS']

## Replace

## OrdinalEncoder

## LabelEncoder

Объект `LabelEncoder` присваивает каждому уникальному значению отдельное целое число.

<img src="images/label_encoder_example.png"/>

Этот подход **предполагает упорядочение категорий**: 

`Никогда (0) < Редко (1) < Большинство дней (2) < Каждый день (3)`.

Это предположение имеет смысл в этом примере, потому что существует неоспоримое ранжирование категорий.

Не все категориальные переменные имеют четкий порядок значений, но мы называем те, которые имеют **порядковыми переменными**.

Для моделей на основе деревьев (таких, как деревья решений = `decision trees` и случайные леса = `random forests`) можно ожидать, что кодирование меток будет хорошо работать с порядковыми переменными.

In [11]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()

encoded = df[cat_features].apply(encoder.fit_transform)
encoded

Unnamed: 0,FUELTYPE
0,3
1,3
2,3
3,3
4,3
...,...
1062,2
1063,2
1064,2
1065,2


In [12]:
new_df = df_num.join(encoded)
new_df

Unnamed: 0,MODELYEAR,ENGINESIZE,CYLINDERS,FUELCONSUMPTION_CITY,FUELCONSUMPTION_HWY,FUELCONSUMPTION_COMB,FUELCONSUMPTION_COMB_MPG,CO2EMISSIONS,FUELTYPE
0,2014,2.0,4,9.9,6.7,8.5,33,196,3
1,2014,2.4,4,11.2,7.7,9.6,29,221,3
2,2014,1.5,4,6.0,5.8,5.9,48,136,3
3,2014,3.5,6,12.7,9.1,11.1,25,255,3
4,2014,3.5,6,12.1,8.7,10.6,27,244,3
...,...,...,...,...,...,...,...,...,...
1062,2014,3.0,6,13.4,9.8,11.8,24,271,2
1063,2014,3.2,6,13.2,9.5,11.5,25,264,2
1064,2014,3.0,6,13.4,9.8,11.8,24,271,2
1065,2014,3.2,6,12.9,9.3,11.3,25,260,2


## OneHotEncoder

При использовании `OneHotEncoder` создаются новые столбцы, указывающие на наличие (или отсутствие) каждого возможного значения в исходных данных.

<img src="images/one_hot_encoder_example.png" />

В исходном наборе данных "Цвет" - это категориальная переменная с тремя категориями: "Красный", "Желтый" и "Зеленый".

Соответствующий `OneHotEncoder` содержит один столбец для каждого возможного значения и одну строку для каждой строки в исходном наборе данных.

Если исходным значением было "Красный", помещаем 1 в столбец "Красный"; если исходным значением было "Желтый", мы помещаем 1 в столбец "Желтый" и так далее.

В отличие от `LabelEncoder`, `OneHotEncoder` **не предполагает упорядочивания категорий**.

Таким образом, вы можете ожидать, что этот подход будет работать особенно хорошо, если в категориальных данных *нет четкого упорядочения* (например, "Красный" не больше и не меньше, чем "Желтый").

Категориальные переменные без внутреннего ранжирования называют **номинальными переменными**.

Объект `OneHotEncoder` обычно работает не очень хорошо, если категориальная переменная принимает большое количество значений (т.е. обычно не следует использовать его для переменных, принимающих более 15 различных значений).

In [13]:
from sklearn.preprocessing import OneHotEncoder

OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)

OH_encoded = OH_encoder.fit_transform(df[cat_features])
OH_encoded

array([[0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       ...,
       [0., 0., 1., 0.],
       [0., 0., 1., 0.],
       [0., 0., 1., 0.]])

In [14]:
column_names = OH_encoder.get_feature_names(cat_features)
column_names

array(['FUELTYPE_D', 'FUELTYPE_E', 'FUELTYPE_X', 'FUELTYPE_Z'],
      dtype=object)

In [15]:
OH_encoded_with_names = pd.DataFrame(OH_encoded, columns=column_names)
OH_encoded_with_names

Unnamed: 0,FUELTYPE_D,FUELTYPE_E,FUELTYPE_X,FUELTYPE_Z
0,0.0,0.0,0.0,1.0
1,0.0,0.0,0.0,1.0
2,0.0,0.0,0.0,1.0
3,0.0,0.0,0.0,1.0
4,0.0,0.0,0.0,1.0
...,...,...,...,...
1062,0.0,0.0,1.0,0.0
1063,0.0,0.0,1.0,0.0
1064,0.0,0.0,1.0,0.0
1065,0.0,0.0,1.0,0.0


In [16]:
new_df = df_num.join(OH_encoded_with_names)
new_df

Unnamed: 0,MODELYEAR,ENGINESIZE,CYLINDERS,FUELCONSUMPTION_CITY,FUELCONSUMPTION_HWY,FUELCONSUMPTION_COMB,FUELCONSUMPTION_COMB_MPG,CO2EMISSIONS,FUELTYPE_D,FUELTYPE_E,FUELTYPE_X,FUELTYPE_Z
0,2014,2.0,4,9.9,6.7,8.5,33,196,0.0,0.0,0.0,1.0
1,2014,2.4,4,11.2,7.7,9.6,29,221,0.0,0.0,0.0,1.0
2,2014,1.5,4,6.0,5.8,5.9,48,136,0.0,0.0,0.0,1.0
3,2014,3.5,6,12.7,9.1,11.1,25,255,0.0,0.0,0.0,1.0
4,2014,3.5,6,12.1,8.7,10.6,27,244,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
1062,2014,3.0,6,13.4,9.8,11.8,24,271,0.0,0.0,1.0,0.0
1063,2014,3.2,6,13.2,9.5,11.5,25,264,0.0,0.0,1.0,0.0
1064,2014,3.0,6,13.4,9.8,11.8,24,271,0.0,0.0,1.0,0.0
1065,2014,3.2,6,12.9,9.3,11.3,25,260,0.0,0.0,1.0,0.0


## Dummies

- `pd.get_dummies` приводит к матрице `Pandas DataFrame`, тогда как `OneHotEncoder` приводит к матрице `SciPy CSR`.

- `pd.get_dummies` намного быстрее, чем `OneHotEncoder`.

- `OneHotEncoder` не может обрабатывать строковые значения напрямую. Если ваши номинальные характеристики представляют собой строки, вам необходимо сначала сопоставить их с целыми числами.

- `pandas.get_dummies` - полная противоположность. По умолчанию он преобразует только строковые столбцы в one-hot представление, если столбцы не указаны.

- Суть в том, что кодировщик `OneHotEncoder` создает функцию, которая сохраняется и затем может применяться к новым наборам данных, которые используют те же категориальные переменные, с согласованными результатами.

- С другой стороны, с `sklearn.OneHotEncoder`, после того как мы создали кодировщик, мы можем повторно использовать его для получения одного и того же вывода каждый раз, со столбцами только для "красного" и "зеленого".
Невозможно явно контролировать, что происходит, когда встречается новый "синий": если предполагается, что это невозможно, то можно указать, чтобы он выдал ошибку с помощью `handle_unknown = "error"`; в противном случае мы можем сказать ему продолжить и просто установить красный и зеленый столбцы в 0 с помощью `handle_unknown = "ignore"`.

In [17]:
dummies = pd.get_dummies(df[cat_features])
dummies

Unnamed: 0,FUELTYPE_D,FUELTYPE_E,FUELTYPE_X,FUELTYPE_Z
0,0,0,0,1
1,0,0,0,1
2,0,0,0,1
3,0,0,0,1
4,0,0,0,1
...,...,...,...,...
1062,0,0,1,0
1063,0,0,1,0
1064,0,0,1,0
1065,0,0,1,0


In [18]:
new_df = df_num.join(dummies)
new_df

Unnamed: 0,MODELYEAR,ENGINESIZE,CYLINDERS,FUELCONSUMPTION_CITY,FUELCONSUMPTION_HWY,FUELCONSUMPTION_COMB,FUELCONSUMPTION_COMB_MPG,CO2EMISSIONS,FUELTYPE_D,FUELTYPE_E,FUELTYPE_X,FUELTYPE_Z
0,2014,2.0,4,9.9,6.7,8.5,33,196,0,0,0,1
1,2014,2.4,4,11.2,7.7,9.6,29,221,0,0,0,1
2,2014,1.5,4,6.0,5.8,5.9,48,136,0,0,0,1
3,2014,3.5,6,12.7,9.1,11.1,25,255,0,0,0,1
4,2014,3.5,6,12.1,8.7,10.6,27,244,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...
1062,2014,3.0,6,13.4,9.8,11.8,24,271,0,0,1,0
1063,2014,3.2,6,13.2,9.5,11.5,25,264,0,0,1,0
1064,2014,3.0,6,13.4,9.8,11.8,24,271,0,0,1,0
1065,2014,3.2,6,12.9,9.3,11.3,25,260,0,0,1,0


## CountEncoder

Заменяет каждое категориальное значение количеством раз, сколько оно появляется в наборе данных.

Необходимо установить пакет [Category Encoders](http://contrib.scikit-learn.org/category_encoders/)

In [19]:
!pip -V

/home/ira/anaconda3/envs/LevelUp_DataScience/bin/pip


In [20]:
!conda install -c conda-forge category_encoders -y

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.



In [21]:
import category_encoders as ce

count_enc = ce.CountEncoder()

count_encoded = count_enc.fit_transform(df[cat_features])
count_encoded

Unnamed: 0,FUELTYPE
0,434
1,434
2,434
3,434
4,434
...,...
1062,514
1063,514
1064,514
1065,514


In [22]:
new_df = df_num.join(count_encoded.add_suffix("_count"))
new_df

Unnamed: 0,MODELYEAR,ENGINESIZE,CYLINDERS,FUELCONSUMPTION_CITY,FUELCONSUMPTION_HWY,FUELCONSUMPTION_COMB,FUELCONSUMPTION_COMB_MPG,CO2EMISSIONS,FUELTYPE_count
0,2014,2.0,4,9.9,6.7,8.5,33,196,434
1,2014,2.4,4,11.2,7.7,9.6,29,221,434
2,2014,1.5,4,6.0,5.8,5.9,48,136,434
3,2014,3.5,6,12.7,9.1,11.1,25,255,434
4,2014,3.5,6,12.1,8.7,10.6,27,244,434
...,...,...,...,...,...,...,...,...,...
1062,2014,3.0,6,13.4,9.8,11.8,24,271,514
1063,2014,3.2,6,13.2,9.5,11.5,25,264,514
1064,2014,3.0,6,13.4,9.8,11.8,24,271,514
1065,2014,3.2,6,12.9,9.3,11.3,25,260,514


## TargetEncoder

Заменяет категориальное значение средним значением для этого признака.

Например, учитывая дано значение для страны "RU", вычислите средний доход для всех строк с country == "RU", допустим 0.28.

Необходимо установить пакет [Category Encoders](http://contrib.scikit-learn.org/category_encoders/)

In [23]:
!pip -V

/home/ira/anaconda3/envs/LevelUp_DataScience/bin/pip


In [24]:
!conda install -c conda-forge category_encoders -y

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.



In [25]:
import category_encoders as ce

target_enc = ce.TargetEncoder(cols=cat_features)

train_df = df.copy()

target_enc = target_enc.fit_transform(train_df[cat_features], train_df['CO2EMISSIONS'])
target_enc

  elif pd.api.types.is_categorical(cols):


Unnamed: 0,FUELTYPE
0,268.529954
1,268.529954
2,268.529954
3,268.529954
4,268.529954
...,...
1062,241.097276
1063,241.097276
1064,241.097276
1065,241.097276


In [26]:
new_df = df_num.join(target_enc.add_suffix("_target"))
new_df

Unnamed: 0,MODELYEAR,ENGINESIZE,CYLINDERS,FUELCONSUMPTION_CITY,FUELCONSUMPTION_HWY,FUELCONSUMPTION_COMB,FUELCONSUMPTION_COMB_MPG,CO2EMISSIONS,FUELTYPE_target
0,2014,2.0,4,9.9,6.7,8.5,33,196,268.529954
1,2014,2.4,4,11.2,7.7,9.6,29,221,268.529954
2,2014,1.5,4,6.0,5.8,5.9,48,136,268.529954
3,2014,3.5,6,12.7,9.1,11.1,25,255,268.529954
4,2014,3.5,6,12.1,8.7,10.6,27,244,268.529954
...,...,...,...,...,...,...,...,...,...
1062,2014,3.0,6,13.4,9.8,11.8,24,271,241.097276
1063,2014,3.2,6,13.2,9.5,11.5,25,264,241.097276
1064,2014,3.0,6,13.4,9.8,11.8,24,271,241.097276
1065,2014,3.2,6,12.9,9.3,11.3,25,260,241.097276


## CatBoostEncoder

Похож на `TargetEncoder` в том смысле, что оно основано на целевой вероятности (target probability) для данного значения. Однако с `CatBoostEncoder` для каждой строки целевая вероятность вычисляется только из строк перед ней.

Необходимо установить пакет [Category Encoders](http://contrib.scikit-learn.org/category_encoders/)

In [27]:
!pip -V

/home/ira/anaconda3/envs/LevelUp_DataScience/bin/pip


In [28]:
!conda install -c conda-forge category_encoders -y

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.



In [29]:
import category_encoders as ce

target_enc = ce.CatBoostEncoder(cols=cat_features)

train_df = df.copy()

target_enc = target_enc.fit_transform(train_df[cat_features], train_df['CO2EMISSIONS'])
target_enc

  elif pd.api.types.is_categorical(cols):


Unnamed: 0,FUELTYPE
0,256.228679
1,226.114339
2,224.409560
3,202.307170
4,212.845736
...,...
1062,240.823978
1063,240.883031
1064,240.928181
1065,240.986801


In [30]:
new_df = df_num.join(target_enc.add_suffix("_cb"))
new_df

Unnamed: 0,MODELYEAR,ENGINESIZE,CYLINDERS,FUELCONSUMPTION_CITY,FUELCONSUMPTION_HWY,FUELCONSUMPTION_COMB,FUELCONSUMPTION_COMB_MPG,CO2EMISSIONS,FUELTYPE_cb
0,2014,2.0,4,9.9,6.7,8.5,33,196,256.228679
1,2014,2.4,4,11.2,7.7,9.6,29,221,226.114339
2,2014,1.5,4,6.0,5.8,5.9,48,136,224.409560
3,2014,3.5,6,12.7,9.1,11.1,25,255,202.307170
4,2014,3.5,6,12.1,8.7,10.6,27,244,212.845736
...,...,...,...,...,...,...,...,...,...
1062,2014,3.0,6,13.4,9.8,11.8,24,271,240.823978
1063,2014,3.2,6,13.2,9.5,11.5,25,264,240.883031
1064,2014,3.0,6,13.4,9.8,11.8,24,271,240.928181
1065,2014,3.2,6,12.9,9.3,11.3,25,260,240.986801
