# **Кодирование признаков. Методы**

Ещё одним важным этапом проектирования признаков является обработка нечисловых (**категориальных**) признаков. Многие модели машинного обучения не умеют работать с категориальными данными. Если мы передадим на вход модели такие признаки, она выдаст ошибку.

Процесс преобразования категориальных данных в признаки, пригодные для обучения, называется **кодированием признаков**.

Для лучшего усвоения материала предлагаем вам повторить типы категориальных признаков в ранее пройденном модуле PYTHON-11.

![схема выбора метода кодирования](https://lms.skillfactory.ru/assets/courseware/v1/f9647b8a2fdd6ccc12cec8ba42d522ec/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-3-8.jpg)

Эта схема предназначена только для категориальных признаков.  
Если признак, который вы собираетесь кодировать, **порядковый**, используйте **порядковое кодирование** (Ordinal Encoding).  

Для **номинальных** признаков важно количество уникальных значений признака, так как при их большом количестве могут возникать проблемы с памятью. Если у признака меньше 15 значений, следует выбирать для данных однократное кодирование (OneHot Encoding). Число 15 выбрано эмпирически — для вашего набора данных это число может быть 20 или 10. Это зависит от количества признаков в вашем датасете, количестве строк и многих других факторов. Если признаков немного, то вы также можете воспользоваться однократным кодированием. В других ситуациях вам стоит выбрать другой способ кодирования, например бинарный (Binary Encoding).
***
Ниже мы рассмотрим методы кодирования, обозначенные в блок-схеме. Для кодирования категориальных признаков мы будем использовать библиотеку **category_encoders**. Это удобная библиотека для кодирования категориальных переменных различными методами.

Установка библиотеки:

**pip install category_encoders**



In [1]:
import category_encoders as ce # импортируем библиотеку для работы с кодировщиками

import pandas as pd 
from IPython.display import display

Создадим обучающий набор для кодирования порядковых признаков — ассортимент небольшого магазина с одеждой, где size — буквенное обозначение размера одежды, type — тип изделия.

In [21]:
# инициализируем информацию об одежде
clothing_list = [
    ['xxs', 'dress'],
    ['xxs', 'skirt'],
    ['xs', 'dress'],
    ['s', 'skirt'],
    ['m', 'dress'],
    ['l', 'shirt'],
    ['s', 'coat'],
    ['m', 'coat'],
    ['xxl', 'shirt'],
    ['l', 'dress']
]

clothing = pd.DataFrame(clothing_list, columns = ['size',  'type'])
clothing

Unnamed: 0,size,type
0,xxs,dress
1,xxs,skirt
2,xs,dress
3,s,skirt
4,m,dress
5,l,shirt
6,s,coat
7,m,coat
8,xxl,shirt
9,l,dress


#### **ПОРЯДКОВОЕ КОДИРОВАНИЕ. ORDINAL ENCODING**

В порядковой кодировке признаков каждому строковому значению присваивается значение в виде целого числа, свойственного для конкретного значения строки.

![](https://lms.skillfactory.ru/assets/courseware/v1/8b7f78d8227dfe3b37afbdb4bfea968d/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-3-9.png)



In [22]:
ord_encoder = ce.OrdinalEncoder()
data_bin = ord_encoder.fit_transform(clothing['size'])
clothing = pd.concat([clothing, data_bin], axis=1)

clothing

Unnamed: 0,size,type,size.1
0,xxs,dress,1
1,xxs,skirt,1
2,xs,dress,2
3,s,skirt,3
4,m,dress,4
5,l,shirt,5
6,s,coat,3
7,m,coat,4
8,xxl,shirt,6
9,l,dress,5


Порядковое кодирование может успешно использоваться для **кодирования порядковых признаков**. Мы можем закодировать признак size — размер одежды со значениями xxs, xs, s соответственно в значения 1, 2, 3. Это будет логично, и моделью не будут сделаны выводы о неправильном порядке. Увеличение размера будет соответствовать логическому увеличению кода этого значения: xxs меньше xs, и числовой код 1 (xxs) меньше, чем числовой код 2 (xs).

Однако порядковое кодирование **плохо работает для номинальных признаков**. Ошибку при кодировании мы не получим, но алгоритмы машинного обучения не могут различать категории и числовые признаки, поэтому могут быть сделаны выводы о неправильном порядке. 

В случае с магазином одежды для размера одежды size уместно применить **порядковое кодирование**. Кодирование размера xxs, xs, s в 1, 2, 3 будет соответствовать логическому увеличению порядка.

А для номинального признака type необходимо подобрать другое кодирование. Мы сделаем это далее в юните при знакомстве с **OneHot-кодированием**.

In [13]:
# Используйте ранее изученные методы кодирования и закодируйте
# признак year в датасете винных обзоров порядковым кодированием.

data = pd.read_csv('data/wine_cleared2.csv')

ord_encoder = ce.OrdinalEncoder()
data_bin = ord_encoder.fit_transform(data['year'])
data = pd.concat([data, data_bin], axis=1)


Unnamed: 0.8,Unnamed: 0.7,Unnamed: 0.6,Unnamed: 0.5,Unnamed: 0.4,Unnamed: 0.3,Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,country,description,...,year,is_usa,is_france,is_italy,old_wine,locality,population,area_country,years_diff,year.1
0,0,0,0,0,0,0,0,0,Italy,"Aromas include tropical fruit, broom, brimston...",...,2013-01-01,0,0,1,0,Etna,59097904,301230.0,3298.0,1
1,1,1,1,1,1,1,1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",...,2011-01-01,0,0,0,0,Douro,10347892,92391.0,4029.0,2
2,2,2,2,2,2,2,2,2,US,"Tart and snappy, the flavors of lime flesh and...",...,2013-01-01,1,0,0,0,Willamette Valley,333022386,9372610.0,3298.0,1


In [20]:
#data = data.drop(data.columns[[0,1,2,3,4,5,6,7]], axis=1)

data.to_csv('data/wine_cleared2.csv')
data.head(3)

Unnamed: 0,country,description,designation,points,price,province,region_1,taster_name,taster_twitter_handle,title,...,year,is_usa,is_france,is_italy,old_wine,locality,population,area_country,years_diff,year.1
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,35.363389,Sicily & Sardinia,Etna,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),...,2013-01-01,0,0,1,0,Etna,59097904,301230.0,3298.0,1
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,unknown,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),...,2011-01-01,0,0,0,0,Douro,10347892,92391.0,4029.0,2
2,US,"Tart and snappy, the flavors of lime flesh and...",unknown,87,14.0,Oregon,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),...,2013-01-01,1,0,0,0,Willamette Valley,333022386,9372610.0,3298.0,1


#### **ONE-HOT ENCODING - ОДНОКРАТНОЕ КОДИРОВАНИЕ.**

Однократное кодирование (его ещё часто называют «горячим») является автоматизированным кодированием, которое мы делали в юните Создание признаков. Для каждой новой категории создается новый бинарный признак. Значение 1 в этих признаках проставляется там, где значение исходного признака равно этой категории. 

![](https://lms.skillfactory.ru/assets/courseware/v1/cf911b8140617ec467e9de45c883669b/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-3-11.png)

**[Компания, выпускающая аромасвечи, решила узнать, влияет ли регион клиента на выбор их продукции. Признак регион является номинальным, и по правилам блок-схемы мы должны закодировать его однократным кодированием. Таким образом, кодирование признака регион даст нам 84 дополнительных признака для модели. Это может привести к серьёзным проблемам с памятью на наборах с большим количеством строк. ]**
***
Закодируем признак type в Python. Используем класс **[OneHotEncoding](https://contrib.scikit-learn.org/category_encoders/onehot.html)** библиотеки category_encoders. Укажем в cols наименование признака type для кодировки, иначе будут закодированы все строковые столбцы.



In [23]:
encoder = ce.OneHotEncoder(cols=['type'], use_cat_names=True) # указываем столбец для кодирования
type_bin = encoder.fit_transform(clothing['type'])
clothing = pd.concat([clothing, type_bin], axis=1)

clothing

Unnamed: 0,size,type,size.1,type_dress,type_skirt,type_shirt,type_coat
0,xxs,dress,1,1,0,0,0
1,xxs,skirt,1,0,1,0,0
2,xs,dress,2,1,0,0,0
3,s,skirt,3,0,1,0,0
4,m,dress,4,1,0,0,0
5,l,shirt,5,0,0,1,0
6,s,coat,3,0,0,0,1
7,m,coat,4,0,0,0,1
8,xxl,shirt,6,0,0,1,0
9,l,dress,5,1,0,0,0


Таким образом, мы получили четыре новых признака для категорий coat, dress, shirt, skirt. В строке нужного типа исходного признака стоит значение 1, в остальных строках — 0. Эти признаки пригодны для обучения.

На самом деле метод однократного кодирования реализован в pandas в функции [**pd.get_dummies()**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html). Для выполнения кодирования достаточно передать в функцию DataFrame и указать столбцы, для которых должно выполняться кодирование. По умолчанию кодирование выполняется для всех столбцов типа object:

In [25]:
# инициализируем информацию об одежде
clothing_list = [
    ['xxs', 'dress'],
    ['xxs', 'skirt'],
    ['xs', 'dress'],
    ['s', 'skirt'],
    ['m', 'dress'],
    ['l', 'shirt'],
    ['s', 'coat'],
    ['m', 'coat'],
    ['xxl', 'shirt'],
    ['l', 'dress']
]

clothing = pd.DataFrame(clothing_list, columns = ['size',  'type'])


clothing_dummies = pd.get_dummies(clothing, columns=['type'])
clothing_dummies

Unnamed: 0,size,type_coat,type_dress,type_shirt,type_skirt
0,xxs,0,1,0,0
1,xxs,0,0,0,1
2,xs,0,1,0,0
3,s,0,0,0,1
4,m,0,1,0,0
5,l,0,0,1,0
6,s,1,0,0,0
7,m,1,0,0,0
8,xxl,0,0,1,0
9,l,0,1,0,0


Новые бинарные признаки также часто называются **dummy-признаками** или **dummy-переменными**.  

In [29]:
# В нашем наборе данных винных обзоров признак, обозначающий имя сомелье (taster_name),
# является номинальным. Закодируйте его, используя One-Hot Encoding.
# В ответе напишите, сколько признаков добавилось после применения кодирования.

#data = pd.get_dummies(data, columns=['taster_name'])
data.head(3)

Unnamed: 0,country,description,designation,points,price,province,region_1,taster_twitter_handle,title,variety,...,taster_name_Lauren Buzzeo,taster_name_Matt Kettmann,taster_name_Michael Schachner,taster_name_Mike DeSimone,taster_name_Paul Gregutt,taster_name_Roger Voss,taster_name_Sean P. Sullivan,taster_name_Susan Kostrzewa,taster_name_Virginie Boone,taster_name_unknown
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,35.363389,Sicily & Sardinia,Etna,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,...,0,0,0,0,0,0,0,0,0,0
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,unknown,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,...,0,0,0,0,0,1,0,0,0,0
2,US,"Tart and snappy, the flavors of lime flesh and...",unknown,87,14.0,Oregon,Willamette Valley,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,...,0,0,0,0,1,0,0,0,0,0


#### **ДВОИЧНОЕ КОДИРОВАНИЕ**

Принцип двоичного кодирования похож на однократное кодирование, но создаёт меньше столбцов. При однократном кодировании признака с количеством уникальных категорий 100 шт. мы создадим 100 новых признаков, а при двоичном кодирования мы сгенерируем всего 7 признаков.

На рисунке ниже представлен алгоритм бинарного кодирования температуры воздуха.

![](https://lms.skillfactory.ru/assets/courseware/v1/257600c912d08d49d9c9f7e6e6c02f6c/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-3-14.png)

Пошаговый алгоритм двоичного кодирования можно описать так: 

1. значения признака кодируются в некоторый числовой порядок;
2. целые числа кодируются в двоичный код;
3. цифры двоичного представления формируют новые столбцы.
***
Вернёмся к примеру с магазином одежды. Закодируем бинарным способом признак type в Python. Используем класс BinaryEncoder библиотеки category_encoders.

In [30]:
# инициализируем информацию об одежде
clothing_list = [
    ['xxs', 'dress'],
    ['xxs', 'skirt'],
    ['xs', 'dress'],
    ['s', 'skirt'],
    ['m', 'dress'],
    ['l', 'shirt'],
    ['s', 'coat'],
    ['m', 'coat'],
    ['xxl', 'shirt'],
    ['l', 'dress']
]

clothing = pd.DataFrame(clothing_list, columns = ['size',  'type'])

bin_encoder = ce.BinaryEncoder(cols=['type']) # указываем столбец для кодирования
type_bin = bin_encoder.fit_transform(clothing['type'])
clothing = pd.concat([clothing, type_bin], axis=1)

clothing

Unnamed: 0,size,type,type_0,type_1,type_2
0,xxs,dress,0,0,1
1,xxs,skirt,0,1,0
2,xs,dress,0,0,1
3,s,skirt,0,1,0
4,m,dress,0,0,1
5,l,shirt,0,1,1
6,s,coat,1,0,0
7,m,coat,1,0,0
8,xxl,shirt,0,1,1
9,l,dress,0,0,1


In [44]:
# Закодируйте признак country двоичным способом.

bin_encoder = ce.BinaryEncoder(cols=['country']) # указываем столбец для кодирования
type_bin = bin_encoder.fit_transform(data['country'])
data = pd.concat([data, type_bin], axis=1)


data.head(3)

Unnamed: 0,country,description,designation,points,price,province,region_1,taster_twitter_handle,title,variety,...,taster_name_Sean P. Sullivan,taster_name_Susan Kostrzewa,taster_name_Virginie Boone,taster_name_unknown,country_0,country_1,country_2,country_3,country_4,country_5
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,35.363389,Sicily & Sardinia,Etna,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,...,0,0,0,0,0,0,0,0,0,1
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,unknown,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,...,0,0,0,0,0,0,0,0,1,0
2,US,"Tart and snappy, the flavors of lime flesh and...",unknown,87,14.0,Oregon,Willamette Valley,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,...,0,0,0,0,0,0,0,0,1,1


In [46]:
# На основе изученного материала определите подходящий способ кодирования
# признака taster_twitter_handle из датасета винных обзоров и закодируйте его.

data['taster_twitter_handle'].value_counts()

bin_encoder = ce.BinaryEncoder(cols=['taster_twitter_handle']) # указываем столбец для кодирования
type_bin = bin_encoder.fit_transform(data['taster_twitter_handle'])
data = pd.concat([data, type_bin], axis=1)

data.head(3)

Unnamed: 0,country,description,designation,points,price,province,region_1,taster_twitter_handle,title,variety,...,country_1,country_2,country_3,country_4,country_5,taster_twitter_handle_0,taster_twitter_handle_1,taster_twitter_handle_2,taster_twitter_handle_3,taster_twitter_handle_4
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,35.363389,Sicily & Sardinia,Etna,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,...,0,0,0,0,1,0,0,0,0,1
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,unknown,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,...,0,0,0,1,0,0,0,0,1,0
2,US,"Tart and snappy, the flavors of lime flesh and...",unknown,87,14.0,Oregon,Willamette Valley,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,...,0,0,0,1,1,0,0,0,1,1


In [49]:
# Определите типы признаков и закодируйте их в соответствии с изученными способами
list_of_dicts = [
 {'product': 'Product1', 'price': 1200, 'payment_type': 'Mastercard'},
 {'product': 'Product2', 'price': 3600, 'payment_type': 'Visa'},
 {'product': 'Product3', 'price': 7500, 'payment_type': 'Amex'}
]
df = pd.DataFrame(list_of_dicts)

encoder = ce.OneHotEncoder(cols=['product'], use_cat_names=True)
type_bin = encoder.fit_transform(df['product'])
df = pd.concat([df, type_bin], axis=1)

encoder = ce.OneHotEncoder(cols=['payment_type'], use_cat_names=True)
type_bin = encoder.fit_transform(df['payment_type'])
df = pd.concat([df, type_bin], axis=1)

display(df)

Unnamed: 0,product,price,payment_type,product_Product1,product_Product2,product_Product3,payment_type_Mastercard,payment_type_Visa,payment_type_Amex
0,Product1,1200,Mastercard,1,0,0,1,0,0
1,Product2,3600,Visa,0,1,0,0,1,0
2,Product3,7500,Amex,0,0,1,0,0,1
