In [75]:
import numpy as np
import pandas as pd
import category_encoders as ce

Рассмотрим следующие популярные способы кодирования: 

порядковое кодирование (Ordinal Encoding)

однократное кодирование (OneHot Encoding)

бинарное кодирование (Binary Encoding).

Создадим обучающий набор для кодирования порядковых признаков — ассортимент небольшого магазина с одеждой, где size — буквенное обозначение размера одежды, type — тип изделия.

In [76]:
clothing_list = [
    ['xxs', 'dress'],
    ['xxs', 'skirt'],
    ['xs', 'dress'],
    ['s', 'skirt'],
    ['m', 'dress'],
    ['l', 'shirt'],
    ['s', 'coat'],
    ['m', 'coat'],
    ['xxl', 'shirt'],
    ['l', 'dress']
]

clothing = pd.DataFrame(clothing_list, columns = ['size',  'type'])
clothing

Unnamed: 0,size,type
0,xxs,dress
1,xxs,skirt
2,xs,dress
3,s,skirt
4,m,dress
5,l,shirt
6,s,coat
7,m,coat
8,xxl,shirt
9,l,dress


### <center> ПОРЯДКОВОЕ КОДИРОВАНИЕ. ORDINAL ENCODING

Выполним теперь кодирование порядкового признака size и type признака в Python. Порядковое кодирование в библиотеке реализовано в классе OrdinalEncoder. По умолчанию все строковые столбцы будут закодированы.

Метод fit_transform устанавливает соответствия для кодирования и преобразовывает данные в соответствие с ними. Затем используем метод concat() для добавления закодированного признака в датафрейм data.

![alt](https://lms.skillfactory.ru/assets/courseware/v1/8b7f78d8227dfe3b37afbdb4bfea968d/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-3-9.png)

In [77]:
# КОдируется либо этот код, либо код ниже!!!
# ord_encoder = ce.OrdinalEncoder()
# data_bin = ord_encoder.fit_transform(clothing[['size', 'type']])
# clothing = pd.concat([clothing, data_bin], axis=1)

# clothing

Однако порядковое кодирование плохо работает для номинальных признаков. Ошибку при кодировании мы не получим, но алгоритмы машинного обучения не могут различать категории и числовые признаки, поэтому могут быть сделаны выводы о неправильном порядке. 

### <center> ОДНОКРАТНОЕ КОДИРОВАНИЕ. ONE-HOT ENCODING

![alt](https://lms.skillfactory.ru/assets/courseware/v1/cf911b8140617ec467e9de45c883669b/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-3-11.png)

Этот способ кодирования понятен, хорошо работает как на номинальных, так и на порядковых признаках. Однако существует один минус: количество созданных признаков равно количеству уникальных значений категориального признака. 

Закодируем признак type в Python. Используем класс OneHotEncoding библиотеки category_encoders. Укажем в cols наименование признака type для кодировки, иначе будут закодированы все строковые столбцы.

In [78]:
# encoder = ce.OneHotEncoder(cols=['type']) # указываем столбец для кодирования
# type_bin = encoder.fit_transform(clothing['type'])
# clothing = pd.concat([clothing, type_bin], axis=1)

# clothing

In [79]:
# clothing.rename(columns= {'type_1': 'dress'},  inplace= True)
# clothing.rename(columns= {'type_2': 'skirt'},  inplace= True)
# clothing.rename(columns= {'type_3': 'shirt'},  inplace= True)
# clothing.rename(columns= {'type_4': 'coat'},  inplace= True)
# clothing

Таким образом, мы получили четыре новых признака для категорий coat, dress, shirt, skirt. В строке нужного типа исходного признака стоит значение 1, в остальных строках — 0. Эти признаки пригодны для обучения.

На самом деле метод однократного кодирования реализован в pandas в функции pd.get_dummies(). Для выполнения кодирования достаточно передать в функцию DataFrame и указать столбцы, для которых должно выполняться кодирование. По умолчанию кодирование выполняется для всех столбцов типа object:

clothing_dummies = pd.get_dummies(clothing, columns=['type'])
Новые бинарные признаки также часто называются dummy-признаками или dummy-переменными.  

### <center> ДВОИЧНОЕ КОДИРОВАНИЕ

Принцип двоичного кодирования похож на однократное кодирование, но создаёт меньше столбцов. При однократном кодировании признака с количеством уникальных категорий 100 шт. мы создадим 100 новых признаков, а при двоичном кодирования мы сгенерируем всего 7 признаков.

На рисунке ниже представлен алгоритм бинарного кодирования температуры воздуха.

![alt](https://lms.skillfactory.ru/assets/courseware/v1/257600c912d08d49d9c9f7e6e6c02f6c/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-3-14.png)

Сначала признак кодируется в числовое представление, как мы делали это при кодировании порядковых признаков: hot — 1, cold — 2, … и так далее.

2Затем каждое числовое представление, выраженное целым числом, переводится в двоичный код: 1 – 001, 2 – 010, 3 – 011,... и так далее.

3Затем для каждого двоичного представления создаются новые признаки. В нашем случае двоичное представления уместилось в три числа, поэтому итогом стало создание трёх новых признаков.

Пошаговый алгоритм двоичного кодирования можно описать так: 

значения признака кодируются в некоторый числовой порядок;
целые числа кодируются в двоичный код;
цифры двоичного представления формируют новые столбцы.

*Вернёмся к примеру с магазином одежды. Закодируем бинарным способом признак type в Python. Используем класс BinaryEncoder библиотеки category_encoders.*

In [80]:
bin_encoder = ce.BinaryEncoder(cols=['type']) # указываем столбец для кодирования
type_bin = bin_encoder.fit_transform(clothing['type'])
clothing = pd.concat([clothing, type_bin], axis=1)

clothing

Unnamed: 0,size,type,type_0,type_1,type_2
0,xxs,dress,0,0,1
1,xxs,skirt,0,1,0
2,xs,dress,0,0,1
3,s,skirt,0,1,0
4,m,dress,0,0,1
5,l,shirt,0,1,1
6,s,coat,1,0,0
7,m,coat,1,0,0
8,xxl,shirt,0,1,1
9,l,dress,0,0,1


Методы, рассмотренные в модуле, популярны и очень часто используются в кодировании данных за счёт своей простоты, понятности и лёгкости в реализации. Про другие, менее популярные способы кодирования вы можете прочитать в документации к используемой нами библиотеке [category_encoders](https://contrib.scikit-learn.org/category_encoders/)

In [81]:
# Определите типы признаков и закодируйте их в соответствии с изученными способами.

list_of_dicts = [
 {'product': 'Product1', 'price': 1200, 'payment_type': 'Mastercard'},
 {'product': 'Product2', 'price': 3600, 'payment_type': 'Visa'},
 {'product': 'Product3', 'price': 7500, 'payment_type': 'Amex'}
]
df = pd.DataFrame(list_of_dicts)

In [82]:
df

Unnamed: 0,product,price,payment_type
0,Product1,1200,Mastercard
1,Product2,3600,Visa
2,Product3,7500,Amex


In [83]:
# encoder = ce.OneHotEncoder(cols=['product']) # указываем столбец для кодирования
# type_bin = encoder.fit_transform(df['product'])
# df = pd.concat([df, type_bin], axis=1)

# encoder = ce.OneHotEncoder(cols=['payment_type']) # указываем столбец для кодирования
# type_bin = encoder.fit_transform(df['payment_type'])
# df = pd.concat([df, type_bin], axis=1)


# df

In [84]:
encoder = ce.OneHotEncoder(cols=['product','payment_type'])
cols = encoder.fit_transform(df[['product','payment_type']])
df = pd.concat([df, cols], axis=1)
df

Unnamed: 0,product,price,payment_type,product_1,product_2,product_3,payment_type_1,payment_type_2,payment_type_3
0,Product1,1200,Mastercard,1,0,0,1,0,0
1,Product2,3600,Visa,0,1,0,0,1,0
2,Product3,7500,Amex,0,0,1,0,0,1
