# Кодирование признаков. Методы

Процесс преобразования категориальных данных в признаки, пригодные для обучения, называется **кодированием признаков**.

Если признак, который вы собираетесь кодировать, порядковый, используйте **порядковое кодирование** (*Ordinal Encoding*). 

Для **номинальных признаков** важно количество уникальных значений признака, так как при их большом количестве могут возникать проблемы с памятью. Если у признака меньше 15 значений, следует выбирать для данных **однократное кодирование** (*OneHot Encoding*). Число 15 выбрано эмпирически — для вашего набора данных это число может быть 20 или 10. Это зависит от количества признаков в вашем датасете, количестве строк и многих других факторов. Если признаков немного, то вы также можете воспользоваться однократным кодированием. В других ситуациях вам стоит выбрать другой способ кодирования, например **бинарный** (*Binary Encoding*).

Для кодирования категориальных признаков мы будем использовать библиотеку [category_encoders](https://contrib.scikit-learn.org/category_encoders/). Это удобная библиотека для кодирования категориальных переменных различными методами.

In [None]:
# Установим библиотеку:
!pip install category_encoders

In [3]:
# Импортируем библиотеку category-encoders для дальнейшего использования. 
import category_encoders as ce

Рассмотрим следующие популярные способы кодирования: 

* порядковое кодирование (*Ordinal Encoding*); 
* однократное кодирование (*OneHot Encoding*); 
* бинарное кодирование (*Binary Encoding*).

Создадим обучающий набор для кодирования порядковых признаков — ассортимент небольшого магазина с одеждой, где *size* — буквенное обозначение размера одежды, *type* — тип изделия.

In [16]:

# Импортируем библиотеку
import pandas as pd
# инициализируем информацию об одежде
clothing_list = [
    ['xxs', 'dress'],
    ['xxs', 'skirt'],
    ['xs', 'dress'],
    ['s', 'skirt'],
    ['m', 'dress'],
    ['l', 'shirt'],
    ['s', 'coat'],
    ['m', 'coat'],
    ['xxl', 'shirt'],
    ['l', 'dress']
]

clothing = pd.DataFrame(clothing_list, columns = ['size',  'type'])
clothing

Unnamed: 0,size,type
0,xxs,dress
1,xxs,skirt
2,xs,dress
3,s,skirt
4,m,dress
5,l,shirt
6,s,coat
7,m,coat
8,xxl,shirt
9,l,dress


# ПОРЯДКОВОЕ КОДИРОВАНИЕ. ORDINAL ENCODING

В порядковой кодировке признаков каждому строковому значению присваивается значение в виде целого числа, свойственного для конкретного значения строки.

Выполним теперь кодирование порядкового признака *size* в *Python*. Порядковое кодирование в библиотеке реализовано в классе [OrdinalEncoder](https://contrib.scikit-learn.org/category_encoders/ordinal.html). По умолчанию все строковые столбцы будут закодированы.

Метод *fit_transform* устанавливает соответствия для кодирования и преобразовывает данные в соответствие с ними. Затем используем метод [concat()](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) для добавления закодированного признака в датафрейм *data*.

In [11]:
# импортируем библиотеку для работы с кодировщиками
import category_encoders as ce 

ord_encoder = ce.OrdinalEncoder()
data_bin = ord_encoder.fit_transform(clothing[['size']])
clothing = pd.concat([clothing,data_bin], axis=1) 
# параметр axis=1 говорит о том, что мы обращаемся с столбцу

clothing

Unnamed: 0,size,type,size.1
0,xxs,dress,1
1,xxs,skirt,1
2,xs,dress,2
3,s,skirt,3
4,m,dress,4
5,l,shirt,5
6,s,coat,3
7,m,coat,4
8,xxl,shirt,6
9,l,dress,5


**Порядковое кодирование** может успешно использоваться для кодирования порядковых признаков. Мы можем закодировать признак *size* — размер одежды со значениями xxs, xs, s соответственно в значения 1, 2, 3. Это будет логично, и моделью не будут сделаны выводы о неправильном порядке. Увеличение размера будет соответствовать логическому увеличению кода этого значения: xxs меньше xs, и числовой код 1 (xxs) меньше, чем числовой код 2 (xs).

Однако порядковое кодирование плохо работает для **номинальных признаков**. Ошибку при кодировании мы не получим, но алгоритмы машинного обучения не могут различать категории и числовые признаки, поэтому могут быть сделаны выводы о неправильном порядке. 

# ОДНОКРАТНОЕ КОДИРОВАНИЕ. ONE-HOT ENCODING

Однократное кодирование (его ещё часто называют **«горячим»**) является автоматизированным кодированием, которое мы делали в юните *Создание признаков*. Для каждой новой категории создается новый бинарный признак. Значение 1 в этих признаках проставляется там, где значение исходного признака равно этой категории. 

Этот способ кодирования понятен, хорошо работает как на номинальных, так и на порядковых признаках. Однако существует один минус: количество созданных признаков равно количеству уникальных значений категориального признака. К сожалению, в наборах с большим количеством категорий такой метод кодирования приводит к большим проблемам.

Закодируем признак *type* в *Python*. Используем класс [OneHotEncoding](https://contrib.scikit-learn.org/category_encoders/onehot.html) библиотеки *category_encoders*. Укажем в *cols* наименование признака *type* для кодировки, иначе будут закодированы все строковые столбцы.

In [13]:
# импорт для работы с кодировщиком
import category_encoders as ce

encoder = ce.OneHotEncoder(cols=['type'], use_cat_names=True)
# указываем столбец для кодирования
type_bin = encoder.fit_transform(clothing['type'])
clothing = pd.concat([clothing, type_bin], axis=1)

clothing

Unnamed: 0,size,type,type_dress,type_skirt,type_shirt,type_coat
0,xxs,dress,1,0,0,0
1,xxs,skirt,0,1,0,0
2,xs,dress,1,0,0,0
3,s,skirt,0,1,0,0
4,m,dress,1,0,0,0
5,l,shirt,0,0,1,0
6,s,coat,0,0,0,1
7,m,coat,0,0,0,1
8,xxl,shirt,0,0,1,0
9,l,dress,1,0,0,0


Таким образом, мы получили четыре новых признака для категорий *oat, dress, shirt, skirt*. В строке нужного типа исходного признака стоит значение 1, в остальных строках — 0. Эти признаки пригодны для обучения.

На самом деле метод однократного кодирования реализован в *pandas* в функции [pd.get_dummies()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html). Для выполнения кодирования достаточно передать в функцию *DataFrame* и указать столбцы, для которых должно выполняться кодирование. По умолчанию кодирование выполняется для всех столбцов типа *object*:

In [15]:
clothing_dummies = pd.get_dummies(clothing, columns=['type'])
clothing_dummies

Unnamed: 0,size,type_coat,type_dress,type_shirt,type_skirt
0,xxs,0,1,0,0
1,xxs,0,0,0,1
2,xs,0,1,0,0
3,s,0,0,0,1
4,m,0,1,0,0
5,l,0,0,1,0
6,s,1,0,0,0
7,m,1,0,0,0
8,xxl,0,0,1,0
9,l,0,1,0,0


Новые бинарные признаки также часто называются **dummy-признаками** или **dummy-переменными**.  

# ДВОИЧНОЕ КОДИРОВАНИЕ

Принцип двоичного кодирования похож на однократное кодирование, но создаёт меньше столбцов. При однократном кодировании признака с количеством уникальных категорий 100 шт. мы создадим 100 новых признаков, а при двоичном кодирования мы сгенерируем всего 7 признаков.

**Пошаговый алгоритм двоичного кодирования можно описать так:** 

* значения признака кодируются в некоторый числовой порядок;
* целые числа кодируются в двоичный код;
* цифры двоичного представления формируют новые столбцы.

Закодируем бинарным способом признак *type* в *Python*. Используем класс [BinaryEncoder](https://contrib.scikit-learn.org/category_encoders/binary.html) библиотеки *category_encoders*.

In [17]:
# импорт для работы с кодировщиком
import category_encoders as ce

# указываем столбец для кодирования
bin_encoder = ce.BinaryEncoder(cols=['type'])
type_bin = bin_encoder.fit_transform(clothing['type'])
clothing = pd.concat([clothing, type_bin], axis=1)

clothing

Unnamed: 0,size,type,type_0,type_1,type_2
0,xxs,dress,0,0,1
1,xxs,skirt,0,1,0
2,xs,dress,0,0,1
3,s,skirt,0,1,0
4,m,dress,0,0,1
5,l,shirt,0,1,1
6,s,coat,1,0,0
7,m,coat,1,0,0
8,xxl,shirt,0,1,1
9,l,dress,0,0,1


Закодируем бинарным способом признак *country* в другом наборе данных и посмотрим, насколько увеличится количество признаков в данных.

In [29]:
# Импортируем необходимую библиотеку:
import pandas as pd
# Прочитаем наш файл с винными обзорами:
data = pd.read_csv('data\wine_cleared.zip')

# импорт для работы с кодировщиком
bin_enc = ce.BinaryEncoder(cols=['country'])
type_bin = bin_enc.fit_transform(data['country'])
data_enc = pd.concat([data, type_bin], axis=1)

data.shape, data_enc.shape

((129971, 13), (129971, 19))

Метод **однократного кодирования** можно использовать почти во всех сценариях подготовки данных к обучению за исключением некоторых алгоритмов и проблем с памятью. О том, почему из-за этого может возникнуть проблема, вы узнаете подробнее в модулях про машинное обучение. 

В случаях проблем с памятью необходимо обратиться к другим кодировщикам — к **порядковому**, **бинарному кодировщику** или иным.

Методы, рассмотренные выше, популярны и очень часто используются в кодировании данных за счёт своей простоты, понятности и лёгкости в реализации. Про другие, менее популярные способы кодирования вы можете прочитать в документации к используемой нами библиотеке [category_encoders](https://contrib.scikit-learn.org/category_encoders/).

Выбор подходящего метода кодирования может быть непростой задачей при проектировании признаков. Поэтому всегда необходимо тестировать несколько способов кодирования и выбирать тот, с помощью которого получается качественная предсказательная модель. О том, как измерить качество модели, вы узнаете далее в курсе в модулях про машинное обучение.

На основе изученного материала можно сказать, что подходящий способ кодирования признака taster_twitter_handle из датасета wine_cleared способ двоичного кодирования. 

In [30]:
# Импортируем необходимую библиотеку:
import pandas as pd
# Прочитаем наш файл с винными обзорами:
data = pd.read_csv('data\wine_cleared.zip')

# импорт для работы с кодировщиком
bin_enc = ce.BinaryEncoder(cols=['taster_twitter_handle'])
type_bin = bin_enc.fit_transform(data['taster_twitter_handle'])
data_enc = pd.concat([data, type_bin], axis=1)

data.shape, data_enc.shape

((129971, 13), (129971, 18))

Для самопроверки создадим следующий датафрейм:

In [33]:
list_of_dicts = [
 {'product': 'Product1', 'price': 1200, 'payment_type': 'Mastercard'},
 {'product': 'Product2', 'price': 3600, 'payment_type': 'Visa'},
 {'product': 'Product3', 'price': 7500, 'payment_type': 'Amex'}
]
df = pd.DataFrame(list_of_dicts)
df

Unnamed: 0,product,price,payment_type
0,Product1,1200,Mastercard
1,Product2,3600,Visa
2,Product3,7500,Amex


Можно заметить, что признаки product и payment_type это признаки, которые нуждаются в кодировании. Также стоит отметить, что product и payment_type это номинальные признаки. Поэтому используем код ниже для создания признаков однократным кодированием:

In [34]:
# импорт для работы с кодировщиком
import category_encoders as ce

encoder = ce.OneHotEncoder(cols=['product','payment_type'])
cols = encoder.fit_transform(df[['product','payment_type']])
df_cod = pd.concat([df, cols], axis=1)

df_cod

Unnamed: 0,product,price,payment_type,product_1,product_2,product_3,payment_type_1,payment_type_2,payment_type_3
0,Product1,1200,Mastercard,1,0,0,1,0,0
1,Product2,3600,Visa,0,1,0,0,1,0
2,Product3,7500,Amex,0,0,1,0,0,1
