In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

In [2]:
data = pd.DataFrame()
data['A'] = ['a','a','b','a']
data['B'] = ['b','b','a','b']
data['Class'] = [0, 0, 1, 0]

data

Unnamed: 0,A,B,Class
0,a,b,0
1,a,b,0
2,b,a,1
3,a,b,0


In [3]:
tree = DecisionTreeClassifier()
tree.fit(data[['A','B']], data['Class'])

ValueError: could not convert string to float: 'a'

##### Таким образом, даже для деревьев решений необходимо кодировать категориальные значения данных, так как теоритически он должен обучаться на них, но на практике очень редко

## Label Encoder

Первое (выбранное каким-то образом) уникальное значение кодируется нулем, второе единицей, и так далее, последнее кодируется числом, равным количеству уникальных значений минус единица.

#### Давайте посмотрим на примере:

Предположим у нас есть категориальный признак бренда автомобиля, со значениями BMW, Mercedes, Nissan, Infinity, Audi, Volvo, Skoda.

Создадим искусственный признак brand и закодируем его с помощью реализации sklearn.

In [4]:
data = pd.DataFrame()
data['brand'] = ['BMW', 'Mersedes','Nissan', 'Infinity', 'Audi', 'Volvo', 'Skoda']*5
data

Unnamed: 0,brand
0,BMW
1,Mersedes
2,Nissan
3,Infinity
4,Audi
5,Volvo
6,Skoda
7,BMW
8,Mersedes
9,Nissan


In [5]:
data = data.sample(frac=1, random_state=42).reset_index(drop=True)

In [6]:
data

Unnamed: 0,brand
0,Volvo
1,Skoda
2,Infinity
3,BMW
4,Mersedes
5,Mersedes
6,Volvo
7,Volvo
8,Mersedes
9,Nissan


In [7]:
# Применим Label Encoder
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()
data_new = labelencoder.fit_transform(data.values)
data_new[:20]

  return f(*args, **kwargs)


array([6, 5, 2, 1, 3, 3, 6, 6, 3, 4, 4, 6, 1, 0, 2, 5, 6, 0, 3, 4])

In [8]:
labelencoder.classes_

array(['Audi', 'BMW', 'Infinity', 'Mersedes', 'Nissan', 'Skoda', 'Volvo'],
      dtype=object)

Реализация Label Encoder в sklearn прежде всего сортирует по алфавиту уникальные значения, потом присваивает им порядковый номер!

#### После преобразования получилось, что по данному признаку значение Volvo имеет численное значение 6, а BMW 1, что дает нам право говорить, что Volvo в 6 раз больше (круче и тд.) чем BMW по признаку brand.

Однако, в исходных данных таких зависимостей не было, что и является существенным недостатком данного варианта кодирования.

### One-Hot Encoder

Данный тип кодирования, основывается на создании бинарных признаков, которые показывают принадлежность к уникальному значению. Проще говоря, на примере нашего признака brand, мы создаем бинарные признаки для всех уникальных значений: brand_Volvo, brand_BMW, ..., где признак принадлежности к бренду Volvo brand_Volvo имеет значение 1, если объект в признаке brand имеет значение Volvo и нуль при всех других. Давайте посмотрим на примере признака brand:

In [14]:
from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder()
onehotencoder
date_new = onehotencoder.fit_transform(data.values)
pd.DataFrame(data_new.toarray(), columns=onehotencoder.categories_).head(10)

Unnamed: 0,Audi,BMW,Infinity,Mersedes,Nissan,Skoda,Volvo
0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
1,0.0,0.0,0.0,0.0,0.0,1.0,0.0
2,0.0,0.0,1.0,0.0,0.0,0.0,0.0
3,0.0,1.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,1.0,0.0,0.0,0.0
5,0.0,0.0,0.0,1.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,1.0
7,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,0.0,0.0,0.0,1.0,0.0,0.0,0.0
9,0.0,0.0,0.0,0.0,1.0,0.0,0.0


#### Главный недостаток One-Hot Encoder'a заключается в существенном увеличении объема данных, так как большие по количеству уникальных значений признаки кодируются большим количеством бинарных признаков.

In [15]:
!pip install category_encoders


Collecting category_encoders
  Downloading category_encoders-2.5.1.post0-py2.py3-none-any.whl (72 kB)
Installing collected packages: category-encoders
Successfully installed category-encoders-2.5.1.post0


In [20]:
from category_encoders.binary import BinaryEncoder

In [21]:
bn = BinaryEncoder()
bn.fit_transform(data.values)[:10]

Unnamed: 0,0_0,0_1,0_2
0,0,0,1
1,0,1,0
2,0,1,1
3,1,0,0
4,1,0,1
5,1,0,1
6,0,0,1
7,0,0,1
8,1,0,1
9,1,1,0


#### Основная проблема данного подхода, что в погоне за оптимизацией количества признаков после преобразования, теряется интерпретируемость бинарных признаков, которая характерна признакам One-Hot Encoder.

### Helmert Encoder

In [27]:
from category_encoders.helmert import HelmertEncoder
he = HelmertEncoder(drop_invariant=True)
he.fit_transform(sorted(['BMW', 'Mercedes', 'Nissan', 'Infinity', 'Audi', 'Volvo', 'Skoda']))



Unnamed: 0,0_0,0_1,0_2,0_3,0_4,0_5
0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
1,1.0,-1.0,-1.0,-1.0,-1.0,-1.0
2,0.0,2.0,-1.0,-1.0,-1.0,-1.0
3,0.0,0.0,3.0,-1.0,-1.0,-1.0
4,0.0,0.0,0.0,4.0,-1.0,-1.0
5,0.0,0.0,0.0,0.0,5.0,-1.0
6,0.0,0.0,0.0,0.0,0.0,6.0


In [28]:
he = HelmertEncoder(drop_invariant=True)
he.fit_transform(data.values)[:10]



Unnamed: 0,0_0,0_1,0_2,0_3,0_4,0_5
0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
1,1.0,-1.0,-1.0,-1.0,-1.0,-1.0
2,0.0,2.0,-1.0,-1.0,-1.0,-1.0
3,0.0,0.0,3.0,-1.0,-1.0,-1.0
4,0.0,0.0,0.0,4.0,-1.0,-1.0
5,0.0,0.0,0.0,4.0,-1.0,-1.0
6,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
7,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
8,0.0,0.0,0.0,4.0,-1.0,-1.0
9,0.0,0.0,0.0,0.0,5.0,-1.0


### Backward-Difference Encode

кодирует категориальные данные по схожей схеме, что и Helmert Encoder, т.е с разницей до и после главной диагонали. Здесь проще посмотреть иллюстрацию кодирования категориального признака с N=4 уникальными значениями k = N-1 = 3 dummy признаками.

Посмотрим на кодирование нашего признака brand, сначала на отсортированных уникальных значениях, потом на всех данных:

In [30]:
from category_encoders.backward_difference import BackwardDifferenceEncoder
bd = BackwardDifferenceEncoder(drop_invariant=True)
bd.fit_transform(sorted(['BMW', 'Mercedes', 'Nissan', 'Infinity', 'Audi', 'Volvo', 'Skoda']))



Unnamed: 0,0_0,0_1,0_2,0_3,0_4,0_5
0,-0.857143,-0.714286,-0.571429,-0.428571,-0.285714,-0.142857
1,0.142857,-0.714286,-0.571429,-0.428571,-0.285714,-0.142857
2,0.142857,0.285714,-0.571429,-0.428571,-0.285714,-0.142857
3,0.142857,0.285714,0.428571,-0.428571,-0.285714,-0.142857
4,0.142857,0.285714,0.428571,0.571429,-0.285714,-0.142857
5,0.142857,0.285714,0.428571,0.571429,0.714286,-0.142857
6,0.142857,0.285714,0.428571,0.571429,0.714286,0.857143


In [32]:
bd = BackwardDifferenceEncoder(drop_invariant=True)
bd.fit_transform(data.values)[:20]



Unnamed: 0,0_0,0_1,0_2,0_3,0_4,0_5
0,-0.857143,-0.714286,-0.571429,-0.428571,-0.285714,-0.142857
1,0.142857,-0.714286,-0.571429,-0.428571,-0.285714,-0.142857
2,0.142857,0.285714,-0.571429,-0.428571,-0.285714,-0.142857
3,0.142857,0.285714,0.428571,-0.428571,-0.285714,-0.142857
4,0.142857,0.285714,0.428571,0.571429,-0.285714,-0.142857
5,0.142857,0.285714,0.428571,0.571429,-0.285714,-0.142857
6,-0.857143,-0.714286,-0.571429,-0.428571,-0.285714,-0.142857
7,-0.857143,-0.714286,-0.571429,-0.428571,-0.285714,-0.142857
8,0.142857,0.285714,0.428571,0.571429,-0.285714,-0.142857
9,0.142857,0.285714,0.428571,0.571429,0.714286,-0.142857


Target Encoding
Основная цель, объядиняющая данный тип кодировщиков, заключается в использовании целевой метки, для кодирования категориальных признаков.

К Target Encoder'aм относятся Target Encoder, Leave-One-Out Encoder, James-Stein Encoder.

Target Encoder реализован "под капотом" в модели градиентного бустинга над решающими деревьями CatBoost!

Target Encoder для задачи регрессии использует среднее значение целевой метки по данному значению категориального признака.

Другими словами, если у нас задача предсказания цены авто, целевая метка - цена авто, то каждое значение марки авто в нашем признаке brand кодируется средней ценой автомобиля данного бренда.

Target Encoder для задачи бинарной классификации использует вероятность единичного класса для данного значения категориального признака.

Другими словами, если у нас задача предсказания цены продажи авто (продано/не продано), единичный класс - успешная продажа авто, то каждое значение марки авто в нашем признаке brand кодируется вероятностью продажи авто.

Важно понимать, что для тестовой выборки кодирования производится значениями, полученными на обучающей выборке. Поэтому, важно смотреть за статистической схожестью выборок, в противном случае теряется главный плюс данного кодирования - сохранение исходной зависимости между признаком и целевой меткой во время кодирования.



Leave-One-Out Encoder является расширением Target Encoder'a, в котором, кодирование конкретного объекта обучающей выборки производится с использованием для подсчета среднего/вероятности единичного класса без учета значения данного объекта (т.е мы как раз удаляем его значение, отсюда и происходит название кодировщика). Для тестовой выборки ничем не отличается от Targer Encoder'a.

James-Stein Encoder является некоторым средневзешенным между значениями для данного значения категориального признака и значением для всей выборки. Важным моментом является тот факт, что из формул для веса B, можно сказать, что данный энкодер и его оптимальный параметр B определен корректно и однозначно в случае, когда целевая метка распределена нормально!

James-Stein Encoder определен только для задачи регрессии!