# Кодування категоріальних даних

Категоріальні дані, як правило, не можуть безпосередньо оброблятися алгоритмами машинного навчання, оскільки більшість алгоритмів призначені для роботи лише з числовими даними. Тому, перш ніж використовувати категоріальні ознаки як вхідні дані для алгоритмів машинного навчання, їх потрібно закодувати у вигляді числових значень.

Існує кілька методів кодування категоріальних ознак, зокрема one-hot encoding, ordinal encoding та target encoding. Вибір методу кодування залежить від конкретних характеристик даних і вимог алгоритму машинного навчання, що використовується.

Існує багато різних методів кодування ознак. Деякі вчені виділяють до 15 різних методів кодування ознак:

- One Hot Encoding
- Label Encoding
- Ordinal Encoding
- Helmert Encoding
- Binary Encoding
- Frequency Encoding
- Mean Encoding
- Weight of Evidence Encoding
- Probability Ratio Encoding
- Hashing Encoding
- Backward Difference Encoding
- Leave One Out Encoding
- James-Stein Encoding
- M-estimator Encoding
- Thermometer Encoder

Для ретельного вибору методу кодування можна скористатися наступною діаграмою

<div style="text-align: center;">
    <img src="assets/image_0001.png" style="max-width:800px;width:100%">
</div>

## Набір даних для демонстрації задачі кодування категоріальних даних

Розгялянемо деякі найбільш популярні методи кодування категорійних ознак на прикладі простого набору даних.

In [7]:
import pandas as pd
import numpy as np

data = {
    'Temperature': ['Hot', 'Cold','Very Hot','Warm','Hot','Warm','Warm','Hot','Hot','Cold'],
    'Color': ['Red','Yellow','Blue','Blue','Red','Yellow','Red','Yellow','Yellow','Yellow'],
    'Target': [1,1,1,0,1,0,1,0,1,1]
}
dataset = pd.DataFrame(data, columns = ['Temperature','Color','Target'])

print (dataset)

  Temperature   Color  Target
0         Hot     Red       1
1        Cold  Yellow       1
2    Very Hot    Blue       1
3        Warm    Blue       0
4         Hot     Red       1
5        Warm  Yellow       0
6        Warm     Red       1
7         Hot  Yellow       0
8         Hot  Yellow       1
9        Cold  Yellow       1


## Кодування One Hot Encoding

У цьому методі ми зіставляємо кожну категорію з вектором, що містить `1` і `0`, які позначають наявність або відсутність ознаки. Кількість векторів залежить від кількості категорій для ознак. Цей метод створює багато стовпців, що значно сповільнює навчання, якщо кількість категорій для ознаки дуже велика. У Pandas є функція `get_dummies()`, яка досить проста у використанні.

<div style="text-align: center;">
    <img src="assets/image_0002.png" style="max-width:800px;width:100%">
</div>

In [8]:
import pandas as pd
import numpy as np

data = {
    'Temperature': ['Hot', 'Cold','Very Hot','Warm','Hot','Warm','Warm','Hot','Hot','Cold'],
    'Color': ['Red','Yellow','Blue','Blue','Red','Yellow','Red','Yellow','Yellow','Yellow'],
    'Target': [1,1,1,0,1,0,1,0,1,1]
}
dataset = pd.DataFrame(data, columns = ['Temperature','Color','Target'])

result = pd.get_dummies(dataset,prefix=['Temp'], columns=['Temperature'], dtype='int')

print(result)
print(result.dtypes)

    Color  Target  Temp_Cold  Temp_Hot  Temp_Very Hot  Temp_Warm
0     Red       1          0         1              0          0
1  Yellow       1          1         0              0          0
2    Blue       1          0         0              1          0
3    Blue       0          0         0              0          1
4     Red       1          0         1              0          0
5  Yellow       0          0         0              0          1
6     Red       1          0         0              0          1
7  Yellow       0          0         1              0          0
8  Yellow       1          0         1              0          0
9  Yellow       1          1         0              0          0
Color            object
Target            int64
Temp_Cold         int32
Temp_Hot          int32
Temp_Very Hot     int32
Temp_Warm         int32
dtype: object


Дане кодування можно також виконати за допомогою класу `OneHotEncoder` із бібліотеки Scikit-learn, але цей клас не створює додаткових стовпчиків у наборі даних, тому їх треба додавати окремо вручну.

In [9]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

data = {
    'Temperature': ['Hot', 'Cold','Very Hot','Warm','Hot','Warm','Warm','Hot','Hot','Cold'],
    'Color': ['Red','Yellow','Blue','Blue','Red','Yellow','Red','Yellow','Yellow','Yellow'],
    'Target': [1,1,1,0,1,0,1,0,1,1]
}
dataset = pd.DataFrame(data, columns = ['Temperature','Color','Target'])

encoder = OneHotEncoder()
result = encoder.fit_transform(dataset.Temperature.values.reshape(-1,1)).toarray()
df_result = pd.DataFrame(result,columns = ["Temp_" + str(encoder.categories_[0][i]) for i in range (len(encoder.categories_[0]))])

print(result)

new_dataset = pd.concat([dataset,df_result], axis=1)
print(new_dataset)

[[0. 1. 0. 0.]
 [1. 0. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]
 [0. 0. 0. 1.]
 [0. 1. 0. 0.]
 [0. 1. 0. 0.]
 [1. 0. 0. 0.]]
  Temperature   Color  Target  Temp_Cold  Temp_Hot  Temp_Very Hot  Temp_Warm
0         Hot     Red       1        0.0       1.0            0.0        0.0
1        Cold  Yellow       1        1.0       0.0            0.0        0.0
2    Very Hot    Blue       1        0.0       0.0            1.0        0.0
3        Warm    Blue       0        0.0       0.0            0.0        1.0
4         Hot     Red       1        0.0       1.0            0.0        0.0
5        Warm  Yellow       0        0.0       0.0            0.0        1.0
6        Warm     Red       1        0.0       0.0            0.0        1.0
7         Hot  Yellow       0        0.0       1.0            0.0        0.0
8         Hot  Yellow       1        0.0       1.0            0.0        0.0
9        Cold  Yellow       1        1.0       0.0            0.0        0.0


One Hot Encoding є дуже популярним методом кодування. Ми можемо представити всі категорії за допомогою `N-1` (`N` = номер категорії), що є достатнім для кодування тієї категорії, яка не включена. Зазвичай, для регресії ми використовуємо `N-1` (опускаємо перший або останній стовпчик ноовї One Hot Coded ознаки). Проте, для класифікації рекомендується використовувати всі N стовпців, оскільки більшість алгоритмів на основі дерева будують дерево на основі всіх доступних змінних.

У лінійній регресії слід використовувати One Hot Encoding з `N-1` двійковими змінними, щоб забезпечити правильну кількість ступенів свободи (`N-1`). Лінійна регресія має доступ до всіх ознак, оскільки вона навчається, і тому досліджує весь набір фіктивних змінних разом. Це означає, що `N-1` бінарних змінних дають повну інформацію (повністю представляють) вихідну категоріальну змінну для лінійної регресії. Цей підхід може бути прийнятий для будь-якого алгоритму машинного навчання, який розглядає ВСІ ознаки одночасно під час навчання - наприклад, машини опорних векторів і нейронні мережі, а також алгоритми кластеризації.

Ми ніколи не будемо враховувати цю додаткову мітку в методах, заснованих на деревах, якщо відкинемо її. Таким чином, якщо ми використовуємо категоріальні змінні в алгоритмі навчання на основі дерева, найкраще кодувати їх у `N` двійкових змінних і не відкидати.

## Label Encoding

У цьому кодуванні кожній категорії присвоюється значення від `1` до `N` (де `N` - кількість категорій для ознаки). Однією з головних проблем такого підходу є те, що між цими класами немає зв'язку або порядку, але алгоритм може розглядати їх як певний порядок або певний зв'язок. У наведеному нижче прикладі це може виглядати так (Холодний<Гарячий<Дуже гарячий<Теплий, тобто 0 < 1 < 2 < 3 )

In [10]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

data = {
    'Temperature': ['Hot', 'Cold','Very Hot','Warm','Hot','Warm','Warm','Hot','Hot','Cold'],
    'Color': ['Red','Yellow','Blue','Blue','Red','Yellow','Red','Yellow','Yellow','Yellow'],
    'Target': [1,1,1,0,1,0,1,0,1,1]
}
dataset = pd.DataFrame(data, columns = ['Temperature','Color','Target'])

encoder = LabelEncoder()

dataset['Temp_label_encoded'] = LabelEncoder().fit_transform(dataset.Temperature)

print(dataset)

  Temperature   Color  Target  Temp_label_encoded
0         Hot     Red       1                   1
1        Cold  Yellow       1                   0
2    Very Hot    Blue       1                   2
3        Warm    Blue       0                   3
4         Hot     Red       1                   1
5        Warm  Yellow       0                   3
6        Warm     Red       1                   3
7         Hot  Yellow       0                   1
8         Hot  Yellow       1                   1
9        Cold  Yellow       1                   0


Функція `factorize()` з бібліотеки Pandas виконує таку ж роль

In [11]:
import pandas as pd
import numpy as np

data = {
    'Temperature': ['Hot', 'Cold','Very Hot','Warm','Hot','Warm','Warm','Hot','Hot','Cold'],
    'Color': ['Red','Yellow','Blue','Blue','Red','Yellow','Red','Yellow','Yellow','Yellow'],
    'Target': [1,1,1,0,1,0,1,0,1,1]
}
dataset = pd.DataFrame(data, columns = ['Temperature','Color','Target'])

encoder = LabelEncoder()

dataset.loc[:,'Temp_factorize_encode'] = pd.factorize(dataset['Temperature'])[0].reshape(-1,1)

print(dataset)

  Temperature   Color  Target  Temp_factorize_encode
0         Hot     Red       1                      0
1        Cold  Yellow       1                      1
2    Very Hot    Blue       1                      2
3        Warm    Blue       0                      3
4         Hot     Red       1                      0
5        Warm  Yellow       0                      3
6        Warm     Red       1                      3
7         Hot  Yellow       0                      0
8         Hot  Yellow       1                      0
9        Cold  Yellow       1                      1


Метод `LabelEncoding` треба використовувати з обережністю, тому що цей метод присвоює унікальний номер (починаючи з `0`) кожному класу даних. Це може призвести до виникнення проблем з пріоритетами під час навчання моделі на наборах даних. Мітка з більшим значенням може вважатися більш пріоритетною, ніж мітка з меншим значенням.

Наприклад, уявімо собі, що в даних існує ознака зі значеннями `Mexico`, `Paris`, `Dubai`. При кодуванні міток у цьому стовпчику `Mexico` замінюється на `0`, `Paris` - на `1`, а `Dubai` - на `2`. Це може бути інтерпретовано як те, що `Dubai` має вищий пріоритет, ніж `Mexico` та `Paris`, під час навчання моделі, але насправді такого співвідношення пріоритетів між цими містами не існує.

Алгоритми машинного навчання на базі дерев рішень працюють з методом `LabelEncoding` без проблем, тоді як алгоритми машинного навчання, які припускають лінійну залежність (наприклад, лінійна регресія) є дуже чуттєвими до використання методу `LabelEncoding`.

Великою перевагою методу `LabelEncoding` є те, що для кодування категоріальних ознак використовується лише один стовпчик, що дозволяє зменшити витрати пам'яті та прискорити роботу алгоритмів машинного навчання. Також, цей метод можна використовувати у випадку, коли категоріальна ознака має лише два варіанти (`Так\Ні`, `Вірно\Невірно` тощо).

Крім того, оскільки `Label Encoding` присвоює довільні числові значення категоріям, ці значення можуть мати дуже різний масштаб, що вимагатиме додаткової нормалізації даних перед використанням у моделях машинного навчання.

Якщо категоріальні дані мають порядковий характер, то можна використати варіант Label Encoding під назвою Ordinal Encoding, про який буде йти мова нижче.

## Ordinal Encoding

Ordinal Encoding - це метод кодування категоріальних змінних, за якого кожній унікальній категорії присвоюється ціле число відповідно до їхнього порядку. Цей метод особливо корисний, коли категорії можуть бути впорядковані або ранжовані за значимістю.

Даний метод слід використовувати, коли категоріальні дані мають порядковий характер.

In [12]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OrdinalEncoder

data = {
    'Temperature': ['Hot', 'Cold','Very Hot','Warm','Hot','Warm','Warm','Hot','Hot','Cold'],
    'Color': ['Red','Yellow','Blue','Blue','Red','Yellow','Red','Yellow','Yellow','Yellow'],
    'Target': [1,1,1,0,1,0,1,0,1,1]
}
dataset = pd.DataFrame(data, columns = ['Temperature','Color','Target'])

encoder = OrdinalEncoder(categories = [['Cold','Warm','Hot','Very Hot']])

dataset['Temp_encoded'] = encoder.fit_transform(dataset[['Temperature']])

print(dataset)

  Temperature   Color  Target  Temp_encoded
0         Hot     Red       1           2.0
1        Cold  Yellow       1           0.0
2    Very Hot    Blue       1           3.0
3        Warm    Blue       0           1.0
4         Hot     Red       1           2.0
5        Warm  Yellow       0           1.0
6        Warm     Red       1           1.0
7         Hot  Yellow       0           2.0
8         Hot  Yellow       1           2.0
9        Cold  Yellow       1           0.0


Такий же функціонал можна реалізувати за допомогою функції `map()`, який викликається для об'єкта `DataFrame`:

In [13]:
import pandas as pd
import numpy as np

data = {
    'Temperature': ['Hot', 'Cold','Very Hot','Warm','Hot','Warm','Warm','Hot','Hot','Cold'],
    'Color': ['Red','Yellow','Blue','Blue','Red','Yellow','Red','Yellow','Yellow','Yellow'],
    'Target': [1,1,1,0,1,0,1,0,1,1]
}
dataset = pd.DataFrame(data, columns = ['Temperature','Color','Target'])

dict = {
    'Cold': 1,
    'Warm': 2,
    'Hot': 3,
    'Very Hot': 4
    }

dataset['Temp_encoded'] = dataset.Temperature.map(dict)

print(dataset)

  Temperature   Color  Target  Temp_encoded
0         Hot     Red       1             3
1        Cold  Yellow       1             1
2    Very Hot    Blue       1             4
3        Warm    Blue       0             2
4         Hot     Red       1             3
5        Warm  Yellow       0             2
6        Warm     Red       1             2
7         Hot  Yellow       0             3
8         Hot  Yellow       1             3
9        Cold  Yellow       1             1
