# Енкодери

Датасет на енкодери:

https://archive.ics.uci.edu/ml/datasets/Mushroom

Задача - спробувати і розібратись як кодують

In [68]:
# Підключаємо Google Drive з датасетами
from google.colab import drive
drive.mount("/content/drive")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [69]:
# Імпортуємо всі необхідні бібліотеки
import pandas as pd
import seaborn as sns
import numpy as np

sns.set()

%config InlineBackend.figure_format = "png"

# зчитуємо набір даних
datasets_path = "/content/drive/MyDrive/Colab Notebooks/mushrooms/"
df = pd.read_csv(datasets_path + "agaricus-lepiota.data")

In [70]:
!pip install category_encoders



In [71]:
# Проведемо первинний аналіз даних датасету
print("Загальний опис датасету:", df.info(), "\n")
print(df.isna().sum(), "\n")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8123 entries, 0 to 8122
Data columns (total 23 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   p       8123 non-null   object
 1   x       8123 non-null   object
 2   s       8123 non-null   object
 3   n       8123 non-null   object
 4   t       8123 non-null   object
 5   p.1     8123 non-null   object
 6   f       8123 non-null   object
 7   c       8123 non-null   object
 8   n.1     8123 non-null   object
 9   k       8123 non-null   object
 10  e       8123 non-null   object
 11  e.1     8123 non-null   object
 12  s.1     8123 non-null   object
 13  s.2     8123 non-null   object
 14  w       8123 non-null   object
 15  w.1     8123 non-null   object
 16  p.2     8123 non-null   object
 17  w.2     8123 non-null   object
 18  o       8123 non-null   object
 19  p.3     8123 non-null   object
 20  k.1     8123 non-null   object
 21  s.3     8123 non-null   object
 22  u       8123 non-null   

Датасет має 23 категоріальні фічі.
NaN значень в датасеті немає.

Можемо побачити, що в датасеті немає імен колонок. Але вони є у файлі `agaricus-lepiota.names`, який йде разом з датасетом. Тож задамо імена для колонок згідно опису в файлі:
```
7. Attribute Information: (classes: edible=e, poisonous=p)
     1. cap-shape:                bell=b,conical=c,convex=x,flat=f,
                                  knobbed=k,sunken=s
     2. cap-surface:              fibrous=f,grooves=g,scaly=y,smooth=s
     3. cap-color:                brown=n,buff=b,cinnamon=c,gray=g,green=r,
                                  pink=p,purple=u,red=e,white=w,yellow=y
     4. bruises?:                 bruises=t,no=f
     5. odor:                     almond=a,anise=l,creosote=c,fishy=y,foul=f,
                                  musty=m,none=n,pungent=p,spicy=s
     6. gill-attachment:          attached=a,descending=d,free=f,notched=n
     7. gill-spacing:             close=c,crowded=w,distant=d
     8. gill-size:                broad=b,narrow=n
     9. gill-color:               black=k,brown=n,buff=b,chocolate=h,gray=g,
                                  green=r,orange=o,pink=p,purple=u,red=e,
                                  white=w,yellow=y
    10. stalk-shape:              enlarging=e,tapering=t
    11. stalk-root:               bulbous=b,club=c,cup=u,equal=e,
                                  rhizomorphs=z,rooted=r,missing=?
    12. stalk-surface-above-ring: fibrous=f,scaly=y,silky=k,smooth=s
    13. stalk-surface-below-ring: fibrous=f,scaly=y,silky=k,smooth=s
    14. stalk-color-above-ring:   brown=n,buff=b,cinnamon=c,gray=g,orange=o,
                                  pink=p,red=e,white=w,yellow=y
    15. stalk-color-below-ring:   brown=n,buff=b,cinnamon=c,gray=g,orange=o,
                                  pink=p,red=e,white=w,yellow=y
    16. veil-type:                partial=p,universal=u
    17. veil-color:               brown=n,orange=o,white=w,yellow=y
    18. ring-number:              none=n,one=o,two=t
    19. ring-type:                cobwebby=c,evanescent=e,flaring=f,large=l,
                                  none=n,pendant=p,sheathing=s,zone=z
    20. spore-print-color:        black=k,brown=n,buff=b,chocolate=h,green=r,
                                  orange=o,purple=u,white=w,yellow=y
    21. population:               abundant=a,clustered=c,numerous=n,
                                  scattered=s,several=v,solitary=y
    22. habitat:                  grasses=g,leaves=l,meadows=m,paths=p,
                                  urban=u,waste=w,woods=d
```
Перша колонка датасету - це таргет `poisonous`.


In [72]:
# Додаємо назви колонок для датафрейму
df.columns =[
    "poisonous",
    "cap-shape",
    "cap-surface",
    "cap-color",
    "bruises",
    "odor",
    "gill-attachment",
    "gill-spacing",
    "gill-size",
    "gill-color",
    "stalk-shape",
    "stalk-root",
    "stalk-surface-above-ring",
    "stalk-surface-below-ring",
    "stalk-color-above-ring",
    "stalk-color-below-ring",
    "veil-type",
    "veil-color",
    "ring-number",
    "ring-type",
    "spore-print-color",
    "population",
    "habitat",
]

In [73]:
# Тепер подивимось на перші записи
df.head()

Unnamed: 0,poisonous,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
1,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
2,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
3,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
4,e,x,y,y,t,a,f,c,b,n,...,s,w,w,p,w,o,p,k,n,g


Датасет складається лише з категоріальних фіч, тож для того, щоб з ним можна було працювати далі нам необходно зробити їх кодування. Для цього використаємо методи Pandas, бібліотеки `sklearn` та `category_encoders`.

# Pandas

Pandas дозволяє за допомогою метода `get_dummies()` зробити One Hot Encoding, тобто перетворення категоріальної змінної на фіктивні/індикаторні змінні. Кожна змінна перетворюється на стільки змінних 0/1, скільки є різних значень.

In [74]:
# Подивимось як працює get_dummies в Pandas на прикладі фічі population
encoded_population = pd.get_dummies(df["population"])
encoded_population.head()

Unnamed: 0,a,c,n,s,v,y
0,0,0,1,0,0,0
1,0,0,1,0,0,0
2,0,0,0,1,0,0
3,1,0,0,0,0,0
4,0,0,1,0,0,0


Для зворотного кодування у категоріальну фічу можна використовувати метод `from_dummies()`

In [75]:
pd.from_dummies(encoded_population).head()

Unnamed: 0,Unnamed: 1
0,n
1,n
2,s
3,a
4,n


# sklearn
Біблеотека `sklearn` також дає змогу використовувати енкодери для категоріальних фічей. Більшість із них є також у пакеті `category_encoders `, але один роздивимось окремо.

In [76]:
# LabelEncoder
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df["poisonous_le"] = le.fit_transform(df["poisonous"])
df = df.drop(columns="poisonous")
df.head(10)

Unnamed: 0,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,...,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat,poisonous_le
0,x,s,y,t,a,f,c,b,k,e,...,w,w,p,w,o,p,n,n,g,0
1,b,s,w,t,l,f,c,b,n,e,...,w,w,p,w,o,p,n,n,m,0
2,x,y,w,t,p,f,c,n,n,e,...,w,w,p,w,o,p,k,s,u,1
3,x,s,g,f,n,f,w,b,k,t,...,w,w,p,w,o,e,n,a,g,0
4,x,y,y,t,a,f,c,b,n,e,...,w,w,p,w,o,p,k,n,g,0
5,b,s,w,t,a,f,c,b,g,e,...,w,w,p,w,o,p,k,n,m,0
6,b,y,w,t,l,f,c,b,n,e,...,w,w,p,w,o,p,n,s,m,0
7,x,y,w,t,p,f,c,n,p,e,...,w,w,p,w,o,p,k,v,g,1
8,b,s,y,t,a,f,c,b,g,e,...,w,w,p,w,o,p,k,s,m,0
9,x,y,y,t,l,f,c,b,g,e,...,w,w,p,w,o,p,n,n,g,0


In [77]:
# Для зворотного кодування можно використати метод inverse_transform
print(le.classes_)
df["poisonous"] = le.inverse_transform(df["poisonous_le"])
df = df.drop(columns="poisonous_le")
df.head()

['e' 'p']


Unnamed: 0,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,...,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat,poisonous
0,x,s,y,t,a,f,c,b,k,e,...,w,w,p,w,o,p,n,n,g,e
1,b,s,w,t,l,f,c,b,n,e,...,w,w,p,w,o,p,n,n,m,e
2,x,y,w,t,p,f,c,n,n,e,...,w,w,p,w,o,p,k,s,u,p
3,x,s,g,f,n,f,w,b,k,t,...,w,w,p,w,o,e,n,a,g,e
4,x,y,y,t,a,f,c,b,n,e,...,w,w,p,w,o,p,k,n,g,e


In [78]:
# Нормалізація цифрових лейблів
labels = [1, 5, 5, 5, 22, 22, 0, 18]
le.fit(labels)
le.transform(labels)

array([1, 2, 2, 2, 4, 4, 0, 3])

`LabelEncoder` виконує кодування у значення від 0 до n_classes-1. Також за допомогую цього енкодеру можно виконувати нормалізацію вже дискретних категоріальних фічей.

# category_encoders

Біблеотека `category_encoders` надає безліч різноманітних енкодерів. Роздивимось як працюють деякі з них.

In [82]:
# Розіб'ємо датасет на X та Y
x = df.drop(columns="poisonous")
y = df["poisonous"]
y_encoded = le.fit_transform(y)

In [148]:
# BaseN
from category_encoders.basen import BaseNEncoder

print(x["odor"].value_counts())

basen = BaseNEncoder(cols="odor", base=2)  # base = 2
res = basen.fit_transform(x[["odor"]])
res.head()

n    3528
f    2160
y     576
s     576
a     400
l     400
p     255
c     192
m      36
Name: odor, dtype: int64


Unnamed: 0,odor_0,odor_1,odor_2,odor_3
0,0,0,0,1
1,0,0,1,0
2,0,0,1,1
3,0,1,0,0
4,0,0,0,1


In [147]:
basen = BaseNEncoder(cols="odor", base=1)
res = basen.fit_transform(x[["odor"]])
res.head()

Unnamed: 0,odor_0,odor_1,odor_2,odor_3,odor_4,odor_5,odor_6,odor_7,odor_8,odor_9
0,0,1,0,0,0,0,0,0,0,0
1,0,0,1,0,0,0,0,0,0,0
2,0,0,0,1,0,0,0,0,0,0
3,0,0,0,0,1,0,0,0,0,0
4,0,1,0,0,0,0,0,0,0,0


`BaseN` кодує категорії в масиви їх представлень за основою N. При параметрі `base=1` відбувається one-hot encoding, при `base=2` бінарне кодування

База 1 еквівалентна одноразовому кодуванню (насправді не базова 1, але корисна), база 2 еквівалентна двійковому кодуванню. N=кількість фактичних категорій еквівалентна мінімальному порядковому кодуванню.

In [146]:
# Binary
from category_encoders.binary import BinaryEncoder

print(x["population"].value_counts())

be = BinaryEncoder(cols=["population"])
res = be.fit_transform(x["population"])
res.head()

v    4040
y    1712
s    1247
n     400
a     384
c     340
Name: population, dtype: int64


Unnamed: 0,population_0,population_1,population_2
0,0,0,1
1,0,0,1
2,0,1,0
3,0,1,1
4,0,0,1


`Binary` енкодер виконує двійкове кодування для категоріальних фіч, схоже на one-hot кодування, але зберігає категорії як двійкові бітові рядки.

In [251]:
# CatBoost Encoder
from category_encoders.cat_boost import CatBoostEncoder

cat_be = CatBoostEncoder()
res = cat_be.fit_transform(x, y_encoded)
res.head()

Unnamed: 0,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,0.481965,0.481965,0.481965,0.481965,0.481965,0.481965,0.481965,0.481965,0.481965,0.481965,...,0.481965,0.481965,0.481965,0.481965,0.481965,0.481965,0.481965,0.481965,0.481965,0.481965
1,0.481965,0.240982,0.481965,0.240982,0.481965,0.240982,0.240982,0.240982,0.481965,0.240982,...,0.240982,0.240982,0.240982,0.240982,0.240982,0.240982,0.240982,0.240982,0.240982,0.481965
2,0.240982,0.481965,0.240982,0.160655,0.481965,0.160655,0.160655,0.481965,0.240982,0.160655,...,0.160655,0.160655,0.160655,0.160655,0.160655,0.160655,0.160655,0.481965,0.481965,0.481965
3,0.493988,0.160655,0.481965,0.481965,0.481965,0.370491,0.481965,0.160655,0.240982,0.481965,...,0.370491,0.370491,0.370491,0.370491,0.370491,0.370491,0.481965,0.160655,0.481965,0.240982
4,0.370491,0.740982,0.240982,0.370491,0.240982,0.296393,0.370491,0.120491,0.493988,0.370491,...,0.296393,0.296393,0.296393,0.296393,0.296393,0.296393,0.370491,0.740982,0.160655,0.160655


`CatBoostEncoder` виконує кодування категоріальних фічей за допомогую використання методів `TargetEncoding` та `One Out Encoding`.

In [183]:
# CountEncoder
from category_encoders.count import CountEncoder

ce = CountEncoder(cols="cap-shape")
res = ce.fit_transform(x)
res[["cap-shape"]].head()

Unnamed: 0,cap-shape
0,3655
1,452
2,3655
3,3655
4,3655


`CounterEncoder` заміняє назви категоріальних фіч їх кількістью.

In [245]:
# Generalized Linear Mixed Model Encoder
from category_encoders.glmm import GLMMEncoder

glmme = GLMMEncoder(cols="gill-color")
res = glmme.fit_transform(x, y_encoded)
res[["gill-color"]].head()

Unnamed: 0,gill-color
0,-2.861129
1,-3.233723
2,-3.233723
3,-2.861129
4,-3.233723


`GLMMEncoder` працює шляхом обчислення середнього значення залежної зміної для кожної категории і потім замінює категоріальне значення середнім значенням.

In [179]:
# Gray
from category_encoders.gray import GrayEncoder

ge = GrayEncoder()
res = ge.fit_transform(x["spore-print-color"])
res.head()

Unnamed: 0,spore-print-color_0,spore-print-color_1,spore-print-color_2,spore-print-color_3
0,0,1,1,0
1,0,1,1,0
2,0,0,1,0
3,0,1,1,0
4,0,0,1,0


`Gray` це ще одна з форм двійкового кодування, де послідовні значення відрізняються одним бітом. Доцільним є використання для кодування порядкових ознак.

In [248]:
# Hashing
from category_encoders.hashing import HashingEncoder

he = HashingEncoder()
res = he.fit_transform(x[["cap-shape", "bruises"]])
res.head()

Unnamed: 0,col_0,col_1,col_2,col_3,col_4,col_5,col_6,col_7
0,0,0,0,0,0,0,2,0
1,0,0,0,0,0,0,1,1
2,0,0,0,0,0,0,2,0
3,0,0,0,0,0,0,1,1
4,0,0,0,0,0,0,2,0


`HashingEncoder` ітерує по всім унікальним значенням категоріальної фічі, хешує кожне значення і потім трансформує хеш-значуння у числову ознаку.

In [197]:
# Helmert Coding
from category_encoders.helmert import HelmertEncoder

he = HelmertEncoder()
res = he.fit_transform(x["odor"])
res.head()



Unnamed: 0,intercept,odor_0,odor_1,odor_2,odor_3,odor_4,odor_5,odor_6,odor_7
0,1,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
1,1,1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
2,1,0.0,2.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0
3,1,0.0,0.0,3.0,-1.0,-1.0,-1.0,-1.0,-1.0
4,1,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0


`HelmertEncoder` виконує кодування категоріальних фіч за допомогою трансформування Хелмерта. Використовується тоді, коли є велика кількість унікальних значень у категоріальних фіч.

Основна ідея такого кодування:
1. Обирається базова категорія, якій виділяється значення 0.
2. Для кожної унікальної категорії, що не є базовою, створюється нова змінна. Значення цієї змінної буде рівнятися різниці середнього значення таргету між цією категорією та базовою категорією.
3. Якщо маємо N унікальних значень категоріальної фічі, то створюється N-1 нова змінна.

In [204]:
# James-Stein Encoder
from category_encoders.james_stein import JamesSteinEncoder

js = JamesSteinEncoder()
res = js.fit_transform(x["gill-attachment"], y_encoded)
res.head()

Unnamed: 0,gill-attachment
0,0.492481
1,0.492481
2,0.492481
3,0.492481
4,0.492481


`JamesSteinEncoder` для кожної категорії фічей рахує середнє значення таргету, після чого для кожного значення фічі рахується скорректоване середнє значення таргету, враховуючи середнє значення інших категорій.

In [207]:
# Leave One Out
from category_encoders.leave_one_out import LeaveOneOutEncoder

loo = LeaveOneOutEncoder()
res = loo.fit_transform(x["veil-color"], y_encoded)
res.head()

Unnamed: 0,veil-color
0,0.493184
1,0.493184
2,0.493057
3,0.493184
4,0.493184


`LeaveOneOutEncoder` виконує таргет кодування за допомогою методу `leave-one-out`.

In [211]:
# M-estimate
from category_encoders.m_estimate import MEstimateEncoder

mee = MEstimateEncoder()
res = mee.fit_transform(x["population"], y_encoded)
res.head()

Unnamed: 0,population
0,0.001202
1,0.001202
2,0.294457
3,0.001252
4,0.001202


`MEstimateEncoder` виконує кодування категоріальних фічей за допомогою М-оцінок.

In [213]:
# One Hot
from category_encoders.one_hot import OneHotEncoder

oh = OneHotEncoder()
res = oh.fit_transform(y)
res.head()

Unnamed: 0,poisonous_1,poisonous_2
0,1,0
1,1,0
2,0,1
3,1,0
4,1,0


`OneHotEncoder` працює аналогічно методу `get_dummies()` в `Pandas`.

In [217]:
# Ordinal
from category_encoders.ordinal import OrdinalEncoder

oe = OrdinalEncoder()
res = oe.fit_transform(y)
res.head()

Unnamed: 0,poisonous
0,1
1,1
2,2
3,1
4,1


`OrdinalEncoder` перетворює значення категоріальних фічей на числові значення відповідно до своєрідного порядку. Цей порядок грунтується на унікальних значеннях категоріальних змінних.

In [223]:
# Polynomial Coding
from category_encoders.polynomial import PolynomialEncoder

pe = PolynomialEncoder()
res = pe.fit_transform(x[["cap-shape", "population"]])
res.head()



Unnamed: 0,intercept,cap-shape_0,cap-shape_1,cap-shape_2,cap-shape_3,cap-shape_4,population_0,population_1,population_2,population_3,population_4
0,1,-0.597614,0.545545,-0.372678,0.188982,-0.062994,-0.597614,0.545545,-0.372678,0.188982,-0.062994
1,1,-0.358569,-0.109109,0.521749,-0.566947,0.31497,-0.597614,0.545545,-0.372678,0.188982,-0.062994
2,1,-0.597614,0.545545,-0.372678,0.188982,-0.062994,-0.358569,-0.109109,0.521749,-0.566947,0.31497
3,1,-0.597614,0.545545,-0.372678,0.188982,-0.062994,-0.119523,-0.436436,0.298142,0.377964,-0.629941
4,1,-0.597614,0.545545,-0.372678,0.188982,-0.062994,-0.597614,0.545545,-0.372678,0.188982,-0.062994


`PolynomialEncoder` використовується для кодування категоріальних ознак шляхом створення поліноміальних ознак. Це означає, що він створює нові ознаки шляхом зведення вихідних категоріальних ознак у ступінь.

In [228]:
# Quantile Encoder
from category_encoders.quantile_encoder import QuantileEncoder

qe = QuantileEncoder()
res = qe.fit_transform(x["stalk-shape"], y_encoded)
res.head()

Unnamed: 0,stalk-shape
0,0.999716
1,0.999716
2,0.999716
3,0.0
4,0.999716


`QuantileEncoder` виконує кодування категоріальних фічей за допомогою квантілей.

In [230]:
# RankHotEncoder
from category_encoders.rankhot import RankHotEncoder

rhe = RankHotEncoder()
res = rhe.fit_transform(x["ring-type"], y)
res.head()

Unnamed: 0,ring-type_1,ring-type_2,ring-type_3,ring-type_4,ring-type_5
0,1,1,1,1,1
1,1,1,1,1,1
2,1,1,1,1,1
3,1,0,0,0,0
4,1,1,1,1,1


`RankHotEncoder` виконує перетворення категоріальних ознак у числові, заснований на їхньому ранговому кодуванні. Він надає кожній унікальній категорії цілечисленне значення, яке визначається їх порядком у межах ознаки.

In [255]:
# Sum Coding
from category_encoders.sum_coding import SumEncoder

sum_e = SumEncoder()
res = sum_e.fit_transform(y)
res.head()



Unnamed: 0,intercept,poisonous_0
0,1,1.0
1,1,1.0
2,1,-1.0
3,1,1.0
4,1,1.0


`SumEncoder` виконує кодування за допомогoю методу `sum contrast coding`.

In [256]:
# Summary Encoder
from category_encoders.quantile_encoder import SummaryEncoder

summ_e = SummaryEncoder()
res = summ_e.fit_transform(x[["cap-surface", "ring-type"]], y_encoded)
res.head()

Unnamed: 0,cap-surface_25,cap-surface_75,ring-type_25,ring-type_75
0,0.0,1.0,0.0,0.000252
1,0.0,1.0,0.0,0.000252
2,0.0,1.0,0.0,0.000252
3,0.0,1.0,0.0,1.0
4,0.0,1.0,0.0,0.000252


`SummaryEncoder` наче також працює з значеннями квантілей (?)

In [242]:
# Target Encoder
from category_encoders.target_encoder import TargetEncoder

te = TargetEncoder()
res = te.fit_transform(x["habitat"], y_encoded)
res.head()

Unnamed: 0,habitat
0,0.344507
1,0.123288
2,0.73842
3,0.344507
4,0.344507


`TargetEncoder` виконує кодування таргету.

In [244]:
# Weight of Evidence
from category_encoders.woe import WOEEncoder

woee = WOEEncoder()
res = woee.fit_transform(x, y_encoded)
res.head()

Unnamed: 0,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,-0.059857,0.281739,0.58992,-1.41216,-5.921825,0.042065,0.306582,-0.767708,-1.612525,0.233418,...,-0.722751,-0.402892,-0.404172,-1.8e-05,0.044627,0.106056,-1.279559,-1.976273,-5.921825,-0.570498
1,-2.03993,0.281739,-0.737061,-1.41216,-5.921825,0.042065,0.306582,-0.767708,-2.043159,0.233418,...,-0.722751,-0.402892,-0.404172,-1.8e-05,0.044627,0.106056,-1.279559,-1.976273,-5.921825,-1.866022
2,-0.059857,0.217803,-0.737061,-1.41216,5.617314,0.042065,0.306582,2.112773,-2.043159,0.233418,...,-0.722751,-0.402892,-0.404172,-1.8e-05,0.044627,0.106056,-1.279559,-1.924142,-0.800838,1.103228
3,-0.059857,0.281739,-0.172287,0.887556,-3.266247,0.042065,-2.291385,-0.767708,-1.612525,-0.179068,...,-0.722751,-0.402892,-0.404172,-1.8e-05,0.044627,0.106056,0.633591,-1.976273,-5.881107,-0.570498
4,-0.059857,0.217803,0.58992,-1.41216,-5.921825,0.042065,0.306582,-0.767708,-2.043159,0.233418,...,-0.722751,-0.402892,-0.404172,-1.8e-05,0.044627,0.106056,-1.279559,-1.924142,-5.921825,-0.570498


`WOEEncoder` виконує кодування фіче, шляхом перетворення значень категорії в ваги, та використовуючи інформацію о том, як часто значення категорії зустрічається в таргеті.

# Висновок

Для перетворення категоріальних фічей існує велика купа різних енкодерів, які здатні трансформувати такі фічі у числове значення. Використання енкодерів на категоріальних фічах зробить датасет більш прийнятним для навчання моделей.