# [WUM] Praca domowa nr 2 - krótka rozprawa o kodowaniu zmiennych
### Mateusz Polakowski

Jak tytuł wskazuje, w tym raporcie zajmiemy się omówieniem możliwości pakietu *category_encoders*, tzn. różnych alternatyw kodowania zmiennych kategorycznych w zbiorze. Jest to ważny aspekt inżynierii cech zbioru danych, ponieważ modele nie lubią współpracować, na przykład, z cechą określaną przez napisy (ocena pogody - *zimno*, *ciepło*, *pada deszcz*, *pada śnieg*, ...).
<br/> 

Poza tym sprawdzimy jak podstawowy model klasyfikacyjny, *k najbliższych sąsiadów*, radzi sobie z różnymi sposobami kodowania. 

Zbiór, który weźmiemy pod uwagę, to omawany już wiele razy zbiór transakcji serwisu *allegro*. Kodować będziemy tam kolumnę *main_category*, która zawiera 27 unikalnych wartości tekstowych. Przewidywać natomiast będziemy kolumnę *it_is_brand_zone*.

Warto we wstępie również wspomnieć o module pakietu *sklearn*, mianowicie *pipeline* - bardzo przydatna rzecz, która pozwala połączyć kodowanie zmiennych, inny processing danych i tworzenie modelu w jednym miejscu. Mimo wszystko, dla przejrzystości raportu tę funkcjonalność pominiemy i będziemy rozpisywać kodowanie i predykcję krok po kroku.

---
## Wgranie potrzebnych pakietów

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import category_encoders as ce
import sklearn.metrics
import pandas as pd

pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

def model_and_evaluate(X, y, test_size=0.2, random_state=1234):
    """
        Funkcja tworzy model, dzieli dane i na samym końcu zwraca wynik ewaluacji AUC
    """
    # Podział na zbiory treningowe oraz testowe
    X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                        test_size=test_size, 
                                                        random_state=random_state)
    # Stworzenie modelu, predykcja i ewaluacja
    model = KNeighborsClassifier(n_neighbors=5)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    return sklearn.metrics.precision_score(y_test, y_pred)

## Przygotowanie danych

In [2]:
df = pd.read_csv("./../../../../Datasets/Allegro/allegro-api-transactions.csv", index_col="lp")
X, y = df.drop(["it_is_brand_zone", "date", "item_id", "categories", "seller", "it_location"], 
               axis=1), df.it_is_brand_zone

In [3]:
# Przykład danych którymi będziemy się zajmować
print(list(y[:5]))
X.head()

[0, 0, 0, 0, 0]


Unnamed: 0_level_0,pay_option_on_delivery,pay_option_transfer,price,it_is_allegro_standard,it_quantity,it_seller_rating,main_category
lp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,1,1,59.99,1,997,50177,Komputery
1,1,1,4.9,1,9288,12428,"Odzież, Obuwie, Dodatki"
2,1,1,109.9,1,895,7389,Dom i Ogród
3,1,1,18.5,0,971,15006,Książki i Komiksy
4,1,1,19.9,1,950,32975,"Odzież, Obuwie, Dodatki"


## Kodowanie zmiennych

#### Ordinal encoding

Ponieważ kolumna *main_category* jest tekstowa, to przy użyciu najbardziej podstawowego sposobu kodowania - *ordinal encoding* - zamieńmy te wartości na dane liczbowe:

In [4]:
ord_enc = ce.OrdinalEncoder(cols=["main_category"])
X = ord_enc.fit_transform(X)
X.head()

Unnamed: 0_level_0,pay_option_on_delivery,pay_option_transfer,price,it_is_allegro_standard,it_quantity,it_seller_rating,main_category
lp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,1,1,59.99,1,997,50177,1
1,1,1,4.9,1,9288,12428,2
2,1,1,109.9,1,895,7389,3
3,1,1,18.5,0,971,15006,4
4,1,1,19.9,1,950,32975,2


Widać, że kolumna *main_category* się diametralnie zmieniła. Sprawdźmy jak teraz prosty model klasyfikacyjny sobie z tymi danymi radzi:

In [5]:
print("Wynik AUC dla ordinal encoding:", model_and_evaluate(X, y))

Wynik AUC dla ordinal encoding: 0.7906026557711952


Potraktujmy zatem ten wynik jako coś od czego będziemy zaczynać i porównywać do innych kodowań. 

#### Binary encoding

Zanim przejdziemy do najbardziej popularnego rozwiązania - *one-hot encoding*, to zatrzymajmy się chwilę przy omówieniu kodowania binarnego. Bardzo łatwo jest przejść do niego z poziomu *ordinal encoding*, ponieważ polega na zapisaniu binarnym liczb, a następnie przydzieleniu osobnej kolumny każdemu miejscu dla cyfry liczby w zapisie binarnym.

Dzięki temu można wyróżnić wszystkie kategorie w znacznie mniejszej liczbie kolumn niż to jest w przypadku kodowania *one-hot*, które sprawdzimy poniżej.

In [6]:
bin_enc = ce.BinaryEncoder(cols=['main_category'])
X_bin = bin_enc.fit_transform(X)
X_bin.head()

Unnamed: 0_level_0,main_category_0,main_category_1,main_category_2,main_category_3,main_category_4,main_category_5,pay_option_on_delivery,pay_option_transfer,price,it_is_allegro_standard,it_quantity,it_seller_rating
lp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,0,0,0,0,0,1,1,1,59.99,1,997,50177
1,0,0,0,0,1,0,1,1,4.9,1,9288,12428
2,0,0,0,0,1,1,1,1,109.9,1,895,7389
3,0,0,0,1,0,0,1,1,18.5,0,971,15006
4,0,0,0,0,1,0,1,1,19.9,1,950,32975


In [7]:
print("Wynik AUC dla binary encoding:", model_and_evaluate(X_bin, y))

Wynik AUC dla binary encoding: 0.7924921793534933


#### One-hot encoding

Pójdźmy krok dalej - wyodrębnijmy więcej kolumn przy okazji niwelując jakikolwiek wpływ kolejności wsród oznaczeń kategorii. Trudno przecież stwierdzić czy kategoria *Dom i Ogród* jest wyższa/lepsza niż kategoria *Komputery*. 

Można to ominąć przy użyciu innych kodowań, na przykład *one-hot encoding*. Tworzy ona dla każdej unikalnej wartości zmiennej kategorycznej nową kolumnę - jeśli wartość pasuje, to rekord otrzymuje 1, w przeciwnym przypadku 0. Dodatkowo jest tworzona kolumna *class-1*, która zawiera same 0 - można ją swobodnie pominąć. 

In [8]:
one_hot_enc = ce.OneHotEncoder(cols=['main_category'])
X_oh = one_hot_enc.fit_transform(X).drop("main_category_-1", axis=1)
X_oh.head()

Unnamed: 0_level_0,main_category_1,main_category_2,main_category_3,main_category_4,main_category_5,main_category_6,main_category_7,main_category_8,main_category_9,main_category_10,main_category_11,main_category_12,main_category_13,main_category_14,main_category_15,main_category_16,main_category_17,main_category_18,main_category_19,main_category_20,main_category_21,main_category_22,main_category_23,main_category_24,main_category_25,main_category_26,main_category_27,pay_option_on_delivery,pay_option_transfer,price,it_is_allegro_standard,it_quantity,it_seller_rating
lp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1
0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,59.99,1,997,50177
1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,4.9,1,9288,12428
2,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,109.9,1,895,7389
3,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,18.5,0,971,15006
4,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,19.9,1,950,32975


Od razu można stwierdzić, że głównym problemem może tutaj się okazać brak pamięci - kodowanie *one-hot* w przypadku kilkudziesięciu cech po kilkaset unikalnych wartości może bardzo szybko je namnożyć utrudniając zadanie predykcji. Sprawdźmy jak nasz model teraz sobie radzi z powyższym zbiorem danych:

In [9]:
print("Wynik AUC dla one-hot encoding:", model_and_evaluate(X_oh, y))

Wynik AUC dla one-hot encoding: 0.7933194154488518


#### Target (impact) encoding

Ostatnim podejściem do kodowania zmiennych kategorycznych będzie *target encoding*. Polega on na tym, że na podstawie zmiennych przewidywanych kodujemy pewne aspekty tabeli treningowej (prawdopodobieństwo wystąpienia kategorii pod warunkiem danej wartości cechy celu). W naszym przypadku spróbujemy tym sposobem zapisać w inny sposób kolumnę *main_category*

In [10]:
target_enc = ce.TargetEncoder(cols=['main_category'])
X_target = target_enc.fit_transform(X, y)
X_target.head()

Unnamed: 0_level_0,pay_option_on_delivery,pay_option_transfer,price,it_is_allegro_standard,it_quantity,it_seller_rating,main_category
lp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,1,1,59.99,1,997,50177,0.010144
1,1,1,4.9,1,9288,12428,0.026411
2,1,1,109.9,1,895,7389,0.015795
3,1,1,18.5,0,971,15006,0.046319
4,1,1,19.9,1,950,32975,0.026411


In [11]:
print("Wynik AUC dla target encoding:", model_and_evaluate(X_target, y))

Wynik AUC dla target encoding: 0.7928870292887029


## Podsumowanie
Jak można było zauważyć w powyższym raporcie - przewidywanie zmiennej *it_is_brand_zone* nie stanowiło większego problemu dla modelu. Zbiór danych jest zrównoważony, zatem wyniki są bardzo do siebie przybliżone. Mimo tego warto pamiętać, że kodowanie zmiennych kategorycznych to bardzo ważny aspekt inżynierii cech.