# Kategorički atributi

U primerima koji slede podsetićemo se načina za predstavljanje kategoričkih (kvalitativnih) atributa skupova podataka. Posebno, bavićemo se pitanjem nominalnih podataka koji ne podrazumevaju implicitna uređenja ili rangiranja. 
<img src='assets/data_categories.png'>

<figure style='text-align: center'>
    <img src='assets/nominal_data.png' title='Nominal data'>
    <figcaption> Pol osobe - nominala kvalitativna vrednost </figcaption>
</figure>


<figure style='text-align: center'>
    <img src='assets/ordinal_data.png' title='Nominal data'>
    <figcaption> Rezultati ankete - ordinalna kvalitativna vrednosti </figcaption>
</figure>

In [1]:
import pandas as pd
import numpy as np

U primeru koji sledi radićemo sa skupom životinja i njihovih boja.

In [2]:
animals = {
    0: 'cat',
    1: 'mouse',
    2: 'dog',
    3: 'bear',
    4: 'snake',
    5: 'elephant',
}

colors = {
    0: 'brown',
    1: 'white',
    2: 'black',
    3: 'blue',
}

Dalje ćemo generiasati N=20 različitih trojki životinja, boja i njihovih godina. 

In [3]:
N = 20

random_animals = np.random.randint(low=0, high=len(animals), size=N)
random_colors = np.random.randint(low=0, high=len(colors), size=N)
random_ages = np.round(np.random.random(size=N), 2)

data = np.array([random_animals, random_colors, random_ages]).T
data = pd.DataFrame(data=data, columns=['animal', 'color', 'age'])

In [4]:
data.head()

Unnamed: 0,animal,color,age
0,5.0,1.0,0.14
1,0.0,2.0,0.96
2,4.0,2.0,0.91
3,5.0,3.0,0.39
4,5.0,0.0,0.61


## Dummy coding

`Dummy coding` ili `One-Hot encoding` su nazivi za kodiranje koje kategoričkom atributu tj. promenljivoj sa $k$ mogućih različitih vrednosti pridružuje $k$ novih promenljivih, a vrednostima kategoričke promenljive vrednosti indikatora.

Kategorčki atribut `animal` kodiramo koristeći `one-hot` kodiranje.

In [5]:
data_one_hot = pd.get_dummies(data, columns=['animal'])

In [6]:
data_one_hot.head()

Unnamed: 0,color,age,animal_0.0,animal_1.0,animal_2.0,animal_3.0,animal_4.0,animal_5.0
0,1.0,0.14,0,0,0,0,0,1
1,2.0,0.96,1,0,0,0,0,0
2,2.0,0.91,0,0,0,0,1,0
3,3.0,0.39,0,0,0,0,0,1
4,0.0,0.61,0,0,0,0,0,1


## Binarno kodiranje
Binarno kodiranje (engl. binary encoding) vrednostima kategoričke promenljive dodeljuje redne brojeve koje potom kodira u binarne brojeve.

<div class='alert alert-danger'>
    Da bi mogli da koristimo ovu vrstu kodiranja, potrebno je instalirati paket `category_encoders` komandom 
    `conda install -c conda-forge category_encoders`. Ova biblioteka nudi još neke zanimljive načine kodiranja 
    podataka o kojima se više može pročitati u <a href='http://contrib.scikit-learn.org/categorical-encoding/'> dokumentaciji</a>.
</div>

In [7]:
import category_encoders as ce

Kategorčki atribut `animal` kodiramo koristeći binarno kodiranje.

In [8]:
encoder = ce.BinaryEncoder(cols=['animal'])
data_binary = encoder.fit_transform(data)

In [9]:
data_binary.head()

Unnamed: 0,animal_0,animal_1,animal_2,animal_3,color,age
0,0,0,0,1,1.0,0.14
1,0,0,1,0,2.0,0.96
2,0,0,1,1,2.0,0.91
3,0,0,0,1,3.0,0.39
4,0,0,0,1,0.0,0.61
