# Predprocesiranje kategoričkih podataka: Label Encoding i One-Hot Encoding

## Uvod

Kategorički podaci su česti u skupovima podataka i predstavljaju varijable koje imaju dvije ili više kategorija, ali koje nemaju intrinzički ordinalni odnos. Da bismo koristili ove podatke u većini algoritama strojnog učenja, moramo ih prvo pretvoriti u numerički format. Postoje različite tehnike za to, ali dvije od najpopularnijih su Label Encoding i One-Hot Encoding.
Razlike između Label Encoding i One-Hot Encoding

## Label Encoding

Label Encoding dodjeljuje svakoj jedinstvenoj kategoriji u stupcu jedinstveni integer. Ova metoda je vrlo korisna kada kategoričke varijable imaju neki redoslijed ili hijerarhiju.

In [2]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# Primjer podataka
data = pd.DataFrame({
    'Grade': ['Excellent', 'Good', 'Poor', 'Excellent', 'Good']
})

# Inicijalizacija i transformacija
label_encoder = LabelEncoder()
data['Grade_encoded'] = label_encoder.fit_transform(data['Grade'])
data

Unnamed: 0,Grade,Grade_encoded
0,Excellent,0
1,Good,1
2,Poor,2
3,Excellent,0
4,Good,1


## One-Hot Encoding

One-Hot Encoding stvara novi stupac za svaku jedinstvenu kategoriju u originalnom stupcu. Svaka značajka tada postaje binarna.

In [3]:
from sklearn.preprocessing import OneHotEncoder

# Inicijalizacija OneHotEncoder-a
onehot_encoder = OneHotEncoder(sparse=False)
encoded_data = onehot_encoder.fit_transform(data[['Grade']])
encoded_df = pd.DataFrame(encoded_data, columns=onehot_encoder.get_feature_names_out())

# Prikaz transformiranih podataka
pd.concat([data, encoded_df], axis=1)



Unnamed: 0,Grade,Grade_encoded,Grade_Excellent,Grade_Good,Grade_Poor
0,Excellent,0,1.0,0.0,0.0
1,Good,1,0.0,1.0,0.0
2,Poor,2,0.0,0.0,1.0
3,Excellent,0,1.0,0.0,0.0
4,Good,1,0.0,1.0,0.0


## Binary Encoding

Binary Encoding kombinira značajke Label i One-Hot Encodinga. Prvo pretvara kategoričke vrijednosti u numeričke pomoću Label Encodinga, a zatim pretvara te brojeve u binarni oblik, smanjujući time broj potrebnih stupaca u usporedbi s One-Hot Encodingom.

In [5]:
%pip install category_encoders
import category_encoders as ce

# Primjer podataka
data = pd.DataFrame({
    'Brand': ['Apple', 'Samsung', 'Apple', 'Huawei', 'Samsung']
})

# Inicijalizacija Binary Encoder-a
binary_encoder = ce.BinaryEncoder(cols=['Brand'])
encoded_data = binary_encoder.fit_transform(data['Brand'])

# Prikaz transformiranih podataka
encoded_data

Collecting category_encoders
  Downloading category_encoders-2.6.3-py2.py3-none-any.whl.metadata (8.0 kB)
Downloading category_encoders-2.6.3-py2.py3-none-any.whl (81 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.9/81.9 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h[33mDEPRECATION: omegaconf 2.0.6 has a non-standard dependency specifier PyYAML>=5.1.*. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of omegaconf or contact the author to suggest that they release a version with a conforming dependency specifiers. Discussion can be found at https://github.com/pypa/pip/issues/12063[0m[33m
[0mInstalling collected packages: category_encoders
Successfully installed category_encoders-2.6.3

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.3.2[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, r

Unnamed: 0,Brand_0,Brand_1
0,0,1
1,1,0
2,0,1
3,1,1
4,1,0


## Frequency Encoding

Frequency Encoding zamjenjuje kategoričke vrijednosti s frekvencijom njihovog pojavljivanja u skupu podataka. Ova metoda može biti korisna kada su frekvencije kategoričkih vrijednosti informativne.

In [6]:
# Računanje frekvencija
frequency = data['Brand'].value_counts() / len(data)

# Mapiranje frekvencija na kategoričke vrijednosti
data['Brand_freq'] = data['Brand'].map(frequency)

# Prikaz transformiranih podataka
data

Unnamed: 0,Brand,Brand_freq
0,Apple,0.4
1,Samsung,0.4
2,Apple,0.4
3,Huawei,0.2
4,Samsung,0.4


# Kada koristiti koju metodu?
## Label Encoding

- Koristite kada kategorička varijabla ima prirodni, ordinalni redoslijed (npr. 'nisko', 'srednje', 'visoko').
- Manje je zahtjevno po pitanju memorijskog prostora, posebno kada imate mnogo kategorija.

## One-Hot Encoding

- Najbolje za nominalne varijable bez intrinzičnog redoslijeda (npr. spol, država).
- Rezultira većim brojem značajki, što može povećati dimenzionalnost podataka (poznato kao "prokletstvo dimenzionalnosti").

## Binary Encoding

- Koristan kada imate veći broj kategorija i želite izbjeći preveliku dimenzionalnost koju može izazvati One-Hot Encoding.
- Dobar kompromis između informacijske vrijednosti i dimenzionalnosti.

## Frequency Encoding

- Može biti vrlo informativan kada postoji veza između frekvencije pojave i ciljne varijable.
- Treba biti oprezan kada se koristi u modelima koji mogu neprimjereno naučiti o frekvenciji kao značajci, što može dovesti do overfittinga.

# Zaključak

Izbor između Label Encodinga i One-Hot Encodinga ovisi o specifičnoj prirodi kategoričkih podataka i algoritmu koji se koristi za analizu. Za modele koji pretpostavljaju numerički redoslijed među značajkama, Label Encoding može biti prikladniji. Za modele koji to ne pretpostavljaju, poput većine klasifikacijskih i regresijskih algoritama, One-Hot Encoding često daje bolje rezultate.

Dodavanjem Binary i Frequency Encodinga, dobivate veći spektar alata za predprocesiranje vaših kategoričkih podataka. Izbor prave metode enkodiranja ovisi o prirodi vaših podataka i modelu koji koristite. Ove tehnike pružaju fleksibilnost u obradi podataka i mogu pomoći u izgradnji robustnijih modela strojnog učenja.

# Perceptron Neuronska Mreža

## Što je Perceptron?

Perceptron je najjednostavniji tip umjetne neuronske mreže, odnosno forma linearnog klasifikatora. U suštini, to je matematički model koji prima više ulaza (x1, x2, ..., xn) i vrši njihovo zbrajanje, svaki pomnožen s odgovarajućom težinom (w1, w2, ..., wn). Zbroj je zatim modificiran dodavanjem pristranosti (bias) i na kraju se primjenjuje aktivacijska funkcija (npr. step funkcija) kako bi se dobila binarna izlazna vrijednost (0 ili 1). Za više detalja o perceptronu, pogledajte ovaj edukativni video: 

[Zašto neuronska mreže može naučiti bilo što?](https://www.youtube.com/watch?v=0QczhVg5HaI)

### Razlike između Perceptrona i Neuronskih Mreža

Iako je perceptron najosnovniji oblik neuronske mreže, postoje bitne razlike između perceptrona i složenijih neuronskih mreža koje koriste više slojeva (multilayer perceptrons ili duboke neuronske mreže).
1. Arhitektura

    Perceptron: Sastoji se od samo jednog neurona sa jednim slojem težina i jednom aktivacijskom funkcijom, obično step funkcijom koja daje izlaz u obliku 0 ili 1.
    Višeslojne Neuronske Mreže (Multilayer Perceptrons, MLP): Sadrže više slojeva neurona, gdje svaki sloj može sadržavati više neurona. Svaki neuron u jednom sloju može biti povezan sa svim neuronima u sljedećem sloju, što omogućava mreži da modelira složenije obrasce.

2. Sposobnost učenja

    Perceptron: Može modelirati samo linearne razgraničene probleme, i neće konvergirati ako skup podataka nije linearno separabilan.
    Višeslojne Neuronske Mreže: Zahvaljujući svojoj arhitekturi, mogu učiti i predstavljati vrlo kompleksne ne-linearne odnose i obrasce u podacima, što ih čini prikladnima za širok raspon problema u praksi, od prepoznavanja govora do obrade slika.

3. Aktivacijske funkcije

    Perceptron: Tradicionalno koristi step funkciju koja ograničava njegovu primjenu na binarne klasifikacijske zadatke.
    Višeslojne Neuronske Mreže: Koriste različite vrste aktivacijskih funkcija kao što su sigmoid, tanh, ili ReLU, što doprinosi njihovoj sposobnosti da se treniraju pomoću backpropagation algoritma i da efikasno rješavaju probleme regresije, klasifikacije, i više.

4. Trening

    Perceptron: Koristi pravilo učenja perceptrona koje je jednostavno i učinkovito za linearne probleme.
    Višeslojne Neuronske Mreže: Koriste složenije algoritme za optimizaciju kao što su stohastički gradijentni spust (SGD), Adam, ili RMSprop, što im omogućuje efikasno učenje na velikim i kompleksnim skupovima podataka.

## Zaključak

Perceptron je koristan za razumijevanje osnovnih principa umjetnih neuronskih mreža i linearnog klasificiranja, ali njegova primjena u modernim problemima strojnog učenja ograničena je zbog njegove jednostavnosti i ograničenja. Složenije neuronske mreže omogućavaju rješavanje mnogo šireg spektra zadataka s većom preciznošću i fleksibilnošću.

## Primjer klasifikacije pomoću Perceptrona

Za primjer, koristit ćemo skup podataka koji se sastoji od različitih boja automobila i njihovih veličina, gdje je cilj klasificirati ih u dvije klase na temelju njihove cijene.
Priprema podataka

Prvo ćemo pripremiti podatke kao što smo prethodno spomenuli, koristeći One-Hot Encoding i Label Encoding za 'Boja' i 'Veličina' automobila.



In [8]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.linear_model import Perceptron
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Inicijalizacija podataka
data = pd.DataFrame({
    'Boja': ['Crvena', 'Plava', 'Zelena', 'Plava', 'Crvena'],
    'Veličina': ['S', 'M', 'L', 'S', 'M'],
    'Cijena': [100, 150, 200, 125, 160]
})

# Label Encoding
label_encoder = LabelEncoder()
data['Veličina_encoded'] = label_encoder.fit_transform(data['Veličina'])

# One-Hot Encoding
onehot_encoder = OneHotEncoder(sparse=False)
boja_encoded = onehot_encoder.fit_transform(data[['Boja']])
boja_encoded_df = pd.DataFrame(boja_encoded, columns=onehot_encoder.get_feature_names_out())
data = pd.concat([data, boja_encoded_df], axis=1)

# Dodavanje ciljne varijable
data['Jeftin'] = [1 if x < 150 else 0 for x in data['Cijena']]
data



Unnamed: 0,Boja,Veličina,Cijena,Veličina_encoded,Boja_Crvena,Boja_Plava,Boja_Zelena,Jeftin
0,Crvena,S,100,2,1.0,0.0,0.0,1
1,Plava,M,150,1,0.0,1.0,0.0,0
2,Zelena,L,200,0,0.0,0.0,1.0,0
3,Plava,S,125,2,0.0,1.0,0.0,1
4,Crvena,M,160,1,1.0,0.0,0.0,0


## Treniranje Perceptrona

Sada ćemo koristiti Perceptron za treniranje modela koristeći jednom One-Hot Encoding, a drugi put Label Encoding.
### Koristeći One-Hot Encoding

In [10]:
# Definiranje ulaznih i izlaznih podataka
X_onehot = data[['Boja_Crvena', 'Boja_Plava', 'Boja_Zelena', 'Veličina_encoded']]
y = data['Jeftin']

# Podjela podataka
X_train, X_test, y_train, y_test = train_test_split(X_onehot, y, test_size=0.2, random_state=42)

# Kreiranje i treniranje perceptrona
perceptron = Perceptron()
perceptron.fit(X_train, y_train)

# Predikcija i ocjena modela
y_pred = perceptron.predict(X_test)
print("Točnost korištenjem One-Hot Encodinga:", accuracy_score(y_test, y_pred))

Točnost korištenjem One-Hot Encodinga: 0.0


### Koristeći Label Encoding

In [14]:
# Label Encoding za 'Boja' i 'Veličina'
label_encoder = LabelEncoder()
data['Veličina_encoded'] = label_encoder.fit_transform(data['Veličina'])
data['Boja_encoded'] = label_encoder.fit_transform(data['Boja'])

# Definiranje ulaznih podataka s Label Encoding
X_label = data[['Boja_encoded', 'Veličina_encoded']]

# Podjela podataka
X_train, X_test, y_train, y_test = train_test_split(X_label, y, test_size=0.2, random_state=42)

# Kreiranje i treniranje perceptrona
perceptron.fit(X_train, y_train)

# Predikcija i ocjena modela
y_pred = perceptron.predict(X_test)
print("Točnost korištenjem Label Encodinga:", accuracy_score(y_test, y_pred))

Točnost korištenjem Label Encodinga: 1.0


### Korištenjem Frequency Encoding

In [15]:
# Računanje frekvencija
frequency = data['Boja'].value_counts() / len(data)

# Mapiranje frekvencija na kategoričke vrijednosti
data['Boja_freq'] = data['Boja'].map(frequency)

# Priprema ulaznih i izlaznih podataka
X_freq = data[['Boja_freq', 'Veličina_encoded']]
y = data['Jeftin']

# Podjela podataka
X_train, X_test, y_train, y_test = train_test_split(X_freq, y, test_size=0.2, random_state=42)

# Kreiranje i treniranje perceptrona
perceptron = Perceptron()
perceptron.fit(X_train, y_train)

# Predikcija i ocjena modela
y_pred = perceptron.predict(X_test)
print("Točnost korištenjem Frequency Encodinga:", accuracy_score(y_test, y_pred))

Točnost korištenjem Frequency Encodinga: 1.0


### Binary Encoding

Za primjenu Binary Encodinga, koristit ćemo category_encoders knjižnicu koja omogućava jednostavnu implementaciju različitih metoda enkodiranja.

In [16]:
import category_encoders as ce

# Inicijalizacija Binary Encoder-a
binary_encoder = ce.BinaryEncoder(cols=['Boja'])
data_binary_encoded = binary_encoder.fit_transform(data['Boja'])

# Dodavanje binarno enkodiranih podataka u originalni DataFrame
data = pd.concat([data, data_binary_encoded], axis=1)

# Priprema ulaznih i izlaznih podataka
X_binary = data.drop(columns=['Boja', 'Veličina', 'Cijena', 'Jeftin', 'Boja_encoded', 'Boja_freq'])
X_binary['Veličina_encoded'] = data['Veličina_encoded']  # Dodajemo već postojeći Label Encoded stupac
y = data['Jeftin']

# Podjela podataka
X_train, X_test, y_train, y_test = train_test_split(X_binary, y, test_size=0.2, random_state=42)

# Kreiranje i treniranje perceptrona
perceptron = Perceptron()
perceptron.fit(X_train, y_train)

# Predikcija i ocjena modela
y_pred = perceptron.predict(X_test)
print("Točnost korištenjem Binary Encodinga:", accuracy_score(y_test, y_pred))

Točnost korištenjem Binary Encodinga: 0.0


## Zaključak

### Linearna separabilnost

Perceptron je osnovan na pretpostavci da su podaci linearno separabilni. Ako koristite One-Hot Encoding, svaka kategorička varijabla se transformira u nekoliko binarnih varijabli, što može povećati dimenzionalnost ulaznog prostora i učiniti problem manje linearno separabilnim, pogotovo ako je broj podataka (uzoraka) relativno mali u odnosu na broj značajki (stupceva). U takvim situacijama, perceptron može teže naći hiper-ravninu koja efikasno razdvaja klase.

### Redundancija podataka

Kada se koristi One-Hot Encoding, svaki atribut koji originalno ima N kategorija pretvara se u N binarnih stupaca, što može dovesti do problema redundancije, osobito ako neka kategorija dominira. To može umanjiti sposobnost perceptrona da efikasno nauči jer perceptron može biti osjetljiv na neravnotežu u zastupljenosti kategorija.

#### Učinkovitost učenja

S obzirom na to da perceptron koristi gradijentni spust za optimizaciju svojih težina, povećanje broja ulaznih značajki kroz One-Hot Encoding može usporiti proces učenja i potencijalno dovesti do lošije konvergencije. U kontrastu, Label Encoding održava broj ulaznih značajki minimalnim, čime se perceptron može brže i učinkovitije prilagoditi podacima