### Nebalansirani skupovi podataka

Problem u masinskom ucenju nastaje kada imamo nabalansirane klase ciljne promenljive u nasim podacima. Tada dobijamo mere kvaliteta koje nisu pouzdane ako se ne koriste pravilno. <br>
Neki tehnike resavanja tog problema su sledece:
1. undersampling 
2. oversampling 
3. SMOTE (Synthetic Minority Oversampling Technique) 

<br>
U prvom slucaju dolazi do gubitka informacija, u drugom do stvaranja duplikata, zato se ovde upoznajemo sa trecom tehnikom:

### SMOTE

**Kako radi?**

1. Generisati nasumicni uzorak iz manjinske klase
2. Odrediti k najblizih suseda za instance iz tog uzorka
3. Uzeti vektor izmedju instance i jednog najblizeg suseda
4. Pomnoziti taj vektor skalarom izmedju 0 i 1 tj. uzeti neku tacku na njemu
5. Nova sinteticka tacka se dobija kada se to doda na trenutnu instancu

<img src='smote.png'>

**Sta dobijamo?**

Kako tacnost kao mera kvaliteta nije reprezentativna, vise paznje posvecujemo preciznosti (Precision) i odzivu (Recall). Upotrebom SMOTE algoritma dobijamo vise pozitivnih (manjinska klasa) predikcija, tako da povecavamo i TP i FP, odnosno povecavamo odziv po cenu preciznosti. Zato ovu tehniku koristimo u slucajevima upotrebe gde nam je takav odnos vazniji.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/JoosKorstanje/datasets/main/sales_data.csv')
data.head()

### Paznja: Ove podatke mozete koristiti da proverite kako svaki od do sada predjenih algoritama radi sa nebalansiranim skupom podataka

In [None]:
data.shape

### SMOTE bez

In [None]:
data['buy'].value_counts().plot(kind='bar') # ocigledno imamo nebalansiran skup podataka

In [None]:
train, test = train_test_split(data, test_size = 0.3, stratify=data.buy) # obavezno uzeti stratifikovane uzorke

In [None]:
model = LogisticRegression()

model.fit(train[['time_on_page', 'pages_viewed', 'interest_ski', 'interest_climb']], train['buy'])

In [None]:
preds = model.predict(test[['time_on_page', 'pages_viewed', 'interest_ski', 'interest_climb']])

In [None]:
confusion_matrix(test['buy'], preds)

In [None]:
print(classification_report(test['buy'], preds))

### SMOTE

In [None]:
from imblearn.over_sampling import SMOTE

### Napomena: Prvo podelimo podatke na skup za treniranje i testiranje, pa onda generisemo nove sinteticke instance koristeci samo trening skup. Test skup treba da ostane nepromenjen, u smislu novih instanci, kako bi testirali na nevidjenim i reprezentativnim podacima.

In [None]:
train, test = train_test_split(data, test_size = 0.3, stratify=data.buy) # obavezno uzeti stratifikovane uzorke

In [None]:
X_resampled, y_resampled = SMOTE(random_state=25).fit_resample(train[['time_on_page', 'pages_viewed', 'interest_ski', 'interest_climb']], train['buy'])

In [None]:
y_resampled.value_counts().plot(kind='bar') # ocigledno imamo nebalansiran skup podataka

In [None]:
model = LogisticRegression()

model.fit(X_resampled, y_resampled)

In [None]:
preds = model.predict(test[['time_on_page', 'pages_viewed', 'interest_ski', 'interest_climb']])

In [None]:
confusion_matrix(test['buy'], preds)

In [None]:
print(classification_report(test['buy'], preds))