**Algoritam k najblizih suseda (kNN)** je jedan od najednostavnijih algoritama koji se moze koristiti za klasifikaciju sa proizvoljnim brojem klasa, kao i za regresiju. Osnovna pretpostavka ovog algoritma je postojanje rastojanja (metrike) nad
prostorom atributa.

Algoritam k najblizih suseda klasifikuje nepoznatu instancu tako sto pronalazi k instanci iz skupa za treniranje koje su joj najblize u smislu neke izabrane metrike i pridruzuje joj vecinsku klasu. U slucaju regresije tipicno uzima prosecnu vrednost ciljne promenljive najblizih suseda.

<img src='knn.png'>

**Prednosti:**
* samo izbor hiperparametra k (regularizacioni)
* proizvoljne granice klasa
<br>

**Mane:**
* nema funkciju greske
* moraju se cuvati (skoro) sve instance

### Implementacija

In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

In [None]:
from sklearn import model_selection
from sklearn import metrics
from sklearn import preprocessing
from sklearn import datasets

Koristimo poznati breast cancer dataset koji ima numericke prediktore i kategoricku ciljnu promenljivu tako da u ovom slucaju primenjujemo kNN algoritam za problem klasifikacije.

In [None]:
data = datasets.load_breast_cancer()

In [None]:
print(data.DESCR)

In [None]:
data.feature_names

In [None]:
X = pd.DataFrame(data.data, columns = data.feature_names)

In [None]:
X.shape

In [None]:
X.info() # nema nedostajucih i cudnih tipova podataka

In [None]:
X.describe()

In [None]:
data.target_names

In [None]:
y = data.target

In [None]:
y

In [None]:
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.3, stratify=y, random_state = 25)

In [None]:
scaler = preprocessing.StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

kNN model mozemo implementirati koristeci `neighbors` modul:

In [None]:
from sklearn import neighbors

In [None]:
knn_model = neighbors.KNeighborsClassifier(n_neighbors=5) # treniramo model sa parametrom k=3, 
# a sledeci cas radimo izbor optimalnog hiperparametara modela!!!

In [None]:
knn_model.fit(X_train, y_train)

In [None]:
y_pred = knn_model.predict(X_test)

In [None]:
print(metrics.classification_report(y_test, y_pred))

In [None]:
metrics.confusion_matrix(y_test, y_pred)

Probacemo i **bagging algoritam** tako sto cemo napraviti ansambl gde je bazni klasifikator kNN da uporedimo rezulteate:

In [None]:
from sklearn import ensemble

In [None]:
model_knn_ensemble = ensemble.BaggingClassifier(neighbors.KNeighborsClassifier(n_neighbors=5), n_estimators=100, bootstrap=True, random_state=42)

In [None]:
model_knn_ensemble.fit(X_train, y_train)

In [None]:
y_pred = model_knn_ensemble.predict(X_test)

In [None]:
print(metrics.classification_report(y_test, y_pred))

In [None]:
metrics.confusion_matrix(y_test, y_pred)