# K-nearest-neighbours with sci-kit learn

W tym notebooku będziemy używać interfejsu Sci-kit learn by stworzyć klasyfikator KNN, na zbiorze danych Iris, oraz dopasować jego parametry.

Notebook będzie obejmował następujące kroki:

1. Załadowanie zbioru danych z pliku .csv
2. Podział na zbiór treningowy i testowy
3. Utworzenie podstawowego modelu K-nn oraz sprawdzenie jego trafności
4. Poszukiwanie najlepszego zestawu parametrów za pomocą metody Grid-Search
5. Analiza błędu na zbiorze testowym

# Przygotowanie

## imort bibliotek

In [32]:
import pandas as pd
import numpy as np
import sklearn.metrics as metrics

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier


## Ładowanie danych z pliku CSV

Użyjemy biblioteki Pandas i jej wbudowanej funkcjonalności do ładowania dnanych. 

```{python}

pandas.read_csv(....)

```

Załadowanie zbioru danych:

In [20]:
iris = ...

Sprawdźmy pierwsze pięć elementów

In [21]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


**Species** czyli **gatunek irysa** jest naszą zmienną odpowiedzi - zmienną zależną

## Podział zbioru na dane treningowe i testowe

Teraz, gdy mamy zbiór danych wczytany do pamięci, możemy go podzielić na podzbiór:

**treningowy** - który używany będzie do szkolenia algorytmu

**testowy** - który zostawimy na sam koniec, żeby sprawdzić, jak dobrze sprawuje się algorytm


Żeby to zrobić musimy najpierw rozdzielić zmienną zależną *y* (zmienną odpowiedzi) od pozostałych zmiennych *X* - niezależnych.
Potem uruchomimy funkcję *train_test_split* z pakietu sklearn.

[http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

Wynikiem jej działania są 4 zmienne:
* X training
* X testing
* y training
* y testing



Stwórzymy zmienną X, która będzie zawierać 4 atrybuty

Stwórzymy zmienną y, która będzie wektorem odpowiedzi, zawierającym klasę docelową

In [22]:
X = iris. ...
y = iris. ...

In [23]:
print(X.head())
print(y.head())

   sepal_length  sepal_width  petal_length  petal_width
0           5.1          3.5           1.4          0.2
1           4.9          3.0           1.4          0.2
2           4.7          3.2           1.3          0.2
3           4.6          3.1           1.5          0.2
4           5.0          3.6           1.4          0.2
0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: species, dtype: object


20% danych będzie przeznaczone do testowania, reszta - na trening

In [24]:
TEST_FRACTION = 0.2
RANDOM_STATE = 123

X_train, X_test, y_train, y_test = train_test_split( ... )

In [25]:
print(X_train.shape)
print(X_test.shape)

(120, 4)
(30, 4)


# Szkolenie modelu

## Stwórzymy podstawowy model KNN

Teraz możemy utworzyć podstawowy model KNN - *K-nearest neighbors classifier* używając implementacji z Sklearn'a.

Na początku będziemy używać DOMYŚLNYCH PARAMETRÓW


* Najpierw - importujemy model z biblioteki
* Potem tworzymy **instancję** klasy - czyli konkretny egzemplarz abstrakcyjnego algorytmu - obiekt
* Po trzecie - używamy funkcji **fit**, która dopasuje go do danych. Do funkcji przekazujemy **X_train, y_train**, jako materiał do nauki

In [26]:
from sklearn.neighbors import KNeighborsClassifier

neigh = KNeighborsClassifier()
neigh.fit( ... )

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=5, p=2,
           weights='uniform')

In [27]:
print(neigh)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=5, p=2,
           weights='uniform')


Teraz możemy dokonać predykcji za pomocą algorytmu na danych testowych. W tym celu wykonujemy funkcję

```{python}

knn.predict( .... )

```

In [28]:
predictions = neigh.predict( ... )

In [30]:
expected_actual = pd.DataFrame({'prawdziwe': y_test, 'przewidziane': predictions})
expected_actual

Unnamed: 0,prawdziwe,przewidziane
72,versicolor,virginica
112,virginica,virginica
132,virginica,virginica
88,versicolor,versicolor
37,setosa,setosa
138,virginica,virginica
87,versicolor,versicolor
42,setosa,setosa
8,setosa,setosa
90,versicolor,versicolor


Teraz możemy policzyć trafność. Jest to odsetek poprawnych klasfikacji w całym zbiorze.

Każda metryka w Pythonie działa tak samo. Przekazujemy jej wartości oczekiwane i wartości przewidziane:

```{python}

metric(y_true=...., y_test=...)


```

In [33]:
metrics.accuracy_score(  ...  )

0.9666666666666667

W zbiorze danych mamy 3 różne gatunki irysa. Trafność to miara **średnia**. Zobaczmy jak wygląda ogólna metryka dla całej klasyfikacji. Służy do tego funkcja **classification_report**

In [35]:
print(metrics.classification_report( ... ))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        13
  versicolor       1.00      0.83      0.91         6
   virginica       0.92      1.00      0.96        11

   micro avg       0.97      0.97      0.97        30
   macro avg       0.97      0.94      0.96        30
weighted avg       0.97      0.97      0.97        30



## Poszukiwanie najlepszych parametrów dla modelu z wykorzystaniem funkcji Grid Search

Osiągnęliśmy bardzo dobry wynik z klasyfikatorem na domyślnych parametrach. Możemy spróbować z innymi ustawieniami. Zazwyczaj jednak parametrów jest dużo i istnieje bardzo wiele kombinacji. Z tego względu istnieje półautomatyczna metoda poszukiwania najlepszych paramterów - **Grid Search** która przeszukuje "najbardziej obiecujące" zestawy. 

Grid search działa w sposób następujący:

* Przyjmuje jako parametr obiekt algorytmu oraz siatkę parametrów do przeszukania
* Podejmemy mu dodatkowe ustawienia jak np. liczba iteracji, etc.
* Podaejmy strategię przeszukiwania parametrów - kompletnie losowa/z użyciem optymalizacji/ genetyczna/ etc.



In [36]:
from sklearn.model_selection import GridSearchCV

Teraz ustawiamy parametry do przeszukania.

In [39]:
parameters = {
    
    # Liczba sąsiadów w algorytmie KNN
    'n_neighbors': [1, 2, 3, 4], 
    
    # Czy każdy sąsiad ma ważyć tyle samo, czy np. 
    # być oceniany pod kątem odległości?
    'weights': ['uniform', 'distance'],
    
    # Typ metryki odległości. Albo dystans
    # euklidesowy, albo uogólniona metryka Minskoswkiego
    'metric': ['minkowski', 'euclidean']

}

Teraz możemy utworzyć obiekt przeszukiwania paramterów, który **szkolimy jak klasyfikator**

In [40]:
knn = KNeighborsClassifier()
clf = GridSearchCV( ... )
clf.fit( ... )



GridSearchCV(cv='warn', error_score='raise-deprecating',
       estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=5, p=2,
           weights='uniform'),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'n_neighbors': [1, 2, 3, 4], 'weights': ['uniform', 'distance'], 'metric': ['minkowski', 'euclidean']},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=0)

Możemy teraz sprawdzić wyniki każej walidacji krzyżowej z osobna, tak samo jak najlepsze zestawy parametrów:

In [42]:
pd.DataFrame(clf.cv_results_)



Unnamed: 0,mean_fit_time,mean_score_time,mean_test_score,mean_train_score,param_metric,param_n_neighbors,param_weights,params,rank_test_score,split0_test_score,split0_train_score,split1_test_score,split1_train_score,split2_test_score,split2_train_score,std_fit_time,std_score_time,std_test_score,std_train_score
0,0.001667,0.001662,0.966667,1.0,minkowski,1,uniform,"{'metric': 'minkowski', 'n_neighbors': 1, 'wei...",1,0.97561,1.0,1.0,1.0,0.923077,1.0,0.000474,0.00047,0.031862,0.0
1,0.001662,0.002327,0.966667,1.0,minkowski,1,distance,"{'metric': 'minkowski', 'n_neighbors': 1, 'wei...",1,0.97561,1.0,1.0,1.0,0.923077,1.0,0.000941,0.00047,0.031862,0.0
2,0.00199,0.001995,0.95,0.974789,minkowski,2,uniform,"{'metric': 'minkowski', 'n_neighbors': 2, 'wei...",11,0.95122,0.949367,0.975,0.975,0.923077,1.0,3e-06,0.000814,0.021081,0.020671
3,0.00134,0.001345,0.966667,1.0,minkowski,2,distance,"{'metric': 'minkowski', 'n_neighbors': 2, 'wei...",1,0.97561,1.0,1.0,1.0,0.923077,1.0,0.000462,0.00048,0.031862,0.0
4,0.00132,0.001328,0.95,0.974842,minkowski,3,uniform,"{'metric': 'minkowski', 'n_neighbors': 3, 'wei...",11,0.97561,0.962025,0.975,0.9625,0.897436,1.0,0.000478,0.000473,0.036474,0.017791
5,0.001661,0.00132,0.958333,1.0,minkowski,3,distance,"{'metric': 'minkowski', 'n_neighbors': 3, 'wei...",7,0.97561,1.0,0.975,1.0,0.923077,1.0,0.00047,0.000457,0.024465,0.0
6,0.001997,0.000986,0.95,0.970675,minkowski,4,uniform,"{'metric': 'minkowski', 'n_neighbors': 4, 'wei...",11,0.97561,0.962025,0.975,0.95,0.897436,1.0,0.000828,1.7e-05,0.036474,0.021309
7,0.001653,0.001664,0.958333,1.0,minkowski,4,distance,"{'metric': 'minkowski', 'n_neighbors': 4, 'wei...",7,0.97561,1.0,0.975,1.0,0.923077,1.0,0.000464,0.000942,0.024465,0.0
8,0.001326,0.001683,0.966667,1.0,euclidean,1,uniform,"{'metric': 'euclidean', 'n_neighbors': 1, 'wei...",1,0.97561,1.0,1.0,1.0,0.923077,1.0,0.000473,0.000443,0.031862,0.0
9,0.00232,0.001016,0.966667,1.0,euclidean,1,distance,"{'metric': 'euclidean', 'n_neighbors': 1, 'wei...",1,0.97561,1.0,1.0,1.0,0.923077,1.0,0.001257,1.3e-05,0.031862,0.0


Możemy też użyć najlepszego klasyfikatora, który został wyszkolony podczas poszukiwania parametrów.

In [43]:
# Predict using best grid search results
predictions_grid_search = clf.predict( ... )

# Print accuracy
metrics.accuracy_score( ... )

0.9