# Introducció a K-NN amb Scikit Learn

**Autor**: Ramon Mateo Navarro

**Assignatura**: Sistemes d'aprenentatge automàtic

## Recordar de l'algorisme de k-NN:

* Calcula la distància entre el nou punt de dades amb cada exemple d'entrenament.
* Per calcular la distància s'utilitzaran mesures com la distància euclidiana, la distància de Hamming o la distància de Manhattan.
* El model selecciona K entrades a la base de dades que estan més properes al punt de dades nou.
* A continuació, fa el vot majoritari, és a dir, la classe/etiqueta més comuna entre aquestes K entrades serà la classe del nou punt de dades.

Per aquesta pràctica tocarà importar els mòduls de Pandas, Numpy, scikit learn. El conjunt de dades que es farà servir és el d'iris dataset que està inclòs en el package de sklearn. Podeu trobar més informació en aquest link: [iris dataset](https://archive.ics.uci.edu/dataset/53/iris).

## Imports


***Nota**:Sklearn/Scikit-learn son el mateix package*

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

Observem les dades:

In [None]:
iris.data

Podem observar com el conjunt de dades té 4 columnes amb diferents valors cada una.

Per saber els noms  i la l'objectiu a predir podem fer: 

In [None]:
print("Columnes:", iris.feature_names)
print("Categories:", iris.target_names)

Si observem el tipus d'estructura de dades que fan servir veurem que son tot numpy arrays

In [None]:
print(type(iris.data), type(iris.target))

### Plotejem les dades

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target
iris_df['species'] = iris_df['target'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

features_df = iris_df.drop(columns=['target'])

sns.pairplot(features_df, hue='species', palette='Set1')

# Mostra el gràfic.
plt.show()

### Analitzant la matriu de correlació

In [None]:

correlation_matrix = features_df.corr()

# Crea un mapa de calor per visualitzar la matriu de correlació
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=.5)

# Mostra el gràfic
plt.show()

## Preparació de les dades

In [None]:
from sklearn.model_selection import train_test_split

# separem les dades en train i test

X_train, X_test, Y_train, Y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=4)

# Validem que el shape sigui el correcte i esperat
print(X_train.shape, Y_train.shape)
print(X_test.shape, Y_test.shape)

## Creant el model

Ara toca crear el model. No sabem quina serà la k òptima de veïns a seleccionar, per tant, el que es fa és iterar sobre diferents k i analitzar el seu resultat per veure quina és la k òptima.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics

scores = {}
scores_list = []

for k in range(1,26):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train,Y_train)
    y_pred = knn.predict(X_test)
    scores[k] = metrics.accuracy_score(Y_test, y_pred)
    scores_list.append(metrics.accuracy_score(Y_test, y_pred))


## Visualització dels models i la seva evolució:

In [None]:
import matplotlib.pyplot as plt

plt.plot(range(1,26), scores_list)
plt.xlabel("Valor de k")
plt.ylabel("Accuracy")

## Exercici de pràctica:

Entreneu un model K-nn pel conjunt de dades MNIST. Podeu trobar més informació a [MNIST Sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html)

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Carrega el conjunt de dades MNIST
digits = datasets.load_digits()

# Pista, heu de pensar que és una imatge/matriu i per el knn necessitem que sigui un vector . 
# Per exemple si és l'imatge de 4x4 hem de passar d'una matriu de 4x4 a un únic vector de 16 elements
