# Algoritmo k-NN (Clasificador)

## Acciones iniciales

Importamos librerías necesarias

In [21]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Descargamos el dataset "IRIS" desde la web del UC Irvine ML Repository
![logoUCI](./img/UCILOGO.JPG)


In [22]:
path = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

Asignamos los nombres de columna al dataset

In [23]:
headernames = ['sepal length', 'sepal width', 'petal length', 'petal width', 'class']

Cargamos el dataset en un dataframe

In [24]:
dataset = pd.read_csv(path, names=headernames)
dataset.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


### Separación de características y clase

In [25]:
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values

### Partición conjunto TRAIN y conjunto TEST

In [26]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4)

#### Proceso de estandarización

La estandarización consiste en transformar la distribución de los valores de los atributos para que estos adopten una media y una desviación típica determinadas. Esta transformación se realiza para cada atributo de manera independiente y se calcula restando a cada valor del atributo la media aritmética de los valores originales del atributo y, a continuación, se divide por la desviación típica de estos.  

En esta ocasión, se aplica un escalado en estandarización (mediante la función StandarScaler de la librería SciKit Learn) que para este tipo de algoritmo concreto, va a darse mayor importancia a una característica o a otra según la escala de sus valores. Dicho de otra forma, para este algoritmo, los atributos cuyos valores son más elevados contribuyen más al cálculo de los vecinos que los atributos con valores más bajos. Por tanto, se hace necesario "igualar" las escalas de los atributos previamente a utilizar el algoritmo.

[Ejemplo de escalado de datos](https://interactivechaos.com/es/manual/tutorial-de-machine-learning/escalado-de-datos)

In [27]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

## Construcción y entrenamiento del modelo

In [28]:
from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors=8) # Establecemos 8 como el número de vecinos a tomar
classifier.fit(X_train, y_train)

## Predicción

In [29]:
y_pred = classifier.predict(X_test)

## Evaluación del modelo

In [30]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
print("MATRIZ DE CONFUSIÓN")
print(confusion_matrix(y_test, y_pred))


MATRIZ DE CONFUSIÓN
[[21  0  0]
 [ 0 13  1]
 [ 0  5 20]]


In [31]:
print("Accuracy:")
print(accuracy_score(y_test, y_pred))

Accuracy:
0.9


In [32]:
print("Informe de métricas")
print(classification_report(y_test, y_pred))

Informe de métricas
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        21
Iris-versicolor       0.72      0.93      0.81        14
 Iris-virginica       0.95      0.80      0.87        25

       accuracy                           0.90        60
      macro avg       0.89      0.91      0.89        60
   weighted avg       0.92      0.90      0.90        60
