## Algoritmo K-Nearest Neighbors (KNN)
En este notebook seguiremos trabajando sobre el dataset de vinos utilizado en el módulo 3. Esta vez lo que buscaremos hacer es clasificar a los vinos en alta o baja calidad usando el algoritmo KNN (en español Vecinos más Cercanos).

### Como primer paso importamos las librerías que utilizaremos y al mismo tiempo los datos a utilizar.

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn import preprocessing

# Cargar el dataset (si el link está caído... buscar el dataset en el campus)

white_wine = pd.read_csv('winequality-white.csv', sep=';')
red_wine = pd.read_csv('winequality-red.csv', sep=';')

# merge red and white wine datasets
df = pd.concat([red_wine, white_wine])


In [2]:
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


##### Para una mayor facilidad de uso cambiamos los nombres de las variables reamplazando los espacios por guiones bajos.

In [3]:
df.columns = ['fixed_acidity', 'volatile_acidity', 'citric_acid', 'residual_sugar',
       'chlorides', 'free_sulfur_dioxide', 'total_sulfur_dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality']

### Clasificamos a los vinos en Alta y Baja calidad
En los datos originales la calidad de los vinos se mide del 0 al 10. Para poder clasificarlos en "alta" o "baja" calidad generaremos una nueva variable "high_quality" que tendrá un 1 (calidad alta) si la calidad del vino es superior a 6.

In [4]:
df["high_quality"] = df['quality'].apply(lambda x: 1 if x > 6 else 0)
df.tail(5)

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,high_quality
4893,6.2,0.21,0.29,1.6,0.039,24.0,92.0,0.99114,3.27,0.5,11.2,6,0
4894,6.6,0.32,0.36,8.0,0.047,57.0,168.0,0.9949,3.15,0.46,9.6,5,0
4895,6.5,0.24,0.19,1.2,0.041,30.0,111.0,0.99254,2.99,0.46,9.4,6,0
4896,5.5,0.29,0.3,1.1,0.022,20.0,110.0,0.98869,3.34,0.38,12.8,7,1
4897,6.0,0.21,0.38,0.8,0.02,22.0,98.0,0.98941,3.26,0.32,11.8,6,0


In [5]:
df.high_quality.value_counts()

high_quality
0    5220
1    1277
Name: count, dtype: int64

Contamos con 1277 vinos de calidad alta  y 5220 de calidad baja

#### Separación de feature y target

A continuación separamos las features (X) y el target (Y). De ahora en más para el resto de los algoritmos realizaremos esta separación ya que es así como se la enviaremos a los diferentes algoritmos

In [10]:
# features
X = df.drop(labels=['quality','high_quality'], axis=1)
# target
y = df.high_quality

#### Separación de datos en train y test

El siguiente paso es separar los conjuntos de entrenamiento en conjuntos de train y de test, esto nos ayudará a comprobar los resultados posteriormente, simulando con datos que el modelo no ha visto. Utilizamos el parámetro `test_size`para indicar el tamaño del conjunto de test. En nuestro ejemplo el 25% de los datos serán utilizados para testear.

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

#### Entrenamiento

Una vez que tenemos los conjuntos de entrenamiento y testeo, podemos instanciar el algoritmo KNN y entrenarlo. Al momento de instanciar el algoritmo debemos configurar el `hiperparametro n_neigbors` el cual refiere al valor de K. En nuestro ejemplo utilizamos 50 vecinos.

In [12]:
knn = KNeighborsClassifier(n_neighbors=50)
knn.fit(X_train, y_train)

0,1,2
,n_neighbors,50
,weights,'uniform'
,algorithm,'auto'
,leaf_size,30
,p,2
,metric,'minkowski'
,metric_params,
,n_jobs,


#### Predicción

Las predicciones las realizamos sobre el conjunto de features de test (X_test)

In [13]:
preds = knn.predict(X_test)

#### Calculo de performance

Una vez que tenemos nuestras prdicciones debemos comparar contra el dato real. Es así como sabremos que tanto acertamos en nuestras predicciones. Para este ejemplo usaremos la métrica `accuracy score`la cual nos indica cuantos aciertos tuvimos en el total de nuestras predicciones

In [14]:
from sklearn.metrics import accuracy_score

El accuracy score obtenido es de 0.82. Lo cual significa que acertamos el 82% de nuestras predicciones. 

In [15]:
accuracy_score(y_test, preds)

0.804923076923077

### Conclusiones

Esta es nuestra primera aproximación a como entrenar un modelo de machine learning. Más allá de la simpleza del ejemplo, lo importante a destacar es el aspecto metodológico que se siguió para entrenar el modelo:
- Definición de features y target
- Separación en training y test
- Entrenamiento del modelo con datos de train (X_train e y_train)
- Predicciones sobre datos de test (X_test)
- Cálculo de perfomance utilizando predicciones y datos de test (preds e y_test)