## Práctica Clasificación:  Algoritmo KNN

Importamos todas las librerías que vamos a utilizar inicialmente. Posteriormente iremos importando las librerías específicas de cada apartado de la práctica.

In [1]:
# %load ../../standard_import.txt
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from test_helper import Test

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 150)
pd.set_option('display.max_seq_items', None)
 
#%config InlineBackend.figure_formats = {'pdf',}
%matplotlib inline  

En esta práctica vamos a analizar el comportamiento de los árboles de decisión para resolver problemas de clasificación. En concreto, para desarrollar la práctica vamos a trabajar con el dataset Iris (flores de lirio). 

La librería scikit-learn (sklearn) nos ofrece dicho dataset de forma automática. Para ello hay que importar en primer lugar el paquete datasets y luego utilizar la función load_iris(), que carga el contenido del conjunto de datos Iris en la variable utilizada para tal efecto.

La información sobre la función load_iris() se puede encontrar en la URL: http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris

In [2]:
# Se importa el paquete datasets
from sklearn.datasets import load_iris
# Se lee el dataset iris y se almacena en la variable del mismo nombre
iris =  load_iris()
print iris.target[[10, 25, 50]]
list(iris.target_names)

[0 0 1]


['setosa', 'versicolor', 'virginica']

En la variable iris tenemos los datos asociados a los 150 ejemplos de la base de datos. En concreto:
* Los datos de entrada (longitud y anchura de pétalo y de sépalo) están en el campo data (iris.data)
* Las salidas (clases) están en el campo target (iris.target)
* Los nombres de las clases están en el campo taget_names (iris.target_names)
* Los nombres de las variables de entrada están en el campo feature_names (iris.feature_names)
* La descripción del dataset está en el campo DESCR (iris.DESCR)

Mostrar los datos de todos los campos (los 5 primeros ejemplos) para entender bien el conjunto de datos.

In [3]:
# Se imprime la información del dataset 'DATOS IRIS'
print '=================DATOS IRIS================='
print iris.data[0:5]
print '=================DATOS TARGET================='
print iris.target[0:5]
print '=================DATOS TARGET NAMES================='
print iris.target_names
print '=================DATOS FEATURE================='
print iris.feature_names
print '=================DATOS DESCRIP================='
print iris.DESCR

[[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 [ 5.   3.6  1.4  0.2]]
[0 0 0 0 0]
['setosa' 'versicolor' 'virginica']
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Iris Plants Database

Notes
-----
Data Set Characteristics:
    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20  0.76     

### Algoritmo de los k vecinos más cercanos

La librería Scikit-Learn nos ofrece una implementación del algoritmo de los k vecinos más cercanos que está dentro del paquete neighbors y cuya clase específica es KNeighborsClassifier, cuya información se puede consultar en la siguiente URL: http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier

Lo primero que se debe realizar es llamar a la función que crea el modelo de clasificación. Esta función tiene varios parámetros que determinan el comportamiento del algoritmo. La llamada al constructor y sus parámetros son los siguientes:

modeloClasificacion = neighbors.KNeighborsClassifier(n_neighbors  = K, weights = tipoVoto, metric = tipoDistancia, p = r)

Los diferentes parámetros de entrada son
* n_neighbors = K: número de vecinos a considerar (valor por defecto = 5)
* weights = tipoVoto: forma de votar (peso de cada ejemplo cercano). tipoVoto puede tomar los siguientes valores:
    * 'uniform': voto por mayoría  (valor por defecto)
    * 'distance': voto en función de la inversa de la distancia
* metric = tipoDistancia: forma de calcular la distancia entre los ejemplos.  tipoDistancia puede tomar los siguientes valores:
    * 'manhattan': distancia de manhattan
    * 'euclidean': distancia euclidea
    * 'minkowski': distancia de Minkowski (valor por defecto)
* r: en caso de utilizar la distancia de Minkowski hay que especificar el valor del parámetro p que se corresponde al exponente r visto en la clase de teoría. r puede cualquier valor, entre ellos:
    * r = 1: distancia de manhattan
    * r = 2: distancia euclidea (valor por defecto)
    
Crear el modelo inicial con todos los valores por defecto. Almacenar el modelo en una variable llamada clasificador.

In [4]:
# Importamos la librería neighbors
from sklearn.neighbors import KNeighborsClassifier
# Llamamos al constructor de KNN
clasificador = KNeighborsClassifier(n_neighbors=5)
#clasificador = KNeighborsClassifier(n_neighbors=7, weights='uniform', metric='manhattan')
print clasificador

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')


Una vez creado el modelo debemos entrenarlo. Para ello se debe llamar al método fit del objeto creado anteriormente. A dicho método se le deben pasar los datos de entrenamiento (en este caso todos los datos) tanto de las variables de entrada como de la salida.

In [5]:
# Entrenamos KNN
clasificador.fit(iris.data, iris.target)
print clasificador

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')


Una vez que el modelo está entrenado lo podemos utilizar para realizar predicciones de nuevos datos. Para ello se debe llamar al método predict al que se pasa como parámetro de entrada los ejemplos a predecir (en este caso vamos a predecir la clase de todos los ejemplos). Guardar el resultado de las clases predichas en una variable.

In [6]:
# Realizamos las predicciones para los píxeles de entrenamiento
predicciones = (clasificador.predict(iris.data))
#KNeighborsClassifier(metric='euclidean', shrink_threshold=None)

print predicciones
print (clasificador.predict([[4.3,2.0,1,0.1]]))
print (clasificador.predict([[7.9,4.4,6.9,2.5]]))

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1
 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
[0]
[2]


En este punto ya tenemos las predicciones de todos los píxeles de entrenamiento por lo que podemos calcular el rendimiento del modelo. 

Scikit-learn también nos ofrece una función que nos permite calcular de forma automática el accuracy de un modelo de clasificación. Esta función está dentro de la librería metrics y por tanto hay que importarla para poder utilizarla.

    from sklean import metrics
    
La función se llama accuracy_score y su información se puede consultar en la URL: . 

    acc = metrics.accuracy_score(clasesReales, clasesPredichas)

Esta función recibe dos parámetros de entrada:
* clasesReales: vector con las clases reales de los ejemplos predichos.
* clasesPredichas: vector con las clases predichas por el modelo para los ejemplos.
La función devuelve un valor real que representa el accuracy del sistema. Este valor está entre 0 y 1 por lo que si queremos obtener el accuracy entre 0 y 100 hay que multiplicar el valor devuelto por 100.0.

Ejercicio: obtén el accuracy anterior utilizando la función accuracy_score.

In [137]:
# Importamos la librería metrics
from sklearn import metrics
# Calculamos el porcentaje de acierto
acc = metrics.accuracy_score(iris.target, predicciones)*100.0
print round(acc,2)

Test.assertEquals(round(acc, 2), 96.67, 'Porcentaje de acierto incorrecto')

96.67
1 test passed.


También podéis mostrar la matriz de confusión para observar en qué clases se confunde más el clasificador. Utilizar la función confusion_matrix de la librería metrics.

In [159]:
from sklearn.metrics import confusion_matrix
# Mostramos la matriz de confusión
#confusion_matrix(iris.target, predicciones, labels=[0,1,2])
confusion_matrix(iris.target, predicciones)

array([[50,  0,  0],
       [ 0, 47,  3],
       [ 0,  2, 48]])

Por último, vamos a visualizar la frontera de decisión que genera el clasificador KNN. Debéis hacer lo siguiente:
* Crear una matriz X con todos los datos de entrada de Iris pero solamente con las dos últimas variables (recordar utilizar copy).
* Crear una matriz y con todos los datos de salida de Iris.
* Normalizar los valores de X utilizando el método del mínimo y el máximo.
* Aprender el clasificador con los datos normalizados utilizando 3 vecinos, y la distancia de Manhattan. (A realizar)
* Se crea una nube de puntos con todas las combinaciones entre el mínimo (-0.1) y el máximo (+0.1) con incrementos de 0.02 de las dos variables.
* Se realiza la predicción de todos los ejemplos generados.
* Se crea la gráfica donde la predicción de cada clase sale en dieferentes colores (contour) y se muestran los ejemplos de entrenamiento (scatter)

In [154]:
X = iris.data
y = iris.target

#Xnorm = 

# Creación del modelo
modeloClas = #<RELLENAR>
# Entrenamiento del modelo
modeloClas = #<RELLENAR>

#se crea una gráfica para mostrar la superficie de decisión del clasificador aprendido
h = .02  # tamaño de avance en el mesh
#TAREA: calcula el mínimo (menos 1) y el máximo (más 1) de las variables x e y
x_min = Xnorm[:, 0].min() - 0.1
x_max = Xnorm[:, 0].max() + 0.1
y_min = Xnorm[:, 1].min() - 0.1
y_max = Xnorm[:, 1].max() + 0.1

# Se crean todas las combinaciones de valores
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
# Se predicen todos los puntos de la superficio de la gráfica con el clasificador aprendido
Z = modeloClas.predict(np.c_[xx.ravel(), yy.ravel()])

#Se muestran los resultados en la gráfica: la función contourf colorea toda la superficie
Z = Z.reshape(xx.shape)
plt.figure(1)
plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)

#Se muestran los datos del problema: la funcion scatter muestra puntos aislados y los colorea en función de su valor
plt.scatter(Xnorm[:, 0], Xnorm[:, 1], c=y, cmap=plt.cm.Paired)
#se muestra la figura
plt.show()

SyntaxError: invalid syntax (<ipython-input-154-4069c31fd888>, line 1)

Ahora, vamos analizar el efecto de los parámetros del algoritmo KNN:
* Número de vecinos (parámetro n_neighbors)
    * Probar los resultados con 1, 3, 5 y 7 vecinos

In [None]:
# Hacemos una lista para almacenar el porcentaje de acierto de la zona de train con cada valor de k
#<RELLENAR>
# Por cada valor de k
for k in #<RELLENAR>
    # Creamos el clasificador con los parámetros apropiados
    clasificador = #<RELLENAR>
    # Lo entrenamos
    clasificador = #<RELLENAR>
    # Predecimos las clases de los ejemplos de train
    predicciones = #<RELLENAR>
    # Calculamos el porcentaje de acierto
    acc = #<RELLENAR>
    # Lo añadimos a la lista
    #<RELLENAR>
    # Mostramos los resultados
    print("Valor de k: {} y su precision es: {}".format(k,acc))

Test.assertEquals(map(lambda ind: round(ind, 2), list(accTrain)), [100.00,96.00,96.67,97.33], 'Accuracies incorrectos')

Utilizando un número de vecinos igual a 3, vamos a analizar el efecto de la forma de votación.
* Tipo de voto (parámetro weights)
    * Probar los valores 'uniform', 'distance'

In [None]:
# Hacemos una lista para almacenar el porcentaje de acierto de la zona de train con cada valor de k
#<RELLENAR>
# Por cada tipo de voto
#<RELLENAR>
    # Creamos el clasificador con los parámetros apropiados
    clasificador = #<RELLENAR>
    # Lo entrenamos
    clasificador = #<RELLENAR>
    # Predecimos las clases de los ejemplos de train
    predicciones = #<RELLENAR>
    # Calculamos el porcentaje de acierto
    acc = #<RELLENAR>
    # Lo añadimos a la lista
    #<RELLENAR>
    # Mostramos los resultados
    print("Tipo de voto: {} y su precision es: {}".format(tipoVoto,acc))
 

Test.assertEquals(map(lambda ind: round(ind, 2), accTrain), [96.00,100.00], 'Accuracies incorrectos')

Utilizando un número de vecinos igual a 3, vamos a analizar el efecto de la forma de calcular la distancia.
* Tipo de distancia (parámetro metric)
    * Probar los valores 'manhattan', 'euclidean'

In [None]:
# Hacemos una lista para almacenar el porcentaje de acierto de la zona de train con cada valor de k
#<RELLENAR>
# Por cada tipo de distancia
#<RELLENAR>
    # Creamos el clasificador con los parámetros apropiados
    clasificador = #<RELLENAR>
    # Lo entrenamos
    clasificador = #<RELLENAR>
    # Predecimos las clases de los ejemplos de train
    predicciones = #<RELLENAR>
    # Calculamos el porcentaje de acierto
    acc = #<RELLENAR>
    # Lo añadimos a la lista
    #<RELLENAR>
    # Mostramos los resultados
    print("Tipo de distancia: {} y su precision es: {}".format(tipoDistancia,acc))

Test.assertEquals(map(lambda ind: round(ind, 2), accTrain), [96.00,96.00], 'Accuracies incorrectos')