# Creando modelos de clasificacion con scikit-learn

Créditos: Material presentado en este notebook está basado en el curso del [Data School](http://www.dataschool.io/) "Machine Learning with Text in Python", cuyos videos están disponibles en [YouTube](https://www.youtube.com/playlist?list=PL5-da3qGB5ICeMbQuqbbCOQWcS6OYBr5A) y los notebooks en [GitHub](https://github.com/justmarkham/scikit-learn-videos).

**Nota:** Este notebook utiliza Python 3.x and scikit-learn 0.2x.

## Objetivo

- Implementaremos varios modelos de ML para clasificar plantas de la familia Iris en una de tres especies, usando la longitud y ancho de sus pétalos y sépalos.

## Agenda

- ¿Qué es el dataset Iris y cómo se puede utilizar para hacer machine learning (ML)?
- ¿Cómo se puede cargar el dataset Iris con scikit-learn?
- Como se describe un dataset usando la terminologia de ML?
- Cual son los cuatro principales requisitos de scikit-learn para trabajar con datos?
- Como funciona el algoritmo **K-nearest neighbors** para crear modelos de prediccion?
- Cuales son los cuatro pasos para realizar el **entrenamiento y prediccion de modelos** con scikit-learn?
- Como puedo aplicar este proceso con **otros modelos de machine learning**?

# 1. Introduccion al dataset iris

Para construir los modelos, utilizaremos el [conjunto de datos flor Iris](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris), el cual es un conjunto clásico en la comunidad de ML por ser sencillo y útil para explicar los resultados obtenidos de los modelos.

En el conjunto a utilizar, las muestras de flor Iris caen dentro de tres especies: Iris setosa, Iris versicolor, y Iris virgínica. En principio, las tres especies pueden lucir muy parecidas entre sí, especialmente entre las dos últimas especies (versicolor y virginica). Sin embargo, y gracias a las cuidadosas mediciones de los investigadores Anderson y Fisher, una muestra puede ser clasificada con un alto grado de precisión por medio de modelos de ML.

![Iris](../img/iris.png)

El conjunto de datos Iris consiste 
- 50 muestras de 3 especies distintas de iris (150 muestras en total). Los iris tambien son conocido comunmente como lirios.
- Medidas: longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo
- Iris es un género de plantas rizomatosas de la familia Iridaceae. El mayor género de la familia con más de 300 especies, además de muchos híbridos y cultivares. Además del nombre del género, iris se usa comúnmente para referirse a todas las especies, así como a otros varios géneros estrechamente emparentados y a una subdivisión dentro del género. Fuente: [Wikipedia](https://es.wikipedia.org/wiki/Iris_(planta))


| Setosa | Versicolor | Virginica |
| :-: | :-: | :-: |
| <img src="../img/iris_setosa.jpg" width="200"/> | <img src="../img/iris_versicolor.jpg" width="200"/> | <img src="../img/iris_virginica.jpg" width="200"/> |

## Cargando el dataset iris con scikit-learn

In [None]:
# importa la funcion load_iris del modulo datasets
from sklearn.datasets import load_iris

In [None]:
# guarda el objeto tipo "bunch", que contiene el dataset iris y sus atributos
iris = load_iris()
type(iris)

In [None]:
# imprime la data the iris data
# encontraras 150 muestras o filas, cada una con cuatro valores
print(iris.data)

In [None]:
# si solo quieres ver el principio del conjunto de datos (usualmente eso es suficiente para tener una idea)
# por ejemplo, para ver las primeras diez filas
iris.data[0:10,:]

<b>Pregunta:</b> Que tipo de objeto es `iris.data`? Escribe el comando en la celda de abajo. Para una guia de que comando usar, revisa en las celdas de arriba.

In [None]:
type(iris.data)

<b>Pregunta:</b> Como muestras las cinco primeras filas del conjunto de datos `iris.data`? 

Para encontrar la respuesta puedes usar las siguientes referencias:
- NumPy: the absolute basics for beginners. Indexing and slicing. https://numpy.org/doc/stable/user/absolute_beginners.html#indexing-and-slicing
- Cálculo numérico con Numpy. http://research.iac.es/sieinvens/python-course/numpy.html

In [None]:
iris.data[0:5,]

<b>Pregunta:</b> Como muestras los ultimos diez valores de la tercera columna del conjunto de datos `iris.data`? 

Puedes usar las mismas referencias de arriba para encontrar la respuesta.

In [None]:
iris.data[140:,2]

In [None]:
# imprime los nombres de las cuatro caracteristicas
print(iris.feature_names)

**Pregunta:** Puedes explicar por que cada fila del dataset tiene cuatro valores?

In [None]:
# imprime los numeros enteros que representan las distintas especies de cada observacion
print(iris.target)

**Pregunta:** Cuantas especies distintas posee el dataset iris?

In [None]:
# imprime el esquema de especies: 0 = setosa, 1 = versicolor, 2 = virginica
print(iris.target_names)

## Graficando el dataset con matplotlib

Ahora usemos la libreria [Matplotlib](https://matplotlib.org/users/index.html) para graficar el conjunto de datos Iris. Esto es parte del analisis exploratorio de datos que todo analista debe realizar. Mientras mejor conozcas los datos, mejores resultados obtendras.

In [None]:
# primero importamos la libreria para poder usarla
import matplotlib.pyplot as plt

# los datos tienen cuatro dimensiones (caracteristicas) asi que no podemos graficar
# todos los datos. Seleccionamos dos (al azar) para ver como nos va.
x_index = 0
y_index = 1

# este objeto etiquetara la barra de color con los nombres correctos de las clases
formatter = plt.FuncFormatter(lambda i, *args: iris.target_names[int(i)])

# utilizamos 
plt.scatter(iris.data[:, x_index], iris.data[:, y_index],
            c=iris.target, cmap=plt.cm.get_cmap('RdYlBu', 3))
plt.colorbar(ticks=[0, 1, 2], format=formatter)
plt.clim(-0.5, 2.5)
plt.xlabel(iris.feature_names[x_index])
plt.ylabel(iris.feature_names[y_index]);

**Ejercicio:** Cambia los valores de `x_index` y `y_index` en la celda de arriba y encuentra una combinacion de dos parametros que maximizan la separacion de las tres clases. Si lo encuentras, estarias haciendo **reduccion de dimensiones**, aunque de forma manual. `Scikit-learn` ofrece tambien algoritmos para realizar esta tarea.

In [None]:
x_index = 2
y_index = 3

# este objeto etiquetara la barra de color con los nombres correctos de las clases
formatter = plt.FuncFormatter(lambda i, *args: iris.target_names[int(i)])

# utilizamos 
plt.scatter(iris.data[:, x_index], iris.data[:, y_index],
            c=iris.target, cmap=plt.cm.get_cmap('RdYlBu', 3))
plt.colorbar(ticks=[0, 1, 2], format=formatter)
plt.clim(-0.5, 2.5)
plt.xlabel(iris.feature_names[x_index])
plt.ylabel(iris.feature_names[y_index]);

## Resumen del dataset iris

- 150 **observaciones**
- 4 **caracteristicas** (longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo)
- Variable de **respuesta** es la especie iris
- Es un problema de **clasificacion** ya que la respuesta es categorica
- Para mayor informacion sobre el dataset, consultar [UCI Machine Learning Repository](http://archive.ics.uci.edu/ml/datasets/Iris) o [Wikipedia - Conjunto de datos flor iris](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris)

# 2. Terminologia de Machine learning

- Cada fila es una **observacion** (tambien conocida como: muestra, ejemplo, caso o registro)
- Cada columna es una **caracteristica** (tambien conocido como: predictor, atributo, variable independiente, regresor, o covariable)
- Cada valor que predecimos es la **respuesta** (tambien conocida como objetivo, etiqueta, o variable dependiente)
- **Clasificacion** es aprendizaje supervisado en donde la respuesta es categorica
- **Regresion** es aprendizaje supervisado en donde la respuesta es continua

# 3. Clasificacion con Algoritmo K-nearest neighbors (KNN)

Funcionamiento básico del algoritmo:
1. Selecciona un valor para K. Este valor es provisto antes de que se ejecute el algoritmo.
2. Realiza una búsqueda de las K observaciones más "cercanas" a las mediciones de la flor iris por identificar, en el conjunto de datos de entrenamiento.
3. Usa el valor de la respuesta más común entre los K vecinos más cercanos como el valor de respuesta (predicción) para la flor iris por identificar.

### Ejemplo del Conjunto de Datos de Entrenamiento
Esta es una grafica de todos los datos, presentados en un eje de dos dimensiones.

![Training data](../img/knn_dataset.png)

### Mapa de Clasificación KNN (K=1)
Si seleccionas un valor de `K=1`, asi quedarian clasificados cada una de las muestras. En los casos en que la clasificacion no fue correcta, veras nodos de un color sobre areas de otros colores. Por ejemplo, hay dos nodos verde encima del zona roja, en la esquina superior izquierda de la grafica.
![1NN classification map](../img/1nn_mapa.png)

### Mapa de Clasificación KNN (K=5)
Al cambiar el valor a `K=5`, el algoritmo puede utilizar mas muestras de referencia para determinar la clase de cada uno de las muestras evaluadas. Comparando con le grafica cuando `K=1`, es mejor o no el resultado? 
![5NN classification map](../img/5nn_mapa.png)

*Créditos de Imágenes: [Data3classes](http://commons.wikimedia.org/wiki/File:Data3classes.png#/media/File:Data3classes.png), [Map1NN](http://commons.wikimedia.org/wiki/File:Map1NN.png#/media/File:Map1NN.png), [Map5NN](http://commons.wikimedia.org/wiki/File:Map5NN.png#/media/File:Map5NN.png) by Agor153. Licensed under CC BY-SA 3.0*

## Cargando el conjunto de datos

In [None]:
# importa la funcion load_iris del modulo datasets
from sklearn.datasets import load_iris

# guarda el objeto tipo "bunch", que contiene el dataset iris y sus atributos
iris = load_iris()

# almacena la matriz de caracteristicas en "X"
X = iris.data

# almacena el vector de respuesta en "y"
y = iris.target

In [None]:
# imprime las dimensiones de "X" y "y"
print(X.shape)
print(y.shape)

## Proceso de 4-etapas para crear el modelo en scikit-learn


**Paso 1:** Importa la clase del algoritmo que planeas utilizar

In [None]:
from sklearn.neighbors import KNeighborsClassifier

**Paso 2:** "Instancia" o crea el "estimador"

- "Estimador" es el termino de scikit-learn para modelo
- "Instanciar" significa "crear una instancia (objeto) de"

In [None]:
knn = KNeighborsClassifier(n_neighbors=1)

- El nombre del objeto no importa, puedes seleccionar el que desees
- Puedes especificar tambien los parametros de entrenamiento (tambien conocidos como "hiperparametros") durante la creacion de la instancia/objeto
- Cualquier parametro que no sea especifico utilizara un valor por defecto

In [None]:
print(knn)

**Paso 3:** Ajustar (fit) el modelo a los datos (conocido como el "entrenamiento del modelo")

- El modelo aprende la relacion entre "X" y "y"
- Ocurre "in-place" (el modelo se actualiza con los resultados del entrenamiento)

In [None]:
knn.fit(X, y)

**Paso 4:** Predecir la respuesta para una nueva muestra

- Las nuevas muestras son aquellos datos no utilizados durante el entrenamiento
- Utiliza la informacion aprendida durante el proceso de entrenamiento del modelo

In [None]:
# Que tipo de iris tiene un sepalo de 3cm x 5cm y un petalo de 4cm x 2cm?
# necesitamos utilizar el metodo 'predict()'
resultado_1 = knn.predict([[3, 5, 4, 2]])
resultado_1

In [None]:
# La respuesta retorna un arreglo de tipo "NumPy" que contiene la posicion de la clase elegida. Si quieres ver que 
# clase es debes pasar este resultado a la lista de clases.
print(iris.target_names[resultado_1])

In [None]:
# El modelo tambien puede predecir multiples muestras a la vez
X_new = [[1, 5, 1, 4], [5, 4, 3, 2]]
resultado_2 = knn.predict(X_new)
print(iris.target_names[resultado_2])

In [None]:
# Tambien puedes predicciones probabilisticas, usando el metodo 'predict_proba()'. El modelo te retorna
# entonces una probabilidad y no la decision.
knn.predict_proba([[3, 5, 4, 2],])

**Pregunta:** Como interpretas el resultado de arriba?

Presenta las probabilidades de la muestra, para cada una de las clases.

## Usando un valor diferente para K

In [None]:
# Crea el modelo o estimador (usando el valor K=5)
knn = KNeighborsClassifier(n_neighbors=5)

# entrena el modelo con el dataset
knn.fit(X, y)

# predice la clase para las nuevas observaciones
knn.predict(X_new)

In [None]:
# Que tipo de iris son:
# - flor con sepalo de 3cm x 5cm y un petalo de 4cm x 2cm?
# - flor con sepalo de 1cm x 5cm y un petalo de 1cm x 4cm?
# - flor con sepalo de 5cm x 4cm y un petalo de 3cm x 2cm?
# necesitamos utilizar el metodo 'predict()'
resultado_3 = knn.predict([[3, 5, 4, 2], [1, 5, 1, 4], [5, 4, 3, 2]])
print(iris.target_names[resultado_3])

**Pregunta:** Cambian las respuestas entre los modelos cuando `K=1` y `K=5`?

Si cambian (para la primera muestra)

## Modelo KNN con K=3 y usando nuevo dataset de evaluacion
Vamos a entrenar un modelo con `K=3`, utilizando solo dos de las cuatro caracteristicas del dataset original. Esto lo hacemos para facilitar el grafico que queremos crear al final.
Adicionalmente, creamos un dataset de evaluacion de 100 muestras, utilizando la libreria `numpy`. Este dataset no es real (tomando medidas de flores), pero si basado en el dataset original (que si es real).

In [None]:
# Entrenamiento del modelo KNN con K=3
X2 = iris.data[:, :2]  # solo tomamos las dos primeras columnas del dataset
y = iris.target
knn_3 = KNeighborsClassifier(n_neighbors=3)
knn_3.fit(X2, y)

In [None]:
# Generacion del dataset de 100 muestras para evaluar el modelo entrenado
import numpy as np

# determinamos el rango de valores (tanto en el eje X como en el eje Y)
# de donde se puede crear las nuevas muestras
x_min, x_max = X2[:, 0].min() - .1, X2[:, 0].max() + .1
y_min, y_max = X2[:, 1].min() - .1, X2[:, 1].max() + .1

# creamos el dataset de evaluacion con 100 muestras
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 100),
                     np.linspace(y_min, y_max, 100))

# calculamos las predicciones para las 100 muestras de evaluacion
Z = knn_3.predict(np.c_[xx.ravel(), yy.ravel()])

In [None]:
# importamos dos clases dentro de la libreria matplotlib
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt

# Creamos mapas de colores para un problema de clasificacion
# de tres clases, como es el dataset iris
# los colores elegidos, estan definidos en formato hexadecimal
cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])
cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])

# Colocamos el resultado en una grafica (fondo de la grafica)
Z = Z.reshape(xx.shape)
plt.figure(figsize=(12,6))
plt.pcolormesh(xx, yy, Z, cmap=cmap_light)

# Graficamos tambien las muestras de entrenamiento
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold)
plt.xlabel('sepal length (cm)')
plt.ylabel('sepal width (cm)')
plt.axis('tight')

## Ajuste de Parametro: Como encontrar un valor apropiado de K

Cuando usas el algoritmo KNN, encontrar un valor apropiado de `K` no es facil. Si utilizas un valor muy pequeño de `k`, significa que el ruido en los datos tendra una mayor influencia sobre los resultados. Si usas un valor muy grande, el algoritmo tomara mas tiempo en ejecutarse (computacionalmente costoso).

Usualmente los cientificos de datos siguen dos recomendaciones:
- el valor de `K` debe ser impar para evitar empates
- seleccionar $K=\sqrt{n}$ donde `n` es el numero de muestras de entrenamiento

Una tecnica mas estructurada es probar K para multiples valores y calcular el rendimiento de clasificacion para cada uno de los modelos entrenados. Debido a que esto puede ser un calculo intenso, dependiendo del tamaño del dataset, se recomienda usualmente utilizar un subconjunto de los datos.

In [None]:
# importamos las librerias necesarias
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn import metrics

In [None]:
# experimentando con valores entre 1 y 25 para K
k_range = list(range(1,26))
scores = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X, y)
    y_pred = knn.predict(X)
    # calculamos la exactitud (accuracy) de cada modelo
    scores.append(metrics.accuracy_score(y, y_pred))

# graficamos los resultados
plt.plot(k_range, scores)
plt.xlabel('Valor de k')
plt.ylabel('Exactitud en la Respuesta')
plt.title('Precision alcanzada para distintos valores de K en K-Nearest-Neighbors')
plt.show()

**Pregunta:** Cual es (o son) los valores de K que debemos seleccionar segun la grafica?

Para K=15, la exactitud es mayor.

**Pregunta:** Debemos escoger el valor de K = 1? Que dice la grafica? Estas de acuerdo? Por que si o no?

La grafica dice que si pero es porque todos los valores pertenecen a una misma clase. Debido a esto, no se debe escoger el valor K=1.

**Pregunta:** Que valor de K escogerias finalmente, segun la grafica?

El K real es 3 ya que son tres clases en el dataset iris. Sin embargo, la gráfica muestra que un valor de K entre 8 y 24 puede resultado, produce mejores resultados.

# 4. Clasificacion con Algoritmo de Arbol de Decisión

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [None]:
# copiando (de nuevo) los datos
x = iris.data
y = iris.target

# creando un dataframe donde guardaremos los datos de entrenamiento
d = [{"sepal_length":row[0], 
      "sepal_width":row[1], 
      "petal_length":row[2], 
      "petal_width":row[3]} for row in x]
df = pd.DataFrame(d)

# asignar las clases al dataframe
df["types"] = y 
# cambiar aleatoriamente el orden de las filas
df = df.sample(frac=1.0)
# mostrar las primeras cinco filas del dataframe, para confirmar
# que todo esta en orden
df.head()

Usamos la libreria [Seaborn](https://seaborn.pydata.org/), que esta basada en `matplotlib`, para usar un poderoso metodo que permite facilmente graficar las relaciones entre los pares de caracteristicas de los datos.

In [None]:
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline
sns.set(font_scale=1.5)
sns.pairplot(df,hue="types",size=3);
plt.show()

**Pregunta:** Que caracteristicas parecen dividir mejor los datos? Que caracteristicas no parecen funcionar muy bien? Que clases son mas dificiles de distinguir entre ellas?

`petal_length` y `petal_width` permiten separar claramente la clase `0` (azul). `sepal_width` y `sepal_length` no parecen ofrecer mucha informacion para detectar correctamente las clases. Las clases mas dificiles de separar son la `1` (naranja) y `2` (verde).

# 5. Dividir el conjunto de datos en entrenamiento y evaluacion
Es importante no entrenar sobre todos los datos, ya que esto puede crear modelos con sobreajustes (overfit). Para evitarlo, los datos pueden dividirse en dos grupos: datos de entrenamiento y datos de evaluacion. Estos ultimos no son utilizados para entrenar el modelo. En su lugar, son solo utilizados para determinar cuan bien el modelo entrenado hace las predicciones.

In [None]:
# dividir conjunto de datos en dos grupos: entrenamiento (train) y evaluacion (test),
# escogiendo 80% (ratio = 0.8) para entrenamiento y el resto para evaluacion
features = df[["sepal_length","sepal_width","petal_length","petal_width"]]
types = df["types"]
train_features, test_features, train_types, test_types = train_test_split(features,types,train_size=0.8, 
                                                                          random_state=1)

In [None]:
# entrenamiento del arbol de decision con el 80% de los datos
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf = clf.fit(train_features, train_types)

In [None]:
# prediccion sobre el 20% de los datos (evaluacion)
predicciones = clf.predict(test_features)

In [None]:
# evaluacion de la clasificacion (multi-clase) del modelo
from sklearn.metrics import classification_report
print(classification_report(test_types, predicciones, target_names=["type0","type1","type2"]))

## Comparando la tecnica de validacion cruzada con la division de entrenamiento/evaluacion

Ventajas de la division de **entrenamiento/evaluacion:**
- Corre K veces mas rapido que una validacion cruzada K-fold
- Mas sencillo de examinar los resultados obtenidos del proceso de evaluacion

Ventajas de **validacion cruzada:**
- Una estimacion mas precisa de la exactitud (accuracy) del modelo
- Uso mas 'eficiente' de los datos (cada observacion es usada tanto para entrenamiento como evaluacion)

## Recomendaciones de Validacion Cruzada

1. En problemas de clasificacion, se recomienda utilizar el **muestreo estratificado** para crear los `folds`
   - Cada clase debe ser representada en proporciones similares en cada uno de los `K` folds
   - La funcion `cross_val_score` realiza esta operacion por defecto

## Ajuste de Parametro: Como encontrar un valor apropiado de K (usando validacion cruzada)

**Meta:** Volvemos a utilizar KNN en el dataset iris para seleccionar los hyper-parametros, usando la tecnica de validacion cruzada.

In [None]:
from sklearn.model_selection import cross_val_score

# validacion cruzada 10-fold con K=5 para KNN (parametro `n_neighbors`)
knn = KNeighborsClassifier(n_neighbors=5)
scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy')
print(scores)

In [None]:
# usa el valor promedio de la exactitud (accuracy) como un estimado del rendimiento `out-of-sample`
print(scores.mean())

In [None]:
# busca el valor optimo de K para KNN
k_range = list(range(1, 31))
k_scores = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy')
    k_scores.append(scores.mean())
print(k_scores)

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

# grafica el valor de K para KNN (eje x) contra la exactitud validada (eje y)
plt.plot(k_range, k_scores)
plt.xlabel('Valor de K para KNN')
plt.ylabel('Exactitud por Validacion Cruzada')

# Recursos

- Kaggle. [Using Scikit-learn to Implement a Simple Decision Tree Classifier](https://www.kaggle.com/chrised209/decision-tree-modeling-of-the-iris-dataset)
- [Nearest Neighbors](http://scikit-learn.org/stable/modules/neighbors.html) (user guide), [KNeighborsClassifier](http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) (class documentation)
- [Videos de Una Introduccion a Aprendizaje Estadistico](http://www.dataschool.io/15-hours-of-expert-machine-learning-videos/)