# Tutorial para laboratorio 2.1 y 2.2: Clasificación

Bárbara Poblete; José Miguel Herrera, Hernan Sarmiento.

**16 de Abril 2018**


## 1. Anaconda

Para este laboratorio (sesiones 2.1 y 2.2) usaremos Python y algunas biblioteca para entrenar clasificadores. 
La forma más fácil de tener un ambiente de Python con todas las bibliotecas más comunes es instalar *Anaconda*.

Para instalar *Anaconda*:
- Descarga de aquí la última versión para Python 3.6 de tu plataforma: https://www.continuum.io/downloads
- Sigue las instrucciones de instalación en "How to install ANACONDA".
- Asegúrate de dejar en el PATH el directorio `bin` de anaconda. Puedes probar tu instalación ejecutando `python` en un terminal y verificar que diga algo como `Python 3.6.1 |Anaconda 4.4.0` al principio.

**Nota:** Anaconda facilita mucho la instalación de las bibliotecas que usaremos en este laboratorio. Instalar las bibliotecas (`scikit-learn`, `jupyter`) desde cero puede ser un poco complicado si no estás seguro/a de lo que estás haciendo. Por lo tanto, instalar Anaconda es altamente recomendado para estas sesiones de laboratorio.


## 2. Jupyter

**Jupyter notebook** es una aplicación Web que permite crear documentos con código Python, similar a los R Notebooks o R Markdown. De hecho los enunciados del lab 1.1 y 1.2 lo hicimos en R Markdown.
En estos laboratorios usaremos un **notebook** donde deberas completar sus respuestas en el mismo archivo, y además, podrás verificar sus respuestas de inmediato. 

De hecho, para practicar puedes descargar este mismo notebook (tutorial2.ipynb).
Para descargarlo anda a https://github.com/jotixh/MineriaUchile-pub/tree/master/tutoriales/, clic derecho en *tutorial2.ipynb* y descargar como. 
Luego, puedes cargarlo localmente ejecutando **jupyter notebook** en la terminal de su computador. Procura estar parado en el directorio que contiene el archivo .ipynb.

Por ejemplo, si descargaste este mismo notebook en el directorio **tutoriales/**, entonces puedes cargarlo usando:

```cd tutoriales/
jupyter notebook
```

Luego selecciona el archivo .ipynb y podrás comenzar a editar el notebook. 

**TIP: con Shift-Enter puedes ejecutar cada bloque del notebook.**


## 3. Scikit-learn

Hay muchas bibliotecas para hacer análisis de datos. 
Para este laboratorio (y probablemente para los siguientes), vamos a usar `scikit-learn` (http://scikit-learn.org) que contiene muchos modelos de machine learning ya instalados. 

**OJO**: Si ya instalaste *Anaconda*, no necesitas instalar nada dado que viene en el pack.

Para el resto del tutorial, asumiremos que estás usando este mismo notebook. 

Para cargar las bibliotecas, haz click en el siguiente bloque de código, y ejecútalo presionando `Shift+Enter`:

In [None]:
from sklearn.datasets import load_iris

print("Si se muestra esto es porque ya está instalado!")

## 4. Ejemplo: Iris Dataset

Vamos a usar un dataset muy usado y que aparece en muchos sitios web. El dataset se llama **iris**, y corresponde a un conjunto de datos que contiene 3 clases  El método **load_iris** permite cargar el Iris dataset, que contiene 150 **instancias** (filas) de 3 **clases** diferentes de flores:

In [None]:
iris = load_iris()

X = iris.data      ## datos, caracteristicas o features de cada flor. 
y = iris.target    ## clase para cada instancia anterior.

print("X:\n", X[:10])   # muestra las primeras 10 filas que corresponden a las caracteristicas de 10 flores. 
print("y:\n", y[:10])   # muestra las primeras 10 clases para cada una de las instancias de X

Podemos saber los nombres de los *features* (columnas) usando el campo **feature_names**:

In [None]:
print(iris.feature_names)

Para saber cuáles son las clases:

In [None]:
print(iris.target[1:150])  # mostramos las todas las clases de X 

0 Corresponde a setosa 

1 Corresponde a versicolor

2 Corresponde a virginica

Podemos verificar esto haciendo. 

In [None]:
print(iris.target_names)   

En resumen, lo que tenemos es la descripción de una flor (medidas) en una fila acompañada con la clase. 

Por ejemplo, para la segunda fila, tenemos:

**4.9,  3. ,  1.4,  0.2**  y la clase asociada es **0 (setosa)**

Podemos obtener una descripción más completa usando:

In [None]:
print(iris.DESCR)

Lo que haremos a continuación será entrenar un clasificador y predecir con nuevos datos. 


## 5. Nuestro primer clasificador

Entrenaremos nuestro primer clasificador con el *Iris dataset*. 
Para esto, usaremos un árbol de decisión.

In [None]:
from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier()
clf.fit(X, y)   ## Entrenar usando X (features), y (clase)

Con el método **fit** entrenamos el clasificador con los datos de **X** y la clase asociada a cada uno, **y**. Para ver qué tan bien fue el entrenamiento, podemos evaluar el clasificador ejecutándolo sobre instancias y verificando que la clase sea la correcta. 

Ya hemos entrenado nuestro clasificador empleando **fit**. Luego para predecir, usamos **predict**.

In [None]:
y_pred = clf.predict(X)   ## predecir la matriz X, los resultados (clases predecidas) quedan en y_pred 

Por ejemplo, si ejecutáramos ```clf.predict([[1.0, 2.0, 3.0, 1.0 ... etc]])```, le estamos pasando al clasificador un dato con valores **[1.0, 2.0, 3.0, 1.0 ... etc]**. Al ejecutar **predict**, éste nos retornará un arreglo con el valor **0**, indicando que esos datos fueron clasificados como la clase **0**.

En **scikit-learn** existe el método **accuracy_score** que computa el Accuracy de la clasificación:

In [None]:
from sklearn.metrics import accuracy_score
print("Accuracy:", accuracy_score(y, y_pred))

Como se puede apreciar, tuvimos un accuracy del 100% con el clasificador (1.0). Sin embargo, **hicimos algo incorrecto**: evaluamos el clasificador con los mismos datos con los cuales lo entrenamos! 

Al hacer esto, lo que terminamos haciendo fue *aprender de los datos de entrada* y evaluamos (o testeamos) usando los mismos datos. Esto también se denomina **overfitting**. 

También podríamos ver otras métricas como precision, recall y f-score. 

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y, y_pred))

Desde luego, la clasificación es perfecta. Para tener un resultado más realista de la clasificación vamos a dividir el dataset en dos: en **training set** y en un **test set**.

El **training_set** nos permite aprender de ejemplos y ajustar el clasificador de acuerdo a éstos. 
El **test_set** nos permitirá comprender qué tan bien **generalizamos** con el clasificador con nuevos datos. 

 En **scikit-learn** existe un método llamado **train_test_split**, que nos permite hacer esta separación de manera aleatoria y estratificada (es decir, manteniendo la proporción de clases entre las instancias de cada set):

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.33, random_state=37, stratify=y)

El método nos retorna cuatro listas, los correspondientes a train y a test. Es decir, para el entrenamiento se usará **X_train** que tiene los features de entreamiento e **y_train** que son las clases. Así mismo, para  probar con nuevos datos (testing), usaremos **X_test** como los features de entreda e **y_test** las clases. 

El parámetro **test_size** nos permite regular la fracción de los datos que irán a test; en este caso 33% del dataset completo. 

El parámetro **random_state** nos permite fijar la semilla para tener resultados consistentes (genera la misma partición de datos). Si ejecutamos el método varias veces con la misma semilla, nos mostrará los mismos resultados siempre. 

El parámetro **stratify** recibe un arreglo con la distribución de clases, y el método intenta mantener esa misma distribución en las listas resultantes. Si no hicieramos esto, podríamos, por ejemplo, tener muchos datos de una clase en el set de entrenamiento. 

Ahora, al fin, podemos probar nuestro clasificador:

In [None]:
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)    ## Entrenamos con X_train y clases y_train

y_pred = clf.predict(X_test)   ## Predecimos con nuevos datos (los de test X_test)
print("Accuracy en test set:", accuracy_score(y_test, y_pred))   ## Evaluamos la predicción con lo que debería dar. 

## Comentarios Finales

* Observe detenidamente el código anterior para entender qué estamos haciendo.

* Llegue al laboratorio preparado con los conceptos de **Accuracy**, **Precision**, **Recall**, **F-score** y **cross validation**.

* Descague este dataset que será usado en la sesión 2.2: https://users.dcc.uchile.cl/~jherrera/mineria/datasets/unbalanced.csv

* Asegurese antes de la sesión que las siguientes bibliotecas ya están instaladas. 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns; sns.set(style="ticks", color_codes=True)
from sklearn.model_selection import cross_val_score
from sklearn import metrics, cross_validation


print("Si muestra este mensaje es porque la carga de las librerías anteriores está ok!")