# Tutorial 3


## 1. Instalar Anaconda

Para este laboratorio (sesiones 2.1 y 2.2) usaremos Python y algunas librerías para entrenar clasificadores. La forma más fácil de tener un ambiente de Python con todas las librerías más comunes es instalar Anaconda.

Para instalar Anaconda:
- Descarga de aquí la versión Python 3.6 de tu plataforma: https://www.continuum.io/downloads
- Sigue las instrucciones de instalación en "How to install ANACONDA"
- Asegúrate de dejar en el PATH el directorio `bin` de anaconda. Puedes probar tu instalación ejecutando `python` en una terminal y verificar que dice algo como `Python 3.6.1 |Anaconda 4.4.0` al principio

**Nota:** Anaconda facilita mucho la instalación de las librerías que usaremos en este laboratorio. Instalar las librerías (scikit-learn, jupyter) desde cero puede ser un poco complicado si no estás seguro/a de lo que estás haciendo :P


## 2. Jupyter notebook

Jupyter notebook es una aplicación Web que permite crear documentos con código Python (similar a los R Notebooks o R Markdown que usamos para los enunciados de los laboratorios pasados). En el próximo laboratorio usaremos un notebook que deberán completar con sus respuestas, y podrán verificar en el mismo si éstas están correctas.

Puedes descargar este mismo notebook (.ipynb) y cargarlo localmente ejecutando `jupyter notebook` en la terminal. Procura estar en el directorio que contiene el archivo .ipynb.

Por ejemplo:

```cd ~/uchile-cc5206/tutoriales/
jupyter noteboook
```

## 3. Cargar librerías

Usaremos `scikit-learn` (http://scikit-learn.org) que contiene muchos modelos de machine learning instalados. Si ya instalaste Anaconda, no necesitas instalar nada más.

Para el resto del tutorial, asumiremos que estás usando este mismo notebook. Para cargar las librerías, haz click en el siguiente bloque de código, y para ejecutarlo, presiona `Shift+Enter`.

In [2]:
from sklearn.datasets import load_iris

print("Listo!")

Listo!


## 4. Exploración del Iris Dataset

El método `load_iris` permite cargar el Iris dataset, que contiene 150 *instancias* (filas) de 3 *clases* diferentes de flores:

In [3]:
iris = load_iris()
iris.data[1:10]   # presionando TAB después del punto '.' hace que jupyter muestre los campos disponibles de la variable

array([[ 4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2],
       [ 5. ,  3.6,  1.4,  0.2],
       [ 5.4,  3.9,  1.7,  0.4],
       [ 4.6,  3.4,  1.4,  0.3],
       [ 5. ,  3.4,  1.5,  0.2],
       [ 4.4,  2.9,  1.4,  0.2],
       [ 4.9,  3.1,  1.5,  0.1]])

Vemos que las primeras 10 filas del dataset contienen ciertos números. Podemos saber los nombres de los *features* (columnas) usando el campo `feature_names`:

In [4]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

Las clases de cada fila se encuentran en la variable `target`.

In [5]:
print(iris.target[1:10])
print(iris.target_names)   # target == 0 corresponde a setosa, target == 1 a versicolor y target == 2 a virginica

[0 0 0 0 0 0 0 0 0]
['setosa' 'versicolor' 'virginica']


En general, es buena práctica llamar como `X` a la matriz con features y `y` al vector con las clases:

In [6]:
X = iris.data
y = iris.target

## 5. Nuestro primer clasificador

Entrenaremos nuestro primer clasificador con el Iris dataset. Para esto, usaremos un árbol de decisión:

In [7]:
from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier()
clf.fit(X, y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')

Con el método `fit` entrenamos el clasificador con los datos de `X` y la clase asociada a cada uno, `y`. Para ver qué tan bien fue el entrenamiento, podemos evaluar el clasificador ejecutándolo sobre instancias y verificando que la clase sea la correcta. En `scikit-learn` existe el método `accuracy_score` que computa el Accuracy de la clasificación:

In [8]:
from sklearn.metrics import accuracy_score

y_pred = clf.predict(X)
print("Accuracy:", accuracy_score(y, y_pred))

Accuracy: 1.0


Tuvimos un accuracy del 100% con el clasificador. Sin embargo, **hicimos algo incorrecto**: evaluamos el clasificador con los mismos datos con los cuales lo entrenamos! Al hacer esto, lo que terminamos haciendo fue *aprender del input* y evaluar/testear con el mismo *input*. Esto también se denomina *overfitting*.

Para tener un resultado más realista de la clasificación, dividiremos el dataset en dos: un *training set* y un *test set*. Cada uno cumple distintos propósitos. El primero nos permite aprender de ejemplos y ajustar el clasificador de acuerdo a éstos, mientras que el segundo nos permite saber qué tan bien *generalizamos* con el clasificador.

En `scikit-learn` existe un método que nos permite hacer esta separación de manera aleatoria y estratificada (es decir, manteniendo la proporción de clases entre las instancias de cada set):

In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.33, random_state=37, stratify=y)

El método nos retorna cuatro listas, los correspondientes a train y a test. El parámetro `test_size` nos permite regular la fracción de los datos que irán a test. El parámetro `random_state` nos permite fijar la semilla para tener resultados consistentes (genera la misma partición de datos). El parámetro `stratify` recibe un arreglo con la distribución de clases, y el método intenta mantener esa misma distribución en las listas resultantes.

Ahora podemos probar nuestro clasificador:

In [10]:
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)
print("Accuracy en test set:", accuracy_score(y_test, y_pred))

Accuracy en test set: 0.98


**Comentarios Finales**:

* Observe detenidamente el código anterior para entender qué estamos haciendo.

* Como preparación adicional, repase los conceptos de Accuracy, Precision, Recall y F-score.

* En la primera sesión del laboratorio (2.1) veremos más técnicas de evaluación y métricas de desempeño de los clasificadores.