## Scikit-learn (sklearn)

### Primera aplicación, clasificación de "irises"
<span><img src="http://s5047.pcdn.co/wp-content/uploads/2015/04/iris_petal_sepal.png" alt="drawing" style="width: 200px;"/> <img src="http://www.spataru.at/iris-dataset-svm/iris_types.jpg" alt="drawing" style="width: 500px;"/></span>

El dataset Fisher's Iris es un conjunto de datos multivariado introducido por Ronald Fisher en su paper de 1936 *The use of multiple measurements in taxonomic problems* como un ejemplo de análisis discriminante lineal.



In [None]:
import numpy as np
import pandas as pd
import sklearn 
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris
iris_dataset = load_iris()

#### Paso 0: exploración del objeto ```iris_dataset```


In [None]:
print("Componentes del iris_dataset: {}".format(iris_dataset.keys()))
print("Nombres de categorías a aprender (target): {}".format(iris_dataset['target_names']))
print("Nombres de features: {}".format(iris_dataset['feature_names']))
print("Dimensión de los datos: {}".format(iris_dataset['data'].shape))
print("Primeras 5 filas:\n{}".format(iris_dataset['data'][:5]))
print("Dimensión del target: {}".format(iris_dataset['target'].shape))
print("Target primeras 5 filas:\n{}".format(iris_dataset['target'][:5]))
print("Target últimas 5 filas:\n{}".format(iris_dataset['target'][-5:]))

print(iris_dataset.DESCR)

#### Paso 1: División de datos (training - testing)


In [None]:
import sklearn.model_selection

X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0, test_size=0.1)

print("X_train dimensión: {}".format(X_train.shape))
print("y_train dimensión: {}".format(y_train.shape))

print("X_test dimensión: {}".format(X_test.shape))
print("y_test dimensión: {}".format(y_test.shape))

#### Paso 2: Exploración de los datos


In [None]:
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
iris_dataframe.head(10)


In [None]:
pd.plotting.scatter_matrix(iris_dataframe, c=y_train, s=80, figsize=(15, 8), marker='o', alpha=.8);

#### Paso 3: Construcción de un modelo (k-vecinos más cercanos)

In [None]:
from sklearn.tree import DecisionTreeClassifier
arbol = DecisionTreeClassifier(max_depth=3, criterion="entropy")

arbol.fit(X_train, y_train)

#### Paso 4: Predecir

In [None]:
X_new = np.array([[5, 2.9, 1, 0.2]])
print("X_new.shape: {}".format(X_new.shape))


In [None]:
prediction = arbol.predict(X_new)
print("Predicción: {}".format(prediction))
print("Nombre del target predicho: {}".format(
       iris_dataset['target_names'][prediction]))

#### Paso 5: Evaluación del modelo

In [None]:
y_pred = arbol.predict(X_test)

print("Predicciones sobre el test set:\n {}".format(y_pred))
print("Score sobre el test set: {:.2f}".format(np.mean(y_pred == y_test))) # A mano
print("Score sobre el test set: {:.2f}".format(arbol.score(X_test, y_test))) # usando el método score.

print("Matriz de confusión:")
confusion = sklearn.metrics.confusion_matrix(y_pred=y_pred, y_true=y_test)
display(pd.DataFrame(confusion, columns=iris_dataset['target_names'], index=iris_dataset['target_names']))

### En resumen


In [None]:
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=1234, test_size=0.1)

arbol = DecisionTreeClassifier(max_depth=3, criterion="entropy")
arbol.fit(X_train, y_train)

print("Score sobre el training set: {:.2f}".format(arbol.score(X_train, y_train)), "¿para qué sirve este número?")
print("Score sobre el test set: {:.2f}".format(arbol.score(X_test, y_test)))


### Ejercicios Árboles de Decisión: 

1. Resolver el problema anterior utilizando árboles de decisión de sklearn.
1. Graficar el árbol obtenido (ver función `dibujar_arbol`). 
1. Probar distintos valores para: `max_depth` y graficar la performance sobre test al variar este parámetro. 
1. ¿Qué ocurre con la performance con el valor testeando sobre train? 
1. ¿Cuál es el máximo valor de profundidad que se alcanza? ¿por qué? 
1. ¿Qué ocurre si cambiamos el parámetro `splitter` a `splitter="random"`? ¿Qué profundidad se alcanza?
1. Plotear la importancia de features para cualquiera de los clasificadores encontrados. 

In [None]:
import sklearn.tree 
sklearn.tree.DecisionTreeClassifier?

In [None]:
# !pip install pydotplus
# También instalar Graphviz. (en ubuntu: sudo apt-get install graphviz)

from sklearn.externals.six import StringIO  
from IPython.display import Image, display
import pydotplus

    
def dibujar_arbol(clf):
    dot_data = StringIO()
    sklearn.tree.export_graphviz(clf, out_file=dot_data,  
                    filled=True, 
                    class_names = iris_dataset.target_names,
                    feature_names=iris_dataset.feature_names,
                    special_characters=True)
    graph = pydotplus.graph_from_dot_data(dot_data.getvalue())  
    display(Image(graph.create_png()))