In [1]:
%load_ext watermark
%watermark

2019-04-07T07:25:08-05:00

CPython 3.7.3rc1
IPython 7.3.0

compiler   : MSC v.1916 64 bit (AMD64)
system     : Windows
release    : 10
machine    : AMD64
processor  : Intel64 Family 6 Model 142 Stepping 9, GenuineIntel
CPU cores  : 4
interpreter: 64bit


Vamos a usar el dataset del [Titanic](https://www.kaggle.com/c/titanic/data), que contiene los datos de los pasajeros del Titanic, famoso barco que se hundió en su primer viaje en 1912. Dicho dataset contiene los datos de los pasajeros así como información sobre si sobrevivieron o no.

**Descripción de los datos**

* superviviente 	 El pasajero sobrevivió 	0 = No, 1 = Si

* clase_billete 	 Clase de camarote 	1 = Primera clase, 2 = Segunda, 3 = Tercera clase (la más pobre)

* genero 	         hombre/mujer 	

* edad 	

* n_hermanos_esposos Número de hermanos o pareja a bordo del Titanic

* n_hijos_padres     Número de hijos o padres a bordo del Titanic 

* precio_billete 	

* puerto_salida      Puerto donde el pasajero tomó el barco (C=Cherbourg, Q=Queenstown, S=Southampton)


In [2]:
import pandas as pd

In [3]:
datos = pd.read_csv("D:/datasets/Curso_Mauel_Garrido/titanic.csv")

In [4]:
datos.head()

Unnamed: 0,superviviente,clase_billete,genero,edad,n_hermanos_esposos,n_hijos_padres,precio_billete,puerto_salida
0,0,3,hombre,22.0,1,0,7.25,S
1,1,1,mujer,38.0,1,0,71.2833,C
2,1,3,mujer,26.0,0,0,7.925,S
3,1,1,mujer,35.0,1,0,53.1,S
4,0,3,hombre,35.0,0,0,8.05,S


Los algoritmos de creación de árboles están en el submódulo de `sklearn.tree` 

En cuanto al tipo de algoritmo para crear árboles, scikit-learn [usa una versión optimizada del algoritmo CART](http://scikit-learn.org/stable/modules/tree.html#tree-algorithms-id3-c4-5-c5-0-and-cart) *(Classification and Regression Trees)*, que  permite usar árboles de decisión tanto para problemas de clasificación como de regresión.

In [5]:
from sklearn import tree
from sklearn.model_selection import cross_val_score

In [6]:
arbol = tree.DecisionTreeClassifier()

In [7]:
from sklearn import preprocessing

In [8]:
columnas_categoricas = ["genero", "puerto_salida"]

In [9]:
codificador_binario = preprocessing.LabelBinarizer()

In [10]:
datos_categoricos = pd.get_dummies(datos[columnas_categoricas])

In [11]:
datos_categoricos

Unnamed: 0,genero_hombre,genero_mujer,puerto_salida_C,puerto_salida_Q,puerto_salida_S
0,1,0,0,0,1
1,0,1,1,0,0
2,0,1,0,0,1
3,0,1,0,0,1
4,1,0,0,0,1
5,1,0,0,1,0
6,1,0,0,0,1
7,1,0,0,0,1
8,0,1,0,0,1
9,0,1,1,0,0


In [12]:
pasajeros = (
    pd.concat([
        datos.drop(columnas_categoricas, axis=1),
        datos_categoricos
    ],axis=1
    )
)
pasajeros.edad = pasajeros.edad.fillna(pasajeros.edad.mean())

In [13]:
pasajeros.head()

Unnamed: 0,superviviente,clase_billete,edad,n_hermanos_esposos,n_hijos_padres,precio_billete,genero_hombre,genero_mujer,puerto_salida_C,puerto_salida_Q,puerto_salida_S
0,0,3,22.0,1,0,7.25,1,0,0,0,1
1,1,1,38.0,1,0,71.2833,0,1,1,0,0
2,1,3,26.0,0,0,7.925,0,1,0,0,1
3,1,1,35.0,1,0,53.1,0,1,0,0,1
4,0,3,35.0,0,0,8.05,1,0,0,0,1


In [14]:
arbol.fit(pasajeros.drop("superviviente", axis=1), pasajeros.superviviente)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [15]:
cross_val_score(arbol, pasajeros.drop("superviviente", axis=1), pasajeros.superviviente, scoring="roc_auc", 
                cv=20).mean()

0.7732162309368191

Una funcionalidad interesante que tienen los arboles de decision en `sklearn` es que se pueden visualizar con `Graphviz`. Para ello tenemos que instalar la libreria con `pip install graphviz`.

In [16]:
%matplotlib inline

In [17]:
!pip install graphviz



In [18]:
import graphviz

def dibujar_arbol(arbol):
    dot_data = tree.export_graphviz(arbol, out_file=None, 
                         feature_names=pasajeros.drop("superviviente", axis=1).columns,  
                         filled=True, 
                         impurity=False,
                         rounded=True,  
                         special_characters=True)  
    
    graph = graphviz.Source(dot_data)
    graph.format = 'png'
    graph.render('arbol',view=True)

In [19]:
dibujar_arbol(arbol)

Alternativamente, se puede exportar el árbol y abrirlo posteriormente con graphviz desde la terminal (o desde la página http://webgraphviz.com/ que renderiza archivos de graphviz)

In [20]:
tree.export_graphviz(arbol, out_file="arbol.dot")

In [23]:
cat arbol.dot

SyntaxError: invalid syntax (<ipython-input-23-88872b9e0f19>, line 1)

Otra funcionalidad que tienen los árboles de decisión en sklearn es que nos dan una indicación de la importancia de cada variable en el modelo, almacenada en el atributo `feature_importances_`. Calcula la importancia en función de la ganancia de información de cada variable, es decir, que variables separan mejor las distintas clases.

In [24]:
arbol.feature_importances_

array([0.10817857, 0.2382535 , 0.05126684, 0.03166704, 0.24317002,
       0.30933519, 0.        , 0.00586145, 0.        , 0.01226739])

In [25]:
dict(zip(
    pasajeros.drop("superviviente", axis=1),
    arbol.feature_importances_
))

{'clase_billete': 0.10817857458791365,
 'edad': 0.23825350002806667,
 'n_hermanos_esposos': 0.051266843906626565,
 'n_hijos_padres': 0.03166703671393939,
 'precio_billete': 0.24317002006438998,
 'genero_hombre': 0.3093351886283387,
 'genero_mujer': 0.0,
 'puerto_salida_C': 0.005861449142848414,
 'puerto_salida_Q': 0.0,
 'puerto_salida_S': 0.012267386927876565}

Por ejemplo, en este árbol vemos que las variables que tienen más peso a la hora de decidir si un pasajero sobrevive o no son la edad, el género y el precio del billete (¡las mujeres y los niños primero!).

In [26]:
tree.DecisionTreeClassifier?

Éstos son los parámetros más importantes para los modelos DecisionTreeClassifier de sklearn:

* criterion : El criterio para calcular la reducción de impureza (ganancia de información) al hacer una partición. Se puede elegir entre `gini`, o `entropy` 

* max_depth : La profundidad máxima del árbol. Definimos profundidad como el número de nodos que atraviesa una observación *(cuantas "preguntas" se le hacen)*.

* max_features:  El máximo numero de particiones potenciales se consideran al evaluar un nodo.

* max_leaf_nodes : Límite de hojas para el árbol.

* min_impurity_decrease : la ganancia de información mínima en un nodo para hacer una partición. (Si no hay ninguna partición que cumpla este criterio, se para el desarrollo del árbol en dicho nodo).

* class_weight : Para clases imbalanceadas, podemos pasar el argumento class_weight, como un diccionario de `{clase: peso}` para que sklearn tenga en cuenta los pesos. Alternativamente, podemos pasar el string `balanced` para que sklearn genere pesos en función del número de muestras de cada clase.

Los árboles de decisión tienden a sobreajustar cuando tienen demasiada complejidad. Los siguientes parámetros ayudan a controlarla:

* min_samples_leaf : Mínimo número de observaciones en un nodo para considerar un nodo como una hoja. Por defecto es 1, ésto significa que sklearn solo para de hacer particiones cuando un nodo tiene sólo 1 observación.

* min_samples_split : Mínimo número de observaciones en un nodo para generar una partición. Por defecto es 2, esto significa que sklearn por defecto siempre va a intentar particionar un nodo con 2+ elementos.

In [47]:
arbol_simple = tree.DecisionTreeClassifier(max_depth=5)

In [48]:
arbol_simple.fit(pasajeros.drop("superviviente", axis=1), pasajeros.superviviente)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=5,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [49]:
dibujar_arbol(arbol_simple)

In [50]:
cross_val_score(arbol_simple, pasajeros.drop("superviviente", axis=1), 
                pasajeros.superviviente, scoring="roc_auc", cv=10).mean()

0.8457331437625555

In [31]:
arbol_balanceado = tree.DecisionTreeClassifier(max_depth=3, class_weight="balanced")

In [32]:
arbol_balanceado.fit(pasajeros.drop("superviviente", axis=1), pasajeros.superviviente)

DecisionTreeClassifier(class_weight='balanced', criterion='gini', max_depth=3,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [33]:
dibujar_arbol(arbol_balanceado)

In [34]:
cross_val_score(arbol_balanceado, pasajeros.drop("superviviente", axis=1), 
                pasajeros.superviviente, scoring="roc_auc", cv=10).mean()

0.8612126446538211

In [35]:
cross_val_score(arbol_balanceado, pasajeros.drop("superviviente", axis=1), pasajeros.superviviente,
                scoring="precision", cv=10).mean()

0.7413917677219874

Además del algoritmo CART para generar árboles, scikit-learn también proporciona una clase de arboles llamada ExtraTreeClassifier, o Extremely Random Trees (Árboles Extremadamente Aleatorios). En estos árboles, en lugar de seleccionar en cada nodo la párticion que proporciona la mayor ganancia de información, ¡se decide una partición al azar!.

In [36]:
arbol_aleatorio = tree.ExtraTreeClassifier(max_features=1)

In [37]:
arbol_aleatorio.fit(pasajeros.drop("superviviente", axis=1), pasajeros.superviviente)

dibujar_arbol(arbol_aleatorio)

Los árboles aleatorios funcionan peor que los árboles de decisión por sí mismos, pero usados en grupo pueden funcionar mejor.

In [38]:
cross_val_score(arbol_aleatorio, pasajeros.drop("superviviente", axis=1), pasajeros.superviviente, scoring="roc_auc",
                cv=10).mean()

0.7358098633392751

Los árboles aleatorios funcionan peor que los árboles de decisión por sí mismos, pero usados en grupo pueden funcionar mejor.