# Decision Trees
En este cuaderno veremos cómo utilizar árboles de deciones. Iniciaremos con un ejemplo sencillo y luego volveremos a visitar el dataset del Titanic y lo resolveremos de una manera similar, pero esta vez se hará automáticamente con árboles de decisiones.

[Documentación de Decision Trees](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)

In [None]:
# Importamos Pandas y NumPy
import pandas as pd
import numpy as np

# Cargamos la clase y las funciones de sklearn que utilizaremos.
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt

## Comprendemos la información

In [None]:
def plot_class(data):
    """
        Grafica información de dos clases
    """
    groups = data.groupby('y')
    fig, ax = plt.subplots()
    ax.margins(0.05)
    for name, group in groups:
        ax.plot(group.x1, group.x2, marker='o', linestyle='', ms=12, label=name)
    ax.legend()

    plt.show()

In [None]:
# Cargamos el archivo del csv y lo graficamos
data = pd.read_csv("data/data1.csv")
plot_class(data)

# Separamos en x y en y
X = np.array(data[['x1', 'x2']])
y = np.array(data['y'])

# TODO: Haz un split de 20% para el test set utilizando train_test_split
X_train, X_test, y_train, y_test = ...

In [None]:
# TODO: Crea un clasificador de Decision Trees y asignalo al modelo
model = ...

# TODO: Haz un fit con la info
...

# TODO: Guarda la predicción
y_pred = ...

# TODO: Revisa la precisión del modelo.
acc = ...

In [None]:
acc

# Titanic

Ahora volveremos a visitar el problema del Titanic. Te sugiero revisar el cuaderno de la primera semana antes de iniciar esta sección.

In [None]:
# Cargamos data
full_data = pd.read_csv("data/titanic.csv")

full_data.head()

Estos son los features que tenemos para cada pasajero:

* Survived: Si sobrevivió (0 = No; 1 = Yes)
* Pclass: Clase socioeconómica (1 = Upper class; 2 = Middle class; 3 = Lower class)
* Name: Nombre del pasajero
* Sex: Sexo del pasajero
* Age: Edad del pasajero (Algunas entradas tienen NaN)
* SibSp: Número de hermanos y esposo/as a bordo.
* Parch: Número de parientes e hijos a bordo.
* Ticket: El número del ticket del pasajero
* Fare: Cuánto se pagó por el ticket
* Cabin: Número de cabina (Algunas entradas tienen NaN)
* Embarked: Puerto de embarcación (C = Cherbourg; Q = Queenstown; S = Southampton)

Como nos interesa saber el outcome, o lo que ocurrió con el pasajero (si sobrevivió), podemos separar la info en X y Y.

In [None]:
# Guardamos la columna 'Survived' y la quitamos del dataset
outcomes = full_data['Survived']
features_raw = full_data.drop('Survived', axis = 1)

# Mustra el nuevo dataset con la columna 'Survived' fuera
features_raw.head()

### Preprocesamiento
Primero hacemos one-hot encoding. Revisa el primer ejemplo de 
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html

In [None]:
features = pd.get_dummies(features_raw)

In [None]:
# Llenamos de espacios vacíos con 0s

features = features.fillna(0.0)
features.head()

Separa la información en X_train, X_test, y_train y y_test utilizando el método ```train_test_split```. Usa un tamaño de 20% para el testing set. Aquí usaremos el testing set para validar, pero recuerda que normalmente no debemos hacer eso. 

Si quieres agregar validation set, una vez que ya lo tengas separado en training y testing, vuelve a sacar otro 20% del training y utiliza eso como validation. 

Una vez que hayas hecho eso:
* Crea un modelo con ```DecisionTreeeClassifier```. Define sus hiperparametros, como ```max_depth```, ```min_samples_leaf``` y ```min_samples_split```. Revisa la [documentación](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) para ver qué es cada hiperparámetro.
* Utiliza ```model.fit``` para hacer un fit del training data
* Utiliza ```model.predict``` sobre el training y testing set (y si hiciste del validation, igual).
* Utiliza ```accuracy_score``` para ver el accuracy con el y_train, y_test y y_validation si tienes.
* Impríme esos valores para ver qué tan bien lo hizo tu modelo.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(features, outcomes, test_size=0.2)

In [None]:
# TODO: Pon tu código aquí

In [None]:
print('The training accuracy is', train_accuracy)
print('The training accuracy is', test_accuracy)