# Generador modelo titanic

In [34]:
import pandas as pd

In [35]:
datos = pd.read_csv("dataset/titanic.csv")
datos.head()

Unnamed: 0,superviviente,clase_billete,genero,edad,n_hermanos_esposos,n_hijos_padres,precio_billete,puerto_salida
0,0,3,hombre,22.0,1,0,7.25,S
1,1,1,mujer,38.0,1,0,71.2833,C
2,1,3,mujer,26.0,0,0,7.925,S
3,1,1,mujer,35.0,1,0,53.1,S
4,0,3,hombre,35.0,0,0,8.05,S


In [36]:
from sklearn import tree
from sklearn.model_selection import cross_val_score

In [37]:
arbol = tree.DecisionTreeClassifier()

In [38]:
from sklearn import preprocessing

In [39]:
columnas_categoricas = ["genero", "puerto_salida"]

In [40]:
codificador_binario = preprocessing.LabelBinarizer()

In [41]:
datos_categoricos = pd.get_dummies(datos[columnas_categoricas])

In [42]:
datos_categoricos

Unnamed: 0,genero_hombre,genero_mujer,puerto_salida_C,puerto_salida_Q,puerto_salida_S
0,1,0,0,0,1
1,0,1,1,0,0
2,0,1,0,0,1
3,0,1,0,0,1
4,1,0,0,0,1
5,1,0,0,1,0
6,1,0,0,0,1
7,1,0,0,0,1
8,0,1,0,0,1
9,0,1,1,0,0


In [43]:
pasajeros = (
    pd.concat([
        datos.drop(columnas_categoricas, axis=1),
        datos_categoricos
    ],axis=1
    )
)
pasajeros.edad = pasajeros.edad.fillna(pasajeros.edad.mean())

In [44]:
pasajeros.head()

Unnamed: 0,superviviente,clase_billete,edad,n_hermanos_esposos,n_hijos_padres,precio_billete,genero_hombre,genero_mujer,puerto_salida_C,puerto_salida_Q,puerto_salida_S
0,0,3,22.0,1,0,7.25,1,0,0,0,1
1,1,1,38.0,1,0,71.2833,0,1,1,0,0
2,1,3,26.0,0,0,7.925,0,1,0,0,1
3,1,1,35.0,1,0,53.1,0,1,0,0,1
4,0,3,35.0,0,0,8.05,1,0,0,0,1


In [45]:
arbol.fit(pasajeros.drop("superviviente", axis=1), pasajeros.superviviente)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [46]:
cross_val_score(arbol, pasajeros.drop("superviviente", axis=1), pasajeros.superviviente, scoring="roc_auc", 
                cv=10).mean()

0.7586124267888973

In [47]:
%matplotlib inline

In [48]:
import graphviz

def dibujar_arbol(arbol):
    dot_data = tree.export_graphviz(arbol, out_file=None, 
                         feature_names=pasajeros.drop("superviviente", axis=1).columns,  
                         filled=True, 
                         impurity=False,
                         rounded=True,  
                         special_characters=True)  
    
    graph = graphviz.Source(dot_data)
    graph.format = 'png'
    graph.render('arbol',view=True)

In [None]:
dibujar_arbol(arbol)

In [49]:
arbol.feature_importances_

array([0.10879792, 0.26150137, 0.04734434, 0.02200523, 0.23114686,
       0.30933519, 0.        , 0.0081818 , 0.00372914, 0.00795816])

In [50]:
dict(zip(
    pasajeros.drop("superviviente", axis=1),
    arbol.feature_importances_
))

{'clase_billete': 0.10879791657472071,
 'edad': 0.2615013667947306,
 'n_hermanos_esposos': 0.04734434465684849,
 'n_hijos_padres': 0.022005225665581375,
 'precio_billete': 0.23114685785739286,
 'genero_hombre': 0.30933518862833875,
 'genero_mujer': 0.0,
 'puerto_salida_C': 0.008181800811731218,
 'puerto_salida_Q': 0.003729136610704506,
 'puerto_salida_S': 0.00795816239995136}

In [51]:
arbol_simple = tree.DecisionTreeClassifier(max_depth=3)

In [52]:
arbol_simple.fit(pasajeros.drop("superviviente", axis=1), pasajeros.superviviente)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [53]:
cross_val_score(arbol_simple, pasajeros.drop("superviviente", axis=1), 
                pasajeros.superviviente, scoring="roc_auc", cv=10).mean()

0.8506546133604959

## Exportamos el modelo entrenado

In [55]:
from sklearn.externals import joblib

In [56]:
joblib.dump(arbol_simple, 'pipeline_titanic.pkl') 

['pipeline_titanic.pkl']

In [58]:
clf = joblib.load('pipeline_titanic.pkl')

In [59]:
clf.predict(pasajeros.drop("superviviente", axis=1))

array([0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0,
       1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1,
       1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0,
       1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0,
       1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0,
       1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1,
       0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0,
       1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1,

In [60]:
info = {
            'clase billete' : 3,
            'edad' : 22,
            'n_hermanos_esposos' : 1,
            'n_hijos_padres' : 0,
            'precio_billete' : 7.25,
            'genero_hombre' : 1,
            'genero_mujer' : 0,
            'puerto_salida_C' : 0,
            'puerto_salida_Q' : 0,
            'puerto_salida_S' : 1,
        }

In [64]:
observacion = pd.DataFrame(info,index=[0])
observacion

Unnamed: 0,clase billete,edad,n_hermanos_esposos,n_hijos_padres,precio_billete,genero_hombre,genero_mujer,puerto_salida_C,puerto_salida_Q,puerto_salida_S
0,3,22,1,0,7.25,1,0,0,0,1


In [66]:
arbol_simple.predict(pd.DataFrame(info,index=[0]))[0]

0