# Parte 1: Entrenamiento, validación y selección


In [134]:
# Importamos las librerias que utilizaremos a lo largo del proyecto
import numpy as np
from sklearn.preprocessing import Imputer
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.externals import joblib
from sklearn import svm
from sklearn import metrics
from sklearn import tree
import sklearn
import pandas as pd
import os
from datetime import datetime
import math

# Train-val-test-split

El primer es dar un vistazo a los datos con los que se cuenta. Iniciamos validando el tipo de dato de cada uno de ellos.

In [31]:
# Iniciamos leyendo el archivo de entrada
dataset = pd.read_csv("data_titanic_proyecto.csv")

# Contamos el número de regisitros y el numero de columnas que tiene el dataset
print(dataset.shape)

(891, 12)


In [32]:
# Vemos el tipo de dato que tiene cada columna en el dataset
dataset.dtypes

PassengerId             int64
Name                   object
Age                   float64
SibSp                   int64
Parch                   int64
Ticket                 object
Fare                  float64
Cabin                  object
Embarked               object
passenger_class        object
passenger_sex          object
passenger_survived     object
dtype: object

In [7]:
# Calculamos el portancaje de NaN en nuestro dataset
pd.DataFrame({'Porcentaje NaN': dataset.isnull().sum() * 100 / len(dataset)})

Unnamed: 0,Porcentaje NaN
PassengerId,0.0
Name,0.0
Age,19.86532
SibSp,0.0
Parch,0.0
Ticket,0.0
Fare,0.0
Cabin,77.104377
Embarked,0.224467
passenger_class,0.0


Con base al análisis anterior, procedemos a descartar los features de: PassengerId, Name, Ticket y Cabin.

La columna 'Cabin' se descarta debido a que posee un 77% de datos NaN los cuales representan una gran incertidumbre. A continuación procedemos a definir 3 variables, una que contendrá las features que no se utilizarán, otra que contendrá las features categoricas y la última el nombre del feature a predecir, en este caso será passenger_survived.

In [28]:
def feature_engineering(ds, useless_features, categorical_features):
    
    # Eliminamos las features que no se utilizaran del dataset
    ds = ds.drop(useless_features, axis=1)
    
    # Normalizamos las variables que no son categoricas
    # Sustituiremos los valores NaN por el valor de la media
    imputer = Imputer(strategy="median")
    ds_numeric_features = ds.drop(categorical_features, axis=1)
    imputer.fit(ds_numeric_features)
    ds_imputer = imputer.transform(ds_numeric_features)
    ds_numeric_features = pd.DataFrame(ds_imputer, columns=ds_numeric_features.columns)
    
    # Normalizamos las variables categoricas
    ds_categorical_features = ds.drop(ds_numeric_features.columns, axis=1)
    ds_categorical_features_encoded = pd.DataFrame()
    
    # Sustituiremos los valores NaN por 'NaN'
    ds_categorical_features = ds_categorical_features.replace(np.nan, 'NaN', regex=True)
    
    # Usamos LabelEncoder para convertir nuestros valores categoricos a numericos
    ds_categorical_features = ds_categorical_features.apply(LabelEncoder().fit_transform)
    ds_categorical_features = pd.DataFrame(ds_categorical_features, columns= ds_categorical_features.columns)
    
    # Concatenamos nuestros dos DataFrames
    ds[categorical_features] = ds_categorical_features[categorical_features].values
    ds[ds_numeric_features.columns] = ds_numeric_features.values
    
    return ds

In [33]:
# Aplicamos feature engineering para normalizar los datos a una forma que no sea útil
useless_features = np.array(['PassengerId','Name','Ticket', 'Cabin'])
categorical_features = np.array(['passenger_sex','Embarked','passenger_class','passenger_survived'])
normalized_dataset = feature_engineering(dataset, useless_features, categorical_features)

print (normalized_dataset)

      Age  SibSp  Parch      Fare  Embarked  passenger_class  passenger_sex  \
0    22.0    1.0    0.0    7.2500         3                0              1   
1    38.0    1.0    0.0   71.2833         0                2              0   
2    26.0    0.0    0.0    7.9250         3                0              0   
3    35.0    1.0    0.0   53.1000         3                2              0   
4    35.0    0.0    0.0    8.0500         3                0              1   
5    28.0    0.0    0.0    8.4583         2                0              1   
6    54.0    0.0    0.0   51.8625         3                2              1   
7     2.0    3.0    1.0   21.0750         3                0              1   
8    27.0    0.0    2.0   11.1333         3                0              0   
9    14.0    1.0    0.0   30.0708         0                1              0   
10    4.0    1.0    1.0   16.7000         3                0              0   
11   58.0    0.0    0.0   26.5500         3         



Luego que hemos hecho feature_engineering sobre nuestra data para normalizarla, procedemos a crear nuestros distintos datasets que utilizaremos para entrenar, validar y probar.

In [131]:
# Hacemos una copia de nuestro dataset normalizado sin incluir la variable a predecir
ds_x = normalized_dataset.drop('passenger_survived', axis=1)

predict_feature = 'passenger_survived'
ds_y = normalized_dataset[predict_feature].copy()

# Separamos nuestros datos en datos de prueba y datos de entrenamiento
# Utiliazaremos el 80% como datos de entrenamiento
x_train, x_test, y_train, y_test = train_test_split(ds_x, ds_y, train_size=0.8)

# Utilizamos los datos de entrenamiento para extraer una porción para datos de validación.
# Utilizaremos un 20% del dataset de entrenamiento para datos de validación
x_train, x_validation, y_train, y_validation = train_test_split(x_train, y_train, train_size=0.85)

print('Shape de los datos de entrenamiento: ', x_train.shape, y_train.shape)
print('Shape de los datos de validación', x_validation.shape, y_validation.shape)
print('Shape de los datos de prueba', x_test.shape, y_test.shape)

Shape de los datos de entrenamiento:  (605, 7) (605,)
Shape de los datos de validación (107, 7) (107,)
Shape de los datos de prueba (179, 7) (179,)


# Registro de bitácora

Definimos unos métodos que serán de utilidad para registrar la información relevante de cada experimento que se haga con cada uno de los modelos.

In [138]:
# https://www.youtube.com/watch?v=eWswOZbSoCA
def registrar_experimento(df, nombre_archivo):
    if not os.path.isfile(nombre_archivo):
        # Si el archivo no existe, lo crearmos y agregamos el dataframe con todo y sus encabezados
        df.to_csv(nombre_archivo)
    else: 
        # Si el archivo ya existe, agregamos el dataframe sin incluir sus encabezados
        df.to_csv(nombre_archivo, mode='a', header=False)

# Ensemble learning

A lo largo del proyecto se utilizará Ensemble Learning de cuatro distintos modelos obtenidos a partir de:

- Árbol de decisión con sklearn
- SVM con sklearn
- Naive bayes con numpy y/o pandas
- Reg. logística binaria(sigmoid) utilizando Tensorflow

Para el proyecto actual no se utiliza la técnica de muestreo de bootstraping, sin embargo ......

# AGREGAR COMENTARIO DE BOOTSTRAPING

Parameter selection
https://medium.com/@aneesha/svm-parameter-tuning-in-scikit-learn-using-gridsearchcv-2413c02125a0

# Support Vector Machine (SVM)

In [115]:
# Definimos función para crear modelo basado en SVM
# Este recibe los hiperparámetros de kernel, c (regularización) y gamma
def svm_model(x_train, y_train, x_test, y_test, kernel, c, gamma):
    # Registramos la hora de inicio
    start_time = datetime.now()
    
    # Ejecutamos SVM
    classifier = svm.SVC(kernel=kernel, C=c, gamma=gamma)
    classifier.fit(x_train, y_train)
    y_predict = classifier.predict(x_test)
    
    # Registramos la hora de finalización
    end_time = datetime.now()
    
    # Calculamos algunas métricas del modelo
    model_score = classifier.score(x_test, y_test)
    model_accuracy = metrics.accuracy_score(y_test, y_predict)
    model_precision = metrics.precision_score(y_test, y_predict)
    model_recall = metrics.recall_score(y_test, y_predict)
    
    # Creamos un DataFrame con la información a almacenar en csv
    data = {'fecha_hora_inicio':[start_time.strftime("%d/%m/%Y, %H:%M:%S")],
               'fecha_hora_fin':[end_time.strftime("%d/%m/%Y, %H:%M:%S")],
               'kernel':[kernel],
               'c':[c],
               'gamma':[gamma],
               'model_score':[model_score],
               'model_accuracy':[model_accuracy],
               'model_precision':[model_precision],
               'model_recall':[model_recall]}
    
    df = pd.DataFrame(data)
    registrar_experimento(df, 'svm_output.csv')
    joblib.dump(classifier, 'svm_clasificador.pkl')
    return df
    
    # ESTRUCTURA DEL DF DE RESULTADO 
    # fecha_hora_inicio: Fecha y hora de inicio
    # fecha_hora_fin: Fecha y hora de finalizacion
    # kernel: Kernel usado
    # c: Valor de regularización (c)
    # gamma: Valor de gamma
    # model_score: Punteo del SVM
    # model_accuracy: Accuracy del SVM
    # model_precision: Precision del SVM
    # model_recall: Recall del SVM    

In [133]:
# Aplicamos SVM a nuestros datos de entrenamiento y validación
# Variamos los valores de C y gamma para obtener distintos resultados y de éstos se elegirá el mejor
c = 30
ds_resultados_svm = pd.DataFrame()

while c > 0:
    gamma = 30
    while gamma > 0:
        model_svm = svm_model(x_train, y_train, x_validation, y_validation, 'linear', c, gamma)
        ds_resultados_svm = ds_resultados_svm.append(model_svm)
        
        if gamma > 10:
            gamma = float('%.4f'%(gamma - 10))
        elif gamma > 1:
            gamma = float('%.4f'%(gamma - 1))
        #elif gamma > 0.1:
            #gamma = float('%.4f'%(gamma - 0.1))
        #elif gamma > 0.01:
            #gamma = float('%.4f'%(gamma - 0.01))
        #elif gamma > 0.001:
            #gamma = float('%.4f'%(gamma - 0.001))
        else:
            gamma = 0
    if c > 10:
        c = float('%.4f'%(c - 10))
    elif c > 1:
        c = float('%.4f'%(c - 1))
    #elif c > 0.1:
        #c = float('%.4f'%(c - 0.1))
    #elif c > 0.01:
        #c = float('%.4f'%(c - 0.01))
    #elif c > 0.001:
        #c = float('%.4f'%(c - 0.001))
    else:
        c = 0

# Imprimimos los resultados obtenidos
print(ds_resultados_svm)

# Imprimimos el modelo con el mayor score
idxmax = ds_resultados_svm['model_score'].idxmax()
print(ds_resultados_svm.loc[idxmax])

KeyboardInterrupt: 

# Árbol de decisión

In [135]:
# https://scikit-learn.org/stable/modules/tree.html
# Definimos función para crear modelo basado en Decision Tree
def decision_tree_model(x_train, y_train, x_test, y_test):
    # Registramos la hora de inicio
    start_time = datetime.now()
    
    # Ejecutamos Decision Tree
    classifier = tree.DecisionTreeClassifier()
    classifier.fit(x_train, y_train)
    y_predict = classifier.predict(x_test)
    
    # Registramos la hora de finalización
    end_time = datetime.now()
    
    # Calculamos algunas métricas del modelo
    model_score = classifier.score(x_test, y_test)
    model_accuracy = metrics.accuracy_score(y_test, y_predict)
    model_precision = metrics.precision_score(y_test, y_predict)
    model_recall = metrics.recall_score(y_test, y_predict)
    
    # Creamos un DataFrame con la información a almacenar en csv
    data = {'fecha_hora_inicio':[start_time.strftime("%d/%m/%Y, %H:%M:%S")],
               'fecha_hora_fin':[end_time.strftime("%d/%m/%Y, %H:%M:%S")],
               'model_score':[model_score],
               'model_accuracy':[model_accuracy],
               'model_precision':[model_precision],
               'model_recall':[model_recall]}
    
    df = pd.DataFrame(data)
    registrar_experimento(df, 'decision_tree_output.csv')
    joblib.dump(classifier, 'decision_tree_clasificador.pkl')
    return df
    
    # ESTRUCTURA DEL DF DE RESULTADO 
    # fecha_hora_inicio: Fecha y hora de inicio
    # fecha_hora_fin: Fecha y hora de finalizacion
    # model_score: Punteo del Decision Tree
    # model_accuracy: Accuracy del Decision Tree
    # model_precision: Precision del Decision Tree
    # model_recall: Recall del Decision Tree

In [137]:
# Aplicamos Decision Tree a nuestros datos de entrenamiento y validación
ds_resultados_decision_tree = decision_tree_model(x_train, y_train, x_validation, y_validation)
print(ds_resultados_decision_tree)

      fecha_hora_inicio        fecha_hora_fin  model_score  model_accuracy  \
0  13/07/2019, 15:10:39  13/07/2019, 15:10:39     0.719626        0.719626   

   model_precision  model_recall  
0         0.612903      0.513514  


# Naive Bayes

In [148]:
def naive_bayes_model(x_train, y_train, x_validation, y_validation):
    # Construimos nuestras tablas de probabilidad utilizando la data en x_train y y_train
    
    x_colnames = x_train.columns
    print(x_colnames)
    #y_values = y_train[y_train.columns].unique().tolist()
    #x_values = x_train[x_train.columns].unique().tolist()
    
    #print(y_values)
    #print(x_values)
    

In [149]:
naive_bayes_model(x_train, y_train, x_test, y_test)

Index(['Age', 'SibSp', 'Parch', 'Fare', 'Embarked', 'passenger_class',
       'passenger_sex'],
      dtype='object')
