# Proyecto Final - Ensemble Learning (Aprendizaje por ensamblado)
## Parte 1 - Entrenamieto, selección y validación.

**Curso:** Statistical Learning

**Catedrático:** Ing. Luis Leal

**Estudiante:** Dany Rafael Díaz Lux (21000864)

**Objetivo:** Hacer clasificación binaria para determinar si una persona sobrevive o no al hundimiento del Titanic.

## Cargar información

In [654]:
# Import required libraries
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
import datetime as dt
import joblib
import matplotlib.pylab as plt
import numpy as np 
import os.path
import pandas as pd
import scipy.stats as st
import sklearn.metrics as mts
import tensorflow as tf
print('Tensor flow version: ' + tf.__version__)

Tensor flow version: 2.4.1


In [2]:
df = pd.read_csv("data_titanic_proyecto.csv")
display(df)

Unnamed: 0,PassengerId,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,passenger_class,passenger_sex,passenger_survived
0,1,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.2500,,S,Lower,M,N
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Upper,F,Y
2,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.9250,,S,Lower,F,Y
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1000,C123,S,Upper,F,Y
4,5,"Allen, Mr. William Henry",35.0,0,0,373450,8.0500,,S,Lower,M,N
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,"Montvila, Rev. Juozas",27.0,0,0,211536,13.0000,,S,Middle,M,N
887,888,"Graham, Miss. Margaret Edith",19.0,0,0,112053,30.0000,B42,S,Upper,F,Y
888,889,"Johnston, Miss. Catherine Helen ""Carrie""",,1,2,W./C. 6607,23.4500,,S,Lower,F,N
889,890,"Behr, Mr. Karl Howell",26.0,0,0,111369,30.0000,C148,C,Upper,M,Y


## Pre-procesamiento

### Ignorar columnas identificadoras

In [3]:
# Omitir columnas "PassengerId", "Name", "Ticket" y "Cabin" por ser columnas que tratan de distinguir a cada individuo y
# no buscan indicar una característica general.
caracteristicas = df.iloc[:,[2,3,4,6,8,9,10]]
etiquetas = df.iloc[:,11]
display(caracteristicas.head())
display(etiquetas.head())

Unnamed: 0,Age,SibSp,Parch,Fare,Embarked,passenger_class,passenger_sex
0,22.0,1,0,7.25,S,Lower,M
1,38.0,1,0,71.2833,C,Upper,F
2,26.0,0,0,7.925,S,Lower,F
3,35.0,1,0,53.1,S,Upper,F
4,35.0,0,0,8.05,S,Lower,M


0    N
1    Y
2    Y
3    Y
4    N
Name: passenger_survived, dtype: object

### Detectar columnas con información faltante (NaN), determinar porcentaje, e imputación.

In [4]:
# Listar columnas con valores NaN
columnasConNaN = caracteristicas.columns[caracteristicas.isna().any()].tolist()
for columna in columnasConNaN:
    print('Porcentaje NaN en ', columna, ':', round(100 * \
            len(caracteristicas[caracteristicas[columna].isna()]) / len(caracteristicas), 2), '%')

Porcentaje NaN en  Age : 19.87 %
Porcentaje NaN en  Embarked : 0.22 %


In [5]:
# Se imputará la información faltante con la media de los datos en la columna "Age"
caracteristicas['Age'].fillna(value=caracteristicas['Age'].mean(), inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().fillna(


In [6]:
# Se imputará la información faltante con la moda de los datos en la columna "Embarked" por ser categórica
caracteristicas['Embarked'].fillna(value=caracteristicas['Embarked'].mode()[0], inplace=True)

### One hot encoding en columnas categóricas

In [18]:
# Realizar one hot encoding en columnas: "Enbarked", "passenger_class", "passenger_sex" y "passenger_survived"
caracteristicasConOhe = caracteristicas.join(pd.get_dummies(caracteristicas.Embarked, prefix='Embarked'))
caracteristicasConOhe = caracteristicasConOhe.join(pd.get_dummies(caracteristicasConOhe.passenger_class, prefix='passenger_class'))
caracteristicasConOhe = caracteristicasConOhe.join(\
                                pd.get_dummies(caracteristicasConOhe.passenger_sex, prefix='passenger_sex', drop_first=True))
caracteristicasConOhe = caracteristicasConOhe.loc[:, ~caracteristicasConOhe.columns.isin(['Embarked', 'passenger_class', 'passenger_sex'])]
etiquetasConOhe = pd.get_dummies(etiquetas, prefix='passenger_survived', drop_first=True)
display(caracteristicasConOhe.head())
display(etiquetasConOhe.head())

Unnamed: 0,Age,SibSp,Parch,Fare,Embarked_C,Embarked_Q,Embarked_S,passenger_class_Lower,passenger_class_Middle,passenger_class_Upper,passenger_sex_M
0,22.0,1,0,7.25,0,0,1,1,0,0,1
1,38.0,1,0,71.2833,1,0,0,0,0,1,0
2,26.0,0,0,7.925,0,0,1,1,0,0,0
3,35.0,1,0,53.1,0,0,1,0,0,1,0
4,35.0,0,0,8.05,0,0,1,1,0,0,1


Unnamed: 0,passenger_survived_Y
0,0
1,1
2,1
3,1
4,0


## División entre datos de entrenamiento y datos de validación

In [32]:
# Primera división 80-20 entre el set de entrenamiento completo y datos de validación final.
caracteristicasConOhe_completeTrain, caracteristicasConOhe_finalTest, \
    etiquetasConOhe_completeTrain, etiquetasConOhe_finalTest = \
    train_test_split(caracteristicasConOhe, etiquetasConOhe, test_size=0.2, random_state=2022)

# Segunda división 80-20 entre set de entrenamiento y set de pruebas
caracteristicasConOhe_train, caracteristicasConOhe_test, \
    etiquetasConOhe_train, etiquetasConOhe_test = \
    train_test_split(caracteristicasConOhe_completeTrain, etiquetasConOhe_completeTrain, test_size=0.2, random_state=2022)

print('Número de datos de entrenamiento:', len(caracteristicasConOhe_train))
print('Número de datos de pruebas:', len(caracteristicasConOhe_test))
print('Número de datos de validación final:', len(caracteristicasConOhe_finalTest))

Número de datos de entrenamiento: 569
Número de datos de pruebas: 143
Número de datos de validación final: 179


### Escalar características numéricas

In [33]:
# Se aplicará estandarización de datos como método de escalado
def estandarizar(x, mediaEntrenamiento = None, desviacionEntrenamiento = None):
    if(mediaEntrenamiento == None or desviacionEntrenamiento == None):
        # Si no se reciben datos de entrenamiento, se calculan de los features "x" recibidos
        media = np.mean(x)
        desviacion = np.std(x)
    else:
        media = mediaEntrenamiento
        desviacion = desviacionEntrenamiento
    
    return (x - media) / (desviacion), media, desviacion

In [95]:
# Aplicar estandarización a columnas "Age", "SibSp", "Parch" y "Fare"
caracteristicasConOheEstandarizadas = caracteristicasConOhe_train.join(pd.DataFrame())
caracteristicasConOheEstandarizadas['Age'], mediaAge_train, desviacionAge_train = \
            estandarizar(caracteristicasConOheEstandarizadas['Age'])
caracteristicasConOheEstandarizadas['SibSp'], mediaSibSp_train, desviacionSibSp_train = \
            estandarizar(caracteristicasConOheEstandarizadas['SibSp'])
caracteristicasConOheEstandarizadas['Parch'], mediaParch_train, desviacionParch_train = \
            estandarizar(caracteristicasConOheEstandarizadas['Parch'])
caracteristicasConOheEstandarizadas['Fare'], mediaFare_train, desviacionFare_train = \
            estandarizar(caracteristicasConOheEstandarizadas['Fare'])

# Aplicar estandarización a datos de prueba
caracteristicasConOheEstandarizadas_test = caracteristicasConOhe_test.join(pd.DataFrame())
caracteristicasConOheEstandarizadas_test['Age'], _, _ = \
            estandarizar(caracteristicasConOheEstandarizadas_test['Age'], mediaAge_train, desviacionAge_train)
caracteristicasConOheEstandarizadas_test['SibSp'], _, _ = \
            estandarizar(caracteristicasConOheEstandarizadas_test['SibSp'], mediaSibSp_train, desviacionSibSp_train)
caracteristicasConOheEstandarizadas_test['Parch'], _, _ = \
            estandarizar(caracteristicasConOheEstandarizadas_test['Parch'], mediaParch_train, desviacionParch_train)
caracteristicasConOheEstandarizadas_test['Fare'], _, _ = \
            estandarizar(caracteristicasConOheEstandarizadas_test['Fare'], mediaFare_train, desviacionFare_train)

display(caracteristicasConOheEstandarizadas.head())
display(caracteristicasConOheEstandarizadas_test.head())

Unnamed: 0,Age,SibSp,Parch,Fare,Embarked_C,Embarked_Q,Embarked_S,passenger_class_Lower,passenger_class_Middle,passenger_class_Upper,passenger_sex_M
357,0.689198,-0.474164,-0.485553,-0.392896,0,0,1,0,1,0,0
613,0.030567,-0.474164,-0.485553,-0.496634,0,1,0,1,0,0,1
868,0.030567,-0.474164,-0.485553,-0.462055,0,0,1,1,0,0,1
414,1.165266,-0.474164,-0.485553,-0.493176,0,0,1,1,0,0,1
863,0.030567,6.443769,2.003451,0.724512,0,0,1,1,0,0,0


Unnamed: 0,Age,SibSp,Parch,Fare,Embarked_C,Embarked_Q,Embarked_S,passenger_class_Lower,passenger_class_Middle,passenger_class_Upper,passenger_sex_M
75,-0.342283,-0.474164,-0.485553,-0.49861,0,0,1,1,0,0,1
620,-0.183593,0.390578,-0.485553,-0.364161,1,0,0,1,0,0,1
562,-0.104249,-0.474164,-0.485553,-0.383016,0,0,1,0,1,0,1
129,1.244611,-0.474164,-0.485553,-0.511948,0,0,1,1,0,0,1
631,1.720679,-0.474164,-0.485553,-0.510383,0,0,1,1,0,0,1


## Guardar datos para validación final

Los datos _"caracteristicasConOhe_finalTest"_ serán guardados en un archivo con nombre: "datos_validacion.csv" y serán usados en segundo notebook para validación de función de predicción final.

In [875]:
datosDeValidacion = df.filter(items = caracteristicasConOhe_finalTest.index, axis=0)
datosDeValidacion.to_csv('datos_validacion.csv', index=False)

## Guardar media y desviación estándar de datos de entrenamiento

Estos datos serán utilizados para estandarizar los datos de validación final en el segundo notebook.

In [877]:
informacionEstadisticaEntrenamiento = dict()
informacionEstadisticaEntrenamiento['mediaAge_train'] = mediaAge_train
informacionEstadisticaEntrenamiento['desviacionAge_train'] = desviacionAge_train
informacionEstadisticaEntrenamiento['mediaSibSp_train'] = mediaSibSp_train
informacionEstadisticaEntrenamiento['desviacionSibSp_train'] = desviacionSibSp_train
informacionEstadisticaEntrenamiento['mediaParch_train'] = mediaParch_train
informacionEstadisticaEntrenamiento['desviacionParch_train'] = desviacionParch_train
informacionEstadisticaEntrenamiento['mediaFare_train'] = mediaFare_train
informacionEstadisticaEntrenamiento['desviacionFare_train'] = desviacionFare_train
np.save('modelos/InformacionEstadistica', [informacionEstadisticaEntrenamiento])

## Árbol de decisión

In [189]:
# Función para crear un nuevo dataframe vacío con las columnas esperadas en bitácora
def nuevoDataframeParaBitacora():
    return pd.DataFrame({'tipomodelo': [], 'fecha': [], 'configuracion': [], 'error_train': [],\
                        'accuracy_train': [], 'precision_train': [], 'recall_train': [], 'f1_score_train': [],\
                        'accuracy_test': [], 'precision_test': [], 'recall_test': [], 'f1_score_test': []})

In [470]:
nombreBitacora = 'bitacora_modelos.csv'
# Función que determinará si una configuración de un experimento en particular ya se encuentra en la bitácora
def existeConfiguracion(configuracion):
    # Si existe bitácora, buscar si la configuración ya existe
    if os.path.exists(nombreBitacora):
        dfBitacora = pd.read_csv(nombreBitacora)
        if(not dfBitacora['configuracion'].where(dfBitacora['configuracion'] == configuracion).isna().all()):
            return True
    return False

# Función que agregará una configuración de un experimento a la bitácora con sus métricas más importantes
def manejarBitacora(tipoModelo, configuracion, y_train, y_pred_train, y_test, y_pred_test, errorEntrenamiento=''):
    dfNewConfiguracion = nuevoDataframeParaBitacora()
    dataConfiguracion = [tipoModelo, dt.datetime.now(), configuracion, errorEntrenamiento]
    dataConfiguracion.append(mts.accuracy_score(y_train, y_pred_train))
    dataConfiguracion.append(mts.precision_score(y_train, y_pred_train))
    dataConfiguracion.append(mts.recall_score(y_train, y_pred_train))
    dataConfiguracion.append(mts.f1_score(y_train, y_pred_train))
    dataConfiguracion.append(mts.accuracy_score(y_test, y_pred_test))
    dataConfiguracion.append(mts.precision_score(y_test, y_pred_test))
    dataConfiguracion.append(mts.recall_score(y_test, y_pred_test))
    dataConfiguracion.append(mts.f1_score(y_test, y_pred_test))
    dfNewConfiguracion.loc[len(dfNewConfiguracion)] = dataConfiguracion

    # Agregar configuración en bitácora
    if os.path.exists(nombreBitacora):
        dfNewConfiguracion.to_csv(nombreBitacora, mode='a', index=False, header=False)
    else:
        dfNewConfiguracion.to_csv(nombreBitacora, index=False)

In [266]:
tipoArbolDecision = 'ArbolDecision'
# Función para la creación de modelo de árbol de decisión y registro de métricas en bitácora (en caso de no existir en la bitácora)
def crearEvaluarArbolDecision(X, y, X_test, y_test, criterio='gini', profundidadMaxima=None):
    # Crear modelo con parámetros enviados
    modelo = DecisionTreeClassifier(criterion=criterio, max_depth=profundidadMaxima, random_state=2022)
    modelo.fit(X, y)
    # Crear cadena de configuración de árbol de decisión
    configuracion = tipoArbolDecision + '_criterio=' + criterio + '_profundidadMaxima=' + str(profundidadMaxima)
    configuracionYaExiste = existeConfiguracion(configuracion)
        
    # Si no existe configuración en bitácora, agregar configuración a bitácora y métricas    
    if(not configuracionYaExiste):
        # Calcular errores de predicción para entrenamiento y test
        y_pred_train = modelo.predict(X)
        y_pred_test = modelo.predict(X_test)
        manejarBitacora(tipoArbolDecision, configuracion, y, y_pred_train, y_test, y_pred_test)

    return modelo, configuracion

### Creación de diferentes árboles de decisión y análisis de métricas en bitácora

In [222]:
# Hiper-parámetros a experimentar
criterios = ['gini', 'entropy']
maxProfundidades = [None, 10, 50, 100]

for criterio in criterios:
    for maxProfundidad in maxProfundidades:
        crearEvaluarArbolDecision(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, criterio, maxProfundidad)

In [835]:
def mostrarResultadosBitacora(tipoModelo):
    dfBitacora = pd.read_csv(nombreBitacora)
    dfBitacoraFiltrada = dfBitacora[dfBitacora['tipomodelo'] == tipoModelo]
    pd.set_option("display.max_colwidth", 1000)
    display(dfBitacoraFiltrada[['configuracion', 'accuracy_train', 'accuracy_test', 'f1_score_train', 'f1_score_test']]\
            .sort_values(by='accuracy_test', ascending=False).head(15))

La bitácora señala que los mejores resultados en __accuracy__ para los datos de prueba se obtuvieron con el criterio 'entropy' y con menor profundidad. Cómo __accuracy__ en los datos de pruebas aún es menor al solicitado (80%) se probarán más hiperparámetros hasta alcanzar al menos un __accuracy__ de 80%.

In [242]:
# Hiper-parámetros a experimentar
criterios = ['gini', 'entropy']
maxProfundidades = [3, 5, 9]

for criterio in criterios:
    for maxProfundidad in maxProfundidades:
        crearEvaluarArbolDecision(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, criterio, maxProfundidad)
        
mostrarResultadosBitacora(tipoArbolDecision)

Unnamed: 0,configuracion,accuracy_train,accuracy_test,f1_score_train,f1_score_test
9,ArbolDecision_criterio=gini_profundidadMaxima=5,0.86116,0.825175,0.791557,0.778761
11,ArbolDecision_criterio=entropy_profundidadMaxima=3,0.83304,0.818182,0.767726,0.790323
8,ArbolDecision_criterio=gini_profundidadMaxima=3,0.83304,0.804196,0.766585,0.770492
12,ArbolDecision_criterio=entropy_profundidadMaxima=5,0.850615,0.797203,0.789082,0.760331
13,ArbolDecision_criterio=entropy_profundidadMaxima=9,0.894552,0.797203,0.839572,0.747826


Los nuevos resultados señalan que una menor profundidad claramente mejora la exactitud. El criterio (gini o entropy) no parece afectar claramente en la mejora de exactitud. Se realizarán más pruebas con la profundidad

In [250]:
# Hiper-parámetros a experimentar
criterios = ['gini', 'entropy']
maxProfundidades = [2, 4, 6, 7, 8]

for criterio in criterios:
    for maxProfundidad in maxProfundidades:
        crearEvaluarArbolDecision(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, criterio, maxProfundidad)
        
mostrarResultadosBitacora(tipoArbolDecision)

Unnamed: 0,configuracion,accuracy_train,accuracy_test,f1_score_train,f1_score_test
15,ArbolDecision_criterio=gini_profundidadMaxima=4,0.8471,0.832168,0.789346,0.809524
9,ArbolDecision_criterio=gini_profundidadMaxima=5,0.86116,0.825175,0.791557,0.778761
21,ArbolDecision_criterio=entropy_profundidadMaxima=6,0.869947,0.818182,0.802139,0.77193
20,ArbolDecision_criterio=entropy_profundidadMaxima=4,0.841828,0.818182,0.776119,0.790323
11,ArbolDecision_criterio=entropy_profundidadMaxima=3,0.83304,0.818182,0.767726,0.790323
23,ArbolDecision_criterio=entropy_profundidadMaxima=8,0.88225,0.811189,0.820375,0.765217
22,ArbolDecision_criterio=entropy_profundidadMaxima=7,0.880492,0.811189,0.820106,0.765217
8,ArbolDecision_criterio=gini_profundidadMaxima=3,0.83304,0.804196,0.766585,0.770492
13,ArbolDecision_criterio=entropy_profundidadMaxima=9,0.894552,0.797203,0.839572,0.747826
12,ArbolDecision_criterio=entropy_profundidadMaxima=5,0.850615,0.797203,0.789082,0.760331


Después de las pruebas realizadas, se elige un árbol de decisión con criterio __gini__ y profundidad máxima de __4__, pues reporta las mejores métricas de exactitud para los datos de prueba y una exactitud aceptable en los datos de entrenamiento.

In [253]:
modeloArbolDecision, configuracionArbolDecision = crearEvaluarArbolDecision(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, 'gini', 4)

### Guardar modelo de árbol de decisión

In [263]:
def guardarModelo(modelo, configuracion):
    directorioModelos = 'modelos/'
    extensionModelos = '.modelo'
    joblib.dump(modelo, directorioModelos + configuracion + extensionModelos)

In [None]:
guardarModelo(modeloArbolDecision, configuracionArbolDecision)

## Support Vector Machine (SVM)

In [282]:
tipoSVM = 'SVM'
# Función para la creación de modelo de support vector machine y registro de métricas en bitácora (en caso de no existir en la bitácora)
def crearEvaluarSVM(X, y, X_test, y_test, regularizacionC=1.0, kernel='rbf', grado=3):
    # Crear modelo con parámetros enviados
    modelo = SVC(C=regularizacionC, kernel=kernel, degree=grado, random_state=2022)
    modelo.fit(X, y.values.ravel())
    # Crear cadena de configuración de árbol de decisión
    configuracion = tipoSVM + '_regularizacionC=' + str(regularizacionC) + '_kernel=' + kernel
    if(kernel == 'poly'):
        configuracion += '_grado=' + str(grado)
    configuracionYaExiste = existeConfiguracion(configuracion)

    # Si no existe configuración en bitácora, agregar configuración a bitácora y métricas    
    if(not configuracionYaExiste):
        # Calcular errores de predicción para entrenamiento y test
        y_pred_train = modelo.predict(X)
        y_pred_test = modelo.predict(X_test)
        manejarBitacora(tipoSVM, configuracion, y, y_pred_train, y_test, y_pred_test)

    return modelo, configuracion

In [283]:
# Hiper-parámetros a experimentar
regularizacionesC = [0.25, 1.0, 4.0]
kernels = ['linear', 'poly', 'rbf', 'sigmoid']
grados = [1,3,5,7]

for regularizacionC in regularizacionesC:
    for kernel in kernels:
        if(kernel == 'poly'):
            for grado in grados:
                crearEvaluarSVM(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, regularizacionC, kernel, grado)
        else:
            crearEvaluarSVM(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, regularizacionC, kernel)
        
mostrarResultadosBitacora(tipoSVM)

Unnamed: 0,configuracion,accuracy_train,accuracy_test,f1_score_train,f1_score_test
33,SVM_regularizacionC=1.0_kernel=poly_grado=3,0.850615,0.818182,0.793187,0.793651
52,SVM_regularizacionC=1.5_kernel=poly_grado=3,0.852373,0.818182,0.796117,0.793651
64,SVM_regularizacionC=5_kernel=poly_grado=3,0.866432,0.818182,0.803109,0.779661
29,SVM_regularizacionC=0.25_kernel=rbf,0.834798,0.818182,0.770732,0.790323
63,SVM_regularizacionC=5_kernel=poly_grado=2,0.8471,0.811189,0.77635,0.773109
43,SVM_regularizacionC=4.0_kernel=rbf,0.86819,0.811189,0.804178,0.765217
45,SVM_regularizacionC=0.5_kernel=poly_grado=2,0.836555,0.811189,0.772616,0.784
67,SVM_regularizacionC=10_kernel=poly_grado=2,0.848858,0.811189,0.774869,0.756757
58,SVM_regularizacionC=0.7_kernel=rbf,0.845343,0.804196,0.784314,0.774194
57,SVM_regularizacionC=0.4_kernel=rbf,0.836555,0.804196,0.773723,0.774194


Se observa que los mejores se obtuvieron con un kernel tipo __poly__ y __rbf__. Para un kernel de tipo __rbf__ parece que el coeficiente de regularización no impacta mucho en el poder de predicción; mientras que para un kernel de tipo __poly__ con grado __3__ parece ser que un valor cercano a __1.0__ es adecuado. Se explorarán más grados polinomiales cercanos a __3__.

In [284]:
# Hiper-parámetros a experimentar
regularizacionesC = [0.5, 1.0, 1.5]
kernels = ['poly', 'rbf']
grados = [2,3,4]

for regularizacionC in regularizacionesC:
    for kernel in kernels:
        if(kernel == 'poly'):
            for grado in grados:
                crearEvaluarSVM(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, regularizacionC, kernel, grado)
        else:
            crearEvaluarSVM(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, regularizacionC, kernel)
        
mostrarResultadosBitacora(tipoSVM)

Unnamed: 0,configuracion,accuracy_train,accuracy_test,f1_score_train,f1_score_test
33,SVM_regularizacionC=1.0_kernel=poly_grado=3,0.850615,0.818182,0.793187,0.793651
52,SVM_regularizacionC=1.5_kernel=poly_grado=3,0.852373,0.818182,0.796117,0.793651
64,SVM_regularizacionC=5_kernel=poly_grado=3,0.866432,0.818182,0.803109,0.779661
29,SVM_regularizacionC=0.25_kernel=rbf,0.834798,0.818182,0.770732,0.790323
63,SVM_regularizacionC=5_kernel=poly_grado=2,0.8471,0.811189,0.77635,0.773109
43,SVM_regularizacionC=4.0_kernel=rbf,0.86819,0.811189,0.804178,0.765217
45,SVM_regularizacionC=0.5_kernel=poly_grado=2,0.836555,0.811189,0.772616,0.784
67,SVM_regularizacionC=10_kernel=poly_grado=2,0.848858,0.811189,0.774869,0.756757
58,SVM_regularizacionC=0.7_kernel=rbf,0.845343,0.804196,0.784314,0.774194
57,SVM_regularizacionC=0.4_kernel=rbf,0.836555,0.804196,0.773723,0.774194


In [285]:
# Explorar más opciones para rbf
regularizacionesC = [0.05, 0.1, 0.4, 0.7]
kernels = ['rbf']
grados = []

for regularizacionC in regularizacionesC:
    for kernel in kernels:
        if(kernel == 'poly'):
            for grado in grados:
                crearEvaluarSVM(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, regularizacionC, kernel, grado)
        else:
            crearEvaluarSVM(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, regularizacionC, kernel)
        
mostrarResultadosBitacora(tipoSVM)

Unnamed: 0,configuracion,accuracy_train,accuracy_test,f1_score_train,f1_score_test
33,SVM_regularizacionC=1.0_kernel=poly_grado=3,0.850615,0.818182,0.793187,0.793651
52,SVM_regularizacionC=1.5_kernel=poly_grado=3,0.852373,0.818182,0.796117,0.793651
64,SVM_regularizacionC=5_kernel=poly_grado=3,0.866432,0.818182,0.803109,0.779661
29,SVM_regularizacionC=0.25_kernel=rbf,0.834798,0.818182,0.770732,0.790323
63,SVM_regularizacionC=5_kernel=poly_grado=2,0.8471,0.811189,0.77635,0.773109
43,SVM_regularizacionC=4.0_kernel=rbf,0.86819,0.811189,0.804178,0.765217
45,SVM_regularizacionC=0.5_kernel=poly_grado=2,0.836555,0.811189,0.772616,0.784
67,SVM_regularizacionC=10_kernel=poly_grado=2,0.848858,0.811189,0.774869,0.756757
58,SVM_regularizacionC=0.7_kernel=rbf,0.845343,0.804196,0.784314,0.774194
57,SVM_regularizacionC=0.4_kernel=rbf,0.836555,0.804196,0.773723,0.774194


In [286]:
# Explorar más opciones para poly
regularizacionesC = [0.1, 5, 10]
kernels = ['poly']
grados = [2,3,4,5]

for regularizacionC in regularizacionesC:
    for kernel in kernels:
        if(kernel == 'poly'):
            for grado in grados:
                crearEvaluarSVM(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, regularizacionC, kernel, grado)
        else:
            crearEvaluarSVM(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, regularizacionC, kernel)
        
mostrarResultadosBitacora(tipoSVM)

Unnamed: 0,configuracion,accuracy_train,accuracy_test,f1_score_train,f1_score_test
33,SVM_regularizacionC=1.0_kernel=poly_grado=3,0.850615,0.818182,0.793187,0.793651
52,SVM_regularizacionC=1.5_kernel=poly_grado=3,0.852373,0.818182,0.796117,0.793651
64,SVM_regularizacionC=5_kernel=poly_grado=3,0.866432,0.818182,0.803109,0.779661
29,SVM_regularizacionC=0.25_kernel=rbf,0.834798,0.818182,0.770732,0.790323
63,SVM_regularizacionC=5_kernel=poly_grado=2,0.8471,0.811189,0.77635,0.773109
43,SVM_regularizacionC=4.0_kernel=rbf,0.86819,0.811189,0.804178,0.765217
45,SVM_regularizacionC=0.5_kernel=poly_grado=2,0.836555,0.811189,0.772616,0.784
67,SVM_regularizacionC=10_kernel=poly_grado=2,0.848858,0.811189,0.774869,0.756757
58,SVM_regularizacionC=0.7_kernel=rbf,0.845343,0.804196,0.784314,0.774194
57,SVM_regularizacionC=0.4_kernel=rbf,0.836555,0.804196,0.773723,0.774194


Después de las pruebas realizadas, se elige un modelo SVM con coeficiente C de regularización de __1.0__, kernel __poly__ de grado __3__, pues reporta las mejores métricas de exactitud para los datos de prueba y datos de entrenamiento.

In [288]:
modeloSVM, configuracionSVM = crearEvaluarSVM(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, 1.0, 'poly', 3)
guardarModelo(modeloSVM, configuracionSVM)

## Naive Bayes

In [847]:
# Función que indicará si una feature en X es categórica o no
def esCategorica(X, indexFeature):
    if(type(X).__module__ != np.__name__):
        X = np.array(X)
        
    if(len(np.unique(X[:,indexFeature])) < 11 and\
        len(np.unique(X[:,indexFeature]))/len(X[:,5]) < 0.4):
        return True
    return False

In [856]:
# Creará las probabilidades para todas las features categóricas y las organizará en un diccionario
def crearProbabilidades(X,y):
    if(type(X).__module__ != np.__name__):
        X = np.array(X)
    if(type(y).__module__ != np.__name__):
        y = np.array(y)
    
    etiquetas = np.unique(y)
    diccionarioProbabilidades = dict()
    diccionarioProbabilidades['__labels__'] = etiquetas
    # Para cada etiqueta guardar su probabilidad de ocurrencia
    for etiqueta in etiquetas:
        conteoConEtiqueta = np.count_nonzero(y == etiqueta)
        diccionarioProbabilidades[str(etiqueta)] = conteoConEtiqueta / len(y)
    
    # Determinar para cada feature si es categórica
    for indiceCaracteristica in range(X.shape[1]):
        if(esCategorica(X, indiceCaracteristica)):
            valores = np.unique(X[:,indiceCaracteristica])
            # Para cada valor, determinar su probabilidad de ocurrencia
            for valor in valores:
                conteoConValor = np.count_nonzero(X[:,indiceCaracteristica] == valor)
                diccionarioProbabilidades[str(indiceCaracteristica) + '_' \
                                          +str(round(valor,10))] = conteoConValor / len(X[:,indiceCaracteristica])
    
    # Determinar probabilidades condicionales de cada valor de los features dado los valores de resultados
    for etiqueta in etiquetas:
        indicesConEtiqueta = np.where(y == etiqueta)[0]
        for indiceCaracteristica in range(X.shape[1]):
            caracteristicaConEtiqueta = X[indicesConEtiqueta,indiceCaracteristica]
            if(esCategorica(X, indiceCaracteristica)):
                valores = np.unique(X[:,indiceCaracteristica])
                # Para cada valor, determinar su probabilidad de ocurrencia
                for valor in valores:
                    conteoConValor = np.count_nonzero(caracteristicaConEtiqueta == valor)
                    diccionarioProbabilidades[str(indiceCaracteristica) + '_' +str(round(valor,10)) + '|' + str(etiqueta)] = \
                        conteoConValor / len(caracteristicaConEtiqueta)
            # Para características continuas, guardar media y desviación estándar de característica con la etiqueta específica
            else:
                diccionarioProbabilidades['media_'+ str(indiceCaracteristica) + '|' + str(etiqueta)] = np.mean(caracteristicaConEtiqueta)
                diccionarioProbabilidades['desviacion_'+ str(indiceCaracteristica) + '|' + str(etiqueta)] = np.std(caracteristicaConEtiqueta)

    return diccionarioProbabilidades

In [857]:
def predecirNaiveBayes(diccionarioProbabilidades, X):
    if(type(X).__module__ != np.__name__):
        X = np.array(X)
    etiquetas = diccionarioProbabilidades['__labels__']
    y_pred = np.zeros(shape=(X.shape[0],1), dtype=np.float32)
    for i in range(X.shape[0]):
        resultados = np.ones_like(etiquetas, dtype=np.float32)
        for indiceEtiqueta, etiqueta in enumerate(etiquetas):
            resultados[indiceEtiqueta] = diccionarioProbabilidades[str(etiqueta)]
            for indiceCaracteristica in range(X.shape[1]):
                if(esCategorica(X, indiceCaracteristica)):
                    if(str(indiceCaracteristica) + '_' + str(round(X[i,indiceCaracteristica], 10)) + '|' + str(etiqueta) \
                        in diccionarioProbabilidades.keys()):
                        resultados[indiceEtiqueta] *= \
                            diccionarioProbabilidades[str(indiceCaracteristica) + '_' + \
                                                      str(round(X[i,indiceCaracteristica], 10)) + '|' + str(etiqueta)]
                    else:
                        resultados[indiceEtiqueta] = 0.0
                        break
                # Para características continuas se obtiene la probabilidad del valor (en un rango pequeño) para valor dado
                else:
                    if('media_' + str(indiceCaracteristica) + '|' + str(etiqueta) \
                        in diccionarioProbabilidades.keys()):
                        margen = 0.001
                        valorZ = (X[i,indiceCaracteristica] \
                                  - diccionarioProbabilidades['media_' + str(indiceCaracteristica) + '|' + str(etiqueta)])\
                                    / diccionarioProbabilidades['desviacion_' + str(indiceCaracteristica) + '|' + str(etiqueta)]
                        probabilidad = st.norm.cdf(valorZ + margen) - st.norm.cdf(valorZ - margen)
                        resultados[indiceEtiqueta] *= probabilidad

        y_pred[i,0] = etiquetas[np.argmax(resultados)]
    return y_pred

In [858]:
tipoNaiveBayes = 'NaiveBayes'
# Función para la creación de modelo de Naive Bayes
def crearEvaluarNaiveBayes(X, y, X_test, y_test):
    # Crear probabilidades con información enviada
    diccionarioProbabilidades = crearProbabilidades(X, y)
    # Crear cadena de configuración de naive bayes (no tiene hiperparámetros que ajustar)
    configuracion = tipoNaiveBayes
    configuracionYaExiste = existeConfiguracion(configuracion)

    # Si no existe configuración en bitácora, agregar configuración a bitácora y métricas    
    if(not configuracionYaExiste):
        # Calcular errores de predicción para entrenamiento y test
        y_pred_train = predecirNaiveBayes(diccionarioProbabilidades, X)
        y_pred_test = predecirNaiveBayes(diccionarioProbabilidades, X_test)
        manejarBitacora(tipoNaiveBayes, configuracion, y, y_pred_train, y_test, y_pred_test)

    return diccionarioProbabilidades, configuracion

In [859]:
def guardarInformacionConNumpy(informacion, configuracion):
    directorioModelos = 'modelos/'
    extensionModelos = '.modelo'
    np.save(directorioModelos + configuracion + extensionModelos, informacion)

Como el modelo de Naive Bayes implementado no tiene hiperparámetros que entrenar, se construirá el diccionario de probabilidades y se guardará directamente:

In [860]:
probabilidadesNaiveBayes, configuracionNaiveBayes = crearEvaluarNaiveBayes(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                          caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test)
guardarInformacionConNumpy([probabilidadesNaiveBayes], configuracionNaiveBayes)
mostrarResultadosBitacora(tipoNaiveBayes)

Unnamed: 0,configuracion,accuracy_train,accuracy_test,f1_score_train,f1_score_test
92,NaiveBayes,0.778559,0.776224,0.697115,0.746032


## Regresión Logística

In [461]:
def calcularLogits(parametros, matrizX):
    return tf.matmul(matrizX, parametros)

def calcularSigmoid(logits):
    return tf.math.sigmoid(logits)

def agregarColumnaUnos(x):
    if len(x.shape) < 2:
        x = np.array(x, dtype=np.float32).reshape(x.shape[0], -1)
        
    return np.append(x, np.ones(x.shape[0]).reshape(-1,1), 1)

In [471]:
def RegresionLogisticaPorMiniBatchGradientDescent(trainX, trainY, testX, testY, epochs, learningRate, batchSize = -1, alpha = 0.0):
    # Agregar columna de sesgo (con unos)
    trainX = agregarColumnaUnos(trainX)
    # Se asume que columna de etiquetas ya se encuentra codificada
    yOneHot = trainY
    # Cantidad de datos, características y etiquetas enviadas
    cantidadDatos = trainX.shape[0]
    numCaracteristicas = trainX.shape[1]
    # Parámetros
    parametros = tf.Variable(np.zeros((numCaracteristicas, 1), dtype=np.float32), name="Parametros")
    # Dar formato adecuado a información de validación
    testX = agregarColumnaUnos(testX)
    # Se asume que columna de etiquetas ya se encuentra codificada
    yTestOneHot = testY
    
    # Si el batch size es mayor que la cantidad de datos, simplemente se usa la cantidad de datos
    batchSizeInicial = batchSize
    if(batchSize > cantidadDatos or batchSize < 0):
        batchSize = cantidadDatos
    # Se determina número de iteraciones
    totalIteraciones = cantidadDatos // batchSize
    directorioModelo = './summaries/RegresionLogisticaMiniBatchGradientDescent' \
        + '_epochs=' + str(epochs) + '_lr=' + str(learningRate) + '_batchSize=' + str(batchSizeInicial) + '_alpha=' + str(alpha)

    writer = tf.summary.create_file_writer(directorioModelo)
    with writer.as_default():
        for epoch in range(epochs):
            for batch in range(totalIteraciones):
                inicioBatch = batch * batchSize
                finBatch = inicioBatch + batchSize
                if (cantidadDatos - finBatch) < batchSize:
                    finBatch = cantidadDatos
                miniBatchX =  np.array(trainX[inicioBatch:finBatch,:], dtype=np.float32)
                miniBatchY = np.array(yOneHot[inicioBatch:finBatch], dtype=np.float32)
                
                with tf.GradientTape() as grad_tape:
                    grad_tape.watch(parametros)
                    with tf.name_scope("Prediccion"):
                        logits = calcularLogits(parametros, miniBatchX)
                    with tf.name_scope("Error"):
                        error = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(miniBatchY, logits))
                        error = tf.reduce_mean(error + alpha * tf.math.abs(parametros))
                
                with tf.name_scope("Gradiente"):
                    gradiente = grad_tape.gradient(error, parametros)
                
                with tf.name_scope("Actualizar_Parametros"):
                    parametros.assign(parametros - learningRate * gradiente)
                    
            # Calcular error general de modelo en data set de entrenamiento
            logitsTrain = calcularLogits(parametros, np.array(trainX, dtype=np.float32))
            trainError = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(np.array(yOneHot, dtype=np.float32), logitsTrain))
            # Calcular error general de modelo en data set de test
            logits = calcularLogits(parametros, np.array(testX, dtype=np.float32))
            testError = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(np.array(yTestOneHot, dtype=np.float32), logits))
            
            # Añadir errores a summary de tensorboard
            tf.summary.scalar("Train_Error", trainError, epoch)
            tf.summary.scalar("Test_Error", testError, epoch)
            writer.flush()
        
    writer.close()

    return parametros.numpy(), directorioModelo.replace('./summaries/', ''), trainError.numpy()

In [463]:
def predecirRegresionLogistica(X, parametros):
    X = agregarColumnaUnos(X)
    logits = np.matmul(X, parametros)
    return np.round(calcularSigmoid(logits).numpy())

In [474]:
tipoRegresionLogistica = 'RegresionLogistica'
# Función para la creación de modelo de support vector machine y registro de métricas en bitácora (en caso de no existir en la bitácora)
def crearEvaluarRegresionLogistica(X, y, X_test, y_test, epochs, learningRate, batchSize = -1, alpha=0.0):
    # Crear modelo con parámetros enviados
    parametros, configuracion, errorEntrenamiento = RegresionLogisticaPorMiniBatchGradientDescent(X, y, X_test, y_test, \
                                                           epochs, learningRate, batchSize, alpha)
    configuracionYaExiste = existeConfiguracion(configuracion)

    # Si no existe configuración en bitácora, agregar configuración a bitácora y métricas    
    if(not configuracionYaExiste):
        # Calcular errores de predicción para entrenamiento y test
        y_pred_train = predecirRegresionLogistica(X, parametros)
        y_pred_test = predecirRegresionLogistica(X_test, parametros)
        manejarBitacora(tipoRegresionLogistica, configuracion, y, y_pred_train, y_test, y_pred_test, errorEntrenamiento)

    return parametros, configuracion

### Primeras pruebas para encontrar modelo de regresión logística

- Primero se buscará un modelo que tenga un alto nivel de predicción en los datos de entrenamiento.
- Después se variará el coeficiente de regularización para aumentar el nivel de predicción en los datos de prueba.

In [475]:
batchSizes = [8, 32, 128, -1]
learningRates = [0.0001, 0.001, 0.01]
for batchSize in batchSizes:
    for lr in learningRates:
        crearEvaluarRegresionLogistica(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                                       caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, \
                                       epochs=500, learningRate=lr, batchSize=batchSize, alpha=0.0)

mostrarResultadosBitacora(tipoRegresionLogistica)

Unnamed: 0,configuracion,accuracy_train,accuracy_test,f1_score_train,f1_score_test
76,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.01_batchSize=32_alpha=0.0,0.804921,0.839161,0.716113,0.813008
73,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.01_batchSize=8_alpha=0.0,0.794376,0.825175,0.708229,0.8
79,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.01_batchSize=128_alpha=0.0,0.797891,0.79021,0.664723,0.722222
72,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.001_batchSize=8_alpha=0.0,0.801406,0.783217,0.685237,0.720721
75,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.001_batchSize=32_alpha=0.0,0.757469,0.72028,0.557692,0.565217
82,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.01_batchSize=-1_alpha=0.0,0.731107,0.685315,0.477816,0.470588
71,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.0001_batchSize=8_alpha=0.0,0.71529,0.657343,0.425532,0.395062
78,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.001_batchSize=128_alpha=0.0,0.6942,0.643357,0.345865,0.35443
74,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.0001_batchSize=32_alpha=0.0,0.680141,0.615385,0.289062,0.266667
77,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.0001_batchSize=128_alpha=0.0,0.680141,0.615385,0.283465,0.266667


Basado en los errores de entrenamiento y datos de prueba de las gráficas de abajo, y las métricas de rendimiento de la tabla de arriba; los modelos con mejores métricas de predicción en los datos de pruebas, no tienen mejores métricas en los datos de entrenamiento (no muestra overfitting). Se seguirá buscando modelos con mejores métricas en datos de entrenamiento sin aún variar el coeficiente de regularización. También se mira que un learning rate mayor, es mejor.

<img src='Regresion_logistica_train_error.png'>
<img src='Regresion_logistica_test_error.png'>

In [476]:
batchSizes = [4, 16, 64]
learningRates = [0.02, 0.05, 0.1]
for batchSize in batchSizes:
    for lr in learningRates:
        crearEvaluarRegresionLogistica(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                                       caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, \
                                       epochs=500, learningRate=lr, batchSize=batchSize, alpha=0.0)

mostrarResultadosBitacora(tipoRegresionLogistica)

Unnamed: 0,configuracion,accuracy_train,accuracy_test,f1_score_train,f1_score_test
76,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.01_batchSize=32_alpha=0.0,0.804921,0.839161,0.716113,0.813008
89,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.02_batchSize=64_alpha=0.0,0.801406,0.839161,0.710997,0.813008
91,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.1_batchSize=64_alpha=0.0,0.794376,0.825175,0.708229,0.8
86,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.02_batchSize=16_alpha=0.0,0.794376,0.825175,0.708229,0.8
73,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.01_batchSize=8_alpha=0.0,0.794376,0.825175,0.708229,0.8
90,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.05_batchSize=64_alpha=0.0,0.794376,0.825175,0.708229,0.8
87,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.05_batchSize=16_alpha=0.0,0.794376,0.825175,0.708229,0.8
83,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.02_batchSize=4_alpha=0.0,0.794376,0.825175,0.708229,0.8
84,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.05_batchSize=4_alpha=0.0,0.794376,0.825175,0.708229,0.8
88,RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.1_batchSize=16_alpha=0.0,0.794376,0.818182,0.708229,0.793651


Basado en errores (imágenes de abajo) y métricas (tabla de arriba); ninguno de los modelos anteriores desarrolló overfitting (todos mostraron un balance bastante fuerte entre las métricas en los datos de entrenamiento con respecto a los datos de prueba). Por lo que se escogerá el modelo con los hiperparámetros: epochs = __500__, learning rate = __0.01__, batch size = __32__, sin regularización.

<img src='Regresion_logistica_train_error2.png'>
<img src='Regresion_logistica_test_error2.png'>

In [478]:
parametrosRegresionLogistica, configuracionRegresionLogistica = \
    crearEvaluarRegresionLogistica(caracteristicasConOheEstandarizadas, etiquetasConOhe_train, \
                    caracteristicasConOheEstandarizadas_test, etiquetasConOhe_test, \
                                       500, learningRate=0.01, batchSize=32, alpha=0.0)
guardarInformacionConNumpy(parametrosRegresionLogistica, configuracionRegresionLogistica)

## Tabla de predicciones

Se mostrará la tabla de predicciones de cada modelo y su combinación. Se optó por aplicar una media ponderada en lugar de moda porque podrían haber casos en que no había votación mayoritaria por ser un número par de modelos (4).

In [886]:
prediccionesArbolDecision = modeloArbolDecision.predict(caracteristicasConOheEstandarizadas_test)
prediccionesSVM = modeloSVM.predict(caracteristicasConOheEstandarizadas_test)
prediccionesNaiveBayes = predecirNaiveBayes(probabilidadesNaiveBayes, caracteristicasConOheEstandarizadas_test)
prediccionesRegresionLogistica = predecirRegresionLogistica(caracteristicasConOheEstandarizadas_test, parametrosRegresionLogistica)

In [887]:
prediccionesNaiveBayes = prediccionesNaiveBayes.reshape(prediccionesNaiveBayes.shape[0])
prediccionesRegresionLogistica = prediccionesRegresionLogistica.reshape(prediccionesRegresionLogistica.shape[0])

In [889]:
def combinacionPredicciones(yArbolDecision, ySVM, yNaiveBayes, yRegresionLogistica):
    prediccionTestArbolDecision = 0.8322
    prediccionTestSVM = 0.8182
    prediccionTestRegresionLogistica = 0.8130
    prediccionTestNaiveBayes = 0.7762
    totalPrediccion = prediccionTestArbolDecision + prediccionTestSVM + prediccionTestRegresionLogistica + prediccionTestNaiveBayes
    pesoArbolDecision =  prediccionTestArbolDecision / totalPrediccion
    pesoSVM = prediccionTestSVM / totalPrediccion
    pesoRegresionLogistica = prediccionTestRegresionLogistica / totalPrediccion
    pesoNaiveBayes = prediccionTestNaiveBayes / totalPrediccion
    prediccionFinal = pesoArbolDecision * yArbolDecision \
                    + pesoSVM * ySVM \
                    + pesoRegresionLogistica * yRegresionLogistica \
                    + pesoNaiveBayes * yNaiveBayes
    return np.round(prediccionFinal)

In [907]:
combinacionPred = combinacionPredicciones(prediccionesArbolDecision, prediccionesSVM, prediccionesNaiveBayes, prediccionesRegresionLogistica)
etiquetasConOheMostrar = np.array(etiquetasConOhe_test)
etiquetasConOheMostrar = etiquetasConOheMostrar.reshape(etiquetasConOheMostrar.shape[0])
resultados = np.array([prediccionesArbolDecision, prediccionesSVM, prediccionesNaiveBayes, prediccionesRegresionLogistica, \
                       combinacionPred, etiquetasConOheMostrar]).transpose().tolist()
tablaResultados = pd.DataFrame(resultados, columns=['Árbol Decisión','SVM','Naive Bayes','Regresión Logística', \
                                                    'Combinación Final', 'Resultado Real'])
display(tablaResultados)

Unnamed: 0,Árbol Decisión,SVM,Naive Bayes,Regresión Logística,Combinación Final,Resultado Real
0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...
138,0.0,0.0,0.0,0.0,0.0,0.0
139,0.0,0.0,0.0,0.0,0.0,0.0
140,0.0,0.0,0.0,0.0,0.0,0.0
141,1.0,0.0,0.0,0.0,0.0,1.0


## Tabla de métricas de evaluación entre combinación de predicciones vs resultados reales

In [908]:
metricas = []
metricas.append(['Accuracy', mts.accuracy_score(etiquetasConOheMostrar, combinacionPred)])
metricas.append(['Precision', mts.precision_score(etiquetasConOheMostrar, combinacionPred)])
metricas.append(['Recall', mts.recall_score(etiquetasConOheMostrar, combinacionPred)])
metricas.append(['F1-score', mts.f1_score(etiquetasConOheMostrar, combinacionPred)])
tablaMetricas = pd.DataFrame(metricas, columns=['Métrica', 'valor'])
display(tablaMetricas)

Unnamed: 0,Métrica,valor
0,Accuracy,0.825175
1,Precision,0.819672
2,Recall,0.78125
3,F1-score,0.8


## Conclusiones

- La combinación de todas las predicciones tuvo como resultado final una exactitud del __82.52%__ en los datos de prueba, mayor al 80% requerido; por lo que los modelos y el método de combinación serán utilizados en la parte de deployment (segundo notebook).
- La estandarización de la información es una técnica de pre-procesamiento de información que ayudó en la métrica de exactitud (accuracy) especialmente en el modelo de regresión logística.
- Tensorboard ayudó mucho en la comprensión de la evolución del error y exactitud de la regresión logística con los diferentes hiper-parámetros que se probaron.
- Se pudo comprobar claramente como un árbol de decisión puede sobreajustarse fácilmente y que limitar el número de profundidad ayuda mucho a que este modelo disminuya su sobreajuste y mejore su nivel de predicción.