# Proyecto Final - Ensemble Learning (Aprendizaje por ensamblado)
## Parte 2 - Implementación y predicción

**Curso:** Statistical Learning

**Catedrático:** Ing. Luis Leal

**Estudiante:** Dany Rafael Díaz Lux (21000864)

**Objetivo:** Hacer clasificación binaria para determinar si una persona sobrevive o no del hundimiento del Titanic.

In [22]:
# Import required libraries
#from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
#import datetime as dt
import joblib
#import matplotlib.pylab as plt
import numpy as np 
#import os.path
import pandas as pd
import sklearn.metrics as mts
#import tensorflow as tf
#print('Tensor flow version: ' + tf.__version__)

In [56]:
# Informacion de modelos
directorioModelos = 'modelos/'
extensionModelos = '.modelo'
nombreModeloArbolDecision = 'ArbolDecision_criterio=gini_profundidadMaxima=4'
nombreModeloSVM = 'SVM_regularizacionC=1.0_kernel=poly_grado=3'
nombreParametrosRegresionLogistica = 'RegresionLogisticaMiniBatchGradientDescent_epochs=500_lr=0.01_batchSize=32_alpha=0.0'

In [57]:
# Cargar modelos
modeloArbolDecision = joblib.load(directorioModelos + nombreModeloArbolDecision + extensionModelos)
modeloSVM = joblib.load(directorioModelos + nombreModeloSVM + extensionModelos)
parametrosRegresionLogistica = np.load(directorioModelos + nombreParametrosRegresionLogistica + extensionModelos + '.npy')

In [74]:
# Funciones auxiliares para modelo de regresión logística
def agregarColumnaUnos(x):
    if len(x.shape) < 2:
        x = np.array(x, dtype=np.float32).reshape(x.shape[0], -1)
    return np.append(x, np.ones(x.shape[0]).reshape(-1,1), 1)

def calcularSigmoid(x):
    return 1/(1 + np.exp(-x))

def predecirRegresionLogistica(X, parametros):
    X = agregarColumnaUnos(X)
    logits = np.matmul(X, parametros)
    logits = logits.reshape(logits.shape[0])
    return np.round(calcularSigmoid(logits))

In [8]:
pruebas = pd.read_csv("datos_validacion_temp.csv")
caracteristicas = pruebas.iloc[:,:-1]
etiquetas = pruebas.iloc[:,-1]

In [14]:
# Revisar métricas de datos de prueba
prediccionesArbol = modeloArbolDecision.predict(caracteristicas)
print(mts.accuracy_score(etiquetas, prediccionesArbol))
print(mts.f1_score(etiquetas, prediccionesArbol))
print(mts.precision_score(etiquetas, prediccionesArbol))
print(mts.recall_score(etiquetas, prediccionesArbol))

0.8321678321678322
0.8095238095238094
0.8225806451612904
0.796875


In [15]:
# Revisar métricas de datos de prueba
prediccionesSVM = modeloSVM.predict(caracteristicas)
print(mts.accuracy_score(etiquetas, prediccionesSVM))
print(mts.f1_score(etiquetas, prediccionesSVM))
print(mts.precision_score(etiquetas, prediccionesSVM))
print(mts.recall_score(etiquetas, prediccionesSVM))

0.8181818181818182
0.7936507936507936
0.8064516129032258
0.78125


In [75]:
# Revisar métricas de datos de prueba
prediccionesRegresion = predecirRegresionLogistica(caracteristicas, parametrosRegresionLogistica)
print(mts.accuracy_score(etiquetas, prediccionesRegresion))
print(mts.f1_score(etiquetas, prediccionesRegresion))
print(mts.precision_score(etiquetas, prediccionesRegresion))
print(mts.recall_score(etiquetas, prediccionesRegresion))

0.8391608391608392
0.8130081300813008
0.847457627118644
0.78125


## Función de predicción

In [78]:
# Predicción final combinando los modelos: Árbol de decisión, SVM
def prediccionFinal(X):
    prediccionesArbolDecision = modeloArbolDecision.predict(X)
    prediccionesSVM = modeloSVM.predict(X)
    prediccionesRegresionLogistica = predecirRegresionLogistica(X, parametrosRegresionLogistica)
    pesoArbolDecision = 0.33
    pesoSVM = 0.33
    pesoRegresionLogistica = 0.34
    prediccionFinal = pesoArbolDecision * prediccionesArbolDecision \
                    + pesoSVM * prediccionesSVM \
                    + pesoRegresionLogistica * prediccionesRegresionLogistica
    return np.round(prediccionFinal)

In [77]:
# Revisar métricas de datos de prueba
prediccionesFinales = prediccionFinal(caracteristicas)
print(prediccionesFinales)
print(mts.accuracy_score(etiquetas, prediccionesFinales))
print(mts.f1_score(etiquetas, prediccionesFinales))
print(mts.precision_score(etiquetas, prediccionesFinales))
print(mts.recall_score(etiquetas, prediccionesFinales))

[0. 0. 0. 0. 0. 1. 0. 1. 0. 1. 0. 1. 0. 1. 1. 1. 1. 0. 1. 0. 0. 0. 1. 0.
 1. 0. 1. 0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 1. 1. 0.
 1. 1. 0. 1. 1. 0. 1. 1. 0. 1. 1. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0.
 1. 1. 0. 1. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0.
 0. 1. 0. 0. 1. 1. 1. 1. 1. 0. 1. 1. 0. 1. 1. 1. 0. 0. 0. 1. 0. 0. 1. 1.
 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1.]
0.8251748251748252
0.8
0.819672131147541
0.78125


## Predicción árbol de decisión

## Predicción Support Vector Machine (SVM)

## Predicción Naive Bayes

## Predicción regresión logística

## Validación