<b>Universidad Galileo</b><br/>
<b>Maestría de Ciencia de Datos</b><br/>
<b>Statistical Learning I</b><br/>
<b>Jose Godoy</b><br/>
<b>Carnet 22000570</b><br/>
<b>30 de junio 2022</b><br/>

# 1. Sección de configuración

## 1.1 Liberías

Carga de librerías generales

In [1]:
import numpy as np
import pandas as pd
import os

Librerías para generar métricas

In [2]:
from sklearn.metrics import accuracy_score, mean_squared_error, recall_score, f1_score

Cargando librerías de TensorFlwo

In [31]:
import tensorflow.compat.v1 as tf
tf.compat.v1.disable_v2_behavior()
tf.enable_eager_execution()

Variable de entorno TF

In [4]:
os.environ['KMP_DUPLICATE_LIB_OK']='True'

Para cargar modelos y funciones

In [5]:
import pickle

## 1.2 Cargando datos de prueba

In [6]:
DATOS_PRUEBA = pd.read_csv("TVTS_data_prueba.csv")

# 3. Preprocesamiento de datos

Cargando estadísticos:

In [7]:
AE_age_mean = pickle.load(open("modelos_y_estadisticos/AE_age_mean", 'rb'))
AE_age_std = pickle.load(open("modelos_y_estadisticos/AE_age_std", 'rb'))
AE_embarked_mas_repetido = pickle.load(open("modelos_y_estadisticos/AE_embarked_mas_repetido", 'rb'))
AE_statistics = pickle.load(open("modelos_y_estadisticos/AE_statistics", 'rb'))

Función para tratar outliers

In [8]:
def AE_tratamiento_outlier(AE_dataframe, AE_columnas):
    AE_parametros_outliers = pd.DataFrame()
    for AE_columna in AE_columnas:
        AE_quartiles = np.array( AE_dataframe[AE_columna].quantile([.25, .5, .75]) )
        AE_irq = AE_quartiles[2] - AE_quartiles[0]
        AE_limite_inferior = AE_quartiles[0] - AE_irq*1.5
        AE_limite_superior = AE_quartiles[2] + AE_irq*1.5
        AE_mean_to = AE_dataframe[AE_columna].mean(axis=0)
        AE_median_to = AE_dataframe[AE_columna].median(axis=0)
        
        AE_parametros_outliers = pd.concat([
            AE_parametros_outliers, 
            pd.DataFrame(data = {
                "columna": [AE_columna],
                "limite_inferior": [AE_limite_inferior], 
                "limite_superior": [AE_limite_superior], 
                "mean": [AE_mean_to], 
                "median": [AE_median_to]
            })
        ], ignore_index=True)
        
        AE_dataframe.loc[ AE_dataframe[AE_columna] <  AE_limite_inferior, AE_columna ] = AE_mean_to
        AE_dataframe.loc[ AE_dataframe[AE_columna] >  AE_limite_superior, AE_columna ] = AE_median_to
    return AE_parametros_outliers

Función para pre procesar los datos:

In [9]:
def E_pre_procesamiento(
    E_pp_validacion, 
    E_pp_age_mean, 
    E_pp_age_std, 
    E_pp_embarked_mas_repetido, 
    E_pp_statistics, 
    E_pp_tratamiento_outlier):
    
    #Eliminación de columnas no utilizadas
    del E_pp_validacion["PassengerId"]
    del E_pp_validacion["Name"]
    del E_pp_validacion["Cabin"]
    del E_pp_validacion["Parch"]
    
    #Imputación de datos
    
    #Columna Año
    E_pp_age_nan = E_pp_validacion["Age"].isnull()
    if(len(E_pp_age_nan)>0):
        E_pp_age_random = np.random.normal(E_pp_age_mean, E_pp_age_std, sum(E_pp_age_nan))
        E_pp_validacion.loc[E_pp_age_nan, "Age"] = E_pp_age_random
    
    #Columna Ticket
    E_pp_valores_Ticket = E_pp_validacion.Ticket.value_counts().axes[0].tolist()
    E_pp_repitencia_Ticket = np.array(E_pp_validacion.Ticket.value_counts())
    E_pp_validacion['Ticket'].replace(E_pp_valores_Ticket, E_pp_repitencia_Ticket, inplace=True)
    
    #Columna Embarked
    E_pp_embarked_nan = E_pp_validacion["Embarked"].isnull()
    if(len(E_pp_embarked_nan)>0):
        E_pp_validacion.loc[E_pp_embarked_nan, "Embarked"] = E_pp_embarked_mas_repetido
    
    #Columnas categórias
    
    #Columna Embarked
    E_pp_Embarked_OHE = pd.get_dummies(E_pp_validacion.Embarked, prefix="Embarked")
    E_pp_validacion = pd.concat([E_pp_validacion, E_pp_Embarked_OHE], axis=1)
    del E_pp_validacion["Embarked"]
    
    #Columna passenger_class
    E_pp_passenger_class_OHE = pd.get_dummies(E_pp_validacion.passenger_class, prefix="passenger_class")
    E_pp_validacion = pd.concat([E_pp_validacion, E_pp_passenger_class_OHE], axis=1)
    del E_pp_validacion["passenger_class"]
    
    #Columna passenger_sex
    E_pp_sexo = E_pp_validacion["passenger_sex"] == "M"
    E_pp_validacion["passenger_sex"] = E_pp_sexo.astype('int')
    
    #Columna passenger_survived
    E_pp_sobrevivio = E_pp_validacion["passenger_survived"] == "Y"
    
    #Tratamiento de outliers
    E_pp_tratamiento_outlier(E_pp_validacion, ['Fare','SibSp', 'Age']) 
    
    #Featuring scaling
    E_pp_validacion = (E_pp_validacion.iloc[:,E_pp_validacion.columns!="passenger_survived"] - E_pp_statistics.loc["mean"]) / E_pp_statistics.loc["std"]
    E_pp_validacion["passenger_survived"] = E_pp_sobrevivio.astype('int')
    
    return E_pp_validacion

Función para separar el dataset en features y target

In [10]:
def E_separar_y_x(E_df):
    E_df_copy = E_df.copy()
    E_spyx_target = pd.DataFrame(E_df_copy["passenger_survived"])
    del E_df_copy["passenger_survived"]
    return [E_df_copy, E_spyx_target]

Pre-procesamiento y separación de información para prueba

In [11]:
#Preprocesamiento
P_data_test = E_pre_procesamiento(
    DATOS_PRUEBA, 
    AE_age_mean, 
    AE_age_std, 
    AE_embarked_mas_repetido, 
    AE_statistics, 
    AE_tratamiento_outlier
)

#Separación
P_test_features, P_test_target = E_separar_y_x( P_data_test )

# 4. Predicción

Generación de métricas

In [12]:
def E_generar_metricas(E_yhat, E_y):
    E_resultados_exp = pd.DataFrame([{
        'MSE': mean_squared_error(np.array(E_y), E_yhat),
        'Accuracy Score': accuracy_score(np.array(E_y), E_yhat),
        'Recall Score': recall_score(np.array(E_y), E_yhat),
        'F1 Score': f1_score(np.array(E_y), E_yhat)
    }])
    return E_resultados_exp

Función de predicción

In [13]:
class PredicciónResultados:
            
    def __init__(self, 
                 Model_Tree3, 
                 Model_Tree3_EAD_columnas, 
                 Model_SVM5, 
                 Model_SVM5_ESVM_columnas, 
                 ENB_Naive_Bayes_predecir,
                 Model_Bayes7_ENB_likelihood,
                 Model_Bayes7_ENB_probabilidad,
                 Model_Bayes7_ENB_columnas,
                 ERL_RegLog_predecir,
                 Model_RLog9_ERL_exp2_w, 
                 Model_RLog9_ERL_columnas
                ):
        self.Model_Tree3 = Model_Tree3 
        self.Model_Tree3_EAD_columnas = Model_Tree3_EAD_columnas 
        self.Model_SVM5 = Model_SVM5
        self.Model_SVM5_ESVM_columnas = Model_SVM5_ESVM_columnas
        self.ENB_Naive_Bayes_predecir = ENB_Naive_Bayes_predecir
        self.Model_Bayes7_ENB_likelihood = Model_Bayes7_ENB_likelihood
        self.Model_Bayes7_ENB_probabilidad = Model_Bayes7_ENB_probabilidad
        self.Model_Bayes7_ENB_columnas = Model_Bayes7_ENB_columnas
        self.ERL_RegLog_predecir = ERL_RegLog_predecir
        self.Model_RLog9_ERL_exp2_w = Model_RLog9_ERL_exp2_w
        self.Model_RLog9_ERL_columnas = Model_RLog9_ERL_columnas
        
    def Tree(self, x):
        return self.Model_Tree3.predict(x.iloc[:,self.Model_Tree3_EAD_columnas])
        
    def SVM(self, x):
        return self.Model_SVM5.predict(x.iloc[:,self.Model_SVM5_ESVM_columnas])
        
    def Bayes(self, x):
        return self.ENB_Naive_Bayes_predecir(self.Model_Bayes7_ENB_likelihood, self.Model_Bayes7_ENB_probabilidad, x, self.Model_Bayes7_ENB_columnas)
        
    def RegLog(self, x):
        return self.ERL_RegLog_predecir(x, self.Model_RLog9_ERL_exp2_w, self.Model_RLog9_ERL_columnas)
    
    def Predecir(self, x):
        predicciones = pd.DataFrame()
        predicciones["tree"] = self.Tree(x)
        predicciones["svm"] = self.SVM(x)
        predicciones["bayes"] = self.Bayes(x)
        predicciones["reglog"] = self.RegLog(x)
        return predicciones.mode(axis=1).loc[:,0]

## 4.1 Cargando modelos

### 4.1.1 Árbol de desición

In [14]:
Model_Tree3 = pickle.load(open("modelos_y_estadisticos/Model_Tree3", 'rb'))
Model_Tree3_EAD_columnas = pickle.load(open("modelos_y_estadisticos/Model_Tree3_EAD_columnas", 'rb'))

### 4.1.2 SVM

In [15]:
Model_SVM5 = pickle.load(open("modelos_y_estadisticos/Model_SVM5", 'rb'))
Model_SVM5_ESVM_columnas = pickle.load(open("modelos_y_estadisticos/Model_SVM5_ESVM_columnas", 'rb'))

### 4.1.3 Naive Bayes

Función de predicción

In [16]:
def ENB_Naive_Bayes_predecir(ENB_nbp_likelihood, ENB_nbp_probabilidad, ENB_nbp_x, ENB_nbp_columns):
    ENB_nbp_predecir = ENB_nbp_x.iloc[:,ENB_nbp_columns]
    ENB_nbp_prediccion = pd.DataFrame()
    for row in ENB_nbp_predecir.index:
        row_probabildiad0 = ENB_nbp_probabilidad[0];
        row_probabildiad1 = ENB_nbp_probabilidad[1];
        for col in ENB_nbp_predecir.columns:
            try:
                row_probabildiad0 = row_probabildiad0 * ENB_nbp_likelihood[col][0][ENB_nbp_predecir[col][row]]
                row_probabildiad1 = row_probabildiad1 * ENB_nbp_likelihood[col][1][ENB_nbp_predecir[col][row]]
            except KeyError:
                continue
        ENB_nbp_prediccion = pd.concat([ENB_nbp_prediccion, pd.DataFrame([{"N":row_probabildiad0,"Y":row_probabildiad1}])])
    return np.argmax(np.array(ENB_nbp_prediccion),axis=1)

Cargando modelo

In [17]:
Model_Bayes7_ENB_columnas = pickle.load(open("modelos_y_estadisticos/Model_Bayes7_ENB_columnas", 'rb'))
Model_Bayes7_ENB_likelihood = pickle.load(open("modelos_y_estadisticos/Model_Bayes7_ENB_likelihood", 'rb'))
Model_Bayes7_ENB_probabilidad = pickle.load(open("modelos_y_estadisticos/Model_Bayes7_ENB_probabilidad", 'rb'))

### 4.1.4 Regresión Logística

Función de predicción

In [18]:
def ERL_RegLog_predecir(ERL_x, ERL_w, ERL_columnas):
        ERL_x = ERL_x.iloc[:, ERL_columnas]
        ERL_x_ = np.hstack(( ERL_x, np.ones((ERL_x.shape[0],1)) ))
        ERL_yhat = tf.matmul(ERL_x_, ERL_w)
        ERL_p = tf.math.sigmoid(ERL_yhat)
        return np.array(ERL_p>0.5).astype(int)

Cargando modelo

In [19]:
Model_RLog9_ERL_exp2_w = pickle.load(open("modelos_y_estadisticos/Model_RLog9_ERL_exp2_w", 'rb'))
Model_RLog9_ERL_columnas = pickle.load(open("modelos_y_estadisticos/Model_RLog9_ERL_columnas", 'rb'))

## 4.2 Creando modelo

In [20]:
modelo = PredicciónResultados(
    Model_Tree3, 
    Model_Tree3_EAD_columnas, 
    Model_SVM5, 
    Model_SVM5_ESVM_columnas, 
    ENB_Naive_Bayes_predecir,
    Model_Bayes7_ENB_likelihood,
    Model_Bayes7_ENB_probabilidad,
    Model_Bayes7_ENB_columnas,
    ERL_RegLog_predecir,
    Model_RLog9_ERL_exp2_w, 
    Model_RLog9_ERL_columnas
)

## 4.1 Árbol de desición

Predicción con árbol de desición

In [21]:
PAD_prediccion = modelo.Tree(P_test_features)

Resultados de predicción

In [22]:
E_generar_metricas(PAD_prediccion, P_test_target)

Unnamed: 0,MSE,Accuracy Score,Recall Score,F1 Score
0,0.162921,0.837079,0.650794,0.738739


## 4.2 SVM

Predicción con árbol SVM

In [23]:
ESVM_prediccion = modelo.SVM(P_test_features)

Resultados de predicción

In [24]:
E_generar_metricas(ESVM_prediccion, P_test_target)

Unnamed: 0,MSE,Accuracy Score,Recall Score,F1 Score
0,0.174157,0.825843,0.619048,0.715596


## 4.3 Naive Bayes

Cargando modelo

Predicción Bayes

In [25]:
ENB_prediccion = modelo.Bayes(P_test_features)

Resultados de predicción

In [26]:
E_generar_metricas(ENB_prediccion, P_test_target)

Unnamed: 0,MSE,Accuracy Score,Recall Score,F1 Score
0,0.258427,0.741573,0.666667,0.646154


## 4.4 Regresión logística

In [27]:
ERL_prediccion = modelo.RegLog(P_test_features)

Resultados de predicción

In [28]:
E_generar_metricas(ERL_prediccion, P_test_target)

Unnamed: 0,MSE,Accuracy Score,Recall Score,F1 Score
0,0.196629,0.803371,0.666667,0.705882


# 5. Predicción final

En la predicción final se utiliza el mejor modelo de cada algoritmo y se cálcula la moda.

In [29]:
prediccion = modelo.Predecir(P_test_features)

Resultados de predicción

In [30]:
E_generar_metricas(prediccion, P_test_target)

Unnamed: 0,MSE,Accuracy Score,Recall Score,F1 Score
0,0.174157,0.825843,0.619048,0.715596
