# Prueba de Modelos

<hr>

En este Notebook se probaron diferentes modelos con los datos depurados para encontrar aquellos con las mejores metricas

Se importan las librerias y herramientas necesarias

In [1]:
import pandas as pd
import numpy as np 
import matplotlib
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn import metrics
%matplotlib inline 

Importamos los datos

In [2]:
df = pd.read_pickle("data/data.pkl")

- A continuación se definen la variable objetivo y las variables independientes
- Se definen las columnas numéricas y no numéricas
- Se definen las columnas ordinales y categoricas

In [3]:
variable_objetivo = 'naturaleza'
variables_independientes = df.drop(variable_objetivo,axis=1).columns

datos_numericos = df[variables_independientes].select_dtypes([int, float])
col_no_numericas = df[variables_independientes].select_dtypes(include=['category']).columns
col_numericas = datos_numericos.columns

dict_var_ordinales = {
    'grupo_edad': ['0 a 6', '12 a 17', '18 a 28', '29 a 59', '60 y mas', '7  a 11'],
    'ciclo_de_vida':['Primera infancia', 'Infancia', 'Jovenes','Adolescencia','Adultez','Persona Mayor'],
}

col_ordinales = list(dict_var_ordinales.keys())
datos_ordinales = df[col_ordinales]
col_categoricas = list(set(col_no_numericas) - set(col_ordinales))
datos_categoricos = df[col_categoricas]

Se importan las librerias necesarias para la creacion del pipeline

In [4]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OrdinalEncoder
from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.impute import SimpleImputer

Se mappean los valores de `grupo_edad` y `ciclo_de_vida` y se crea el pipeline_ordinal y posteriormente el pipeline_procesado con las variables categoricas, el pipeline_ordinal y las columnas ordinales

In [5]:
mapping = [{'col': 'grupo_edad', 'mapping': {'0 a 6': 0,'7  a 11':1 ,'12 a 17': 2, '18 a 28': 3,'29 a 59':4,'60 y mas':5}},    {'col': 'ciclo_de_vida', 'mapping': {'Primera infancia': 0,  'Infancia': 1, 'Jovenes':2 ,'Adolescencia':3,'Adultez':4, 'Persona Mayor':5 }}]
from category_encoders import OrdinalEncoder
import category_encoders
encoder = OrdinalEncoder(mapping=mapping)

pipeline_ordinal = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('transformador_ordinal', category_encoders.ordinal.OrdinalEncoder(mapping=mapping))
])

pipeline_procesado = ColumnTransformer(
                   [('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False), col_categoricas),
                    ('ordinal', pipeline_ordinal, col_ordinales)
                   ],
                remainder = 'passthrough',
                verbose_feature_names_out = False
               ).set_output(transform="pandas")



 Se establecen los datos de entrenamiento y de prueba para los modelos

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.drop(variable_objetivo, axis=1), df[variable_objetivo], test_size=0.2, random_state=42)

In [7]:
X_train_prep = pipeline_procesado.fit_transform(X_train)
X_test_prep  = pipeline_procesado.transform(X_train)


In [8]:
from sklearn.ensemble import BaggingClassifier
from sklearn.decomposition import PCA, TruncatedSVD
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_digits
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

### Se define la funcion `evaluar_modelo`, que se encarga de evaluar los diferentes modelos a partir de las metricas obtenidas

In [1]:
def evaluar_modelo(clases_reales, predicciones, probabilidades):
    exactitudes = []
    precisiones = []
    sensibilidades = []
    f1_scores = []
    
    skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    
    for train_index, test_index in skf.split(X_train, y_train):
        # Se crea una copia del estimador del pipeline
        pipeline_estimador_copy = clone(pipeline_estimador)
        
        # Division de los datos en conjuntos de entrenamiento y prueba
        X_train_fold, X_test_fold = X_train.iloc[train_index], X_train.iloc[test_index]
        y_train_fold, y_test_fold = y_train.iloc[train_index], y_train.iloc[test_index]
        
        # Entrenamiento del modelo en el conjunto de entrenamiento actual
        pipeline_estimador_copy.fit(X_train_fold, y_train_fold)
        
        # Se obtienen las predicciones en el conjunto de prueba
        predicciones_fold = pipeline_estimador_copy.predict(X_test_fold)
        probabilidades_fold = pipeline_estimador_copy.predict_proba(X_test_fold)
        
        # Calculo de metricas
        exactitud = metrics.accuracy_score(y_test_fold, predicciones_fold)
        precision = metrics.precision_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        sensibilidad = metrics.recall_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        f1 = metrics.f1_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        
        # Se guardan las metricas
        exactitudes.append(exactitud)
        precisiones.append(precision)
        sensibilidades.append(sensibilidad)
        f1_scores.append(f1)
    
    # Calculo de promedios para cada metrica
    exactitud_promedio = np.mean(exactitudes)
    precision_promedio = np.mean(precisiones)
    sensibilidad_promedio = np.mean(sensibilidades)
    f1_promedio = np.mean(f1_scores)
    
    print("""
    Exactitud promedio: {:.3f}
    Precisión promedio: {:.3f}
    Sensibilidad promedio: {:.3f}
    Puntuación F1 promedio: {:.3f}
    """.format(
        exactitud_promedio, 
        precision_promedio,
        sensibilidad_promedio,
        f1_promedio
    ))


# PRUEBA DE MODELOS
<hr>
Primero se probara cada modelo sin parametros para escoger aquellos con mejores metricas

## Prueba con SVM

In [10]:
from sklearn.svm import SVC

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", SVC(probability=True)) 
])

In [11]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [12]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [13]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.816
    Precisión promedio: 0.805
    Sensibilidad promedio: 0.789
    Puntuación F1 promedio: 0.796
    


In [14]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.8236786935893192
Accuracy en datos de prueba: 0.8040600176522507


## Prueba Random Forest

In [15]:
from sklearn.ensemble import RandomForestClassifier

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", RandomForestClassifier())
])

In [16]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [17]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [18]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.850
    Precisión promedio: 0.840
    Sensibilidad promedio: 0.840
    Puntuación F1 promedio: 0.839
    


In [19]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 1.0
Accuracy en datos de prueba: 0.8464254192409533


## Prueba Gradient Boosting

In [20]:
from sklearn.ensemble import GradientBoostingClassifier

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("reducir_dim", PCA()),
    ("estimador", GradientBoostingClassifier())
])

In [21]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [22]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [23]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.836
    Precisión promedio: 0.827
    Sensibilidad promedio: 0.819
    Puntuación F1 promedio: 0.822
    


In [24]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.8860200816506676
Accuracy en datos de prueba: 0.8309796999117387


## Prueba LightGBM

In [10]:
import lightgbm as lgb

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", lgb.LGBMClassifier())  
])

In [11]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [12]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [13]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.850
    Precisión promedio: 0.841
    Sensibilidad promedio: 0.840
    Puntuación F1 promedio: 0.840
    


In [14]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.922211188348229
Accuracy en datos de prueba: 0.855251544571933


# Prueba XGBoost

In [20]:
import xgboost as xgb

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", xgb.XGBClassifier(objective='multi:softmax', num_class=4))
])

In [21]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [22]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [23]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.850
    Precisión promedio: 0.842
    Sensibilidad promedio: 0.840
    Puntuación F1 promedio: 0.841
    


In [24]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.9567472139468167
Accuracy en datos de prueba: 0.8508384819064431


## Prueba Regresión Logística

In [35]:
from sklearn.linear_model import LogisticRegression

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("escala", StandardScaler()),
    ("estimador", LogisticRegression(max_iter=1000))  
])

In [36]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [37]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [38]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.835
    Precisión promedio: 0.827
    Sensibilidad promedio: 0.822
    Puntuación F1 promedio: 0.825
    


In [39]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.8489462650336533
Accuracy en datos de prueba: 0.8340688437775816


## Prueba KNN

In [40]:
from sklearn.neighbors import KNeighborsClassifier

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", KNeighborsClassifier())  
])

In [41]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [42]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [43]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.793
    Precisión promedio: 0.774
    Sensibilidad promedio: 0.766
    Puntuación F1 promedio: 0.769
    


In [44]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.8521460884916694
Accuracy en datos de prueba: 0.792144748455428


## Prueba GaussianNB

In [45]:
from sklearn.naive_bayes import GaussianNB

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", GaussianNB())  
])

In [46]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [47]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [48]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.658
    Precisión promedio: 0.686
    Sensibilidad promedio: 0.682
    Puntuación F1 promedio: 0.624
    


In [49]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.6690941189451617
Accuracy en datos de prueba: 0.649602824360106


## Prueba Decision Trees

In [50]:
from sklearn.tree import DecisionTreeClassifier

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", DecisionTreeClassifier())  
])


In [51]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [52]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [53]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.783
    Precisión promedio: 0.771
    Sensibilidad promedio: 0.769
    Puntuación F1 promedio: 0.770
    


In [54]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 1.0
Accuracy en datos de prueba: 0.7833186231244483


## Prueba AdaBoost

In [55]:
from sklearn.ensemble import AdaBoostClassifier

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", AdaBoostClassifier())  
])


In [56]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [57]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [58]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.825
    Precisión promedio: 0.817
    Sensibilidad promedio: 0.812
    Puntuación F1 promedio: 0.814
    


In [59]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.8328368090036412
Accuracy en datos de prueba: 0.8203883495145631


## Prueba Neural Networks

In [60]:
from sklearn.neural_network import MLPClassifier

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", MLPClassifier())  
])


In [61]:
pipeline_estimador.fit(X=X_train, y=y_train)



In [62]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [63]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)




    Exactitud promedio: 0.810
    Precisión promedio: 0.800
    Sensibilidad promedio: 0.799
    Puntuación F1 promedio: 0.799
    




In [64]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.9611607635440803
Accuracy en datos de prueba: 0.8195057369814651


# Prueba Extra Trees

In [65]:
from sklearn.ensemble import ExtraTreesClassifier

pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", ExtraTreesClassifier())  
])

In [66]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [67]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [68]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.847
    Precisión promedio: 0.837
    Sensibilidad promedio: 0.836
    Puntuación F1 promedio: 0.836
    


In [69]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 1.0
Accuracy en datos de prueba: 0.8464254192409533


<hr> 

## Finalmente, tras de haber probado varios modelos de ML, se escogieron aquellos que arrojaron metricás más prometedoras para la siguiente etapa, donde se encuentran los mejores hiperparametros para los modelos.

<hr> 

Los algoritmos elegidos fueron:

- LightGBM
- XGBoost

Para ello, se utilizaran diversas tecnicas para la busqueda de hiperparametros como **Optuma** y **Randomized Search**