In [None]:
# ====================================
# Instalación de paquetes (OneAPI y Optimización Bayesiana)
# ====================================
#!pip install bayesian-optimization  # Instala la librería para realizar optimización bayesiana

# ====================================
# Serialización de objetos
# ====================================
import pickle  # Para guardar y cargar objetos en disco (serialización)

# ====================================
# Manejo de datos y visualización
# ====================================
import os  # Para manejo de rutas de archivos y sistema operativo
import os.path as osp  # Para la manipulación de rutas de archivos
import numpy as np  # Manipulación de arreglos y análisis numérico
import pandas as pd  # Manejo de análisis de datos a través de dataframes (datos tabulares)
import matplotlib.pyplot as plt  # Visualización de datos con gráficos generales
import seaborn as sns  # Visualización de datos con gráficos estadísticos

# ====================================
# Machine Learning - Modelos y Métricas
# ====================================
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score, StratifiedKFold, KFold
# Herramientas para dividir y validar datos, búsqueda de hiperparámetros

from sklearn.metrics import (
    roc_auc_score, f1_score, confusion_matrix, accuracy_score, make_scorer,
    cohen_kappa_score, roc_curve, auc
)  # Métricas de evaluación para modelos de clasificación

from sklearn.svm import SVC  # Clasificador de Máquinas de Soporte Vectorial (SVM)
from sklearn.ensemble import RandomForestClassifier, IsolationForest  # Modelos de ensamble: Random Forest y IsolationForest
from sklearn.neural_network import MLPClassifier  # Clasificador de redes neuronales multicapa
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis  # Análisis discriminante lineal

# ====================================
# Preprocesamiento y transformación de datos
# ====================================
from sklearn.preprocessing import (
    StandardScaler, MinMaxScaler, OneHotEncoder, RobustScaler
)  # Normalización y codificación de variables

from sklearn.impute import SimpleImputer, KNNImputer  # Imputadores para manejar valores faltantes

from sklearn.pipeline import Pipeline  # Creación de pipelines para el procesamiento y modelado de datos

from sklearn.compose import ColumnTransformer  # Transformación de columnas específicas del DataFrame

from sklearn.decomposition import PCA  # Reducción de la dimensionalidad con análisis de componentes principales

from sklearn.feature_selection import (
    SelectFromModel, SelectKBest, f_classif, mutual_info_classif
)  # Selección de características: SelectFromModel, SelectKBest, información mutua

# ====================================
# Regularización y selección de características
# ====================================
from sklearn.linear_model import LassoCV  # Lasso con validación cruzada para selección automática de características

# ====================================
# Optimización de hiperparámetros
# ====================================
from bayes_opt import BayesianOptimization  # Optimización bayesiana para la búsqueda de hiperparámetros
from bayes_opt.logger import JSONLogger  # Logger para optimización bayesiana
from bayes_opt.event import Events  # Eventos para la optimización bayesiana

# ====================================
# Estadísticas
# ====================================
from scipy import stats  # Librerías estadísticas
from scipy.stats import chi2_contingency  # Test de Chi-cuadrado
from scipy.stats.mstats import winsorize  # Winsorización de datos para limitar los valores extremos

# ====================================
# Otros
# ====================================
from IPython.display import Image  # Mostrar imágenes en el notebook
import warnings  # Desactivar warnings innecesarios
warnings.filterwarnings("ignore")  # Ignorar warnings
from xgboost import XGBClassifier  # Clasificador XGBoost

# ====================================
# Parche para utilizar las implementaciones optimizadas por Intel oneAPI (comentado)
# ====================================
# Esto "parchea" scikit-learn para que, cuando llames a sus funciones, utilice las implementaciones optimizadas por oneAPI de Intel.
# from sklearnex import patch_sklearn
# patch_sklearn()


In [4]:
!pip install bayesian-optimization
import pickle

import numpy as np
import pandas as pd
import os.path as osp
import os
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import (
    StandardScaler, MinMaxScaler, OneHotEncoder
)
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis #LDA
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectFromModel #para seleccionar los coeficientes de lasso
from sklearn.metrics import roc_auc_score, f1_score
from sklearn import set_config
from sklearn.base import BaseEstimator, TransformerMixin
set_config(display="diagram")

from sklearn.impute import KNNImputer
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import KFold
from sklearn.neural_network import MLPClassifier
from bayes_opt import BayesianOptimization
from bayes_opt.logger import JSONLogger
from bayes_opt.event import Events

import matplotlib.pyplot as plt

#Esto "parchea" scikit-learn para que, cuando llames a sus funciones, utilice las implementaciones optimizadas por oneAPI de Intel.
#from sklearnex import patch_sklearn
#patch_sklearn()


# Manejo de análisis de datos a través de dataframes (datos tabulares)
import pandas as pd
# Manipulación de arreglos y análisis numérico
import numpy as np
# Visualización de datos con gráficos estadísticos
import seaborn as sns
# Visualización de datos con gráficos generales
import matplotlib.pyplot as plt
%matplotlib inline
# Librería para el manejo de expresiones regulares
import re
# Librería para identificar variables categóricas y numéricas, y calcular asociaciones
#from dython.nominal import identify_nominal_columns, identify_numeric_columns, correlation_ratio, associations
# Librería matemática estándar de Python
import math
# Clasificación de bosque aleatorio
from sklearn.ensemble import RandomForestClassifier
# Base para crear estimadores personalizados en scikit-learn
from sklearn.base import BaseEstimator, TransformerMixin
# Herramientas de scikit-learn para la separación de datos y validación cruzada
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score, StratifiedKFold
# Escalador estándar para normalizar las características
from sklearn.preprocessing import StandardScaler, OneHotEncoder, MinMaxScaler, RobustScaler
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
# Imputador para manejar valores faltantes
from sklearn.impute import SimpleImputer
# Clasificador de Máquinas de Soporte Vectorial (SVM)
from sklearn.svm import SVC
# Clasificador de redes neuronales multicapa
from sklearn.neural_network import MLPClassifier
# Métricas de evaluación para modelos de clasificación
from sklearn.metrics import roc_auc_score, roc_curve, auc, confusion_matrix, accuracy_score, make_scorer, cohen_kappa_score
# Creación de pipelines para el procesamiento y modelado de datos
from sklearn.pipeline import Pipeline
# Para realizar transformaciones en columnas específicas del DataFrame
from sklearn.compose import ColumnTransformer
# Reducción de la dimensionalidad con análisis de componentes principales (PCA)
from sklearn.decomposition import PCA
# Selección de características basadas en la información mutua, o desde un modelo
from sklearn.feature_selection import mutual_info_classif, SelectFromModel
# Lasso con validación cruzada para regularización y selección automática de características
from sklearn.linear_model import LassoCV
# Optimización bayesiana para la búsqueda de hiperparámetros
from bayes_opt import BayesianOptimization
# Librerías estadísticas
from scipy import stats
from scipy.stats import chi2_contingency
# Winsorización de datos para limitar los valores extremos
from scipy.stats.mstats import winsorize
# Mostrar imágenes en el notebook
from IPython.display import Image
# Desactivar warnings innecesarios
import warnings
warnings.filterwarnings("ignore")
from sklearn.impute import KNNImputer
from sklearn.ensemble import IsolationForest
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.linear_model import LassoCV
from sklearn.feature_selection import SelectFromModel
from xgboost import XGBClassifier
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.decomposition import PCA
import numpy as np


Collecting bayesian-optimization
  Downloading bayesian_optimization-1.5.1-py3-none-any.whl.metadata (16 kB)
Collecting colorama<0.5.0,>=0.4.6 (from bayesian-optimization)
  Downloading colorama-0.4.6-py2.py3-none-any.whl.metadata (17 kB)
Downloading bayesian_optimization-1.5.1-py3-none-any.whl (28 kB)
Downloading colorama-0.4.6-py2.py3-none-any.whl (25 kB)
Installing collected packages: colorama, bayesian-optimization
Successfully installed bayesian-optimization-1.5.1 colorama-0.4.6


In [5]:
df_train = pd.read_parquet(r"https://github.com/alfa7g7/Fundamentos-analitica-II/raw/refs/heads/main/UNIDAD%20II/Proyecto%20final%20PSA/Data/df_train.parquet")
print(df_train.shape)
df_train.head()

(23494, 46)


Unnamed: 0_level_0,MEDICAMENTOS,MEDICINA ESPECIALIZADA,MEDICINA GENERAL,Cant_gr_flia,Cant_riesgos_flia_mean,min_Tiempo_CP_Fliar,Cant_Fliar_CP,psa_max_gr_flia,psa_min_gr_flia,Cant_Fliar_riesgos,...,CORONARIOS_FAMILIAR,CEREBRAL,CEREBRAL_FAMILIAR,ENFERMEDAD_RENAL,ENFERMEDAD_RENAL_FAMILIAR,OTROS_ANTECEDENTES_VASCULARES,Target,Pendiente,Intercepto,Promedio_costo
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
16484,12.0,3.0,3.0,2,0.0,,0.0,,,0.0,...,0,0,0,0,0,0,0,58373.057143,-110021.2,188569.0
11528,6.0,1.0,1.0,2,0.5,,0.0,,,1.0,...,0,0,0,0,0,0,0,19618.942857,-36176.133333,97470.5
26630,1.0,0.0,2.0,2,0.0,,0.0,,,0.0,...,0,0,0,0,0,0,1,398534.0,-626628.0,2304723.0
12586,6.0,0.0,2.0,2,0.0,,0.0,,,0.0,...,0,0,0,0,0,0,0,1292.6,13410.733333,53804.5
11225,3.0,0.0,2.0,1,1.0,,0.0,,,1.0,...,2,2,2,2,2,2,0,13728.714286,-27375.666667,41349.67


In [6]:
df_test = pd.read_parquet(r"https://github.com/alfa7g7/Fundamentos-analitica-II/raw/refs/heads/main/UNIDAD%20II/Proyecto%20final%20PSA/Data/df_test.parquet")
print(df_test.shape)
df_test.head()

(10069, 45)


Unnamed: 0_level_0,MEDICAMENTOS,MEDICINA ESPECIALIZADA,MEDICINA GENERAL,Cant_gr_flia,Cant_riesgos_flia_mean,min_Tiempo_CP_Fliar,Cant_Fliar_CP,psa_max_gr_flia,psa_min_gr_flia,Cant_Fliar_riesgos,...,CORONARIOS,CORONARIOS_FAMILIAR,CEREBRAL,CEREBRAL_FAMILIAR,ENFERMEDAD_RENAL,ENFERMEDAD_RENAL_FAMILIAR,OTROS_ANTECEDENTES_VASCULARES,Pendiente,Intercepto,Promedio_costo
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
12596,2.0,4.0,2.0,2,0.0,,0.0,,,0.0,...,0,0,0,0,0,0,0,5421180.0,-12566170.0,9611937.0
29326,4.0,0.0,1.0,1,0.0,,0.0,,,0.0,...,0,0,0,0,0,0,0,-9504.343,59977.87,80138.0
24338,0.0,0.0,1.0,2,0.0,,0.0,,,0.0,...,0,0,0,0,0,0,0,2477.143,-5780.0,17340.0
11167,1.0,0.0,0.0,1,0.0,,0.0,,,0.0,...,1,0,1,0,1,0,0,3597.143,-8393.333,25180.0
22074,36.0,0.0,1.0,3,0.666667,,0.0,,,1.0,...,0,0,0,0,0,0,0,-9042.514,630988.1,599339.3


In [7]:
# Creamos un Transformer personalizado para realizar la eliminación de variables
# a partir de su origen contable
class Remove_cash_flow_features(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        result = X.copy()
        result = result.drop(columns=['Intercepto',
                                      'Intercepto_flia',
                                      'Pendiente',
                                      'Pendiente_flia',
                                      'Promedio_costo',
                                      'Promedio_costo_flia'])
        return result

In [8]:
# Creamos un Transformer para renombrar y dar formato a las columnas
class Rename_columns(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        result = X.copy()

        # Aplicamos el formato: eliminamos espacios, convertimos a minúsculas y reemplazamos por guiones bajos
        new_cols = []
        for col in result.columns:
            new_cols.append(re.sub(r'\s+', ' ', col.strip()).replace(' ', '_').lower())
        result.columns = new_cols

        # Renombramos columnas específicas si es necesario
        result = result.rename(columns={'estado_civi': 'estado_civil'})  #cambiamos el nombre a esta variable porque parece incompleto

        return result

In [9]:
# Creamos un Transformer Trabajando con los nombres de las columnas para imputar valores específicos
class Custom_imputer(BaseEstimator, TransformerMixin):

    def __init__(self, custom_values=None):
        # Definir los valores específicos para las columnas que deseas imputar manualmente si no se pasa custom_values
        if custom_values is None:
            self.custom_values = {
                'cancer_mama_familiar': '2',  # CANCER_MAMA_FAMILIAR (cancer_mama_familiar), agregamos una categoria 2 que indique que el valor no se evidencia.
                'riesgos': 0,  # RIESGOS (riesgos), los valores nulos corresponden a que aun no se les ha identifcado algun riesgo, por lo tanto, se pueden marcar con 0 (cero) riesgos.
                'imc': 'No_medido'  # IMC (imc), los valores nulos corresponden a que aun no se les ha identifcado IMC, creamos una nueva categoria para no imputar por moda
            }
        else:
            self.custom_values = custom_values  # Usar el diccionario proporcionado si se pasa uno

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        result = X.copy()
        for col, value in self.custom_values.items():
            result[col].fillna(value, inplace=True)  # Imputar valor específico usando el nombre de la columna
        return result

In [10]:
# Creamos un Transformer para eliminar variables que tengan más de 75% de datos nulos o faltantes
class Drop_columns_by_missing_Values(BaseEstimator, TransformerMixin):
    def __init__(self, threshold=0.75):  # Umbral en porcentaje, 0.75 = 75%
        self.threshold = threshold
        self.columns_to_drop = []

    def fit(self, X, y=None):
        # Calcular el porcentaje de valores faltantes por columna
        percent_missing = X.isnull().mean()
        # Guardar las columnas que superan el umbral
        self.columns_to_drop = percent_missing[percent_missing > self.threshold].index
        return self

    def transform(self, X, y=None):
        # Eliminar las columnas que superan el umbral
        return X.drop(columns=self.columns_to_drop)

In [12]:
# Creamos un Transformer Trabajando con los nombres de las columnas para imputar valores específicos a variables numericas
class Custom_imputer_num(BaseEstimator, TransformerMixin):

    def __init__(self, custom_values=None):
        # Definir los valores específicos para las columnas que deseas imputar manualmente si no se pasa custom_values
        if custom_values is None:
            self.custom_values = {
                'RIESGOS': 0,  # RIESGOS (riesgos), los valores nulos corresponden a que aun no se les ha identifcado algun riesgo, por lo tanto, se pueden marcar con 0 (cero) riesgos.
            }
        else:
            self.custom_values = custom_values  # Usar el diccionario proporcionado si se pasa uno

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        result = X.copy()
        for col, value in self.custom_values.items():
            result[col].fillna(value, inplace=True)  # Imputar valor específico usando el nombre de la columna
        return result

In [13]:
# Creamos un Transformer Trabajando con los nombres de las columnas para imputar valores específicos a variables categóricas
class Custom_imputer_cat(BaseEstimator, TransformerMixin):

    def __init__(self, custom_values=None):
        # Definir los valores específicos para las columnas que deseas imputar manualmente si no se pasa custom_values
        if custom_values is None:
            self.custom_values = {
                'CANCER_MAMA_FAMILIAR': '2',  # CANCER_MAMA_FAMILIAR (cancer_mama_familiar), agregamos una categoria 2 que indique que el valor no se evidencia.
                'IMC': 'No_medido'  # IMC (imc), los valores nulos corresponden a que aun no se les ha identifcado IMC, creamos una nueva categoria para no imputar por moda
            }
        else:
            self.custom_values = custom_values  # Usar el diccionario proporcionado si se pasa uno

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        result = X.copy()
        for col, value in self.custom_values.items():
            result[col].fillna(value, inplace=True)  # Imputar valor específico usando el nombre de la columna
        return result

In [14]:
df = df_train.copy(deep=True)

In [15]:
# Separar variable objetivo y características
X = df.drop('Target', axis=1)
y = df['Target']

# Separar en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [16]:
var_numericas = df_train.select_dtypes(include=['int64', 'float64']).columns.tolist()
var_categoricas = df_train.select_dtypes(include=['object', 'category']).columns.tolist()

# VERSION 1

Ahora probemos con una versión para el modelo XGBOOST

In [18]:
def entrenar_XGBOOST(num_pca, xg_n_estimators, xg_max_depth, xg_learning_rate, xg_min_child_weight, xg_base_score):

    num_pca = int(round(num_pca))
    xg_n_estimators = int(round(xg_n_estimators))
    xg_max_depth = int(round(xg_max_depth))
    xg_min_child_weight = int(round(xg_min_child_weight))

    # Primero, imputar los valores faltantes en las variables numéricas
    #knn_imputer = KNNImputer(n_neighbors=5)
    #X_train_num = X_train[var_numericas]
    #X_train_num_imputed = knn_imputer.fit_transform(X_train_num)  # Imputar valores faltantes en las variables numéricas

    # Aplicar IsolationForest a las variables numéricas imputadas
    #isolation_forest = IsolationForest(contamination=0.01, random_state=42)
    #is_outlier = isolation_forest.fit_predict(X_train_num_imputed)  # Detectar outliers (-1 es outlier)

    # Filtrar los datos para eliminar los outliers en todo el conjunto (numéricas y categóricas)
    #X_train_filtered = X_train[is_outlier == 1]
    #y_train_filtered = y_train[is_outlier == 1]

    # Pipelines para transformar variables numéricas y categóricas
    num_transformer = Pipeline(steps=[('custom imputer num', Custom_imputer_num()),
                                      ('drop columns > 75%', Drop_columns_by_missing_Values()),
                                      ('imputer', KNNImputer(n_neighbors=5)),  # Usar KNNImputer
                                      ('scaler', RobustScaler(quantile_range=(10.0, 90.0))), # Cambiado a RobustScaler
                                      ('PCA', PCA(n_components=num_pca))])

    cat_transformer = Pipeline(steps=[('custom imputer cat', Custom_imputer_cat()),
                                      ('drop columns > 75%', Drop_columns_by_missing_Values()),
                                      ('imputer', SimpleImputer(strategy='most_frequent')),
                                      ('onehot', OneHotEncoder(handle_unknown='ignore'))])

    preprocessor = ColumnTransformer(transformers=[('num', num_transformer, var_numericas),
                                                   ('cat', cat_transformer, var_categoricas)])

    # Crear el pipeline con preprocesamiento,
    steps = [('preprocessor', preprocessor),
             #('feature_selection', SelectKBest(f_classif, k=20)),  # Selección de las 20 mejores características
             ("XGB", XGBClassifier( n_stimators = xg_n_estimators,
                                   max_depth = xg_max_depth,
                                   learning_rate = xg_learning_rate,
                                   min_child_weight = xg_min_child_weight,
                                   base_score = xg_base_score))]

    pipeline = Pipeline(steps)

    # Entrenar el pipeline con los datos filtrados (sin outliers)
    #pipeline.fit(X_train_filtered, y_train_filtered)
    pipeline.fit(X_train, y_train)

    score = pipeline.score(X_test, y_test)
    print(f"Evaluando (pca={num_pca}, n_stimators{xg_n_estimators}, max_depth{xg_max_depth}, learning_rate{xg_learning_rate}, min_child_weight{xg_min_child_weight}, base_score{xg_base_score}): {score}")

    # Definir el esquema de validación cruzada (StratifiedKFold para datos desbalanceados)
    cv = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)

    # Definir la métrica ROC AUC para la validación cruzada
    roc_auc = make_scorer(roc_auc_score, needs_proba=True)

    # Ejecutar la validación cruzada con ROC AUC usando los datos filtrados
    #scores = cross_val_score(pipeline, X_train_filtered, y_train_filtered, cv=cv, scoring=roc_auc)
    scores = cross_val_score(pipeline, X_train, y_train, cv=cv, scoring=roc_auc)

    print(f"ROC AUC para cada fold: {scores}")
    print(f"Promedio de ROC AUC: {scores.mean()}")

    return scores.mean()  #score #roc_auc


In [37]:
# con IsolationForest
entrenar_XGBOOST(num_pca=10, xg_n_estimators=100, xg_max_depth=3, xg_learning_rate=0.05, xg_min_child_weight=1, xg_base_score=0.25)

Evaluando (pca=10, n_stimators100, max_depth3, learning_rate0.05, min_child_weight1, base_score0.25): 0.7142857142857143
ROC AUC para cada fold: [0.55961802 0.57185193 0.5698741 ]
Promedio de ROC AUC: 0.5671146837758853


0.5671146837758853

In [49]:
# con IsolationForest
pbounds = {'xg_n_estimators': (100, 1500), 'xg_max_depth': (2, 15),      'xg_learning_rate': (0.05, 0.95),
           'xg_min_child_weight': (1, 4),  'xg_base_score': (0.25, 0.99), 'num_pca': (2, 10) }

In [50]:
# con IsolationForest
np.random.seed(42)
optimizer = BayesianOptimization(
    f=entrenar_XGBOOST,
    pbounds=pbounds,
    random_state=1,
    verbose=2
)

In [51]:
# con IsolationForest

%%time
optimizer.maximize(
    init_points=5,
    n_iter=30,
)

|   iter    |  target   |  num_pca  | xg_bas... | xg_lea... | xg_max... | xg_min... | xg_n_e... |
-------------------------------------------------------------------------------------------------
Evaluando (pca=5, n_stimators229, max_depth6, learning_rate0.0501029373356104, min_child_weight1, base_score0.783040125147197): 0.7176904525464605
ROC AUC para cada fold: [0.60228187 0.62592825 0.60913067]
Promedio de ROC AUC: 0.6124469292245173
| [39m1        [39m | [39m0.6124   [39m | [39m5.336    [39m | [39m0.783    [39m | [39m0.0501   [39m | [39m5.93     [39m | [39m1.44     [39m | [39m229.3    [39m |
Evaluando (pca=3, n_stimators1059, max_depth9, learning_rate0.4070907268076029, min_child_weight2, base_score0.5057149380118553): 0.7927365583770748
ROC AUC para cada fold: [0.68943021 0.70162074 0.69099173]
Promedio de ROC AUC: 0.6940142230224012
| [35m2        [39m | [35m0.694    [39m | [35m3.49     [39m | [35m0.5057   [39m | [35m0.4071   [39m | [35m9.005    [39m 

In [52]:
# con IsolationForest
optimizer.max

{'target': 0.7256378284471386,
 'params': {'num_pca': 10.0,
  'xg_base_score': 0.25,
  'xg_learning_rate': 0.05,
  'xg_max_depth': 15.0,
  'xg_min_child_weight': 1.0,
  'xg_n_estimators': 1091.8373563055134}}

In [57]:
# con IsolationForest
pbounds = {'xg_n_estimators': (500, 1500), 'xg_max_depth': (10, 15),      'xg_learning_rate': (0.5, 1.5),
           'xg_min_child_weight': (2, 4),  'xg_base_score': (0.25, 0.99), 'num_pca': (7, 10) }

optimizer.set_bounds(pbounds)

In [58]:
# con IsolationForest
%%time
optimizer.maximize(
    init_points=5,
    n_iter=90,
)

|   iter    |  target   |  num_pca  | xg_bas... | xg_lea... | xg_max... | xg_min... | xg_n_e... |
-------------------------------------------------------------------------------------------------
Evaluando (pca=7, n_stimators737, max_depth13, learning_rate0.9499121334799405, min_child_weight3, base_score0.9526220514432328): 0.7149950347567031
ROC AUC para cada fold: [0.5 0.5 0.5]
Promedio de ROC AUC: 0.5
| [39m52       [39m | [39m0.5      [39m | [39m7.344    [39m | [39m0.9526   [39m | [39m0.9499   [39m | [39m12.89    [39m | [39m2.816    [39m | [39m737.0    [39m |
Evaluando (pca=10, n_stimators1027, max_depth13, learning_rate0.502870327031159, min_child_weight3, base_score0.6745228201374915): 0.8252234359483615
ROC AUC para cada fold: [0.708355   0.73708296 0.72168328]
Promedio de ROC AUC: 0.7223737444711192
| [39m53       [39m | [39m0.7224   [39m | [39m9.71     [39m | [39m0.6745   [39m | [39m0.5029   [39m | [39m13.09    [39m | [39m2.653    [39m | [39m1.02

In [19]:
# Sin IsolationForest
entrenar_XGBOOST(num_pca=10, xg_n_estimators=499, xg_max_depth=15, xg_learning_rate=0.95, xg_min_child_weight=4, xg_base_score=0.25)

Evaluando (pca=10, n_stimators499, max_depth15, learning_rate0.95, min_child_weight4, base_score0.25): 0.8100439778692013
ROC AUC para cada fold: [0.71246178 0.69591739 0.71787851]
Promedio de ROC AUC: 0.708752560069899


0.708752560069899

In [20]:
# Sin IsolationForest
pbounds = {'xg_n_estimators': (400, 1500), 'xg_max_depth': (6, 15),      'xg_learning_rate': (0.3, 0.95),
           'xg_min_child_weight': (1, 4),  'xg_base_score': (0.25, 0.99), 'num_pca': (2, 10) }

In [21]:
# Sin IsolationForest
np.random.seed(42)
optimizer = BayesianOptimization(
    f=entrenar_XGBOOST,
    pbounds=pbounds,
    random_state=1,
    verbose=2
)

In [22]:
# sin IsolationForest

%%time
optimizer.maximize(
    init_points=5,
    n_iter=30,
)

|   iter    |  target   |  num_pca  | xg_bas... | xg_lea... | xg_max... | xg_min... | xg_n_e... |
-------------------------------------------------------------------------------------------------
Evaluando (pca=5, n_stimators502, max_depth9, learning_rate0.30007434363127417, min_child_weight1, base_score0.783040125147197): 0.8257908923251525
ROC AUC para cada fold: [0.71398227 0.68505791 0.71607135]
Promedio de ROC AUC: 0.7050371767098672
| [39m1        [39m | [39m0.705    [39m | [39m5.336    [39m | [39m0.783    [39m | [39m0.3001   [39m | [39m8.721    [39m | [39m1.44     [39m | [39m501.6    [39m |
Evaluando (pca=3, n_stimators1154, max_depth11, learning_rate0.5578988582499353, min_child_weight2, base_score0.5057149380118553): 0.8157185416371117
ROC AUC para cada fold: [0.70413855 0.68739891 0.69506956]
Promedio de ROC AUC: 0.6955356706607402
| [39m2        [39m | [39m0.6955   [39m | [39m3.49     [39m | [39m0.5057   [39m | [39m0.5579   [39m | [39m10.85    [39

In [23]:
# Sin IsolationForest
optimizer.max

{'target': 0.7075938118418216,
 'params': {'num_pca': 5.962115800060711,
  'xg_base_score': 0.25,
  'xg_learning_rate': 0.95,
  'xg_max_depth': 10.317642709248442,
  'xg_min_child_weight': 1.0,
  'xg_n_estimators': 1155.2006774602924}}

In [24]:
# Sin IsolationForest
pbounds = {'xg_n_estimators': (400, 1500), 'xg_max_depth': (7, 20),      'xg_learning_rate': (0.5, 1.5),
           'xg_min_child_weight': (1, 4),  'xg_base_score': (0.25, 0.99), 'num_pca': (7, 15) }

optimizer.set_bounds(pbounds)

In [25]:
# Sin IsolationForest
%%time
optimizer.maximize(
    init_points=5,
    n_iter=90,
)

|   iter    |  target   |  num_pca  | xg_bas... | xg_lea... | xg_max... | xg_min... | xg_n_e... |
-------------------------------------------------------------------------------------------------
Evaluando (pca=8, n_stimators747, max_depth14, learning_rate1.457889530150502, min_child_weight3, base_score0.5616196425037385): 0.7832316640658249
ROC AUC para cada fold: [0.70251901 0.67668299 0.71244502]
Promedio de ROC AUC: 0.6972156716879807
| [39m36       [39m | [39m0.6972   [39m | [39m7.787    [39m | [39m0.5616   [39m | [39m1.458    [39m | [39m13.93    [39m | [39m3.076    [39m | [39m747.1    [39m |
Evaluando (pca=12, n_stimators1223, max_depth17, learning_rate0.5182882773441918, min_child_weight4, base_score0.867622997204056): 0.8273513973613279
ROC AUC para cada fold: [0.73589214 0.70352554 0.73051712]
Promedio de ROC AUC: 0.7233115994531515
| [35m37       [39m | [35m0.7233   [39m | [35m12.49    [39m | [35m0.8676   [39m | [35m0.5183   [39m | [35m16.75    [39

In [26]:
optimizer.max

{'target': 0.7444977630346766,
 'params': {'num_pca': 15.0,
  'xg_base_score': 0.25,
  'xg_learning_rate': 0.5,
  'xg_max_depth': 14.697162692406685,
  'xg_min_child_weight': 2.0507065866376033,
  'xg_n_estimators': 1223.548518257205}}

- **Aquí empieza el envío del submit a la competencia**

In [27]:
best_params = optimizer.max['params']

In [28]:
best_params

{'num_pca': 15.0,
 'xg_base_score': 0.25,
 'xg_learning_rate': 0.5,
 'xg_max_depth': 14.697162692406685,
 'xg_min_child_weight': 2.0507065866376033,
 'xg_n_estimators': 1223.548518257205}

In [31]:
# Envío con los datos de optimizer max

best_params = optimizer.max['params']

best_params['xg_n_estimators'] = int(best_params['xg_n_estimators'])
best_params['xg_max_depth'] = int(best_params['xg_max_depth'])
best_params['xg_min_child_weight'] = int(best_params['xg_min_child_weight'])
best_params['num_pca'] = int(best_params['num_pca'])

print(f'Mejores parámetros: {best_params}')

# Pipelines para transformar variables numéricas y categóricas
num_transformer = Pipeline(steps=[('custom imputer num', Custom_imputer_num()),
                                  ('drop columns > 75%', Drop_columns_by_missing_Values()),
                                  ('imputer', KNNImputer(n_neighbors=5)),  # Usar KNNImputer
                                  ('scaler', RobustScaler(quantile_range=(10.0, 90.0))), # Cambiado a RobustScaler
                                  ('PCA', PCA(n_components = best_params['num_pca']))])

cat_transformer = Pipeline(steps=[('custom imputer cat', Custom_imputer_cat()),
                                  ('drop columns > 75%', Drop_columns_by_missing_Values()),
                                  ('imputer', SimpleImputer(strategy='most_frequent')),
                                  ('onehot', OneHotEncoder(handle_unknown='ignore'))])

preprocessor = ColumnTransformer(transformers=[('num', num_transformer, var_numericas),
                                               ('cat', cat_transformer, var_categoricas)])

# Crear el pipeline con preprocesamiento y el clasificador
steps = [('preprocessor', preprocessor),
         #('feature_selection', SelectKBest(f_classif, k=20)),  # Selección de las 20 mejores características
         ("XGB", XGBClassifier( n_stimators = best_params['xg_n_estimators'],
                                max_depth = best_params['xg_max_depth'],
                                learning_rate = best_params['xg_learning_rate'],
                                min_child_weight = best_params['xg_min_child_weight'],
                                base_score = best_params['xg_base_score']))]

pipeline = Pipeline(steps)

# Entrenar el modelo con los datos
pipeline.fit(X_train, y_train)

Mejores parámetros: {'num_pca': 15, 'xg_base_score': 0.25, 'xg_learning_rate': 0.5, 'xg_max_depth': 14, 'xg_min_child_weight': 2, 'xg_n_estimators': 1223}


In [32]:
y_pred = pipeline.predict_proba(X_test)[:, 1]
auc = roc_auc_score(y_test, y_pred)
print(f'AUC para SVC: {auc}')

AUC para SVC: 0.8043629730301253


In [33]:
# Entrenar el modelo con los datos completos
pipeline.fit(X, y)

In [34]:
submission_pred = pipeline.predict_proba(df_test)[:, 1]
submission = pd.DataFrame(data=dict(ID=df_test.index, Target=submission_pred))

In [36]:
submission.to_csv("submission_1_pipeline-XGB-A_team.csv", index=False)
#submission.to_csv(r"C:\Users\alfa7\OneDrive\Documentos\ICESI\MAESTRIA CIENCIA DE DATOS\2do semestre\Fundamentos de analitica II\Unidad II\Proyecto PSA\Submissions\submission_1_pipeline-XGB-A_team.csv", index=False)

In [41]:
# Guardamos el modelo y sus parámetros
import pickle

# Guardar el modelo entrenado
filename = 'xgb_model.sav'
pickle.dump(pipeline, open(filename, 'wb'))

# Guardar los mejores parámetros encontrados
params_filename = 'best_params.pkl'
with open(params_filename, 'wb') as f:
    pickle.dump(best_params, f)

print(f"Modelo guardado como {filename}")
print(f"Mejores parámetros guardados como {params_filename}")


Modelo guardado como xgb_model.sav
Mejores parámetros guardados como best_params.pkl


# VERSION 2

Ahora probemos con otra versión para el modelo XGBOOST incluyendole una seleccion de variables con lasso

In [44]:
def entrenar_XGBOOST_v2(num_pca, xg_n_estimators, xg_max_depth, xg_learning_rate, xg_min_child_weight, xg_base_score):

    num_pca = int(round(num_pca))
    xg_n_estimators = int(round(xg_n_estimators))
    xg_max_depth = int(round(xg_max_depth))
    xg_min_child_weight = int(round(xg_min_child_weight))

    # Primero, imputar los valores faltantes en las variables numéricas
    #knn_imputer = KNNImputer(n_neighbors=5)
    #X_train_num = X_train[var_numericas]
    #X_train_num_imputed = knn_imputer.fit_transform(X_train_num)  # Imputar valores faltantes en las variables numéricas

    # Aplicar IsolationForest a las variables numéricas imputadas
    #isolation_forest = IsolationForest(contamination=0.01, random_state=42)
    #is_outlier = isolation_forest.fit_predict(X_train_num_imputed)  # Detectar outliers (-1 es outlier)

    # Filtrar los datos para eliminar los outliers en todo el conjunto (numéricas y categóricas)
    #X_train_filtered = X_train[is_outlier == 1]
    #y_train_filtered = y_train[is_outlier == 1]

    # Pipelines para transformar variables numéricas y categóricas
    num_transformer = Pipeline(steps=[('custom imputer num', Custom_imputer_num()),
                                      ('drop columns > 75%', Drop_columns_by_missing_Values()),
                                      ('imputer', KNNImputer(n_neighbors=5)),  # Usar KNNImputer
                                      ('scaler', RobustScaler(quantile_range=(10.0, 90.0))), # Cambiado a RobustScaler
                                      ('PCA', PCA(n_components=num_pca))])

    cat_transformer = Pipeline(steps=[('custom imputer cat', Custom_imputer_cat()),
                                      ('drop columns > 75%', Drop_columns_by_missing_Values()),
                                      ('imputer', SimpleImputer(strategy='most_frequent')),
                                      ('onehot', OneHotEncoder(handle_unknown='ignore'))])

    preprocessor = ColumnTransformer(transformers=[('num', num_transformer, var_numericas),
                                                   ('cat', cat_transformer, var_categoricas)])


    # Selección de características con Lasso
    feature_selector = SelectFromModel(LassoCV(cv=5, random_state=42))

    # Crear el pipeline con preprocesamiento,
    steps_v2 = [('preprocessor', preprocessor),
                ('feature selection', feature_selector),  # Selección de las características con lasso
                #('feature selection', SelectKBest(f_classif, k=20)),  # Selección de las 20 mejores características
                ("XGB", XGBClassifier(n_stimators = xg_n_estimators,
                                      max_depth = xg_max_depth,
                                      learning_rate = xg_learning_rate,
                                      min_child_weight = xg_min_child_weight,
                                      base_score = xg_base_score))]

    pipeline_v2 = Pipeline(steps_v2)

    # Entrenar el pipeline con los datos filtrados (sin outliers)
    #pipeline.fit(X_train_filtered, y_train_filtered)
    pipeline_v2.fit(X_train, y_train)

    score = pipeline_v2.score(X_test, y_test)
    print(f"Evaluando (pca={num_pca}, n_stimators{xg_n_estimators}, max_depth{xg_max_depth}, learning_rate{xg_learning_rate}, min_child_weight{xg_min_child_weight}, base_score{xg_base_score}): {score}")

    # Definir el esquema de validación cruzada (StratifiedKFold para datos desbalanceados)
    cv = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)

    # Definir la métrica ROC AUC para la validación cruzada
    roc_auc = make_scorer(roc_auc_score, needs_proba=True)

    # Ejecutar la validación cruzada con ROC AUC usando los datos filtrados
    #scores = cross_val_score(pipeline, X_train_filtered, y_train_filtered, cv=cv, scoring=roc_auc)
    scores = cross_val_score(pipeline_v2, X_train, y_train, cv=cv, scoring=roc_auc)

    print(f"ROC AUC para cada fold: {scores}")
    print(f"Promedio de ROC AUC: {scores.mean()}")

    return scores.mean()  #score #roc_auc


In [45]:
# Con selección de las características con lasso
entrenar_XGBOOST_v2(num_pca=15, xg_n_estimators=1223, xg_max_depth=14, xg_learning_rate=0.5, xg_min_child_weight=2, xg_base_score=0.25)

Evaluando (pca=15, n_stimators1223, max_depth14, learning_rate0.5, min_child_weight2, base_score0.25): 0.8382749326145552
ROC AUC para cada fold: [0.74428307 0.72849761 0.74421831]
Promedio de ROC AUC: 0.7389996618780428


0.7389996618780428

In [46]:
# Con selección de las características con lasso
pbounds = {'xg_n_estimators': (400, 1500), 'xg_max_depth': (7, 20),      'xg_learning_rate': (0.5, 1.5),
           'xg_min_child_weight': (1, 4),  'xg_base_score': (0.25, 0.99), 'num_pca': (7, 15) }

In [47]:
# Con selección de las características con lasso
np.random.seed(42)
optimizer = BayesianOptimization(
    f = entrenar_XGBOOST_v2,
    pbounds = pbounds,
    random_state = 1,
    verbose = 2
)

In [48]:
# Con selección de las características con lasso

%%time
optimizer.maximize(
    init_points=5,
    n_iter=30,
)

|   iter    |  target   |  num_pca  | xg_bas... | xg_lea... | xg_max... | xg_min... | xg_n_e... |
-------------------------------------------------------------------------------------------------
Evaluando (pca=10, n_stimators502, max_depth11, learning_rate0.5001143748173449, min_child_weight1, base_score0.783040125147197): 0.8317491842814584
ROC AUC para cada fold: [0.71183824 0.70419449 0.72124918]
Promedio de ROC AUC: 0.7124273014288246
| [39m1        [39m | [39m0.7124   [39m | [39m10.34    [39m | [39m0.783    [39m | [39m0.5001   [39m | [39m10.93    [39m | [39m1.44     [39m | [39m501.6    [39m |
Evaluando (pca=8, n_stimators1154, max_depth14, learning_rate0.8967674742306699, min_child_weight2, base_score0.5057149380118553): 0.8127393956589587
ROC AUC para cada fold: [0.70969151 0.69845036 0.71497031]
Promedio de ROC AUC: 0.7077040589651693
| [39m2        [39m | [39m0.7077   [39m | [39m8.49     [39m | [39m0.5057   [39m | [39m0.8968   [39m | [39m14.0     [3

In [49]:
optimizer.max

{'target': 0.7403891280506146,
 'params': {'num_pca': 15.0,
  'xg_base_score': 0.25,
  'xg_learning_rate': 0.5,
  'xg_max_depth': 9.751971158510871,
  'xg_min_child_weight': 1.0,
  'xg_n_estimators': 1364.1632847980084}}

In [50]:
# Con selección de las características con lasso
pbounds = {'xg_n_estimators': (1000, 2000),
           'xg_max_depth': (7, 20),
           'xg_learning_rate': (0.5, 1.5),
           'xg_min_child_weight': (1, 4),
           'xg_base_score': (0.25, 0.99),
           'num_pca': (10, 20) }

optimizer.set_bounds(pbounds)

In [51]:
# Con selección de las características con lasso
%%time
optimizer.maximize(
    init_points=5,
    n_iter=90,
)

|   iter    |  target   |  num_pca  | xg_bas... | xg_lea... | xg_max... | xg_min... | xg_n_e... |
-------------------------------------------------------------------------------------------------
Evaluando (pca=11, n_stimators1316, max_depth14, learning_rate1.457889530150502, min_child_weight3, base_score0.5616196425037385): 0.783799120442616
ROC AUC para cada fold: [0.70769634 0.68680223 0.70490019]
Promedio de ROC AUC: 0.6997995850696949
| [39m36       [39m | [39m0.6998   [39m | [39m10.98    [39m | [39m0.5616   [39m | [39m1.458    [39m | [39m13.93    [39m | [39m3.076    [39m | [39m1.316e+03[39m |
Evaluando (pca=17, n_stimators1748, max_depth17, learning_rate0.5182882773441918, min_child_weight4, base_score0.867622997204056): 0.8283444460207121
ROC AUC para cada fold: [0.74209151 0.71849865 0.73890603]
Promedio de ROC AUC: 0.7331653977554259
| [39m37       [39m | [39m0.7332   [39m | [39m16.87    [39m | [39m0.8676   [39m | [39m0.5183   [39m | [39m16.75    [3

In [52]:
optimizer.max

{'target': 0.7449216331395939,
 'params': {'num_pca': 17.18523721528349,
  'xg_base_score': 0.25,
  'xg_learning_rate': 0.5,
  'xg_max_depth': 10.026062627939924,
  'xg_min_child_weight': 1.0,
  'xg_n_estimators': 1360.5136586404233}}

In [53]:
# Con selección de las características con lasso
pbounds = {
    'xg_n_estimators': (1250, 1800),  # Enfocar en valores altos que han sido consistentes
    'xg_max_depth': (12, 18),  # Profundidades efectivas entre 12 y 18
    'xg_learning_rate': (0.3, 0.6),  # Limitar a tasas de aprendizaje efectivas
    'xg_min_child_weight': (1, 2),  # Centrado en los valores más efectivos
    'xg_base_score': (0.25, 0.5),  # Reducir para centrarse en los valores que funcionaron
    'num_pca': (13, 18)  # Los valores de PCA más consistentes
}
optimizer.set_bounds(pbounds)

In [54]:
# Con selección de las características con lasso
%%time
optimizer.maximize(
    init_points=5,
    n_iter=90,
)

|   iter    |  target   |  num_pca  | xg_bas... | xg_lea... | xg_max... | xg_min... | xg_n_e... |
-------------------------------------------------------------------------------------------------
Evaluando (pca=14, n_stimators1545, max_depth14, learning_rate0.5083200473183235, min_child_weight1, base_score0.35351399695489205): 0.8452262732302455
ROC AUC para cada fold: [0.74111111 0.72324385 0.74215002]
Promedio de ROC AUC: 0.7355016592153628
| [39m131      [39m | [39m0.7355   [39m | [39m13.51    [39m | [39m0.3535   [39m | [39m0.5083   [39m | [39m14.49    [39m | [39m1.05     [39m | [39m1.545e+03[39m |
Evaluando (pca=16, n_stimators1326, max_depth16, learning_rate0.5833784267972439, min_child_weight2, base_score0.37872227801457714): 0.8394098453681373
ROC AUC para cada fold: [0.74511044 0.72985968 0.73737519]
Promedio de ROC AUC: 0.7374484341136608
| [39m132      [39m | [39m0.7374   [39m | [39m16.32    [39m | [39m0.3787   [39m | [39m0.5834   [39m | [39m15.52  

In [55]:
optimizer.max

{'target': 0.7477418854266938,
 'params': {'num_pca': 16.55259166217084,
  'xg_base_score': 0.25,
  'xg_learning_rate': 0.3,
  'xg_max_depth': 12.0,
  'xg_min_child_weight': 1.0,
  'xg_n_estimators': 1445.1209823535894}}

- Aquí inicia el envío

In [56]:
best_params = optimizer.max['params']

In [57]:
best_params

{'num_pca': 16.55259166217084,
 'xg_base_score': 0.25,
 'xg_learning_rate': 0.3,
 'xg_max_depth': 12.0,
 'xg_min_child_weight': 1.0,
 'xg_n_estimators': 1445.1209823535894}

In [58]:
# Envío con los datos de optimizer max

best_params = optimizer.max['params']

best_params['xg_n_estimators'] = int(best_params['xg_n_estimators'])
best_params['xg_max_depth'] = int(best_params['xg_max_depth'])
best_params['xg_min_child_weight'] = int(best_params['xg_min_child_weight'])
best_params['num_pca'] = int(best_params['num_pca'])

print(f'Mejores parámetros: {best_params}')

# Pipelines para transformar variables numéricas y categóricas
num_transformer = Pipeline(steps=[('custom imputer num', Custom_imputer_num()),
                                  ('drop columns > 75%', Drop_columns_by_missing_Values()),
                                  ('imputer', KNNImputer(n_neighbors=5)),  # Usar KNNImputer
                                  ('scaler', RobustScaler(quantile_range=(10.0, 90.0))), # Cambiado a RobustScaler
                                  ('PCA', PCA(n_components = best_params['num_pca']))])

cat_transformer = Pipeline(steps=[('custom imputer cat', Custom_imputer_cat()),
                                  ('drop columns > 75%', Drop_columns_by_missing_Values()),
                                  ('imputer', SimpleImputer(strategy='most_frequent')),
                                  ('onehot', OneHotEncoder(handle_unknown='ignore'))])

preprocessor = ColumnTransformer(transformers=[('num', num_transformer, var_numericas),
                                               ('cat', cat_transformer, var_categoricas)])

# Selección de características con Lasso
feature_selector = SelectFromModel(LassoCV(cv=5, random_state=42))

# Crear el pipeline con preprocesamiento y el clasificador
steps_v2 = [('preprocessor', preprocessor),
            ('feature selection', feature_selector),  # Selección de las características con lasso
            #('feature_selection', SelectKBest(f_classif, k=20)),  # Selección de las 20 mejores características
            ("XGB", XGBClassifier( n_stimators = best_params['xg_n_estimators'],
                                   max_depth = best_params['xg_max_depth'],
                                   learning_rate = best_params['xg_learning_rate'],
                                   min_child_weight = best_params['xg_min_child_weight'],
                                   base_score = best_params['xg_base_score']))]

pipeline_v2 = Pipeline(steps_v2)

# Entrenar el modelo con los datos
pipeline_v2.fit(X_train, y_train)

Mejores parámetros: {'num_pca': 16, 'xg_base_score': 0.25, 'xg_learning_rate': 0.3, 'xg_max_depth': 12, 'xg_min_child_weight': 1, 'xg_n_estimators': 1445}


In [59]:
y_pred = pipeline_v2.predict_proba(X_test)[:, 1]
auc = roc_auc_score(y_test, y_pred)
print(f'AUC para SVC: {auc}')

AUC para SVC: 0.8108919985332215


In [60]:
# Entrenar el modelo con los datos completos
pipeline_v2.fit(X, y)

In [61]:
submission_pred = pipeline_v2.predict_proba(df_test)[:, 1]
submission = pd.DataFrame(data=dict(ID=df_test.index, Target=submission_pred))

In [62]:
submission.to_csv("submission_1_pipeline-XGB_v2-A_team.csv", index=False)
#submission.to_csv(r"C:\Users\alfa7\OneDrive\Documentos\ICESI\MAESTRIA CIENCIA DE DATOS\2do semestre\Fundamentos de analitica II\Unidad II\Proyecto PSA\Submissions\submission_1_pipeline-XGB-A_team.csv", index=False)

In [63]:
# Guardamos el modelo y sus parámetros

# Guardar el modelo entrenado
filename = 'xgb_model_v2.sav'
pickle.dump(pipeline_v2, open(filename, 'wb'))

# Guardar los mejores parámetros encontrados
params_filename = 'best_params_v2.pkl'
with open(params_filename, 'wb') as f:
    pickle.dump(best_params, f)

print(f"Modelo guardado como {filename}")
print(f"Mejores parámetros guardados como {params_filename}")


Modelo guardado como xgb_model_v2.sav
Mejores parámetros guardados como best_params_v2.pkl


Con esto terminamos este notebook que debimos crear de forma paralela campesina para poder ir trabajando 2 modelos diferentes y por la preocupación que nuestros valores en SVC y MLP no se optimizaron tanto cómo con XGB.

Conclusiones:
- A veces las soluciones más simples rinden mejor, a que nos referimos con esto: Al inicio tratamos de hacer la forma más óptima en cada punto, incluso haciendo manejo de outliers personalizado con el winzorizing o el otro método que usamos dentro de los códigos principales que a este momento y por la forma en que los implementamos sólo nos perjudicó el desempeño del modelo.

- De estos tres modelos usados, el más pesado en costo computacional en lo que probamos fue el SVC cuando iteramos 3 de sus tipos de kernel (lineal, rbr y poli), dejando de segundo a MLP que aunque a medida que manejabas una red neuronal más grande a través del **model_hidden_layer_size_exp** nos sorprendío gratamente que era más rápido que SVC, hemos alcanzados a diseñar redes neuronales con valores en este hiperparámetro de 5. Si el tiempo lo permite iremos con más pues a este nivel aún no tenemos un buen desempeño.

- La cruva de aprendizaje nuestra ha sido lenta he invertido mucho tiempo en diseñar un primer modelo que al menos hiciera un ciclo completo de optimización bayesiana pero al final nuestro progreso creemos que es bueno.

- Nuestros notebooks no son ta refinados desde el punto de vista de la redacción pues nuestra atención se vió enfocada en diseñar los modelos y como mencionamos anteriormente fue una labor muy linda pero nos acortó mucho el tiempo.