# *Desarrollo Notebook 5*

In [1]:
# pip install scikit-learn tabulate lightgbm xgboost

### **Importar librerías**

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.pipeline import Pipeline
from lightgbm import LGBMClassifier
from sklearn.model_selection import RandomizedSearchCV

seed = 42

### **Carga y lectura de dataset**

In [3]:
X_train = pd.read_csv('/Users/miguelflores/Desktop/datos/X_resampled.csv')
X_test = pd.read_csv('/Users/miguelflores/Desktop/datos/X_test_1.csv')

y_train = pd.read_csv('/Users/miguelflores/Desktop/datos/y_resampled.csv')
y_test = pd.read_csv('/Users/miguelflores/Desktop/datos/y_test_1.csv')

In [4]:
X_train = X_train.drop(columns=['SK_ID_CURR'])
X_test = X_test.drop(columns=['SK_ID_CURR'])

In [6]:
y_train = y_train['0'].values  # Selecciona la columna con las etiquetas

In [7]:
print("Forma de y_train:", y_train.shape)

Forma de y_train: (39720,)


In [8]:
y_train

array([0, 0, 0, ..., 1, 1, 1], shape=(39720,))

## **Modelo**

In [9]:
param_grid = {
    'classifier__n_estimators': [50, 100, 200, 300],
    'classifier__max_depth': [3, 5, 7, 10],
    'classifier__learning_rate': [0.01, 0.05, 0.1, 0.2],
    'classifier__num_leaves': [20, 31, 40],
    'classifier__subsample': [0.6, 0.8, 1.0],
    'classifier__colsample_bytree': [0.6, 0.8, 1.0]
}

In [None]:
# Crear pipeline
pipe = Pipeline(steps = [('classifier', LGBMClassifier(is_unbalanced = True, random_state = seed))])

# Configurar búsqueda de hiperparámetros
modelo_optimo = RandomizedSearchCV(
    pipe, 
    param_distributions = param_grid, 
    n_iter = 60,  # Número de combinaciones a probar
    scoring = 'recall',  # Métrica de evaluación
    cv = 5,  # Número de particiones para validación cruzada
    random_state = seed,
    verbose = 1
)

# Entrenar
modelo_optimo.fit(X_train, y_train)

# Resultados
print("Mejores parámetros:", modelo_optimo.best_params_)
print("Mejor puntuación:", modelo_optimo.best_score_)

#### Inicialmente para encontrar el modelo más óptimo, es fundamental establecer un diccionario de hiperparámetros. Donde posteriormente un código configura y ejecuta una búsqueda aleatoria de hiperparámetros para un modelo LGBMClassifier dentro de un pipeline utilizando RandomizedSearchCV. Esto permite encontrar el mejor conjunto de parámetros para optimizar el modelo basado en la métrica recall. Al final, imprime los mejores parámetros y la mejor puntuación obtenida.

#### Este enfoque de optimización de hiperparámetros ayuda a mejorar el rendimiento del modelo sin tener que probar manualmente todas las combinaciones posibles, lo que es más eficiente cuando se tienen muchos parámetros. Posteriormente de esto podemos guardar el modelo.

In [11]:
# Importar librería para serializar el documento
import pickle

# Determinar la ruta donde se generara el archivo y el formato deseado en este caso binario 'wb'
with open('/Users/miguelflores/Desktop/PracticaDocker/modelo_entrenado.pkl', 'wb') as f:
    # Serializa el modelo
    pickle.dump(modelo_optimo.best_estimator_, f)

# Confirmar la acción
print('Modelo guardado como modelo_entrenado.pkl')

Modelo guardado como modelo_entrenado.pkl
