### 0. Imports necesarios

In [None]:
import bootcampviztools as bt
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import FunctionTransformer, OneHotEncoder, StandardScaler, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import  train_test_split, GridSearchCV
from sklearn.metrics import balanced_accuracy_score, accuracy_score, confusion_matrix, ConfusionMatrixDisplay, roc_curve, auc, classification_report
from sklearn.base import BaseEstimator, TransformerMixin

import lightgbm as lgb
import os
import pickle


### 1. Carga de datos de Test e identificación de columnas

In [5]:
df_test = pd.read_csv('../data/test.csv', index_col=0)

# Ponemos 'id' como índice
df_test = df_test.set_index('id')

In [12]:
#Identificar tipos de columnas
numerical_cols = ['Age', 'Flight Distance', 'Departure Delay in Minutes', 'Arrival Delay in Minutes']
binary_cols = [col for col in df_test.select_dtypes(include=['object']).columns if df_test[col].nunique() == 2]

# Quitar el target
binary_cols.remove('satisfaction')

# Establecer el target
target = 'satisfaction'


onehot_cols = [col for col in df_test.columns if col not in numerical_cols and col not in binary_cols and col not in target]


#features numericas a las que aplicar logaritmo:
numerical_cols_log = [col for col in numerical_cols if col != 'Age']

### 2. Cargamos el modelo

In [13]:
# Definir rutas
ROOT_DIR = os.path.abspath(os.path.join(os.getcwd(), "..", ".."))  
MODEL_DIR = os.path.join(ROOT_DIR, "src", "models")
DATA_DIR = os.path.join(ROOT_DIR, "data")

# Ruta del modelo guardado
model_path = os.path.join(MODEL_DIR, "LightGBM_optimized_pipeline.pkl")

### 3. Aplicamos los pipelines

In [14]:
# Crear un pipeline que incluya el preprocesamiento antes del modelo
full_pipeline = Pipeline([
    ("preprocessor", preprocessor),  # Asegurar que el preprocesador se aplica a test
    ("model", grid_search.best_estimator_)  # Modelo final con los mejores hiperparÃ¡metros
])

# Definir la ruta correcta para guardar el pipeline completo
MODEL_DIR = os.path.join(os.getcwd(), "..", "..", "src", "models")
os.makedirs(MODEL_DIR, exist_ok=True)

model_path = os.path.join(MODEL_DIR, "best_pipeline.pkl")

# Guardar el pipeline completo
with open(model_path, "wb") as f:
    pickle.dump(full_pipeline, f)

print(f"Pipeline completo guardado en {model_path}")

NameError: name 'preprocessor' is not defined

In [9]:
# Cargar el pipeline entrenado
print(f"Cargando pipeline desde {model_path}...")
with open(model_path, "rb") as f:
    pipeline = pickle.load(f)

print("Pipeline cargado correctamente.")

# Separar características y variable objetivo
X_test = df_test.drop(columns=["satisfaction"])
y_test = df_test["satisfaction"]

# Aplicar el pipeline y realizar predicciones
print("Generando predicciones en los datos de test...")
y_pred = pipeline.predict(X_test)

Cargando pipeline desde c:\Users\maria\Documents\GitHub\Pipelines_Airline_Passenger_Satisfaction\src\models\LightGBM_optimized_pipeline.pkl...
Pipeline cargado correctamente.
Generando predicciones en los datos de test...


ValueError: Number of features of the model must match the input. Model n_features_ is 93 and input n_features is 22

#### 4. Métricas de evaluación

In [None]:
# Classification report
report = classification_report(y_test, y_pred, output_dict=True)

# Convertir el reporte en un DataFrame
report_df = pd.DataFrame(report).T  # Transponer para mejor visualización

# Mostrar el classification report como tabla
report_df

La primera métrica escogida se trata de la matriz de confusión ya que nos permite tener una visión de varias métricas a la vez, además de percibir si ha habido sobreajuste de datos.

Tal y como se observa, nuestro modelo optimizado optiene un XX% de accuracy

In [None]:
# Matriz de Confusión
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap="Blues")
plt.title(f"Matriz de Confusión - {best_model_name}")
plt.show()

In [None]:
# Importancia de características (solo para modelos de árboles)
if best_model_name in ["RandomForest", "GradientBoosting", "LightGBM"]:
    importances = best_model.named_steps["model"].feature_importances_
    feature_names = X_train.columns

    # Crear un DataFrame ordenado por importancia
    feature_importance_df = pd.DataFrame({"Feature": feature_names, "Importance": importances})
    feature_importance_df = feature_importance_df.sort_values(by="Importance", ascending=False).head(20)  # Mostrar solo las 20 más importantes

    # Graficar la importancia de características
    plt.figure(figsize=(12, 8))
    sns.barplot(x=feature_importance_df["Importance"], y=feature_importance_df["Feature"], palette="Blues_r")

    # Etiquetas y título
    plt.title(f"Importancia de Características - {best_model_name}", fontsize=14)
    plt.xlabel("Importancia", fontsize=12)
    plt.ylabel("Características", fontsize=12)

    # Ajustar etiquetas para mejor legibilidad
    plt.xticks(fontsize=10)
    plt.yticks(fontsize=10)

    # Mostrar valores sobre las barras
    for index, value in enumerate(feature_importance_df["Importance"]):
        plt.text(value + 2, index, f"{value:.2f}", fontsize=10, verticalalignment="center")

    plt.show()