<a href="https://colab.research.google.com/github/tomasrojas88/Data_Science_1/blob/main/Entrega_Final_Data_Science_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1) Introducción

En el presente trabajo se analiza un conjunto de datos de satisfacción de pasajeros con el objetivo de aplicar técnicas de Machine Learning supervisado a un problema real de negocio. El análisis se orienta a comprender qué factores del servicio influyen en la percepción de satisfacción de los clientes y a desarrollar modelos capaces de predecir si un pasajero se encuentra satisfecho o no.

La satisfacción del cliente constituye un indicador clave para las aerolíneas, dado que impacta directamente en la fidelización, la reputación de la marca y la toma de decisiones estratégicas vinculadas a la calidad del servicio. Contar con modelos predictivos permite no solo anticipar comportamientos de los clientes, sino también identificar oportunidades concretas de mejora basadas en datos.

Para el desarrollo del trabajo se utiliza un conjunto de datos de encuestas de satisfacción disponible en la plataforma Kaggle. El enfoque adoptado es práctico y aplicado, recorriendo las distintas etapas de un proyecto de Data Science, desde el análisis exploratorio y la preparación de los datos, hasta el entrenamiento, evaluación y selección del modelo de clasificación con mejor desempeño.

# 2) Problema a resolver

El objetivo principal de este trabajo es abordar el problema como una tarea de clasificación supervisada, cuyo propósito es predecir si un pasajero se encuentra satisfecho o no con el servicio recibido. A partir de las variables disponibles en el conjunto de datos, se busca entrenar modelos de Machine Learning capaces de realizar esta predicción de manera precisa.

La variable objetivo (target) corresponde al nivel de satisfacción del pasajero, mientras que el resto de las variables del dataset se utilizan como variables explicativas, representando distintas características del servicio, del cliente y de la experiencia de viaje.

El interés del análisis no se limita únicamente a la obtención de una predicción, sino también a comprender qué aspectos del servicio tienen mayor influencia en la satisfacción de los clientes, aportando información relevante para la toma de decisiones y la mejora de la experiencia del pasajero.

# 3) Carga de datos

En esta etapa se realiza la carga del conjunto de datos y una primera inspección general de su estructura. El objetivo es verificar que los datos hayan sido importados correctamente y comprender los principales características del dataset antes de avanzar con el análisis.

Se analiza la cantidad de registros y columnas disponibles, los tipos de variables presentes y la existencia de posibles valores faltantes. Esta revisión inicial permite detectar de forma temprana eventuales problemas de calidad de datos y dimensionar el alcance de la información disponible.

Contar con esta visión general del dataset resulta fundamental para orientar las etapas posteriores del proyecto, en particular el análisis exploratorio, la ingeniería de atributos y el entrenamiento de los modelos de Machine Learning.

In [43]:
# Importar librerías
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import warnings
from xgboost import XGBClassifier

In [44]:
# Configuraciones opcionales para mejor visualización
sns.set_theme(style="whitegrid") # Establece un tema estético para los gráficos
plt.rcParams['figure.figsize'] = (12, 6) # Establece un tamaño de figura por defecto
warnings.filterwarnings('ignore') # Ignora advertencias (útil para presentaciones)

In [45]:
# Descarga del archivo CSV desde un repositorio remoto y verificación de su estructura

import requests

url = "https://github.com/tomasrojas88/Data_Science_1/raw/refs/heads/main/Dataset%20Proyecto%20Coderhouse%20Satisfacci%C3%B3n%20Clientes%20en%20Aerolineas2.csv"

response = requests.get(url)  # Hace una solicitud GET para obtener el contenido del archivo
print(response.text[:300])  # Imprime los primeros 300 caracteres del archivo para ver cómo está delimitado
response = requests.get(url)  # Hace una solicitud GET para obtener el contenido del archivo
print(response.text[:300])  # Imprime los primeros 300 caracteres del archivo para ver cómo está delimitado

id_Encuesta;Identificación;Género;Tipo de Cliente;Edad;Tipo de Viaje;Clase;Distancia de Vuelo;Servicio de wifi a bordo;Hora de salida/llegada conveniente;Facilidad de reserva en línea;Ubicación de la puerta;Comida y bebida;Embarque en línea;Comodidad del asiento;Entretenimiento a bordo;Servicio a bo
id_Encuesta;Identificación;Género;Tipo de Cliente;Edad;Tipo de Viaje;Clase;Distancia de Vuelo;Servicio de wifi a bordo;Hora de salida/llegada conveniente;Facilidad de reserva en línea;Ubicación de la puerta;Comida y bebida;Embarque en línea;Comodidad del asiento;Entretenimiento a bordo;Servicio a bo


In [46]:
# Carga del dataset en un DataFrame de pandas y exploración inicial de su estructura

df = pd.read_csv(url, sep=';', encoding='latin1')

print("Tamaño del dataset (filas, columnas):", df.shape)  # Para saber cuántos registros tenemos

df.info()  # Muestra tipos de datos y cantidad de valores no nulos por columna
df.describe()  # Estadísticos descriptivos básicos de las columnas numéricas

Tamaño del dataset (filas, columnas): (25976, 25)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25976 entries, 0 to 25975
Data columns (total 25 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   id_Encuesta                           25976 non-null  int64  
 1   Identificación                        25976 non-null  int64  
 2   Género                                25976 non-null  object 
 3   Tipo de Cliente                       25976 non-null  object 
 4   Edad                                  25976 non-null  int64  
 5   Tipo de Viaje                         25976 non-null  object 
 6   Clase                                 25976 non-null  object 
 7   Distancia de Vuelo                    25976 non-null  int64  
 8   Servicio de wifi a bordo              25976 non-null  int64  
 9   Hora de salida/llegada conveniente    25976 non-null  int64  
 10  Facilidad de reserva en línea   

Unnamed: 0,id_Encuesta,Identificación,Edad,Distancia de Vuelo,Servicio de wifi a bordo,Hora de salida/llegada conveniente,Facilidad de reserva en línea,Ubicación de la puerta,Comida y bebida,Embarque en línea,Comodidad del asiento,Entretenimiento a bordo,Servicio a bordo,Servicio de espacio para las piernas,Manejo de equipaje,Servicio de facturación,Servicio a bordo.1,Limpieza,Retraso en la salida en minutos,Retraso en la llegada en minutos
count,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25893.0
mean,12987.5,65005.657992,39.620958,1193.788459,2.724746,3.046812,2.756775,2.977094,3.215353,3.261665,3.449222,3.357753,3.385664,3.350169,3.633238,3.314175,3.649253,3.286226,14.30609,14.740857
std,7498.769632,37611.526647,15.135685,998.683999,1.335384,1.533371,1.412951,1.282133,1.331506,1.355536,1.32009,1.338299,1.282088,1.318862,1.176525,1.269332,1.180681,1.31933,37.42316,37.517539
min,0.0,17.0,7.0,31.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0
25%,6493.75,32170.5,27.0,414.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,3.0,3.0,3.0,2.0,0.0,0.0
50%,12987.5,65319.5,40.0,849.0,3.0,3.0,3.0,3.0,3.0,4.0,4.0,4.0,4.0,4.0,4.0,3.0,4.0,3.0,0.0,0.0
75%,19481.25,97584.25,51.0,1744.0,4.0,4.0,4.0,4.0,4.0,4.0,5.0,4.0,4.0,4.0,5.0,4.0,5.0,4.0,12.0,13.0
max,25975.0,129877.0,85.0,4983.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,1128.0,1115.0


# 4) EDA (Exploración y limpieza)

En esta sección se lleva a cabo un análisis exploratorio de los datos (EDA) con el objetivo de comprender la distribución de las variables, identificar la presencia de valores faltantes y detectar posibles inconsistencias u observaciones atípicas. Este análisis inicial permite obtener una primera comprensión del comportamiento de los datos y su calidad.

Durante esta etapa también se realizan tareas básicas de limpieza y validación, asegurando que el conjunto de datos se encuentre en condiciones adecuadas para su posterior utilización en los modelos de Machine Learning.

El EDA resulta fundamental para detectar patrones relevantes y validar supuestos iniciales sobre la relación entre las variables explicativas y la satisfacción del pasajero, sirviendo como base para las etapas de ingeniería de atributos y modelado.

In [47]:
# Conteo de valores nulos por columna
df.isnull().sum()  # Nos permite detectar columnas con datos faltantes


Unnamed: 0,0
id_Encuesta,0
Identificación,0
Género,0
Tipo de Cliente,0
Edad,0
Tipo de Viaje,0
Clase,0
Distancia de Vuelo,0
Servicio de wifi a bordo,0
Hora de salida/llegada conveniente,0


In [48]:
# Limpieza de la columna 'Retraso en la llegada en minutos'

# Convertimos a numérico forzando errores a NaN
df["Retraso en la llegada en minutos"] = pd.to_numeric(
    df["Retraso en la llegada en minutos"], errors="coerce"
)  # 'errors=coerce' convierte textos inválidos en NaN

# Contamos cuántos NaN quedaron después de la conversión
df["Retraso en la llegada en minutos"].isna().sum()  # Para ver cuántos valores quedaron como faltantes

# Reemplazamos NaN por 0 (criterio: valor faltante = sin retraso registrado)
df["Retraso en la llegada en minutos"].fillna(0, inplace=True)  # Imputamos con 0

# Convertimos a entero para que quede un tipo consistente
df["Retraso en la llegada en minutos"] = df["Retraso en la llegada en minutos"].astype("int64")  # Cast a entero


In [49]:
# Búsqueda y eliminación de filas duplicadas
duplicados = df.duplicated().sum()  # Cuántas filas están repetidas completamente
print("Filas duplicadas:", duplicados)

df = df.drop_duplicates()  # Eliminamos duplicados si existieran
print("Nuevo tamaño del dataset:", df.shape)  # Verificamos el nuevo tamaño


Filas duplicadas: 0
Nuevo tamaño del dataset: (25976, 25)


En esta etapa se realizaron tareas puntuales de limpieza de datos para asegurar la calidad y consistencia del dataset antes del modelado. Por un lado, se trabajó sobre la variable “Retraso en la llegada en minutos”, convirtiéndola a formato numérico y tratando los valores faltantes, con el objetivo de evitar errores y mantener una representación coherente de la información. Por otro lado, se verificó la existencia de registros duplicados en el conjunto de datos, eliminándolos en caso de ser necesario, para evitar sesgos en el entrenamiento de los modelos

# 5) Feature Engineering (preparación de variables)

En esta etapa se realiza la preparación de las variables con el objetivo de adecuar el conjunto de datos para su utilización en modelos de Machine Learning. Este proceso incluye la transformación de la variable objetivo y la codificación de las variables explicativas, garantizando su compatibilidad con los algoritmos empleados.

En particular, la variable objetivo es transformada en un formato binario para abordar el problema como una tarea de clasificación supervisada. Asimismo, las variables categóricas son codificadas mediante One-Hot Encoding, permitiendo su utilización en modelos que requieren variables numéricas, como XGBoost.

Estas transformaciones buscan mejorar la capacidad predictiva de los modelos y evitar problemas derivados de escalas, formatos incompatibles o representaciones no numéricas de los datos.

In [50]:
df['Satisfacción'] = df['Satisfacción'].map({'neutral o insatisfecho/a': 0, 'satisfecho/a': 1})

In [51]:
# Convertir variables categóricas en variables dummy para que XGBoost pueda entrenar
X_encoded = pd.get_dummies(X, drop_first=True)


In [52]:
# Dividir el dataset ya codificado en entrenamiento y test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)


In [53]:
# Verificar que no quedaron columnas tipo object
X_train.dtypes.value_counts()


Unnamed: 0,count
int64,20
bool,5


En esta etapa se realizó la preparación final de las variables para el modelado. En primer lugar, la variable objetivo fue transformada a un formato binario, permitiendo abordar el problema como una tarea de clasificación supervisada. Luego, las variables categóricas fueron codificadas mediante One-Hot Encoding, de modo de convertirlas en variables numéricas compatibles con los modelos a utilizar, en particular XGBoost. Finalmente, se dividió el conjunto de datos ya codificado en entrenamiento y prueba, verificando que no quedaran variables de tipo texto, lo que garantiza la correcta ejecución de los modelos de Machine Learning.

# 6) Split Train/Test

En esta etapa el conjunto de datos se divide en conjuntos de entrenamiento y prueba, con el objetivo de evaluar el desempeño de los modelos sobre datos no vistos durante el proceso de entrenamiento.

Esta separación resulta fundamental para medir la capacidad de generalización de los modelos y evitar conclusiones engañosas basadas únicamente en su desempeño sobre los datos de entrenamiento. Para asegurar la comparabilidad entre los distintos algoritmos evaluados, se utiliza un único esquema de partición que se mantiene constante a lo largo de todo el proceso de modelado.

Además, se aplica una división estratificada, preservando la proporción de clases de la variable objetivo en ambos subconjuntos.

In [54]:
# Separación de variables predictoras (X) y variable objetivo (y)
X = df.drop('Satisfacción', axis=1)
y = df['Satisfacción']

# División del dataset en conjuntos de entrenamiento y prueba
# Se mantiene la proporción de clases mediante stratify
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

# Chequeo rápido de tamaños para validar el split
print(X_train.shape, X_test.shape)


(20780, 24) (5196, 24)


# 7) Modelos

Se entrenaron distintos modelos de clasificación con el objetivo de comparar enfoques y evaluar cuál se adapta mejor al problema planteado.

Cada modelo fue entrenado bajo las mismas condiciones iniciales, permitiendo una comparación justa en términos de desempeño, simplicidad y capacidad predictiva.

In [55]:
# Entrena un modelo de Regresión Logística como baseline (con variables categóricas codificadas)
from sklearn.linear_model import LogisticRegression
import pandas as pd

# Codifica variables categóricas para que el modelo pueda trabajar solo con números
X_train_encoded = pd.get_dummies(X_train, drop_first=True)
X_test_encoded = pd.get_dummies(X_test, drop_first=True)

# Alinea columnas entre train y test para evitar desajustes
X_test_encoded = X_test_encoded.reindex(columns=X_train_encoded.columns, fill_value=0)

# Define y entrena el modelo de Regresión Logística
modelo_logistico = LogisticRegression(max_iter=1000, random_state=42)
modelo_logistico.fit(X_train_encoded, y_train)


In [56]:
# Evalúa el modelo logístico con métricas básicas
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Predicciones sobre el conjunto de prueba
y_pred = modelo_logistico.predict(X_test_encoded)

# Accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Reporte de clasificación
print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Matriz de confusión
print("\nMatriz de confusión:")
print(confusion_matrix(y_test, y_pred))


Accuracy: 0.7698229407236336

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.80      0.78      0.79      2915
           1       0.73      0.75      0.74      2281

    accuracy                           0.77      5196
   macro avg       0.77      0.77      0.77      5196
weighted avg       0.77      0.77      0.77      5196


Matriz de confusión:
[[2284  631]
 [ 565 1716]]


In [57]:
# Entrena un modelo Random Forest como segundo modelo (ensemble)
from sklearn.ensemble import RandomForestClassifier

modelo_rf = RandomForestClassifier(
    n_estimators=200,
    random_state=42,
    n_jobs=-1
)

modelo_rf.fit(X_train_encoded, y_train)


In [58]:
# Evalúa el modelo Random Forest con métricas básicas
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Predicciones sobre el conjunto de prueba
y_pred_rf = modelo_rf.predict(X_test_encoded)

# Accuracy
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print("Accuracy Random Forest:", accuracy_rf)

# Reporte de clasificación
print("\nReporte de clasificación Random Forest:")
print(classification_report(y_test, y_pred_rf))

# Matriz de confusión
print("\nMatriz de confusión Random Forest:")
print(confusion_matrix(y_test, y_pred_rf))


Accuracy Random Forest: 0.9563125481139338

Reporte de clasificación Random Forest:
              precision    recall  f1-score   support

           0       0.95      0.97      0.96      2915
           1       0.96      0.94      0.95      2281

    accuracy                           0.96      5196
   macro avg       0.96      0.95      0.96      5196
weighted avg       0.96      0.96      0.96      5196


Matriz de confusión Random Forest:
[[2821   94]
 [ 133 2148]]


In [59]:
print(f"Regresión logística:\nAccuracy = {accuracy:.4f}")
print(f"Random Forest:\nAccuracy = {accuracy_rf:.4f}")

Regresión logística:
Accuracy = 0.7698
Random Forest:
Accuracy = 0.9563


In [60]:
# Definir el modelo XGBoost para clasificación binaria
from xgboost import XGBClassifier

xgb_model = XGBClassifier(
    objective='binary:logistic',  # Clasificación binaria
    eval_metric='logloss',        # Métrica interna de entrenamiento
    random_state=42,              # Reproducibilidad
    use_label_encoder=False       # Evita warnings innecesarios
)

# Entrenar el modelo con el conjunto de entrenamiento
xgb_model.fit(X_train_encoded, y_train)

# Generar predicciones de clase sobre el conjunto de prueba
y_pred_xgb = xgb_model.predict(X_test_encoded)

# Obtener probabilidades para la clase positiva (necesarias para ROC-AUC)
y_proba_xgb = xgb_model.predict_proba(X_test_encoded)[:, 1]


In [61]:
# Generar predicciones de clase sobre el conjunto de prueba
# Se utilizan los datos codificados, consistentes con el entrenamiento del modelo
y_pred_xgb = xgb_model.predict(X_test_encoded)

# Obtener probabilidades para la clase positiva (necesarias para calcular ROC-AUC)
y_proba_xgb = xgb_model.predict_proba(X_test_encoded)[:, 1]

# Importar métricas de evaluación
from sklearn.metrics import accuracy_score, roc_auc_score, classification_report, confusion_matrix

# Calcular Accuracy del modelo XGBoost
accuracy_xgb = accuracy_score(y_test, y_pred_xgb)

# Calcular ROC-AUC del modelo XGBoost
roc_auc_xgb = roc_auc_score(y_test, y_proba_xgb)

# Mostrar métricas principales
print(f"Accuracy XGBoost: {accuracy_xgb:.4f}")
print(f"ROC-AUC XGBoost: {roc_auc_xgb:.4f}")

# Mostrar reporte de clasificación completo
print("\nReporte de clasificación XGBoost:")
print(classification_report(y_test, y_pred_xgb))

# Mostrar matriz de confusión
print("\nMatriz de confusión XGBoost:")
print(confusion_matrix(y_test, y_pred_xgb))


Accuracy XGBoost: 0.9580
ROC-AUC XGBoost: 0.9944

Reporte de clasificación XGBoost:
              precision    recall  f1-score   support

           0       0.96      0.97      0.96      2915
           1       0.96      0.95      0.95      2281

    accuracy                           0.96      5196
   macro avg       0.96      0.96      0.96      5196
weighted avg       0.96      0.96      0.96      5196


Matriz de confusión XGBoost:
[[2816   99]
 [ 119 2162]]


A partir del entrenamiento y evaluación de los distintos modelos de clasificación, se observa una clara diferencia en el desempeño al comparar enfoques de distinta complejidad. La Regresión Logística, utilizada como modelo base, presenta un rendimiento aceptable y permite establecer una referencia inicial, aunque muestra limitaciones para capturar relaciones más complejas entre las variables. Si bien su interpretación es sencilla, su capacidad predictiva resulta inferior en comparación con los modelos más avanzados.

El modelo de Random Forest evidencia una mejora significativa en todas las métricas evaluadas, logrando un alto nivel de accuracy y un balance sólido entre precisión y recall para ambas clases. Esto sugiere una mayor capacidad para modelar interacciones no lineales y reducir errores de clasificación, posicionándolo como una alternativa robusta frente al modelo base.

Finalmente, XGBoost se destaca como el modelo con mejor desempeño general. Presenta los valores más altos tanto en accuracy como en ROC-AUC, lo que indica una excelente capacidad de discriminación entre pasajeros satisfechos y no satisfechos. Los resultados obtenidos reflejan una mayor eficiencia en la generalización sobre datos no vistos, consolidando a XGBoost como el modelo más adecuado para el problema planteado.

En conjunto, el análisis confirma que, a medida que se incorporan modelos de mayor complejidad y capacidad de aprendizaje, se logra una mejora sustancial en el desempeño predictivo. En función de los resultados obtenidos, XGBoost se selecciona como el modelo final recomendado para abordar la predicción de la satisfacción de los pasajeros.

# Comentario análisis

A partir del entrenamiento y evaluación de los distintos modelos de clasificación, se observa una diferencia clara en el desempeño obtenido.

La Regresión Logística alcanzó un accuracy aproximado del 77 %, lo que indica que el modelo logra capturar una parte importante de la relación entre las variables explicativas y la satisfacción del pasajero. Este resultado es consistente con un modelo lineal, simple y fácil de interpretar, que funciona correctamente como línea base del problema.

Sin embargo, al aplicar un Random Forest, el desempeño mejora de manera significativa, alcanzando un accuracy cercano al 95,6 %. Esta diferencia sugiere que el problema presenta relaciones no lineales y combinaciones complejas entre las variables, que son mejor capturadas por un modelo basado en árboles y ensambles.

Los resultados muestran que, si bien la regresión logística es útil para una primera aproximación y comprensión general del fenómeno, el Random Forest resulta superior para la predicción efectiva de la satisfacción del pasajero, ofreciendo una mayor capacidad de generalización y precisión.

# 8) Validación cruzada

Para obtener una evaluación más robusta de los modelos, se aplicó validación cruzada.
Este enfoque permite reducir la dependencia de una única partición de los datos y obtener métricas más estables y confiables.

Los resultados de la validación cruzada ayudaron a identificar qué modelos mantienen un buen desempeño de forma consistente.

In [62]:
# Evalúa los modelos usando validación cruzada con AUC como métrica
from sklearn.model_selection import StratifiedKFold, cross_val_score

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada para Regresión Logística
auc_logistico = cross_val_score(
    modelo_logistico,
    X_train_encoded,
    y_train,
    cv=cv,
    scoring="roc_auc"
)

# Validación cruzada para Random Forest
auc_rf = cross_val_score(
    modelo_rf,
    X_train_encoded,
    y_train,
    cv=cv,
    scoring="roc_auc"
)

# Validación cruzada para XGBoost
auc_xgb = cross_val_score(
    xgb_model,
    X_train_encoded,
    y_train,
    cv=cv,
    scoring="roc_auc"
)

print("AUC promedio XGBoost:", auc_xgb.mean())


print("AUC promedio Regresión Logística:", auc_logistico.mean())
print("AUC promedio Random Forest:", auc_rf.mean())


AUC promedio XGBoost: 0.9933238563976335
AUC promedio Regresión Logística: 0.864229139131918
AUC promedio Random Forest: 0.9911338629603661


# Comentario análisis

Los resultados de la validación cruzada confirman lo observado en la evaluación inicial de los modelos.
La Regresión Logística obtuvo un AUC promedio cercano a 0,86, lo que indica una buena capacidad para discriminar entre pasajeros satisfechos y no satisfechos, aunque con ciertas limitaciones para capturar relaciones más complejas entre las variables.

Por su parte, el Random Forest alcanzó un AUC promedio muy elevado, cercano a 0,99, mostrando un desempeño ampliamente superior y, sobre todo, muy consistente a lo largo de las distintas particiones de los datos. Esto sugiere que el modelo no solo ajusta bien, sino que generaliza correctamente y mantiene su capacidad predictiva independientemente del conjunto de entrenamiento utilizado.

En conjunto, la validación cruzada refuerza la elección del Random Forest como el modelo más adecuado para este problema, ya que combina un alto poder de discriminación con estabilidad en los resultados. Al mismo tiempo, permite concluir que la mejora observada respecto a la regresión logística no es circunstancial, sino que responde a una mejor adaptación del modelo a la estructura de los datos.

# 9) Optimización de hiperparámetros (GridSearch / RandomizedSearch)

En esta etapa se optimizaron los hiperparámetros de los modelos seleccionados utilizando técnicas de búsqueda sistemática.

El objetivo fue mejorar el rendimiento de los modelos ajustando sus parámetros internos, logrando un equilibrio entre precisión y capacidad de generalización.

In [63]:
# Optimiza hiperparámetros del Random Forest con una grilla reducida
from sklearn.model_selection import GridSearchCV

param_grid = {
    "n_estimators": [100],
    "max_depth": [None, 10],
    "min_samples_split": [2],
    "min_samples_leaf": [1]
}

grid_rf = GridSearchCV(
    estimator=modelo_rf,
    param_grid=param_grid,
    cv=3,
    scoring="roc_auc",
    n_jobs=-1
)

grid_rf.fit(X_train_encoded, y_train)

print("Mejores parámetros:", grid_rf.best_params_)
print("Mejor AUC (CV):", grid_rf.best_score_)

modelo_rf_opt = grid_rf.best_estimator_


Mejores parámetros: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}
Mejor AUC (CV): 0.9906251976914414


# Comentario análisis

A partir de la optimización de hiperparámetros realizada sobre el modelo de Random Forest, se observa que el ajuste fino del modelo no modifica de manera sustancial el desempeño, sino que confirma que la configuración utilizada inicialmente ya era adecuada para el problema.

El mejor conjunto de parámetros obtenido mantiene una profundidad máxima sin restricción (max_depth = None) y un número moderado de árboles, lo que sugiere que el modelo se beneficia de capturar relaciones complejas en los datos sin necesidad de forzar restricciones adicionales. El AUC obtenido en validación cruzada, cercano a 0,99, se encuentra en línea con los resultados previos, reforzando la estabilidad del modelo.

En este contexto, la optimización funciona más como una validación del enfoque elegido que como una mejora marginal del rendimiento. Esto permite concluir que el Random Forest no solo presenta un alto poder predictivo, sino que además muestra robustez frente a distintos ajustes de parámetros, consolidándose como la mejor alternativa para este problema.

# 10) Evaluación final y elección del mejor modelo

Se evaluaron los modelos finales utilizando métricas de clasificación adecuadas, comparando su desempeño sobre el conjunto de test.

A partir de estos resultados, se seleccionó el modelo que ofrece el mejor compromiso entre desempeño predictivo y estabilidad, justificando su elección en función de los objetivos del trabajo.

In [64]:
# Evalúa el Random Forest optimizado sobre el conjunto de prueba
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

y_pred_rf_opt = modelo_rf_opt.predict(X_test_encoded)

accuracy_rf_opt = accuracy_score(y_test, y_pred_rf_opt)
print("Accuracy Random Forest Optimizado:", accuracy_rf_opt)

print("\nReporte de clasificación Random Forest Optimizado:")
print(classification_report(y_test, y_pred_rf_opt))

print("\nMatriz de confusión Random Forest Optimizado:")
print(confusion_matrix(y_test, y_pred_rf_opt))


Accuracy Random Forest Optimizado: 0.9566974595842956

Reporte de clasificación Random Forest Optimizado:
              precision    recall  f1-score   support

           0       0.96      0.97      0.96      2915
           1       0.96      0.94      0.95      2281

    accuracy                           0.96      5196
   macro avg       0.96      0.96      0.96      5196
weighted avg       0.96      0.96      0.96      5196


Matriz de confusión Random Forest Optimizado:
[[2818   97]
 [ 128 2153]]


In [65]:
# Inspeccionar variables de métricas existentes
[v for v in dir() if ('accuracy' in v.lower()) or ('auc' in v.lower()) or ('roc' in v.lower())]


['accuracy',
 'accuracy_lr',
 'accuracy_rf',
 'accuracy_rf_opt',
 'accuracy_score',
 'accuracy_xgb',
 'auc_logistico',
 'auc_rf',
 'auc_xgb',
 'roc_auc_score',
 'roc_auc_xgb']

In [67]:
# Calcular accuracy para el modelo de Regresión Logística
# Se utilizan los datos codificados, consistentes con el entrenamiento del modelo
from sklearn.metrics import accuracy_score

# Generar predicciones sobre el conjunto de prueba
y_pred_lr = modelo_logistico.predict(X_test_encoded)

# Calcular accuracy
accuracy_lr = accuracy_score(y_test, y_pred_lr)

# Mostrar resultado
print(f"Accuracy Regresión Logística: {accuracy_lr:.4f}")


Accuracy Regresión Logística: 0.7698


In [68]:
# Crear tabla comparativa usando las métricas ya calculadas
import pandas as pd

results = pd.DataFrame({
    'Modelo': ['Regresión Logística', 'Random Forest', 'XGBoost'],
    'Accuracy': [accuracy_lr, accuracy_rf, accuracy_xgb],
    'ROC-AUC': [auc_logistico, auc_rf, roc_auc_xgb]
})

results


Unnamed: 0,Modelo,Accuracy,ROC-AUC
0,Regresión Logística,0.769823,"[0.8741987902861785, 0.8535260280310554, 0.867..."
1,Random Forest,0.956313,"[0.9895428966928471, 0.992867517340736, 0.9908..."
2,XGBoost,0.958045,0.994381


# Comentario Análisis

La evaluación final del modelo de Random Forest optimizado sobre el conjunto de test confirma el alto desempeño observado en las etapas anteriores. El modelo alcanza un accuracy cercano al 96 %, lo que indica una muy buena capacidad para clasificar correctamente a los pasajeros en función de su nivel de satisfacción.

El reporte de clasificación muestra métricas equilibradas entre ambas clases, con valores elevados de precision, recall y f1-score, lo que sugiere que el modelo no presenta sesgos significativos hacia una categoría en particular. Esto es especialmente relevante en un contexto real, ya que reduce el riesgo de clasificar erróneamente a pasajeros insatisfechos como satisfechos, o viceversa.

La matriz de confusión refuerza esta conclusión, evidenciando una cantidad reducida de errores en relación con el volumen total de observaciones. En conjunto, estos resultados justifican la elección del Random Forest optimizado como el mejor modelo para el problema planteado, al ofrecer un equilibrio sólido entre precisión, estabilidad y capacidad de generalización, alineado con los objetivos del trabajo.

# 11) Conclusiones

El objetivo de este trabajo fue predecir la satisfacción de los pasajeros a partir de variables vinculadas tanto a aspectos operativos como a la experiencia del servicio. Para ello, se realizó un proceso completo de análisis exploratorio, preparación de los datos y entrenamiento de distintos modelos de clasificación, con el fin de evaluar su desempeño y seleccionar la alternativa más adecuada.

Entre los modelos evaluados, el Random Forest demostró un desempeño claramente superior frente a la Regresión Logística. Mientras que la regresión logística funcionó correctamente como modelo base, el Random Forest logró capturar de manera más efectiva las relaciones no lineales y las interacciones entre variables presentes en el dataset. En el conjunto de test, el modelo alcanzó un accuracy cercano al 96 %, acompañado de métricas de precisión, recall y f1-score equilibradas entre clases, lo que indica una muy buena capacidad de generalización.

La validación cruzada reforzó estos resultados, mostrando valores de ROC-AUC elevados y consistentes, lo que confirma que el buen desempeño del modelo no depende de una partición particular de los datos. Asimismo, el proceso de optimización de hiperparámetros permitió validar que la configuración elegida del Random Forest era adecuada, manteniendo un alto poder predictivo sin evidencias de sobreajuste.

El análisis de los resultados sugiere que la satisfacción del pasajero está influenciada por múltiples factores que interactúan entre sí, especialmente aquellos vinculados a la experiencia del servicio. Esto refuerza la idea de que la percepción del cliente no depende de una única variable aislada, sino de una combinación de aspectos operativos y de calidad del servicio.

En conclusión, el Random Forest fue seleccionado como el mejor modelo para este problema debido a su alto desempeño predictivo, su estabilidad y su capacidad para modelar relaciones complejas en los datos. Más allá de la predicción, el enfoque desarrollado permite obtener información valiosa que puede ser utilizada por una aerolínea para orientar decisiones estratégicas y mejorar la experiencia general del pasajero.
