<a href="https://colab.research.google.com/github/tomasrojas88/Data_Science_1/blob/main/Entrega_Final_Data_Science_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1) Introducción

En este trabajo se analiza un dataset de satisfacción de pasajeros con el objetivo de aplicar técnicas básicas de Machine Learning.  

El análisis busca identificar qué variables influyen en la satisfacción de los clientes y entrenar modelos predictivos que permitan clasificar si un pasajero se encuentra satisfecho o no con el servicio.

La satisfacción de los pasajeros resulta un factor clave para las aerolíneas, ya que impacta directamente en la experiencia del cliente y en la calidad percibida del servicio.  
Para este análisis se utiliza un conjunto de datos de encuestas de satisfacción obtenido de la plataforma Kaggle.

El trabajo adopta un enfoque práctico, priorizando la comprensión del proceso completo, desde la exploración de los datos hasta la comparación y selección de modelos de Machine Learning.

# 2) Problema a resolver

El objetivo principal de este trabajo es abordar el problema como uno de clasificación, donde se busca predecir si un pasajero se encuentra satisfecho o no con el servicio recibido.

La variable objetivo (target) corresponde al nivel de satisfacción del pasajero, mientras que el resto de las variables del dataset se utilizan como variables explicativas.

El interés del análisis no es únicamente obtener una predicción, sino también comprender qué características del servicio tienen mayor impacto en la satisfacción de los clientes.

# 3) Carga de datos

In [None]:
# Importar librerías
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import warnings

In [None]:
# Configuraciones opcionales para mejor visualización
sns.set_theme(style="whitegrid") # Establece un tema estético para los gráficos
plt.rcParams['figure.figsize'] = (12, 6) # Establece un tamaño de figura por defecto
warnings.filterwarnings('ignore') # Ignora advertencias (útil para presentaciones)

In [None]:
# Revisión inicial de la estructura del dataset -2-
import pandas as pd
df = pd.read_csv(url, sep=';', encoding='latin1') # Ensure df is loaded before use

print("Tamaño del dataset (filas, columnas):", df.shape)  # Para saber cuántos registros tenemos

df.info()  # Muestra tipos de datos y cantidad de valores no nulos por columna
df.describe()  # Estadísticos descriptivos básicos de las columnas numéricas

Tamaño del dataset (filas, columnas): (25976, 25)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25976 entries, 0 to 25975
Data columns (total 25 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   id_Encuesta                           25976 non-null  int64  
 1   Identificación                        25976 non-null  int64  
 2   Género                                25976 non-null  object 
 3   Tipo de Cliente                       25976 non-null  object 
 4   Edad                                  25976 non-null  int64  
 5   Tipo de Viaje                         25976 non-null  object 
 6   Clase                                 25976 non-null  object 
 7   Distancia de Vuelo                    25976 non-null  int64  
 8   Servicio de wifi a bordo              25976 non-null  int64  
 9   Hora de salida/llegada conveniente    25976 non-null  int64  
 10  Facilidad de reserva en línea   

Unnamed: 0,id_Encuesta,Identificación,Edad,Distancia de Vuelo,Servicio de wifi a bordo,Hora de salida/llegada conveniente,Facilidad de reserva en línea,Ubicación de la puerta,Comida y bebida,Embarque en línea,Comodidad del asiento,Entretenimiento a bordo,Servicio a bordo,Servicio de espacio para las piernas,Manejo de equipaje,Servicio de facturación,Servicio a bordo.1,Limpieza,Retraso en la salida en minutos,Retraso en la llegada en minutos
count,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25976.0,25893.0
mean,12987.5,65005.657992,39.620958,1193.788459,2.724746,3.046812,2.756775,2.977094,3.215353,3.261665,3.449222,3.357753,3.385664,3.350169,3.633238,3.314175,3.649253,3.286226,14.30609,14.740857
std,7498.769632,37611.526647,15.135685,998.683999,1.335384,1.533371,1.412951,1.282133,1.331506,1.355536,1.32009,1.338299,1.282088,1.318862,1.176525,1.269332,1.180681,1.31933,37.42316,37.517539
min,0.0,17.0,7.0,31.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0
25%,6493.75,32170.5,27.0,414.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,3.0,3.0,3.0,2.0,0.0,0.0
50%,12987.5,65319.5,40.0,849.0,3.0,3.0,3.0,3.0,3.0,4.0,4.0,4.0,4.0,4.0,4.0,3.0,4.0,3.0,0.0,0.0
75%,19481.25,97584.25,51.0,1744.0,4.0,4.0,4.0,4.0,4.0,4.0,5.0,4.0,4.0,4.0,5.0,4.0,5.0,4.0,12.0,13.0
max,25975.0,129877.0,85.0,4983.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,1128.0,1115.0


# 4) EDA (Exploración y limpieza)

In [None]:
# Conteo de valores nulos por columna -2-
df.isnull().sum()  # Nos permite detectar columnas con datos faltantes


Unnamed: 0,0
id_Encuesta,0
Identificación,0
Género,0
Tipo de Cliente,0
Edad,0
Tipo de Viaje,0
Clase,0
Distancia de Vuelo,0
Servicio de wifi a bordo,0
Hora de salida/llegada conveniente,0


In [None]:
# Limpieza de la columna 'Retraso en la llegada en minutos' -2-

# Convertimos a numérico forzando errores a NaN
df["Retraso en la llegada en minutos"] = pd.to_numeric(
    df["Retraso en la llegada en minutos"], errors="coerce"
)  # 'errors=coerce' convierte textos inválidos en NaN

# Contamos cuántos NaN quedaron después de la conversión
df["Retraso en la llegada en minutos"].isna().sum()  # Para ver cuántos valores quedaron como faltantes

# Reemplazamos NaN por 0 (criterio: valor faltante = sin retraso registrado)
df["Retraso en la llegada en minutos"].fillna(0, inplace=True)  # Imputamos con 0

# Convertimos a entero para que quede un tipo consistente
df["Retraso en la llegada en minutos"] = df["Retraso en la llegada en minutos"].astype("int64")  # Cast a entero


In [None]:
# Búsqueda y eliminación de filas duplicadas -2-
duplicados = df.duplicated().sum()  # Cuántas filas están repetidas completamente
print("Filas duplicadas:", duplicados)

df = df.drop_duplicates()  # Eliminamos duplicados si existieran
print("Nuevo tamaño del dataset:", df.shape)  # Verificamos el nuevo tamaño


Filas duplicadas: 0
Nuevo tamaño del dataset: (25976, 25)


# 5) Feature Engineering (preparación de variables)

In [None]:
df['Satisfacción'] = df['Satisfacción'].map({'neutral o insatisfecho/a': 0, 'satisfecho/a': 1})

# 6) Split Train/Test

In [None]:
# Separación de variables
X = df.drop(columns=['Satisfacción'])
y = df['Satisfacción']


In [None]:
# Separa el dataset en conjuntos de entrenamiento y prueba manteniendo la proporción de clases
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)


# 7) Modelos

In [None]:
# Entrena un modelo de Regresión Logística como baseline (con variables categóricas codificadas)
from sklearn.linear_model import LogisticRegression
import pandas as pd

# Codifica variables categóricas para que el modelo pueda trabajar solo con números
X_train_encoded = pd.get_dummies(X_train, drop_first=True)
X_test_encoded = pd.get_dummies(X_test, drop_first=True)

# Alinea columnas entre train y test para evitar desajustes
X_test_encoded = X_test_encoded.reindex(columns=X_train_encoded.columns, fill_value=0)

# Define y entrena el modelo de Regresión Logística
modelo_logistico = LogisticRegression(max_iter=1000, random_state=42)
modelo_logistico.fit(X_train_encoded, y_train)


In [None]:
# Evalúa el modelo logístico con métricas básicas
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Predicciones sobre el conjunto de prueba
y_pred = modelo_logistico.predict(X_test_encoded)

# Accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Reporte de clasificación
print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

# Matriz de confusión
print("\nMatriz de confusión:")
print(confusion_matrix(y_test, y_pred))


Accuracy: 0.7698229407236336

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.80      0.78      0.79      2915
           1       0.73      0.75      0.74      2281

    accuracy                           0.77      5196
   macro avg       0.77      0.77      0.77      5196
weighted avg       0.77      0.77      0.77      5196


Matriz de confusión:
[[2284  631]
 [ 565 1716]]


In [None]:
# Entrena un modelo Random Forest como segundo modelo (ensemble)
from sklearn.ensemble import RandomForestClassifier

modelo_rf = RandomForestClassifier(
    n_estimators=200,
    random_state=42,
    n_jobs=-1
)

modelo_rf.fit(X_train_encoded, y_train)


In [None]:
# Evalúa el modelo Random Forest con métricas básicas
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Predicciones sobre el conjunto de prueba
y_pred_rf = modelo_rf.predict(X_test_encoded)

# Accuracy
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print("Accuracy Random Forest:", accuracy_rf)

# Reporte de clasificación
print("\nReporte de clasificación Random Forest:")
print(classification_report(y_test, y_pred_rf))

# Matriz de confusión
print("\nMatriz de confusión Random Forest:")
print(confusion_matrix(y_test, y_pred_rf))


Accuracy Random Forest: 0.9563125481139338

Reporte de clasificación Random Forest:
              precision    recall  f1-score   support

           0       0.95      0.97      0.96      2915
           1       0.96      0.94      0.95      2281

    accuracy                           0.96      5196
   macro avg       0.96      0.95      0.96      5196
weighted avg       0.96      0.96      0.96      5196


Matriz de confusión Random Forest:
[[2821   94]
 [ 133 2148]]


# 8) Validación cruzada

In [None]:
# Evalúa ambos modelos usando validación cruzada con AUC como métrica
from sklearn.model_selection import StratifiedKFold, cross_val_score

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Validación cruzada para Regresión Logística
auc_logistico = cross_val_score(
    modelo_logistico,
    X_train_encoded,
    y_train,
    cv=cv,
    scoring="roc_auc"
)

# Validación cruzada para Random Forest
auc_rf = cross_val_score(
    modelo_rf,
    X_train_encoded,
    y_train,
    cv=cv,
    scoring="roc_auc"
)

print("AUC promedio Regresión Logística:", auc_logistico.mean())
print("AUC promedio Random Forest:", auc_rf.mean())


AUC promedio Regresión Logística: 0.864229139131918
AUC promedio Random Forest: 0.9911338629603661


# 9) Optimización de hiperparámetros (GridSearch / RandomizedSearch)

In [None]:
# Optimiza hiperparámetros del Random Forest con una grilla reducida
from sklearn.model_selection import GridSearchCV

param_grid = {
    "n_estimators": [100],
    "max_depth": [None, 10],
    "min_samples_split": [2],
    "min_samples_leaf": [1]
}

grid_rf = GridSearchCV(
    estimator=modelo_rf,
    param_grid=param_grid,
    cv=3,
    scoring="roc_auc",
    n_jobs=-1
)

grid_rf.fit(X_train_encoded, y_train)

print("Mejores parámetros:", grid_rf.best_params_)
print("Mejor AUC (CV):", grid_rf.best_score_)

modelo_rf_opt = grid_rf.best_estimator_


Mejores parámetros: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}
Mejor AUC (CV): 0.9906251976914414


# 10) Evaluación final y elección del mejor modelo

In [None]:
# Evalúa el Random Forest optimizado sobre el conjunto de prueba
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

y_pred_rf_opt = modelo_rf_opt.predict(X_test_encoded)

accuracy_rf_opt = accuracy_score(y_test, y_pred_rf_opt)
print("Accuracy Random Forest Optimizado:", accuracy_rf_opt)

print("\nReporte de clasificación Random Forest Optimizado:")
print(classification_report(y_test, y_pred_rf_opt))

print("\nMatriz de confusión Random Forest Optimizado:")
print(confusion_matrix(y_test, y_pred_rf_opt))


Accuracy Random Forest Optimizado: 0.9566974595842956

Reporte de clasificación Random Forest Optimizado:
              precision    recall  f1-score   support

           0       0.96      0.97      0.96      2915
           1       0.96      0.94      0.95      2281

    accuracy                           0.96      5196
   macro avg       0.96      0.96      0.96      5196
weighted avg       0.96      0.96      0.96      5196


Matriz de confusión Random Forest Optimizado:
[[2818   97]
 [ 128 2153]]


# 11) Conclusiones

En este trabajo se abordó un problema de clasificación utilizando un dataset de satisfacción de pasajeros, recorriendo las distintas etapas del proceso de Machine Learning desde la exploración inicial de los datos hasta la evaluación de modelos.

Se entrenaron dos modelos distintos: una Regresión Logística como modelo base y un Random Forest como modelo más complejo. A partir de las métricas obtenidas y de la validación cruzada, se observó que el modelo Random Forest presentó un mejor desempeño general, especialmente luego de la optimización de hiperparámetros.

Más allá de los resultados numéricos, el principal aprendizaje del trabajo estuvo en comprender el flujo completo del proceso, la importancia de la preparación de los datos y la comparación entre modelos antes de tomar una decisión final.
