# Abstract


## Modelado Predictivo de la Satisfacci√≥n de Pasajeros en Aerol√≠neas Low-Cost: Un Enfoque de Machine Learning para Rese√±as de Clientes de Ryanair

**Contexto:** La industria de aerol√≠neas de bajo costo opera en un equilibrio delicado entre precios competitivos y calidad de servicio, haciendo de la satisfacci√≥n del pasajero un determinante cr√≠tico del √©xito empresarial. Ryanair, como la mayor aerol√≠nea low-cost de Europa, presenta un caso de estudio compelling debido a su modelo de negocio distintivo y percepciones polarizadas de los clientes.

**Objetivo de Investigaci√≥n:** Este estudio desarrolla un framework predictivo integral para analizar los determinantes del comportamiento de recomendaci√≥n de pasajeros, integrando m√©tricas estructuradas de rating con feedback textual no estructurado. La investigaci√≥n aborda una brecha significativa en la literatura de aviaci√≥n mediante el empleo de t√©cnicas avanzadas de machine learning para decodificar la compleja interacci√≥n entre atributos de servicio, demographics de pasajeros y patrones ling√º√≠sticos en la formaci√≥n de satisfacci√≥n.

**Metodolog√≠a:** Utilizando un dataset de 276 rese√±as detalladas de pasajeros, implementamos un enfoque anal√≠tico multimodal que combina:
- An√°lisis tradicional de ratings (Comodidad del Asiento, Servicio de Tripulaci√≥n, Valor por Dinero, etc.)
- Rendimiento comparativo de tres algoritmos de clasificaci√≥n: Regresi√≥n Log√≠stica, Random Forest y XGBoost


## Hip√≥tesis Extendidas para Investigaci√≥n

**Hip√≥tesis 1: "Hip√≥tesis de Primac√≠a del Valor Econ√≥mico"**
La percepci√≥n de valor por dinero supera a todos los dem√°s atributos de servicio en la determinaci√≥n de la satisfacci√≥n general y la probabilidad de recomendaci√≥n en el contexto de aerol√≠neas low-cost.

**Hip√≥tesis 2:  "Hip√≥tesis Temporal"**
**"La satisfacci√≥n ha mejorado/deteriorado consistentemente en el tiempo"**
- *Variable*: `date_flown` o `date_published`
- An√°lisis de tendencias temporales

**Hip√≥tesis 3: "Hip√≥tesis de Vulnerabilidad del Segmento de Pasajeros"**
Ciertos segmentos de pasajeros (particularmente familias y parejas de leisure) demuestran sistem√°ticamente menor satisfacci√≥n debido expectativas desalineadas del servicio y sensibilidad a cargos adicionales.

**Conclusion de trabajo a realizar**
Este estudio desarrolla un modelo de clasificaci√≥n para predecir la satisfacci√≥n de pasajeros con Ryanair basado en rese√±as online, combinando an√°lisis de texto (comentarios) con m√©tricas estructuradas de evaluaci√≥n. 



**Estructura del dataset:**
- **date_published**: Fecha de publicaci√≥n de la rese√±a
- **overall_rating**: Calificaci√≥n general (1-10)
- **passenger_country**: Pa√≠s del pasajero
- **trip_verified**: Si el viaje fue verificado
- **aircraft**: Tipo de avi√≥n (principalmente Boeing 737 variantes)
- **type_of_traveller**: Tipo de viajero (Leisure, Business, etc.)
- **seat_type**: Clase del asiento
- **origin/destination**: Aeropuertos de origen y destino
- **date_flown**: Fecha del vuelo
- **M√©tricas de evaluaci√≥n**: seat_comfort, cabin_staff_service, food_&_beverages, ground_service, value_for_money, inflight_entertainment, wifi_&_connectivity
- **recommended**: Si recomendar√≠a la aerol√≠nea (yes/no)

**Observaciones iniciales:**
- Hay aproximadamente 900 rese√±as
- Las calificaciones van desde 1.0 (muy malas) hasta 10.0 (excelentes)
- La mayor√≠a de los vuelos son en clase econ√≥mica
- Los pasajeros provienen de diversos pa√≠ses
- Los destinos cubren principalmente Europa

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

In [None]:
# Cargar el dataset
file_path = "./dataset/ryanair_reviews.csv"

df = pd.read_csv(file_path)

In [None]:

# Mostrar informaci√≥n general del dataset
print("Shape")
df.shape


In [None]:

print("Columns")
df.columns


In [None]:
df.info()

_En base de algunos tipos de datos, eliminaremos las columnas que no tienen sentido para la recomendacion, por ejemplo el no uso de comentaros o data del tipo NLP_

In [None]:
columns_to_drop = [
    "id_review",
    "comment_title",
    "comment"
]

target = ['recommended']

In [None]:
df.columns = df.columns.str.strip().str.lower().str.replace(" ", "_").str.replace("(", "").str.replace(")", "")

In [None]:
df.drop(columns=columns_to_drop, inplace=True)

In [None]:
def analyze_missing_values(df):

    # Calcular valores nulos
    missing_values = df.isna().sum()
    missing_percentage = ((df.isna().sum() / len(df)) * 100).round(2)

    # Crear DataFrame
    missing_df = pd.DataFrame({
        "Cantidad_Nulos": missing_values,
        "Porcentaje_Nulos": missing_percentage
    })

    # Ordenar por porcentaje de nulos
    missing_df = missing_df.sort_values(by="Porcentaje_Nulos", ascending=False)    
    return missing_df

In [None]:
missing_df = analyze_missing_values(df)
missing_df

In [None]:
columns_high_missing_amount = missing_df.loc[missing_df.Porcentaje_Nulos>=40].index
columns_medium_missing_amount = missing_df.loc[(missing_df.Porcentaje_Nulos<40) & (missing_df.Porcentaje_Nulos>4)].index


In [None]:
df["value_for_money"].value_counts(dropna=False,normalize=True)

_Para este caso muy puntual tiene la posibilidad de drop rows --> por la cantidad de datos presentados_

In [None]:
df.dropna(subset="value_for_money", inplace=True)

In [None]:
value_to_drop = ["cabin_staff_service","seat_comfort"]

In [None]:
df.dropna(subset=value_to_drop, inplace=True)

_Eliminacion de duplicados_

In [None]:
def remove_duplicates_with_info(df, subset=None, keep='first'):
    print("INFORMACI√ìN DE ENTRADA:")
    print(f"   - Dimensiones: {df.shape[0]} filas √ó {df.shape[1]} columnas")
    print(f"   - Duplicados totales: {df.duplicated(subset=subset).sum()}")
    
    if subset:
        print(f"   - Verificando duplicados en columnas: {subset}")
    
    original_rows = df.shape[0]
    
    df_clean = df.drop_duplicates(subset=subset, keep=keep)
    
    print("\n INFORMACI√ìN DE SALIDA:")
    print(f"   - Dimensiones: {df_clean.shape[0]} filas √ó {df_clean.shape[1]} columnas")
    print(f"   - Duplicados restantes: {df_clean.duplicated(subset=subset).sum()}")
    print(f"   - Filas eliminadas: {original_rows - df_clean.shape[0]}")
    print(f"   - Reducci√≥n: {((original_rows - df_clean.shape[0]) / original_rows * 100):.1f}%")
    
    return df_clean

In [None]:
df = remove_duplicates_with_info(df)

In [None]:
def quick_unique_count(df, columns=None):

    if columns is None:
        columns = df.columns
    
    print("CONTEO DE VALORES √öNICOS POR COLUMNA")

    for col in columns:
        if col in df.columns:

            unique_count = df[col].nunique()
            total_count = len(df[col])
            null_count = df[col].isnull().sum()
            moda_value = df[col].mode()


            print(f" {col}:")
            print(f"   ‚Ä¢ Tipo: {df[col].dtype}")
            print(f"   ‚Ä¢ Valores √∫nicos: {unique_count:,}")
            print(f"   ‚Ä¢ Valor de la moda: {moda_value}")
            print(f"   ‚Ä¢ Total valores: {total_count:,}")
            print(f"   ‚Ä¢ Valores nulos: {null_count:,}")
            print(f"   % √önicos: {(unique_count/total_count*100):.1f}%")
            
            # Mostrar algunos valores √∫nicos (especial manejo para floats)
            if unique_count <= 10:
                unique_vals = df[col].dropna().unique()
                print(f"   ‚Ä¢ Valores: {sorted(unique_vals)}")
            elif df[col].dtype in ['float64', 'float32']:
                # Para floats, mostrar rango
                min_val = df[col].min()
                max_val = df[col].max()
                print(f"   ‚Ä¢ Rango: [{min_val:.2f} - {max_val:.2f}]")
            else:
                sample_vals = df[col].dropna().unique()[:3]
                print(f"   ‚Ä¢ Ejemplos: {list(sample_vals)}")
            
            print("-" * 40)


In [None]:
from numpy import pad


def plot_by_dtype_subplots(df, columns=None):
    if columns is None:
        columns = df.columns.tolist()
    
    # Separar por tipo de dato
    numeric_cols = df[columns].select_dtypes(include=[np.number]).columns.tolist()
    categorical_cols = df[columns].select_dtypes(include=['object', 'category']).columns.tolist()
    
    print(f"Columnas num√©ricas: {len(numeric_cols)}")
    print(f"Columnas categ√≥ricas: {len(categorical_cols)}")
    
    if numeric_cols:
        n_numeric = len(numeric_cols)
        n_rows = (n_numeric + 2) // 3
        fig, axes = plt.subplots(n_rows, 3, figsize=(18, n_rows * 4))
        
        if n_rows == 1:
            axes = axes.reshape(1, -1)
        
        fig.suptitle('Distribuci√≥n de Columnas Num√©ricas')
        
        for i, col in enumerate(numeric_cols):
            row = i // 3
            col_ax = i % 3
            ax = axes[row, col_ax]
            
            df[col].hist(bins=30, ax=ax, color='lightblue', alpha=0.7, edgecolor='black')
            ax.set_title(f'{col}\n(√önicos: {df[col].nunique()})', fontweight='bold')
            ax.set_ylabel('Frecuencia')
            ax.grid(True, alpha=0.3)
        
        # Ocultar ejes vac√≠os
        for i in range(len(numeric_cols), n_rows * 3):
            row = i // 3
            col_ax = i % 3
            axes[row, col_ax].set_visible(False)
        
        plt.tight_layout()
        plt.show()
    
    # Graficar categ√≥ricas
    if categorical_cols:
        n_categorical = len(categorical_cols)
        n_rows = (n_categorical + 2) // 3
        fig, axes = plt.subplots(n_rows, 3, figsize=(18, n_rows * 4))
        
        if n_rows == 1:
            axes = axes.reshape(1, -3)
        
        fig.suptitle('Distribuci√≥n de Columnas Categ√≥ricas')
        
        for i, col in enumerate(categorical_cols):
            row = i // 3
            col_ax = i % 3
            ax = axes[row, col_ax]
            
            value_counts = df[col].value_counts().head(10)  # Top 10
            bars = ax.bar(range(len(value_counts)), value_counts.values, 
                         color=plt.cm.Pastel1(i / len(categorical_cols)), alpha=0.7)
            
            ax.set_xticks(range(len(value_counts)))
            ax.set_xticklabels([str(x)[:10] + '...' if len(str(x)) > 10 else str(x) 
                              for x in value_counts.index], 
                             rotation=45, ha='right', fontsize=8)
            
            # A√±adir valores en barras
            for bar in bars:
                height = bar.get_height()
                ax.text(bar.get_x() + bar.get_width()/2., height,
                       f'{int(height)}', ha='center', va='bottom', fontsize=7)
            
            ax.set_title(f'{col}\n(√önicos: {df[col].nunique()})', fontweight='bold')
            ax.grid(True, alpha=0.3)
        
        # Ocultar ejes vac√≠os
        for i in range(len(categorical_cols), n_rows * 3):
            row = i // 3
            col_ax = i % 3
            axes[row, col_ax].set_visible(False)
        
        plt.tight_layout()
        plt.show()

In [None]:
quick_unique_count(df[columns_high_missing_amount])

In [None]:
plot_by_dtype_subplots(df, columns_high_missing_amount)

In [None]:
quick_unique_count(df[columns_medium_missing_amount])

In [None]:
plot_by_dtype_subplots(df, columns_medium_missing_amount)

### Imputacion por uso de simple imputerss

_Si bien tienen un alto valor de nulls, tiene sentido plantear que son valores nulls por default, por lo tanto vamos a utilizar imputacion por medio de valores de moda y otros por valores `0`_

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

In [None]:
# para el caso de food_&_beverages
imputer = IterativeImputer(max_iter=10, random_state=0)
imputed_values = imputer.fit_transform(df[['food_&_beverages']])

df['food_&_beverages'] = np.round(imputed_values).clip(0, 5)

print("Valores √∫nicos despu√©s de imputaci√≥n:", df['food_&_beverages'].unique())

In [None]:
from sklearn.impute import SimpleImputer

In [None]:
columns_to_impute_numeric = ["inflight_entertainment","wifi_&_connectivity"]
columns_to_impute_categoric = ["aircraft","trip_verified"]

In [None]:
# Imputador para num√©ricas con valor constante 0
numeric_imputer = SimpleImputer(strategy='constant', fill_value=0)
df[columns_to_impute_numeric] = numeric_imputer.fit_transform(df[columns_to_impute_numeric])


# Imputador para categ√≥ricas con la moda
categoric_imputer = SimpleImputer(strategy='most_frequent')
df[columns_to_impute_categoric] = categoric_imputer.fit_transform(df[columns_to_impute_categoric])

_date values_

In [None]:
df["date_flown"] = pd.to_datetime(df["date_flown"], format = "%B %Y", errors="coerce")                      

In [None]:
# Crear caracter√≠sticas temporales antes de imputar
df['year'] = df['date_flown'].dt.year
df['month'] = df['date_flown'].dt.month
df['quarter'] = df['date_flown'].dt.quarter

# Imputar la fecha principal con moda
mode_date = df['date_flown'].mode()[0] if not df['date_flown'].mode().empty else pd.Timestamp('2019-09-01')
df['date_flown'].fillna(mode_date, inplace=True)

# Verificar resultado
print(f"Valores nulos restantes: {df['date_flown'].isnull().sum()}")
print(f"Rango de fechas: {df['date_flown'].min()} to {df['date_flown'].max()}")

df.drop(columns=['year','month','quarter'],inplace=True)


In [None]:

constant_columns = ["ground_service" ,"overall_rating"] 

iterative_columns = ["cabin_staff_service", "seat_comfort"]

In [None]:
imputer = IterativeImputer(max_iter=10, random_state=0)
imputed_values = imputer.fit_transform(df[constant_columns])


In [None]:
# Imputador para num√©ricas con valor constante 0
numeric_imputer = SimpleImputer(strategy='constant', fill_value=0)
df[constant_columns] = numeric_imputer.fit_transform(df[constant_columns])

In [None]:
categorical_columns = ["origin","destination","type_of_traveller"]

In [None]:
# Encontrar la combinaci√≥n origen-destino m√°s frecuente
route_mode = df.groupby(['origin', 'destination']).size().idxmax()

# Imputar pares de forma coordinada
mask = df['origin'].isna() & df['destination'].isna()
df.loc[mask, 'origin'] = route_mode[0]
df.loc[mask, 'destination'] = route_mode[1]

df['origin'] = df['origin'].fillna('Unknown')
df['destination'] = df['destination'].fillna('Unknown')


In [None]:
# uso de la moda para la imputacion
imputed_values = SimpleImputer(strategy='most_frequent').fit_transform(df[['type_of_traveller']])
df['type_of_traveller'] = imputed_values[:, 0]

In [None]:
analyze_missing_values(df)

In [None]:
df.info()

In [None]:
plot_by_dtype_subplots(df, df.columns)

## Hipotesis 1

In [None]:
columns_corr =[col.lower().replace(" ", "_").replace("(", "").replace(")", "") for col in
['Overall Rating', 'Value For Money', 'Seat Comfort', 'Cabin Staff Service', 'Ground Service']]

columns_corr

In [None]:
# An√°lisis de correlaci√≥n entre value_for_money y overall_rating
plt.figure(figsize=(15, 5))

# Gr√°fico 1: Correlaci√≥n entre value_for_money y overall_rating
plt.subplot(1, 3, 1)
correlation_matrix = df[columns_corr].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Correlaci√≥n entre Ratings')

# Gr√°fico 2: Distribuci√≥n de overall_rating vs value_for_money
plt.subplot(1, 3, 2)
sns.scatterplot(data=df, x='value_for_money', y='overall_rating', alpha=0.6)
plt.title('value_for_money vs overall_rating')
plt.xlabel('value_for_money Rating')
plt.ylabel('overall_rating')

# Gr√°fico 3: Comparaci√≥n de importancia de factores
plt.subplot(1, 3, 3)
factors = columns_corr
correlations_with_overall = [correlation_matrix.loc['overall_rating', factor] for factor in factors]

plt.bar(factors, correlations_with_overall, color=['red', 'blue', 'green', 'orange'])
plt.title('Correlaci√≥n con overall_rating')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# An√°lisis estad√≠stico
print("AN√ÅLISIS HIP√ìTESIS 1")
print(f"Correlaci√≥n value_for_money - overall_rating: {correlation_matrix.loc['overall_rating', 'value_for_money']:.3f}")
print(f"Correlaci√≥n Seat Comfort - overall_rating: {correlation_matrix.loc['overall_rating', 'seat_comfort']:.3f}")
print(f"Correlaci√≥n Cabin Staff - overall_rating: {correlation_matrix.loc['overall_rating', 'cabin_staff_service']:.3f}")

# Test de significancia
from scipy.stats import pearsonr
corr_val, p_val = pearsonr(df['value_for_money'].dropna(), 
                          df['overall_rating'].dropna())
print(f"Valor p para correlaci√≥n value_for_money: {p_val:.6f}")

*El an√°lisis revela que "Value For Money" tiene la correlaci√≥n m√°s fuerte con el Overall Rating (correlaci√≥n de ~0.85), significativamente mayor que otros factores como comodidad del asiento o servicio de cabina. Esto valida la hip√≥tesis de que en aerol√≠neas low-cost, la percepci√≥n de valor econ√≥mico es el principal driver de satisfacci√≥n.*

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import pearsonr, chi2_contingency, f_oneway
import warnings
warnings.filterwarnings('ignore')


In [None]:

print("HIP√ìTESIS 2: Evoluci√≥n Temporal de la Satisfacci√≥n")

df['year_month'] = df['date_flown'].dt.to_period('M')

# Preparar datos temporales
temporal_data = df.dropna(subset=['date_flown', 'overall_rating']).copy()

monthly_stats = temporal_data.groupby('year_month').agg({
    'overall_rating': ['mean', 'count', 'std'],
    'value_for_money': 'mean',
    'cabin_staff_service': 'mean'
}).round(3)

monthly_stats.columns = ['rating_mean', 'review_count', 'rating_std', 
                        'value_mean', 'staff_mean']
monthly_stats = monthly_stats[monthly_stats['review_count'] >= 5]  # Filtrar meses con suficientes datos

plt.figure(figsize=(15, 10))

# Gr√°fico 1: Evoluci√≥n del rating promedio
plt.subplot(4, 1, 1)
plt.plot(monthly_stats.index.astype(str), monthly_stats['rating_mean'], 
         marker='o', linewidth=2, markersize=4, color='blue', alpha=0.7)

plt.fill_between(monthly_stats.index.astype(str), 
                monthly_stats['rating_mean'] - monthly_stats['rating_std'],
                monthly_stats['rating_mean'] + monthly_stats['rating_std'],
                alpha=0.2, color='blue')
plt.title('Evoluci√≥n del Rating Promedio Mensual', fontweight='bold')
plt.xticks(rotation=90, ha='right')
plt.ylabel('Overall Rating Promedio')
plt.grid(True, alpha=0.3)

# Gr√°fico 2: Evoluci√≥n comparada de factores
plt.subplot(4, 1, 2)
plt.plot(monthly_stats.index.astype(str), monthly_stats['rating_mean'], 
         marker='o', label='Overall Rating', linewidth=2)
plt.plot(monthly_stats.index.astype(str), monthly_stats['value_mean'], 
         marker='s', label='Value for Money', linewidth=2)
plt.plot(monthly_stats.index.astype(str), monthly_stats['staff_mean'], 
         marker='^', label='Cabin Staff', linewidth=2)
plt.title('Evoluci√≥n Comparada de Factores Clave', fontweight='bold')
plt.xticks(rotation=90, ha='right')
plt.ylabel('Rating Promedio')
plt.legend()
plt.grid(True, alpha=0.3)


plt.subplot(4, 1, 3)
plt.bar(monthly_stats.index.astype(str), monthly_stats['review_count'], 
        color='green', alpha=0.7)
plt.title('N√∫mero de Rese√±as por Mes', fontweight='bold')
plt.xticks(rotation=90, ha='right')
plt.ylabel('Cantidad de Rese√±as')

plt.subplot(4, 1, 4)
temporal_data['year'] = temporal_data['date_flown'].dt.year
yearly_boxplot = temporal_data[temporal_data['year'] >= 2020]  # Filtrar a√±os recientes
sns.boxplot(data=yearly_boxplot, x='year', y='overall_rating')
plt.title('Distribuci√≥n de Ratings por A√±o', fontweight='bold')
plt.xlabel('A√±o')
plt.ylabel('Overall Rating')

plt.tight_layout()
plt.show()

# An√°lisis estad√≠stico Hip√≥tesis 2
print("\n AN√ÅLISIS ESTAD√çSTICO HIP√ìTESIS 2")
print("Tendencia temporal del rating promedio:")
print(f"Rating promedio inicial: {monthly_stats['rating_mean'].iloc[0]:.2f}")
print(f"Rating promedio final: {monthly_stats['rating_mean'].iloc[-1]:.2f}")
print(f"Diferencia: {monthly_stats['rating_mean'].iloc[-1] - monthly_stats['rating_mean'].iloc[0]:.2f}")

# Test de correlaci√≥n temporal
monthly_stats_reset = monthly_stats.reset_index()
monthly_stats_reset['time_index'] = range(len(monthly_stats_reset))
time_corr, time_p = pearsonr(monthly_stats_reset['time_index'], 
                            monthly_stats_reset['rating_mean'])
print(f"Correlaci√≥n temporal (rating vs tiempo): {time_corr:.3f}, p-value: {time_p:.4f}")


In [None]:
print("\n2. HIP√ìTESIS TEMPORAL:")
if abs(time_corr) > 0.3 and time_p < 0.05:
    trend = "mejorado" if time_corr > 0 else "deteriorado"
    print(f"CONFIRMADA: Satisfacci√≥n ha {trend} significativamente en el tiempo")
else:
    print("NO CONFIRMADA: No hay tendencia temporal significativa")

In [None]:
print("HIP√ìTESIS 3: Vulnerabilidad del Segmento de Pasajeros")

# Preparar datos por tipo de viajero
traveler_data = df.dropna(subset=['type_of_traveller', 'overall_rating']).copy()

# Consolidar categor√≠as similares
traveler_mapping = {
    'Family Leisure': 'Family',
    'Couple Leisure': 'Couple', 
    'Solo Leisure': 'Solo',
    'Business': 'Business'
}
traveler_data['traveler_type'] = traveler_data['type_of_traveller'].map(traveler_mapping)
traveler_data = traveler_data.dropna(subset=['traveler_type'])

plt.figure(figsize=(15, 10))

# Gr√°fico 1: Distribuci√≥n de ratings por tipo de viajero
plt.subplot(2, 2, 1)
sns.boxplot(data=traveler_data, x='traveler_type', y='overall_rating', 
            order=['Family', 'Couple', 'Solo', 'Business'])
plt.title('Distribuci√≥n de Ratings por Tipo de Viajero', fontweight='bold')
plt.xlabel('Tipo de Viajero')
plt.ylabel('Overall Rating')

# Gr√°fico 2: Rating promedio por tipo de viajero
plt.subplot(2, 2, 2)
traveler_stats = traveler_data.groupby('traveler_type').agg({
    'overall_rating': ['mean', 'count', 'std'],
    'value_for_money': 'mean',
    'recommended': lambda x: (x == 'yes').mean()
}).round(3)

traveler_stats.columns = ['rating_mean', 'count', 'rating_std', 'value_mean', 'recommend_rate']
traveler_stats = traveler_stats.sort_values('rating_mean')

colors = ['red' if idx in ['Family', 'Couple'] else 'skyblue' for idx in traveler_stats.index]
plt.bar(traveler_stats.index, traveler_stats['rating_mean'], 
        color=colors, alpha=0.7, yerr=traveler_stats['rating_std'], capsize=5)
plt.title('Rating Promedio por Tipo de Viajero', fontweight='bold')
plt.ylabel('Overall Rating Promedio')

# A√±adir valores en las barras
for i, (idx, row) in enumerate(traveler_stats.iterrows()):
    plt.text(i, row['rating_mean'] + 0.1, f'{row["rating_mean"]:.2f}', 
             ha='center', va='bottom', fontweight='bold')

# Gr√°fico 3: Tasa de recomendaci√≥n por tipo de viajero
plt.subplot(2, 2, 3)
colors_rec = ['red' if idx in ['Family', 'Couple'] else 'skyblue' for idx in traveler_stats.index]
plt.bar(traveler_stats.index, traveler_stats['recommend_rate'] * 100, 
        color=colors_rec, alpha=0.7)
plt.title('Tasa de Recomendaci√≥n por Tipo de Viajero', fontweight='bold')
plt.ylabel('Tasa de Recomendaci√≥n (%)')

# A√±adir valores en las barras
for i, (idx, row) in enumerate(traveler_stats.iterrows()):
    plt.text(i, row['recommend_rate'] * 100 + 1, f'{row["recommend_rate"]*100:.1f}%', 
             ha='center', va='bottom', fontweight='bold')

# Gr√°fico 4: An√°lisis de value_for_money por segmento
plt.subplot(2, 2, 4)
sns.boxplot(data=traveler_data, x='traveler_type', y='value_for_money',
            order=['Family', 'Couple', 'Solo', 'Business'])
plt.title('Percepci√≥n de Value for Money por Segmento', fontweight='bold')
plt.xlabel('Tipo de Viajero')
plt.ylabel('Value for Money Rating')

plt.tight_layout()
plt.show()

# An√°lisis estad√≠stico Hip√≥tesis 3
print("\nAN√ÅLISIS ESTAD√çSTICO HIP√ìTESIS 3")
print("Estad√≠sticas por tipo de viajero:")
print(traveler_stats)

# Test ANOVA para diferencias entre grupos
groups = [traveler_data[traveler_data['traveler_type'] == traveler]['overall_rating'] 
          for traveler in ['Family', 'Couple', 'Solo', 'Business']]

f_stat, p_val_anova = f_oneway(*groups)
print(f"\nTest ANOVA - F-statistic: {f_stat:.3f}, p-value: {p_val_anova:.6f}")

# Comparaci√≥n espec√≠fica Family vs Business
from scipy.stats import ttest_ind
family_ratings = traveler_data[traveler_data['traveler_type'] == 'Family']['overall_rating']
business_ratings = traveler_data[traveler_data['traveler_type'] == 'Business']['overall_rating']
t_stat, p_val_ttest = ttest_ind(family_ratings, business_ratings, equal_var=False)
print(f"Test t (Family vs Business): t-statistic = {t_stat:.3f}, p-value = {p_val_ttest:.6f}")

print(f"\nDiferencia promedio Family-Business: {family_ratings.mean() - business_ratings.mean():.3f}")


print("\n3. HIP√ìTESIS DE VULNERABILIDAD DEL SEGMENTO:")
if family_ratings.mean() < business_ratings.mean() and p_val_ttest < 0.05:
    print("CONFIRMADA: Familias muestran significativamente menor satisfacci√≥n")
else:
    print("NO CONFIRMADA: No hay diferencia significativa entre segmentos")



¬°Excelente! Con los resultados reales, aqu√≠ est√°n las conclusiones corregidas:

## **CONCLUSI√ìN HIP√ìTESIS 2: "Hip√≥tesis Temporal"**

### **SATISFACCI√ìN HA DETERIORADO**

**Hallazgos Cr√≠ticos:**

1. **Tendencia de Deterioro Significativo**
   - La satisfacci√≥n ha mostrado un **deterioro estad√≠sticamente significativo** en el tiempo
   - Contradice la percepci√≥n inicial de mejora moderada
   - Indica **problemas estructurales o operativos** persistentes

2. **Implicaciones Alarmantes**
   - El deterioro temporal sugiere que las **iniciativas de mejora no han sido efectivas**
   - Posible **erosi√≥n de la ventaja competitiva** basada en precio
   - **Aumento de expectativas del consumidor** no satisfechas

3. **Urgencia de Intervenci√≥n**
   - Necesidad de **revisi√≥n profunda** de operaciones y servicio
   - Posible **fatiga de marca** en el modelo low-cost
   - **Brecha creciente** vs competidores que mejoran servicio

---

## **"Hip√≥tesis de Vulnerabilidad del Segmento de Pasajeros"**

### **NO CONFIRMADA - PATR√ìN DIFERENTE AL ESPERADO**

**Hallazgos Contrarios a la Hip√≥tesis:**

1. **Jerarqu√≠a Invertida de Satisfacci√≥n**
   ```
   Solo Leisure (4.46) > Couple Leisure (4.42) > Business (3.93) > Family (3.64)
   ```

2. **Resultados Estad√≠sticos Clave:**
   - **ANOVA significativo** (p = 0.0017):  **HAY diferencias entre grupos**
   - **Test t Family vs Business NO significativo** (p = 0.421): **NO hay diferencia espec√≠fica entre estos dos grupos**
   - **Las diferencias reales** est√°n entre Solo/Couple vs Family/Business

3. **Nuevos Insights Reveladores:**

   **Segmento M√ÅS Satisfecho: SOLO LEISURE (4.46)**
   - Viajeros individuales son los **m√°s contentos** con Ryanair
   - Probablemente valoran **autonom√≠a, precio, flexibilidad**
   - **Segmento objetivo ideal** - alto satisfaction + volumen

   **Segmento ESTABLE: COUPLE LEISURE (4.42)**
   - Segundos m√°s satisfechos
   - Balance entre experiencia compartida y pragmatismo
   - **Base s√≥lida** del negocio

   **Segmentos PROBLEM√ÅTICOS:**
   - **BUSINESS (3.93)**: Expectativas de servicio no cumplidas
   - **FAMILY (3.64)**: Desaf√≠os log√≠sticos y de espacio

4. **An√°lisis de la NO Confirmaci√≥n:**
   - La hip√≥tesis original **sobrestim√≥** la vulnerabilidad familiar vs business
   - **Ambos segmentos (Family y Business)** muestran baja satisfacci√≥n
   - El **verdadero diferenciador** es viajero individual vs grupal/corporativo

**NUEVA HIP√ìTESIS EMERGENTE:**
**"Los viajeros individuales (Solo/Couple Leisure) son significativamente m√°s satisfechos que los viajeros con restricciones grupales/corporativas (Family/Business)"**

**Implicaciones Estrat√©gicas Corregidas:**

1. **Reenfocar Esfuerzos de Mejora:**
   - Priorizar **Business Travelers** (brecha grande vs expectativas)
   - **Revisar pol√≠ticas familiares** (aunque no son los √∫nicos problem√°ticos)

2. **Fortalecer Ventaja Competitiva:**
   - **Capitalizar alta satisfacci√≥n** en segmento Solo Leisure
   - Desarrollar **ofertas espec√≠ficas** para viajeros individuales

3. **Comunicaci√≥n Segmentada:**
   - Mensajes diferentes para **viajeros individuales** vs **grupos/empresas**
   - Gestionar expectativas para **segmentos corporativos**


*Importante* : No tengo datos numericos, por lo tanto la busqueda de outliers no es necesario

---

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')


In [None]:

# Configuraci√≥n
plt.style.use('default')
sns.set_palette("viridis")

# Preparar datos
df_clean = df.copy()

# Seleccionar variables num√©ricas para an√°lisis de correlaci√≥n
numeric_columns = [
    'overall_rating', 'seat_comfort', 'cabin_staff_service', 
    'food_&_beverages', 'ground_service', 'value_for_money',
    'inflight_entertainment', 'wifi_&_connectivity'
]

# Filtrar solo las columnas que existen en el dataset
available_columns = [col for col in numeric_columns if col in df_clean.columns]
df_corr = df_clean[available_columns].copy()

print("AN√ÅLISIS DE COLINEALIDAD Y CORRELACI√ìN")
print(f"Variables analizadas: {available_columns}")
print(f"Tama√±o de muestra: {len(df_corr)} registros\n")

# Calcular matriz de correlaci√≥n
correlation_matrix = df_corr.corr().round(3)
correlation_matrix

In [None]:
plt.figure(figsize=(16, 14))

# Heatmap 1: Matriz de correlaci√≥n completa
plt.subplot(2, 2, 1)
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
heatmap = sns.heatmap(correlation_matrix, annot=True, cmap='RdBu_r', center=0,
                     square=True, fmt='.3f', mask=mask, 
                     cbar_kws={'shrink': 0.8}, annot_kws={'size': 10})
plt.title('MATRIZ DE CORRELACI√ìN - TODAS LAS VARIABLES\n(Pearson Correlation)', 
          fontsize=14, fontweight='bold', pad=20)

# Heatmap 2: Correlaciones solo con overall_rating
plt.subplot(2, 2, 2)
corr_with_target = correlation_matrix[['overall_rating']].drop('overall_rating')
corr_with_target_sorted = corr_with_target.sort_values('overall_rating', ascending=False)

sns.heatmap(corr_with_target_sorted, annot=True, cmap='viridis', 
            fmt='.3f', cbar_kws={'shrink': 0.8})
plt.title('CORRELACI√ìN CON OVERALL_RATING\n(Ordenado por importancia)', 
          fontsize=14, fontweight='bold', pad=20)
plt.ylabel('Variables')

plt.subplot(2, 2, 3)

# Crear matriz de colinealidad (correlaciones entre predictores, excluyendo target)
predictors_matrix = correlation_matrix.drop('overall_rating').drop('overall_rating', axis=1)

# Resaltar correlaciones altas entre predictores (potencial colinealidad)
high_collinearity_mask = (np.abs(predictors_matrix) > 0.7) & (np.abs(predictors_matrix) < 1.0)

sns.heatmap(predictors_matrix, annot=True, cmap='YlOrRd', 
            fmt='.3f', cbar_kws={'shrink': 0.8},
            mask=np.eye(len(predictors_matrix)))  # Mask diagonal
plt.title('COLINEALIDAD ENTRE PREDICTORES\n(Correlaciones > 0.7 resaltadas)', 
          fontsize=14, fontweight='bold', pad=20)


plt.tight_layout()
plt.show()


In [None]:
# Transformar recommended a num√©rico
df['recommended_numeric'] = df['recommended'].map({'yes': 1, 'no': 0})

# Seleccionar solo columnas num√©ricas para el an√°lisis de correlaci√≥n
numeric_columns = [
    'overall_rating', 'seat_comfort', 'cabin_staff_service', 
    'food_&_beverages', 'ground_service', 'value_for_money', 
    'inflight_entertainment', 'wifi_&_connectivity', 'recommended_numeric'
]

# Calcular matriz de correlaci√≥n
correlation_matrix = df[numeric_columns].corr()

# Obtener correlaciones con recommended
recommended_correlations = correlation_matrix['recommended_numeric'].sort_values(ascending=False)

print("CORRELACIONES CON RECOMMENDED (ordenadas por importancia):")
for feature, corr in recommended_correlations.items():
    if feature != 'recommended_numeric':
        print(f"{feature:25} : {corr:+.4f}")


In [None]:
# Tambi√©n mostrar correlaci√≥n entre features para detectar multicolinealidad
print("MATRIZ DE CORRELACI√ìN COMPLETA:")
correlation_matrix.round(3)

In [None]:
plt.rcParams['figure.figsize'] = (16, 9)

# Transformar recommended a num√©rico
df['recommended_numeric'] = df['recommended'].map({'yes': 1, 'no': 0})

# Seleccionar solo columnas num√©ricas para el an√°lisis de correlaci√≥n
numeric_columns = [
    'overall_rating', 'seat_comfort', 'cabin_staff_service', 
    'food_&_beverages', 'ground_service', 'value_for_money', 
    'inflight_entertainment', 'wifi_&_connectivity', 'recommended_numeric'
]

# Calcular matriz de correlaci√≥n
correlation_matrix = df[numeric_columns].corr()

# Crear m√°scara para el tri√°ngulo superior
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))

# Crear el heatmap
plt.figure(figsize=(16, 9))
heatmap = sns.heatmap(correlation_matrix, 
                    mask=mask,
                    annot=True, 
                    cmap='RdBu_r', 
                    center=0,
                    fmt='.3f',
                    square=True,
                    cbar_kws={'shrink': 0.8})

# Mejorar el t√≠tulo y formato
plt.title('MATRIZ DE CORRELACI√ìN - PREDICCI√ìN DE RECOMENDACI√ìN', 
         fontsize=16, fontweight='bold', pad=20)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)

# Resaltar la fila de recommended
recommended_idx = list(correlation_matrix.columns).index('recommended_numeric')
for i, label in enumerate(heatmap.get_yticklabels()):
    if i == recommended_idx:
        label.set_fontweight('bold')
        label.set_color('darkred')

for i, label in enumerate(heatmap.get_xticklabels()):
    if i == recommended_idx:
        label.set_fontweight('bold')
        label.set_color('darkred')

plt.tight_layout()
plt.show()

# Heatmap enfocado solo en correlaciones con recommended
plt.figure(figsize=(16, 9))
recommended_corrs = correlation_matrix['recommended_numeric'].drop('recommended_numeric')
recommended_corrs_sorted = recommended_corrs.sort_values(ascending=False)

# Crear gr√°fico de barras para correlaciones
colors = ['#2E8B57' if x > 0.5 else '#FF6B6B' if x > 0.3 else '#FFA500' for x in recommended_corrs_sorted]

plt.barh(range(len(recommended_corrs_sorted)), recommended_corrs_sorted.values, color=colors)
plt.yticks(range(len(recommended_corrs_sorted)), recommended_corrs_sorted.index)
plt.xlabel('Coeficiente de Correlaci√≥n')
plt.title('CORRELACI√ìN CON RECOMMENDED', fontsize=14, fontweight='bold')
plt.grid(axis='x', alpha=0.3)

# A√±adir valores en las barras
for i, v in enumerate(recommended_corrs_sorted.values):
    plt.text(v + 0.01, i, f'{v:.3f}', va='center', fontweight='bold')

plt.tight_layout()
plt.show()

# Mostrar correlaciones en formato tabla
print("CORRELACIONES CON RECOMMENDED (ordenadas por importancia):")

for feature, corr in recommended_corrs_sorted.items():
    strength = "MUY FUERTE" if abs(corr) > 0.7 else "FUERTE" if abs(corr) > 0.5 else "MODERADA" if abs(corr) > 0.3 else "D√âBIL"
    print(f"{feature:25} : {corr:+.4f} ({strength})")

# RECOMENDACI√ìN CONCLUSIVA - FEATURES PARA MODELO DE ML

## **FEATURES PRINCIPALES (IMPLEMENTAR S√ç O S√ç)**

### **1. `overall_rating`** 
- **Correlaci√≥n: +0.9050** (MUY FUERTE)
- **Impacto**: **CR√çTICO** - Explica el 90.5% de la variabilidad en las recomendaciones
- **Recomendaci√≥n**: **INCLUIR COMO FEATURE PRINCIPAL**

### **2. `value_for_money`**
- **Correlaci√≥n: +0.8526** (MUY FUERTE)
- **Impacto**: **ALTO** - La relaci√≥n calidad-precio es fundamental
- **Recomendaci√≥n**: **INCLUIR COMO FEATURE ESENCIAL**

### **3. `cabin_staff_service`**
- **Correlaci√≥n: +0.7218** (MUY FUERTE)
- **Impacto**: **ALTO** - El servicio de la tripulaci√≥n es clave
- **Recomendaci√≥n**: **INCLUIR COMO FEATURE PRIMARIO**

### **4. `seat_comfort`** 
- **Correlaci√≥n: +0.6631** (FUERTE)
- **Impacto**: **MEDIO-ALTO** - Comodidad f√≠sica importante
- **Recomendaci√≥n**: **INCLUIR COMO FEATURE SECUNDARIO**

---

##  **FEATURES OPCIONALES (CONSIDERAR SEG√öN COMPLEJIDAD)**

### **5. `food_&_beverages`** & **6. `ground_service`** 
- **Correlaci√≥n: ~+0.417** (MODERADA)
- **Impacto**: **MEDIO** - Contribuyen pero no son decisivos
- **Recomendaci√≥n**: **INCLUIR SI SE BUSCA M√ÅXIMA PRECISI√ìN**

---

##  **FEATURES A DESCARTAR**

### **7. `inflight_entertainment`** & **8. `wifi_&_connectivity`** 
- **Correlaci√≥n: ~-0.19** (D√âBIL/NEGATIVA)
- **Impacto**: **INSIGNIFICANTE** - Pr√°cticamente no influyen
- **Recomendaci√≥n**: **EXCLUIR DEL MODELO**


# Modelo de Mahcine Learning para Prediccion


In [None]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier
from sklearn.metrics import (accuracy_score, precision_score, recall_score, 
                           f1_score, confusion_matrix, classification_report, 
                           roc_auc_score, roc_curve)
import warnings
warnings.filterwarnings('ignore')


In [None]:
# Transformar target a num√©rico
df['recommended_numeric'] = df['recommended'].map({'yes': 1, 'no': 0})

# Seleccionar features basado en el an√°lisis de correlaci√≥n
best_features = [
    'overall_rating',
    'value_for_money', 
    'cabin_staff_service',
    'seat_comfort',
    'food_&_beverages',
    'ground_service'
]


In [None]:
X = df[best_features].copy()
y = df['recommended_numeric']


X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Escalar features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"Dataset: {X.shape[0]} muestras, {X.shape[1]} features")
print(f"Distribuci√≥n target: {y.value_counts().to_dict()}")
print(f"Train: {X_train.shape[0]} muestras")
print(f"Test: {X_test.shape[0]} muestras")


In [None]:
models = {
    'Logistic Regression': LogisticRegression(random_state=42, max_iter=1000),
    'Decision Tree': DecisionTreeClassifier(random_state=42, max_depth=5),
    'Random Forest': RandomForestClassifier(random_state=42, n_estimators=100),
    'XGBoost': XGBClassifier(random_state=42, eval_metric='logloss'),
    'LightGBM': LGBMClassifier(random_state=42, verbose=-1),
    'CatBoost': CatBoostClassifier(random_state=42, verbose=False, iterations=100)
}

In [None]:
# Entrenar y evaluar modelos
print("ENTRENANDO Y EVALUANDO MODELOS")

results = {}
predictions = {}
y_pred_proba_dict = {}

for name, model in models.items():
    print(f"\n Entrenando {name}...")
    
    # Usar datos escalados para modelos que lo requieren
    if name in ['Logistic Regression', 'XGBoost', 'LightGBM']:
        print(f"Generando data scaled para : {name}")
        X_tr, X_te = X_train_scaled, X_test_scaled
    else:
        print(f"Generando data para : {name}")
        X_tr, X_te = X_train, X_test
    
    # Entrenar modelo
    model.fit(X_tr, y_train)
    
    # Predecir
    y_pred = model.predict(X_te)
    y_pred_proba = model.predict_proba(X_te)[:, 1]
    
    # Calcular m√©tricas
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    auc = roc_auc_score(y_test, y_pred_proba)
    
    # Cross validation
    cv_scores = cross_val_score(model, X_tr, y_train, cv=5, scoring='accuracy')
    
    # Guardar resultados
    results[name] = {
        'Accuracy': accuracy,
        'Precision': precision,
        'Recall': recall,
        'F1-Score': f1,
        'AUC': auc,
        'CV Mean': cv_scores.mean(),
        'CV Std': cv_scores.std()
    }
    
    predictions[name] = y_pred
    y_pred_proba_dict[name] = y_pred_proba
    
    print(f"{name} completado - Accuracy: {accuracy:.3f}")

# Mostrar resultados comparativos
print(" RESULTADOS COMPARATIVOS (CON CATBOOST)")

results_df = pd.DataFrame(results).T
results_df = results_df.round(4)
results_df_sorted = results_df.sort_values('Accuracy', ascending=False)


In [None]:
results_df_sorted

In [None]:
# Visualizaci√≥n de m√©tricas
fig, axes = plt.subplots(2, 3, figsize=(18, 12))

# Gr√°fico 1: Accuracy
results_df_sorted['Accuracy'].plot(kind='bar', ax=axes[0,0], color='skyblue', alpha=0.8)
axes[0,0].set_title('Accuracy por Modelo')
axes[0,0].set_ylabel('Accuracy')
axes[0,0].tick_params(axis='x', rotation=45)
for i, v in enumerate(results_df_sorted['Accuracy']):
    axes[0,0].text(i, v + 0.01, f'{v:.3f}', ha='center', va='bottom')

# Gr√°fico 2: AUC
results_df_sorted['AUC'].plot(kind='bar', ax=axes[0,1], color='lightcoral', alpha=0.8)
axes[0,1].set_title('AUC Score por Modelo')
axes[0,1].set_ylabel('AUC')
axes[0,1].tick_params(axis='x', rotation=45)
for i, v in enumerate(results_df_sorted['AUC']):
    axes[0,1].text(i, v + 0.01, f'{v:.3f}', ha='center', va='bottom')

# Gr√°fico 3: F1-Score
results_df_sorted['F1-Score'].plot(kind='bar', ax=axes[0,2], color='lightgreen', alpha=0.8)
axes[0,2].set_title('F1-Score por Modelo')
axes[0,2].set_ylabel('F1-Score')
axes[0,2].tick_params(axis='x', rotation=45)
for i, v in enumerate(results_df_sorted['F1-Score']):
    axes[0,2].text(i, v + 0.01, f'{v:.3f}', ha='center', va='bottom')

# Gr√°fico 4: Cross Validation
cv_means = results_df_sorted['CV Mean']
cv_stds = results_df_sorted['CV Std']
axes[1,0].bar(cv_means.index, cv_means.values, yerr=cv_stds.values, 
             capsize=5, alpha=0.7, color='orange')
axes[1,0].set_title('Cross Validation Accuracy (5-fold)')
axes[1,0].set_ylabel('Accuracy')
axes[1,0].tick_params(axis='x', rotation=45)
for i, v in enumerate(cv_means.values):
    axes[1,0].text(i, v + 0.01, f'{v:.3f}', ha='center', va='bottom')

# Gr√°fico 5: Matriz de confusi√≥n del mejor modelo
best_model_name = results_df['Accuracy'].idxmax()
best_y_pred = predictions[best_model_name]
cm = confusion_matrix(y_test, best_y_pred)

sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[1,1],
            xticklabels=['No Recomienda', 'Recomienda'],
            yticklabels=['No Recomienda', 'Recomienda'])
axes[1,1].set_title(f'Matriz de Confusi√≥n - {best_model_name}\nAccuracy: {results_df.loc[best_model_name, "Accuracy"]:.3f}')


plt.tight_layout()
plt.show()


In [None]:
# Curvas ROC en subplots individuales
print("CURVAS ROC - TODOS LOS MODELOS")

# Calcular el n√∫mero de filas y columnas para los subplots
n_models = len(models)
n_cols = 3  # Puedes ajustar este n√∫mero seg√∫n prefieras
n_rows = (n_models + n_cols - 1) // n_cols  # Divisi√≥n redondeada hacia arriba

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5*n_rows))
axes = axes.flatten() if n_rows > 1 or n_cols > 1 else [axes]  # Aplanar el array de axes

colors = ['blue', 'green', 'red', 'purple', 'orange', 'brown', 'pink', 'gray', 'olive', 'cyan']

for i, (name, color) in enumerate(zip(models.keys(), colors)):
    if i < len(axes):  # Asegurarse de que no excedemos el n√∫mero de subplots
        # Calcular m√©tricas ROC para el modelo actual
        fpr, tpr, _ = roc_curve(y_test, y_pred_proba_dict[name])
        auc_score = roc_auc_score(y_test, y_pred_proba_dict[name])
        
        # Graficar en el subplot individual
        axes[i].plot(fpr, tpr, label=f'{name} (AUC = {auc_score:.3f})', 
                    linewidth=2.5, color=color, alpha=0.8)
        axes[i].plot([0, 1], [0, 1], 'k--', alpha=0.5, 
                    label='Clasificador Aleatorio', linewidth=2)
        
        # Configurar el subplot individual
        axes[i].set_xlabel('Tasa de Falsos Positivos (FPR)', fontsize=10)
        axes[i].set_ylabel('Tasa de Verdaderos Positivos (TPR)', fontsize=10)
        axes[i].set_title(f'Curva ROC - {name}', fontsize=12, fontweight='bold')
        axes[i].legend(fontsize=9)
        axes[i].grid(alpha=0.3)
        axes[i].set_xlim([0.0, 1.0])
        axes[i].set_ylim([0.0, 1.05])

# Ocultar los subplots vac√≠os si los hay
for i in range(len(models), len(axes)):
    axes[i].set_visible(False)

plt.tight_layout()
plt.show()


In [None]:
# üîç IMPORTANCIA DE FEATURES - COMPARATIVO
print("IMPORTANCIA DE FEATURES - COMPARATIVO")

fig, axes = plt.subplots(2, 3, figsize=(20, 12))
all_models = ['Random Forest', 'XGBoost', 'LightGBM', 'CatBoost', 'Logistic Regression']

for i, model_name in enumerate(all_models):
    model = models[model_name]
    
    # Determinar si es modelo ensemble (usa feature_importances_) o lineal (usa coef_)
    if hasattr(model, 'feature_importances_'):
        # Para modelos ensemble
        feature_importance = pd.DataFrame({
            'feature': best_features,
            'importance': model.feature_importances_
        }).sort_values('importance', ascending=True)
        
        title = f'Feature Importance - {model_name}'
        xlabel = 'Importancia'
        
    elif hasattr(model, 'coef_'):
        # Para Logistic Regression - usar valores absolutos de coeficientes
        importance_values = np.abs(model.coef_[0])
        feature_importance = pd.DataFrame({
            'feature': best_features,
            'importance': importance_values
        }).sort_values('importance', ascending=True)
        
        title = f'Coeficientes (abs) - {model_name}'
        xlabel = '|Coeficiente|'
    
    # Crear el gr√°fico
    row, col = i//3, i%3
    ax = axes[row, col]
    bars = ax.barh(feature_importance['feature'], feature_importance['importance'], 
                  color=plt.cm.viridis(np.linspace(0, 1, len(best_features))))
    ax.set_title(title, fontweight='bold')
    ax.set_xlabel(xlabel)
    
    # A√±adir valores en las barras
    for bar in bars:
        width = bar.get_width()
        ax.text(width + 0.001, bar.get_y() + bar.get_height()/2, 
               f'{width:.3f}', ha='left', va='center', fontsize=8)

# Feature importance promedio (solo para modelos con feature_importances_)
ensemble_models = ['Random Forest', 'XGBoost', 'LightGBM', 'CatBoost']
avg_importance = pd.DataFrame({'feature': best_features})

for model_name in all_models:
    model = models[model_name]
    
    if hasattr(model, 'feature_importances_'):
        # Para modelos ensemble
        avg_importance[model_name] = model.feature_importances_
    elif hasattr(model, 'coef_'):
        # Para Logistic Regression - normalizar coeficientes para comparar
        coef_abs = np.abs(model.coef_[0])
        # Normalizar para que sumen 1 (similar a feature_importances_)
        coef_normalized = coef_abs / coef_abs.sum()
        avg_importance[model_name] = coef_normalized

# Calcular promedio de todos los modelos
avg_importance['Average'] = avg_importance[all_models].mean(axis=1)
avg_importance = avg_importance.sort_values('Average', ascending=True)

# Gr√°fico de promedio
axes[1, 2].barh(avg_importance['feature'], avg_importance['Average'],
               color=plt.cm.plasma(np.linspace(0, 1, len(best_features))))
axes[1, 2].set_title('Importancia Promedio - Todos los Modelos', fontweight='bold')
axes[1, 2].set_xlabel('Importancia Promedio')

# A√±adir valores en las barras del promedio
bars_avg = axes[1, 2].containers[0]
for bar in bars_avg:
    width = bar.get_width()
    axes[1, 2].text(width + 0.001, bar.get_y() + bar.get_height()/2, 
                   f'{width:.3f}', ha='left', va='center', fontsize=8)

plt.tight_layout()
plt.show()

# Conclusiones finales:

### **Mejor Opci√≥n: CatBoost**

**Razones principales:**

1. **Mayor poder discriminativo**: CatBoost muestra el rango m√°s amplio de importancias (0.10-0.18) comparado con otros modelos, indicando una mejor capacidad para distinguir entre caracter√≠sticas importantes y menos importantes.

2. **Consistencia en caracter√≠sticas clave**:
   - `overall_raising` y `value_for_promy` son consistentemente las dos caracter√≠sticas m√°s importantes en todos los modelos
   - CatBoost mantiene este patr√≥n pero con mejor separaci√≥n entre caracter√≠sticas

3. **Estabilidad**: Las importancias en CatBoost est√°n mejor distribuidas sin la superposici√≥n excesiva que se observa en algunos otros modelos.

### **Ranking de Modelos:**

1. **CatBoost** - Mejor balance y discriminaci√≥n
2. **Random Forest** - Buen rango de importancias pero menos refinado
3. **XGBoost** - Similar a CatBoost pero con importancias m√°s concentradas
4. **Logistic Regression** - Patr√≥n similar a CatBoost pero posiblemente menos robusto

### **Caracter√≠sticas M√°s Importantes (Consistentes en todos los modelos):**

1. **overall_raising** - La m√°s importante en todos los modelos
2. **value_for_promy** - Segunda en importancia consistentemente
3. **ground_service** - Tercera posici√≥n en la mayor√≠a de modelos
4. **cabin_stuff_service** - Cuarta en importancia general

### **Recomendaci√≥n Final:**

**CatBoost** ser√≠a la mejor opci√≥n porque:
- Proporciona la mejor separaci√≥n entre caracter√≠sticas importantes y menos importantes
- Mantiene consistencia con los patrones encontrados en otros modelos
- Es conocido por su buen rendimiento con datos categ√≥ricos y su robustez frente al overfitting
- Las importancias bien definidas facilitan la interpretaci√≥n del modelo para toma de decisiones