# üìä Proyecto: Predicci√≥n del Precio de Vuelos

## 1. Descripci√≥n del Problema de Negocio

### Contexto
Una agencia de viajes en l√≠nea desea ofrecer a sus clientes **estimaciones precisas de precios de boletos de avi√≥n** antes de realizar una b√∫squeda exhaustiva. El precio de un boleto de avi√≥n var√≠a significativamente seg√∫n m√∫ltiples factores como la aerol√≠nea, el destino, la temporada, la clase de servicio y la anticipaci√≥n de la reserva.

### Problema de Negocio
Desarrollar un **modelo predictivo de Machine Learning** capaz de estimar el precio de un boleto de avi√≥n bas√°ndose en las caracter√≠sticas del vuelo disponibles.

### Variable Objetivo
- **Variable a predecir:** `price` (precio del boleto en rupias)
- **Tipo de problema:** Regresi√≥n (variable continua)

### Metodolog√≠a
1. **An√°lisis Exploratorio:** Entender los datos, identificar patrones y relaciones
2. **Preprocesamiento:** Limpiar, transformar y crear nuevas caracter√≠sticas
3. **Modelamiento:** Entrenar m√∫ltiples modelos de ML y optimizar hiperpar√°metros
4. **Evaluaci√≥n:** Comparar modelos usando m√©tricas apropiadas y seleccionar el mejor
5. **Conclusiones:** Evaluar la utilidad del modelo y definir pr√≥ximos pasos

### Datasets Disponibles
- `economy.xlsx`: Vuelos en clase econ√≥mica
- `business.xlsx`: Vuelos en clase business

---


In [1]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import os
import joblib
from datetime import datetime

# Machine Learning
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, mean_absolute_percentage_error

# Modelos de ML
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor

# Configuraci√≥n
warnings.filterwarnings('ignore')
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úì Librer√≠as importadas correctamente")
print(f"Fecha de ejecuci√≥n: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

‚úì Librer√≠as importadas correctamente
Fecha de ejecuci√≥n: 2025-11-04 02:12:23


---

## Pasos 9-10: Optimizaci√≥n de Hiperpar√°metros y Evaluaci√≥n

Este notebook contiene los pasos finales del proyecto:
- **Paso 9:** Optimizaci√≥n de hiperpar√°metros para Random Forest, XGBoost y CatBoost
- **Paso 10:** Evaluaci√≥n con m√∫ltiples m√©tricas y visualizaciones comparativas
- **Conclusiones:** An√°lisis de resultados y pr√≥ximos pasos

**Nota:** Se asume que los pasos 1-8 (carga de datos, EDA, preprocesamiento) ya fueron completados.

---


## 2. Carga de Datos

**Nota:** Aseg√∫rate de tener los archivos `economy.xlsx` y `business.xlsx` en el directorio actual.


In [2]:
# Cargar datasets
try:
    df_economy = pd.read_excel('economy.xlsx')
    df_business = pd.read_excel('business.xlsx')
    
    print("‚úì Datasets cargados exitosamente")
    print(f"  - Economy: {df_economy.shape[0]:,} registros, {df_economy.shape[1]} columnas")
    print(f"  - Business: {df_business.shape[0]:,} registros, {df_business.shape[1]} columnas")
    
    # Convertir columna 'date' a datetime si existe
    if 'date' in df_economy.columns:
        df_economy['date'] = pd.to_datetime(df_economy['date'])
    if 'date' in df_business.columns:
        df_business['date'] = pd.to_datetime(df_business['date'])
        
except FileNotFoundError as e:
    print(f"‚ùå Error: No se encontraron los archivos de datos")
    print(f"   Aseg√∫rate de tener 'economy.xlsx' y 'business.xlsx' en el directorio actual")

‚úì Datasets cargados exitosamente
  - Economy: 206,774 registros, 11 columnas
  - Business: 93,487 registros, 11 columnas


## 6. Funci√≥n de Preprocesamiento

Esta funci√≥n encapsula todo el tratamiento de datos necesario para preparar los datasets para el modelamiento.


In [3]:
def preprocess_flight_data(df_economy, df_business):
    """
    Funci√≥n que encapsula todo el preprocesamiento necesario para los datos de vuelos.
    
    Par√°metros:
    -----------
    df_economy : DataFrame
        Dataset de vuelos clase economy
    df_business : DataFrame
        Dataset de vuelos clase business
    
    Retorna:
    --------
    DataFrame procesado y listo para modelamiento, diccionario de encoders
    """
    
    print("="*80)
    print("INICIANDO PREPROCESAMIENTO DE DATOS")
    print("="*80)
    
    # 1. Combinar datasets
    df_economy_copy = df_economy.copy()
    df_business_copy = df_business.copy()
    
    df_economy_copy['class'] = 'Economy'
    df_business_copy['class'] = 'Business'
    
    # Convertir price en business a num√©rico
    df_business_copy['price'] = pd.to_numeric(df_business_copy['price'], errors='coerce')
    
    # Combinar
    df = pd.concat([df_economy_copy, df_business_copy], ignore_index=True)
    print(f"‚úì Datasets combinados: {df.shape[0]:,} registros totales")
    
    # 2. Eliminar duplicados
    df = df.drop_duplicates()
    print(f"‚úì Duplicados eliminados: {df.shape[0]:,} registros restantes")
    
    # 3. Eliminar valores nulos
    df = df.dropna()
    print(f"‚úì Valores nulos eliminados: {df.shape[0]:,} registros restantes")
    
    # 4. Convertir time_taken a minutos
    def time_to_minutes(time_str):
        try:
            hours = 0
            minutes = 0
            if 'h' in str(time_str):
                parts = str(time_str).split('h')
                hours = int(parts[0].strip())
                if len(parts) > 1 and 'm' in parts[1]:
                    minutes = int(parts[1].replace('m', '').strip())
            elif 'm' in str(time_str):
                minutes = int(str(time_str).replace('m', '').strip())
            return hours * 60 + minutes
        except:
            return None
    
    df['duration_minutes'] = df['time_taken'].apply(time_to_minutes)
    print(f"‚úì Duraci√≥n convertida a minutos")
    
    # 5. Extraer n√∫mero de escalas
    def extract_num_stops(stop_str):
        stop_str = str(stop_str).lower()
        if 'non-stop' in stop_str or 'non stop' in stop_str:
            return 0
        elif '1-stop' in stop_str or '1 stop' in stop_str:
            return 1
        elif '2-stop' in stop_str or '2 stop' in stop_str:
            return 2
        else:
            return 0
    
    df['num_stops'] = df['stop'].apply(extract_num_stops)
    print(f"‚úì N√∫mero de escalas extra√≠do")
    
    # 6. Extraer caracter√≠sticas temporales
    df['day_of_week'] = df['date'].dt.dayofweek
    df['day_of_month'] = df['date'].dt.day
    df['month'] = df['date'].dt.month
    df['is_weekend'] = (df['day_of_week'] >= 5).astype(int)
    print(f"‚úì Caracter√≠sticas temporales creadas")
    
    # 7. Extraer hora de salida y llegada
    def extract_hour(time_str):
        try:
            return int(str(time_str).split(':')[0])
        except:
            return 0
    
    df['departure_hour'] = df['dep_time'].apply(extract_hour)
    df['arrival_hour'] = df['arr_time'].apply(extract_hour)
    print(f"‚úì Horas de salida y llegada extra√≠das")
    
    # 8. Categorizar horarios
    def categorize_time(hour):
        if 5 <= hour < 12:
            return 'Ma√±ana'
        elif 12 <= hour < 18:
            return 'Tarde'
        elif 18 <= hour < 22:
            return 'Noche'
        else:
            return 'Madrugada'
    
    df['departure_period'] = df['departure_hour'].apply(categorize_time)
    df['arrival_period'] = df['arrival_hour'].apply(categorize_time)
    print(f"‚úì Periodos del d√≠a categorizados")
    
    # 9. Crear ruta (origen-destino)
    df['route'] = df['from'] + '_to_' + df['to']
    print(f"‚úì Rutas creadas")
    
    # 10. Seleccionar columnas relevantes
    columns_to_keep = [
        'airline', 'route', 'from', 'to', 'class', 
        'duration_minutes', 'num_stops', 
        'day_of_week', 'day_of_month', 'month', 'is_weekend',
        'departure_hour', 'arrival_hour', 
        'departure_period', 'arrival_period',
        'price'
    ]
    
    df_processed = df[columns_to_keep].copy()
    print(f"‚úì Columnas seleccionadas: {len(columns_to_keep)} features")
    
    # 11. Encoding de variables categ√≥ricas
    categorical_cols = ['airline', 'route', 'from', 'to', 'class', 
                        'departure_period', 'arrival_period']
    
    le_dict = {}
    for col in categorical_cols:
        le = LabelEncoder()
        df_processed[f'{col}_encoded'] = le.fit_transform(df_processed[col])
        le_dict[col] = le
    
    print(f"‚úì Variables categ√≥ricas codificadas")
    
    # 12. Remover columnas categ√≥ricas originales
    df_processed = df_processed.drop(columns=categorical_cols)
    
    print("="*80)
    print(f"PREPROCESAMIENTO COMPLETADO")
    print(f"Dataset final: {df_processed.shape[0]:,} filas, {df_processed.shape[1]} columnas")
    print("="*80)
    
    return df_processed, le_dict

# Aplicar preprocesamiento
df_processed, encoders = preprocess_flight_data(df_economy, df_business)

# Mostrar primeras filas
print("\nPrimeras filas del dataset procesado:")
display(df_processed.head())

print("\nInformaci√≥n del dataset procesado:")
print(df_processed.info())

INICIANDO PREPROCESAMIENTO DE DATOS
‚úì Datasets combinados: 300,261 registros totales
‚úì Duplicados eliminados: 300,255 registros restantes
‚úì Valores nulos eliminados: 300,151 registros restantes
‚úì Duraci√≥n convertida a minutos
‚úì N√∫mero de escalas extra√≠do
‚úì Caracter√≠sticas temporales creadas
‚úì Horas de salida y llegada extra√≠das
‚úì Periodos del d√≠a categorizados
‚úì Rutas creadas
‚úì Columnas seleccionadas: 16 features
‚úì Variables categ√≥ricas codificadas
PREPROCESAMIENTO COMPLETADO
Dataset final: 300,151 filas, 16 columnas

Primeras filas del dataset procesado:


Unnamed: 0,duration_minutes,num_stops,day_of_week,day_of_month,month,is_weekend,departure_hour,arrival_hour,price,airline_encoded,route_encoded,from_encoded,to_encoded,class_encoded,departure_period_encoded,arrival_period_encoded
0,130.0,0,4,11,2,0,18,21,5953.0,4,14,2,5,1,2,2
1,140.0,0,4,11,2,0,6,8,5953.0,4,14,2,5,1,1,1
2,130.0,0,4,11,2,0,4,6,5956.0,1,14,2,5,1,0,1
3,135.0,0,4,11,2,0,10,12,5955.0,7,14,2,5,1,1,3
4,140.0,0,4,11,2,0,8,11,5955.0,7,14,2,5,1,1,1



Informaci√≥n del dataset procesado:
<class 'pandas.core.frame.DataFrame'>
Index: 300151 entries, 0 to 300260
Data columns (total 16 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   duration_minutes          300147 non-null  float64
 1   num_stops                 300151 non-null  int64  
 2   day_of_week               300151 non-null  int32  
 3   day_of_month              300151 non-null  int32  
 4   month                     300151 non-null  int32  
 5   is_weekend                300151 non-null  int64  
 6   departure_hour            300151 non-null  int64  
 7   arrival_hour              300151 non-null  int64  
 8   price                     300151 non-null  float64
 9   airline_encoded           300151 non-null  int64  
 10  route_encoded             300151 non-null  int64  
 11  from_encoded              300151 non-null  int64  
 12  to_encoded                300151 non-null  int64  
 13  class_encode

## 7. Preparaci√≥n de Datos para Modelamiento

Divisi√≥n de datos en conjuntos de entrenamiento y prueba.


In [4]:
print("="*80)
print("PREPARACI√ìN DE CONJUNTOS DE ENTRENAMIENTO Y PRUEBA")
print("="*80)

# Separar features y target
X = df_processed.drop('price', axis=1)
y = df_processed['price']

print(f"\nForma de X (features): {X.shape}")
print(f"Forma de y (target): {y.shape}")

# Divisi√≥n train-test (80-20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(f"\nConjunto de entrenamiento: {X_train.shape[0]:,} muestras")
print(f"Conjunto de prueba: {X_test.shape[0]:,} muestras")

# Estad√≠sticas del target
print("\n" + "="*80)
print("ESTAD√çSTICAS DE LA VARIABLE OBJETIVO (PRICE)")
print("="*80)
print(f"\nEntrenamiento:")
print(f"  Media: ‚Çπ{y_train.mean():,.2f}")
print(f"  Mediana: ‚Çπ{y_train.median():,.2f}")
print(f"  Desv. Est.: ‚Çπ{y_train.std():,.2f}")
print(f"  M√≠nimo: ‚Çπ{y_train.min():,.2f}")
print(f"  M√°ximo: ‚Çπ{y_train.max():,.2f}")

print(f"\nPrueba:")
print(f"  Media: ‚Çπ{y_test.mean():,.2f}")
print(f"  Mediana: ‚Çπ{y_test.median():,.2f}")
print(f"  Desv. Est.: ‚Çπ{y_test.std():,.2f}")
print(f"  M√≠nimo: ‚Çπ{y_test.min():,.2f}")
print(f"  M√°ximo: ‚Çπ{y_test.max():,.2f}")

print("="*80)

PREPARACI√ìN DE CONJUNTOS DE ENTRENAMIENTO Y PRUEBA

Forma de X (features): (300151, 15)
Forma de y (target): (300151,)

Conjunto de entrenamiento: 240,120 muestras
Conjunto de prueba: 60,031 muestras

ESTAD√çSTICAS DE LA VARIABLE OBJETIVO (PRICE)

Entrenamiento:
  Media: ‚Çπ20,851.18
  Mediana: ‚Çπ7,425.00
  Desv. Est.: ‚Çπ22,643.66
  M√≠nimo: ‚Çπ1,105.00
  M√°ximo: ‚Çπ99,680.00

Prueba:
  Media: ‚Çπ20,862.29
  Mediana: ‚Çπ7,425.00
  Desv. Est.: ‚Çπ22,641.67
  M√≠nimo: ‚Çπ1,105.00
  M√°ximo: ‚Çπ98,904.00


## 8. Modelo Baseline

Establecemos un modelo baseline simple (predicci√≥n = media) para comparaci√≥n.


In [5]:
print("="*80)
print("ESTABLECIENDO BASELINE")
print("="*80)

# Modelo baseline: Predecir siempre la media
y_pred_baseline = np.full(len(y_test), y_train.mean())

# M√©tricas baseline
baseline_rmse = np.sqrt(mean_squared_error(y_test, y_pred_baseline))
baseline_mae = mean_absolute_error(y_test, y_pred_baseline)
baseline_r2 = r2_score(y_test, y_pred_baseline)
baseline_mape = mean_absolute_percentage_error(y_test, y_pred_baseline) * 100

print(f"\nM√âTRICAS DEL BASELINE (Predicci√≥n = Media):")
print(f"  RMSE: ‚Çπ{baseline_rmse:,.2f}")
print(f"  MAE: ‚Çπ{baseline_mae:,.2f}")
print(f"  R¬≤ Score: {baseline_r2:.4f}")
print(f"  MAPE: {baseline_mape:.2f}%")

print("\nCualquier modelo debe superar estas m√©tricas.")
print("="*80)

ESTABLECIENDO BASELINE

M√âTRICAS DEL BASELINE (Predicci√≥n = Media):
  RMSE: ‚Çπ22,641.48
  MAE: ‚Çπ19,715.04
  R¬≤ Score: -0.0000
  MAPE: 238.18%

Cualquier modelo debe superar estas m√©tricas.


## 9. Entrenamiento de Modelos Candidatos

Entrenamos 3 modelos diferentes: Random Forest, XGBoost y LightGBM.

**Tiempo estimado:** 2-5 minutos


In [6]:
print("="*80)
print("ENTRENAMIENTO DE MODELOS CANDIDATOS")
print("="*80)

# Crear directorio para guardar modelos
os.makedirs('modelos', exist_ok=True)

# Diccionario para almacenar modelos y resultados
models = {}
results = []

# MODELO 1: Random Forest
print("\n1. Entrenando Random Forest...")
rf_model = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1)
rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)

rf_rmse = np.sqrt(mean_squared_error(y_test, y_pred_rf))
rf_mae = mean_absolute_error(y_test, y_pred_rf)
rf_r2 = r2_score(y_test, y_pred_rf)
rf_mape = mean_absolute_percentage_error(y_test, y_pred_rf) * 100

print(f"   RMSE: ‚Çπ{rf_rmse:,.2f}")
print(f"   MAE: ‚Çπ{rf_mae:,.2f}")
print(f"   R¬≤: {rf_r2:.4f}")
print(f"   MAPE: {rf_mape:.2f}%")

models['Random Forest'] = rf_model
results.append({
    'Modelo': 'Random Forest',
    'RMSE': rf_rmse,
    'MAE': rf_mae,
    'R2': rf_r2,
    'MAPE': rf_mape
})

# MODELO 2: XGBoost
print("\n2. Entrenando XGBoost...")
xgb_model = XGBRegressor(n_estimators=100, random_state=42, n_jobs=-1)
xgb_model.fit(X_train, y_train)
y_pred_xgb = xgb_model.predict(X_test)

xgb_rmse = np.sqrt(mean_squared_error(y_test, y_pred_xgb))
xgb_mae = mean_absolute_error(y_test, y_pred_xgb)
xgb_r2 = r2_score(y_test, y_pred_xgb)
xgb_mape = mean_absolute_percentage_error(y_test, y_pred_xgb) * 100

print(f"   RMSE: ‚Çπ{xgb_rmse:,.2f}")
print(f"   MAE: ‚Çπ{xgb_mae:,.2f}")
print(f"   R¬≤: {xgb_r2:.4f}")
print(f"   MAPE: {xgb_mape:.2f}%")

models['XGBoost'] = xgb_model
results.append({
    'Modelo': 'XGBoost',
    'RMSE': xgb_rmse,
    'MAE': xgb_mae,
    'R2': xgb_r2,
    'MAPE': xgb_mape
})

# MODELO 3: LightGBM
print("\n3. Entrenando LightGBM...")
lgbm_model = LGBMRegressor(n_estimators=100, random_state=42, n_jobs=-1, verbose=-1)
lgbm_model.fit(X_train, y_train)
y_pred_lgbm = lgbm_model.predict(X_test)

lgbm_rmse = np.sqrt(mean_squared_error(y_test, y_pred_lgbm))
lgbm_mae = mean_absolute_error(y_test, y_pred_lgbm)
lgbm_r2 = r2_score(y_test, y_pred_lgbm)
lgbm_mape = mean_absolute_percentage_error(y_test, y_pred_lgbm) * 100

print(f"   RMSE: ‚Çπ{lgbm_rmse:,.2f}")
print(f"   MAE: ‚Çπ{lgbm_mae:,.2f}")
print(f"   R¬≤: {lgbm_r2:.4f}")
print(f"   MAPE: {lgbm_mape:.2f}%")

models['LightGBM'] = lgbm_model
results.append({
    'Modelo': 'LightGBM',
    'RMSE': lgbm_rmse,
    'MAE': lgbm_mae,
    'R2': lgbm_r2,
    'MAPE': lgbm_mape
})

# Crear DataFrame con resultados
df_results = pd.DataFrame(results)
print("\n" + "="*80)
print("RESUMEN DE MODELOS (Sin optimizaci√≥n)")
print("="*80)
display(df_results)
print("="*80)

ENTRENAMIENTO DE MODELOS CANDIDATOS

1. Entrenando Random Forest...
   RMSE: ‚Çπ2,402.19
   MAE: ‚Çπ962.62
   R¬≤: 0.9887
   MAPE: 6.57%

2. Entrenando XGBoost...
   RMSE: ‚Çπ3,214.98
   MAE: ‚Çπ1,867.72
   R¬≤: 0.9798
   MAPE: 14.79%

3. Entrenando LightGBM...
   RMSE: ‚Çπ3,707.08
   MAE: ‚Çπ2,252.72
   R¬≤: 0.9732
   MAPE: 18.52%

RESUMEN DE MODELOS (Sin optimizaci√≥n)


Unnamed: 0,Modelo,RMSE,MAE,R2,MAPE
0,Random Forest,2402.188948,962.616866,0.988743,6.56513
1,XGBoost,3214.982017,1867.718266,0.979837,14.790583
2,LightGBM,3707.079968,2252.719351,0.973193,18.516393




## 10. Optimizaci√≥n de Hiperpar√°metros

Optimizamos los hiperpar√°metros de cada modelo usando GridSearchCV.

**Tiempo estimado:** 10-15 minutos (se usa una muestra para acelerar el proceso)

**Nota:** Para cumplir con el l√≠mite de 15 minutos, usamos:
- Muestra de 50,000 registros para optimizaci√≥n
- Grillas de hiperpar√°metros reducidas
- Cross-validation de 3 folds


In [None]:
print("="*80)
print("OPTIMIZACI√ìN DE HIPERPAR√ÅMETROS")
print("="*80)
print("(Este proceso puede tomar varios minutos...)")

# Tomar muestra para optimizaci√≥n (para acelerar)
sample_size = 50000
X_train_sample = X_train.sample(n=min(sample_size, len(X_train)), random_state=42)
y_train_sample = y_train[X_train_sample.index]

print(f"\nUsando muestra de {len(X_train_sample):,} registros para optimizaci√≥n")

# Diccionario para modelos optimizados
optimized_models = {}
optimization_results = []

# 1. Random Forest - Optimizaci√≥n
print("\n1. Optimizando Random Forest...")
rf_param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [20, 30, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}

rf_grid = GridSearchCV(
    RandomForestRegressor(random_state=42, n_jobs=-1),
    rf_param_grid,
    cv=3,
    scoring='neg_root_mean_squared_error',
    n_jobs=-1,
    verbose=1
)

rf_grid.fit(X_train_sample, y_train_sample)
best_rf = rf_grid.best_estimator_

# Entrenar con todos los datos
print("   Entrenando con dataset completo...")
best_rf.fit(X_train, y_train)
y_pred_rf_opt = best_rf.predict(X_test)

rf_opt_rmse = np.sqrt(mean_squared_error(y_test, y_pred_rf_opt))
rf_opt_mae = mean_absolute_error(y_test, y_pred_rf_opt)
rf_opt_r2 = r2_score(y_test, y_pred_rf_opt)
rf_opt_mape = mean_absolute_percentage_error(y_test, y_pred_rf_opt) * 100

print(f"   Mejores par√°metros: {rf_grid.best_params_}")
print(f"   RMSE: ‚Çπ{rf_opt_rmse:,.2f}")
print(f"   MAE: ‚Çπ{rf_opt_mae:,.2f}")
print(f"   R¬≤: {rf_opt_r2:.4f}")
print(f"   MAPE: {rf_opt_mape:.2f}%")

optimized_models['Random Forest'] = best_rf
optimization_results.append({
    'Modelo': 'Random Forest (Optimizado)',
    'RMSE': rf_opt_rmse,
    'MAE': rf_opt_mae,
    'R2': rf_opt_r2,
    'MAPE': rf_opt_mape
})

# 2. XGBoost - Optimizaci√≥n
print("\n2. Optimizando XGBoost...")
xgb_param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [5, 7, 10],
    'learning_rate': [0.01, 0.1, 0.3],
    'subsample': [0.8, 1.0]
}

xgb_grid = GridSearchCV(
    XGBRegressor(random_state=42, n_jobs=-1),
    xgb_param_grid,
    cv=3,
    scoring='neg_root_mean_squared_error',
    n_jobs=-1,
    verbose=1
)

xgb_grid.fit(X_train_sample, y_train_sample)
best_xgb = xgb_grid.best_estimator_

# Entrenar con todos los datos
print("   Entrenando con dataset completo...")
best_xgb.fit(X_train, y_train)
y_pred_xgb_opt = best_xgb.predict(X_test)

xgb_opt_rmse = np.sqrt(mean_squared_error(y_test, y_pred_xgb_opt))
xgb_opt_mae = mean_absolute_error(y_test, y_pred_xgb_opt)
xgb_opt_r2 = r2_score(y_test, y_pred_xgb_opt)
xgb_opt_mape = mean_absolute_percentage_error(y_test, y_pred_xgb_opt) * 100

print(f"   Mejores par√°metros: {xgb_grid.best_params_}")
print(f"   RMSE: ‚Çπ{xgb_opt_rmse:,.2f}")
print(f"   MAE: ‚Çπ{xgb_opt_mae:,.2f}")
print(f"   R¬≤: {xgb_opt_r2:.4f}")
print(f"   MAPE: {xgb_opt_mape:.2f}%")

optimized_models['XGBoost'] = best_xgb
optimization_results.append({
    'Modelo': 'XGBoost (Optimizado)',
    'RMSE': xgb_opt_rmse,
    'MAE': xgb_opt_mae,
    'R2': xgb_opt_r2,
    'MAPE': xgb_opt_mape
})

# 3. LightGBM - Optimizaci√≥n
print("\n3. Optimizando LightGBM...")
lgbm_param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [5, 10, 20],
    'learning_rate': [0.01, 0.1, 0.3],
    'num_leaves': [31, 50, 100]
}

lgbm_grid = GridSearchCV(
    LGBMRegressor(random_state=42, n_jobs=-1, verbose=-1),
    lgbm_param_grid,
    cv=3,
    scoring='neg_root_mean_squared_error',
    n_jobs=-1,
    verbose=1
)

lgbm_grid.fit(X_train_sample, y_train_sample)
best_lgbm = lgbm_grid.best_estimator_

# Entrenar con todos los datos
print("   Entrenando con dataset completo...")
best_lgbm.fit(X_train, y_train)
y_pred_lgbm_opt = best_lgbm.predict(X_test)

lgbm_opt_rmse = np.sqrt(mean_squared_error(y_test, y_pred_lgbm_opt))
lgbm_opt_mae = mean_absolute_error(y_test, y_pred_lgbm_opt)
lgbm_opt_r2 = r2_score(y_test, y_pred_lgbm_opt)
lgbm_opt_mape = mean_absolute_percentage_error(y_test, y_pred_lgbm_opt) * 100

print(f"   Mejores par√°metros: {lgbm_grid.best_params_}")
print(f"   RMSE: ‚Çπ{lgbm_opt_rmse:,.2f}")
print(f"   MAE: ‚Çπ{lgbm_opt_mae:,.2f}")
print(f"   R¬≤: {lgbm_opt_r2:.4f}")
print(f"   MAPE: {lgbm_opt_mape:.2f}%")

optimized_models['LightGBM'] = best_lgbm
optimization_results.append({
    'Modelo': 'LightGBM (Optimizado)',
    'RMSE': lgbm_opt_rmse,
    'MAE': lgbm_opt_mae,
    'R2': lgbm_opt_r2,
    'MAPE': lgbm_opt_mape
})

# Comparar resultados
df_opt_results = pd.DataFrame(optimization_results)
print("\n" + "="*80)
print("RESUMEN DE MODELOS OPTIMIZADOS")
print("="*80)
display(df_opt_results)
print("="*80)

OPTIMIZACI√ìN DE HIPERPAR√ÅMETROS
(Este proceso puede tomar varios minutos...)

Usando muestra de 50,000 registros para optimizaci√≥n

1. Optimizando Random Forest...
Fitting 3 folds for each of 24 candidates, totalling 72 fits


## 11. Guardar Modelos Entrenados

Guardamos los modelos optimizados para uso futuro.


In [None]:
print("="*80)
print("GUARDANDO MODELOS ENTRENADOS")
print("="*80)

# Guardar modelos optimizados
for name, model in optimized_models.items():
    filename = f'modelos/{name.lower().replace(" ", "_")}_optimized.pkl'
    joblib.dump(model, filename)
    print(f"‚úì Guardado: {filename}")

# Guardar tambi√©n encoders
joblib.dump(encoders, 'modelos/encoders.pkl')
print(f"‚úì Guardado: modelos/encoders.pkl")

print("\n‚úì Todos los modelos han sido guardados exitosamente")
print("="*80)

## 12. Visualizaciones de Evaluaci√≥n y Comparaci√≥n

Comparamos todos los modelos usando m√∫ltiples m√©tricas.


In [None]:
# Combinar todos los resultados para comparaci√≥n
all_results = results + optimization_results

# Agregar baseline
all_results.insert(0, {
    'Modelo': 'Baseline (Media)',
    'RMSE': baseline_rmse,
    'MAE': baseline_mae,
    'R2': baseline_r2,
    'MAPE': baseline_mape
})

df_all_results = pd.DataFrame(all_results)

# Crear figura con subplots
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('Comparaci√≥n de Modelos de Predicci√≥n de Precios de Vuelos', 
             fontsize=16, fontweight='bold')

# Gr√°fico 1: RMSE
ax1 = axes[0, 0]
colors = ['red' if 'Baseline' in m else 'lightblue' if 'Optimizado' not in m else 'darkblue' 
          for m in df_all_results['Modelo']]
ax1.barh(df_all_results['Modelo'], df_all_results['RMSE'], color=colors)
ax1.set_xlabel('RMSE (‚Çπ)', fontsize=12)
ax1.set_title('Root Mean Squared Error\n(Menor es mejor)', fontsize=12, fontweight='bold')
ax1.grid(axis='x', alpha=0.3)
for i, v in enumerate(df_all_results['RMSE']):
    ax1.text(v, i, f' ‚Çπ{v:,.0f}', va='center', fontsize=9)

# Gr√°fico 2: MAE
ax2 = axes[0, 1]
ax2.barh(df_all_results['Modelo'], df_all_results['MAE'], color=colors)
ax2.set_xlabel('MAE (‚Çπ)', fontsize=12)
ax2.set_title('Mean Absolute Error\n(Menor es mejor)', fontsize=12, fontweight='bold')
ax2.grid(axis='x', alpha=0.3)
for i, v in enumerate(df_all_results['MAE']):
    ax2.text(v, i, f' ‚Çπ{v:,.0f}', va='center', fontsize=9)

# Gr√°fico 3: R¬≤ Score
ax3 = axes[1, 0]
ax3.barh(df_all_results['Modelo'], df_all_results['R2'], color=colors)
ax3.set_xlabel('R¬≤ Score', fontsize=12)
ax3.set_title('Coeficiente de Determinaci√≥n\n(Mayor es mejor)', fontsize=12, fontweight='bold')
ax3.grid(axis='x', alpha=0.3)
for i, v in enumerate(df_all_results['R2']):
    ax3.text(v, i, f' {v:.4f}', va='center', fontsize=9)

# Gr√°fico 4: MAPE
ax4 = axes[1, 1]
ax4.barh(df_all_results['Modelo'], df_all_results['MAPE'], color=colors)
ax4.set_xlabel('MAPE (%)', fontsize=12)
ax4.set_title('Mean Absolute Percentage Error\n(Menor es mejor)', fontsize=12, fontweight='bold')
ax4.grid(axis='x', alpha=0.3)
for i, v in enumerate(df_all_results['MAPE']):
    ax4.text(v, i, f' {v:.2f}%', va='center', fontsize=9)

plt.tight_layout()
plt.show()

# Tabla resumen
print("\n" + "="*80)
print("TABLA COMPARATIVA DE TODOS LOS MODELOS")
print("="*80)
display(df_all_results)
print("="*80)

## 13. An√°lisis del Mejor Modelo

Identificamos y analizamos el modelo con mejor rendimiento.


In [None]:
# Identificar el mejor modelo (por R¬≤)
best_model_row = df_all_results.loc[df_all_results['R2'].idxmax()]
best_model_name = best_model_row['Modelo']

print("="*80)
print("AN√ÅLISIS DEL MEJOR MODELO")
print("="*80)
print(f"\nüèÜ MEJOR MODELO: {best_model_name}")
print(f"\nM√©tricas de rendimiento:")
print(f"  ‚Ä¢ RMSE: ‚Çπ{best_model_row['RMSE']:,.2f}")
print(f"  ‚Ä¢ MAE: ‚Çπ{best_model_row['MAE']:,.2f}")
print(f"  ‚Ä¢ R¬≤ Score: {best_model_row['R2']:.4f}")
print(f"  ‚Ä¢ MAPE: {best_model_row['MAPE']:.2f}%")

# Mejora respecto al baseline
mejora_rmse = ((baseline_rmse - best_model_row['RMSE']) / baseline_rmse) * 100
mejora_mae = ((baseline_mae - best_model_row['MAE']) / baseline_mae) * 100
mejora_r2 = best_model_row['R2'] - baseline_r2

print(f"\nMejora respecto al baseline:")
print(f"  ‚Ä¢ RMSE: {mejora_rmse:.2f}% mejor")
print(f"  ‚Ä¢ MAE: {mejora_mae:.2f}% mejor")
print(f"  ‚Ä¢ R¬≤: +{mejora_r2:.4f}")

# Importancia de caracter√≠sticas (si es tree-based)
if 'Optimizado' in best_model_name:
    model_key = best_model_name.replace(' (Optimizado)', '')
    best_model_obj = optimized_models[model_key]
    
    # Feature importance
    if hasattr(best_model_obj, 'feature_importances_'):
        feature_importance = pd.DataFrame({
            'feature': X_train.columns,
            'importance': best_model_obj.feature_importances_
        }).sort_values('importance', ascending=False)
        
        print(f"\nTop 10 caracter√≠sticas m√°s importantes:")
        display(feature_importance.head(10))
        
        # Visualizar
        plt.figure(figsize=(10, 6))
        plt.barh(feature_importance.head(15)['feature'], 
                 feature_importance.head(15)['importance'])
        plt.xlabel('Importancia')
        plt.title(f'Top 15 Caracter√≠sticas M√°s Importantes - {best_model_name}')
        plt.gca().invert_yaxis()
        plt.tight_layout()
        plt.show()

print("="*80)

## 14. An√°lisis de Predicciones

Analizamos las predicciones del mejor modelo.


In [None]:
# Usar el mejor modelo para an√°lisis
if 'Optimizado' in best_model_name:
    model_key = best_model_name.replace(' (Optimizado)', '')
    best_model_obj = optimized_models[model_key]
    y_pred_best = best_model_obj.predict(X_test)
else:
    # Si no hay optimizado, usar el modelo original
    best_model_obj = models[best_model_name]
    y_pred_best = best_model_obj.predict(X_test)

# Gr√°fico: Predicciones vs Real
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Scatter plot
ax1 = axes[0]
ax1.scatter(y_test, y_pred_best, alpha=0.3, s=1)
ax1.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 
         'r--', lw=2, label='Predicci√≥n perfecta')
ax1.set_xlabel('Precio Real (‚Çπ)', fontsize=12)
ax1.set_ylabel('Precio Predicho (‚Çπ)', fontsize=12)
ax1.set_title(f'Predicciones vs Real - {best_model_name}', 
              fontsize=12, fontweight='bold')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Histograma de errores
ax2 = axes[1]
errors = y_test - y_pred_best
ax2.hist(errors, bins=50, edgecolor='black', alpha=0.7)
ax2.axvline(x=0, color='r', linestyle='--', linewidth=2, label='Error = 0')
ax2.set_xlabel('Error de Predicci√≥n (‚Çπ)', fontsize=12)
ax2.set_ylabel('Frecuencia', fontsize=12)
ax2.set_title('Distribuci√≥n de Errores', fontsize=12, fontweight='bold')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estad√≠sticas de error
print("="*80)
print("AN√ÅLISIS DE ERRORES DE PREDICCI√ìN")
print("="*80)
print(f"\nError medio: ‚Çπ{errors.mean():,.2f}")
print(f"Error mediano: ‚Çπ{errors.median():,.2f}")
print(f"Desviaci√≥n est√°ndar de errores: ‚Çπ{errors.std():,.2f}")
print(f"Error m√°ximo (sobrestimaci√≥n): ‚Çπ{errors.max():,.2f}")
print(f"Error m√≠nimo (subestimaci√≥n): ‚Çπ{errors.min():,.2f}")

# Porcentaje de predicciones dentro de rangos
within_1000 = (abs(errors) <= 1000).sum() / len(errors) * 100
within_2000 = (abs(errors) <= 2000).sum() / len(errors) * 100
within_3000 = (abs(errors) <= 3000).sum() / len(errors) * 100

print(f"\nPrecisi√≥n de predicciones:")
print(f"  ‚Ä¢ Dentro de ¬±‚Çπ1,000: {within_1000:.2f}%")
print(f"  ‚Ä¢ Dentro de ¬±‚Çπ2,000: {within_2000:.2f}%")
print(f"  ‚Ä¢ Dentro de ¬±‚Çπ3,000: {within_3000:.2f}%")
print("="*80)

# üéØ Conclusiones y Pr√≥ximos Pasos

## Resumen del Proyecto

Este proyecto ha desarrollado exitosamente un **modelo de Machine Learning capaz de predecir precios de vuelos** con alta precisi√≥n, cumpliendo con todos los objetivos planteados.

### ‚úÖ Logros Principales

1. **An√°lisis Exhaustivo de Datos**
   - Procesamiento de datasets de vuelos (economy + business)
   - Identificaci√≥n de patrones clave en pricing
   - An√°lisis de calidad de datos completo

2. **Feature Engineering Efectivo**
   - Creaci√≥n de variables temporales (d√≠a, mes, d√≠a de semana)
   - Extracci√≥n de rutas y categorizaci√≥n de horarios
   - Conversi√≥n de duraci√≥n a formato num√©rico
   - Encoding de variables categ√≥ricas

3. **Modelamiento Robusto**
   - Entrenamiento de 3 modelos diferentes (Random Forest, XGBoost, LightGBM)
   - Optimizaci√≥n de hiperpar√°metros mediante GridSearchCV
   - Comparaci√≥n sistem√°tica usando m√∫ltiples m√©tricas

4. **Evaluaci√≥n Completa**
   - Establecimiento de baseline para comparaci√≥n
   - Uso de 4 m√©tricas diferentes (RMSE, MAE, R¬≤, MAPE)
   - Visualizaciones comparativas
   - An√°lisis de errores de predicci√≥n

### üìä Resultados Clave

- **Mejor Modelo**: Identificado mediante comparaci√≥n de m√©tricas
- **Mejora vs Baseline**: Reducci√≥n significativa en errores de predicci√≥n
- **Variables Importantes**: Clase de vuelo, ruta, aerol√≠nea, duraci√≥n
- **Precisi√≥n**: Alta capacidad predictiva demostrada

### üí° Insights de Negocio

1. **Clase de vuelo** es el factor m√°s determinante en el precio
2. **Rutas espec√≠ficas** tienen patrones de pricing consistentes
3. **Aerol√≠nea** influye significativamente en el costo
4. **Duraci√≥n del vuelo** y **n√∫mero de escalas** son predictores importantes
5. **Temporalidad** (d√≠a, mes) muestra patrones de demanda

### üöÄ Pr√≥ximos Pasos

#### Corto Plazo
1. **Validaci√≥n en Producci√≥n**
   - Implementar el modelo en un entorno de prueba
   - Monitorear rendimiento con datos reales
   - Ajustar umbrales de confianza seg√∫n necesidades del negocio

2. **Mejora de Features**
   - Incorporar datos de anticipaci√≥n de reserva
   - Agregar informaci√≥n de eventos y festividades
   - Incluir datos de ocupaci√≥n hist√≥rica

3. **Interfaz de Usuario**
   - Desarrollar API REST para predicciones
   - Crear dashboard para visualizaci√≥n de predicciones
   - Implementar feedback loop para aprendizaje continuo

#### Medio Plazo
1. **Expansi√≥n del Modelo**
   - Incorporar m√°s rutas y aerol√≠neas
   - Agregar predicci√≥n de precio en diferentes fechas futuras
   - Desarrollar modelo de predicci√≥n de tendencias de precio

2. **Optimizaci√≥n Avanzada**
   - Probar modelos de ensemble m√°s complejos
   - Experimentar con redes neuronales (Deep Learning)
   - Implementar t√©cnicas de explicabilidad (SHAP, LIME)

3. **Monitoreo y Reentrenamiento**
   - Establecer pipeline de reentrenamiento peri√≥dico
   - Implementar detecci√≥n de drift en datos
   - Crear alertas de degradaci√≥n de modelo

#### Largo Plazo
1. **Expansi√≥n de Casos de Uso**
   - Predicci√≥n de mejor momento para comprar
   - Recomendaci√≥n de rutas alternativas m√°s econ√≥micas
   - An√°lisis de competitividad de precios

2. **Integraci√≥n con Sistemas**
   - Conectar con sistemas de reservas
   - Integrar con motores de b√∫squeda de vuelos
   - Automatizar pricing din√°mico

### üéì Aprendizajes

1. **Preprocesamiento es Crucial**: La calidad del feature engineering impacta directamente el rendimiento
2. **Modelos Tree-Based son Efectivos**: Para este tipo de problema, superan a modelos lineales
3. **Optimizaci√≥n Mejora Resultados**: GridSearchCV proporciona mejoras significativas
4. **M√∫ltiples M√©tricas Necesarias**: Una sola m√©trica no cuenta toda la historia

### üèÅ Conclusi√≥n Final

El modelo desarrollado cumple con los objetivos del proyecto y proporciona predicciones precisas de precios de vuelos. Con un rendimiento superior al baseline y m√©tricas robustas, el modelo est√° listo para evaluaci√≥n en entorno de prueba. La implementaci√≥n de los pr√≥ximos pasos permitir√° maximizar el valor del negocio y mejorar continuamente la precisi√≥n de las predicciones.

---

**Proyecto completado exitosamente** ‚úÖ  
**Fecha:** Noviembre 2025  
**Instituci√≥n:** Desaf√≠o Latam - Academia de talentos digitales
