# ‚úàÔ∏è FlightOnTime - An√°lisis Exploratorio de Datos (EDA)

## Hackathon de Aviaci√≥n Civil - Predicci√≥n de Retrasos de Vuelos

---

**Objetivo:** Desarrollar un modelo de Machine Learning capaz de predecir si un vuelo despegar√° a tiempo o con retraso.

**Variable Objetivo:** `DEP_DEL15` ‚Üí `is_delayed` (0 = Puntual, 1 = Retrasado ‚â• 15 min)

**Features utilizadas:** 17 (Temporales, Operaci√≥n, Distancia, Clima, Geogr√°ficas)

---

## 1. Configuraci√≥n del Entorno

In [None]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 12
sns.set_palette('husl')

# Configuraci√≥n de Pandas
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 100)

print('‚úÖ Librer√≠as cargadas correctamente')

## 2. Carga de Datos

In [None]:
# Cargar dataset
DATA_PATH = Path('../0.0. DATASET ORIGINAL/dataset_prepared.parquet')

print(f'üìÅ Cargando datos desde: {DATA_PATH}')
df = pd.read_parquet(DATA_PATH)

# Muestreo para an√°lisis exploratorio
SAMPLE_SIZE = 100_000
if len(df) > SAMPLE_SIZE:
    print(f'‚ö†Ô∏è Dataset muy grande ({len(df):,} registros). Tomando muestra de {SAMPLE_SIZE:,}...')
    df_sample = df.sample(n=SAMPLE_SIZE, random_state=42)
else:
    df_sample = df

print(f'\nüìä Dimensiones originales: {df.shape[0]:,} filas x {df.shape[1]} columnas')
print(f'üìä Muestra para EDA: {len(df_sample):,} registros')

In [None]:
# Explorar primeras filas
print('\nüìã Primeras 5 filas del dataset:')
df_sample.head()

In [None]:
# Informaci√≥n del dataset
print('üìã Informaci√≥n del Dataset:\n')
df_sample.info()

In [None]:
# Estad√≠sticas descriptivas
print('\nüìä Estad√≠sticas descriptivas:')
df_sample.describe().round(2)

## 3. Variable Objetivo: DEP_DEL15 (Retrasos de Vuelos)

In [None]:
# An√°lisis de la variable objetivo
target_col = 'DEP_DEL15'

print('üìä Distribuci√≥n de la Variable Objetivo:')
print('=' * 50)
print(df_sample[target_col].value_counts())
print('\nPorcentajes:')
print(df_sample[target_col].value_counts(normalize=True).mul(100).round(2))

# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras
colors = ['#2ecc71', '#e74c3c']
df_sample[target_col].value_counts().plot(kind='bar', ax=axes[0], color=colors)
axes[0].set_title('Distribuci√≥n de Vuelos', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Tipo')
axes[0].set_ylabel('Cantidad')
axes[0].set_xticklabels(['Puntual (0)', 'Retrasado (1)'], rotation=0)

# Gr√°fico de pastel
df_sample[target_col].value_counts().plot(kind='pie', ax=axes[1], colors=colors, 
                                           autopct='%1.1f%%', startangle=90,
                                           labels=['Puntual', 'Retrasado'])
axes[1].set_title('Proporci√≥n de Vuelos', fontsize=14, fontweight='bold')
axes[1].set_ylabel('')

plt.tight_layout()
plt.savefig('../outputs/figures/eda_target_distribution.png', dpi=150, bbox_inches='tight')
plt.show()

print('\nüí° Insight: Dataset desbalanceado - aprox. 81% puntuales vs 19% retrasados')

## 4. Features Temporales

In [None]:
# An√°lisis temporal: retrasos por diferentes dimensiones
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Retrasos por mes (MONTH)
monthly_delay = df_sample.groupby('MONTH')[target_col].mean() * 100
monthly_delay.plot(kind='bar', ax=axes[0, 0], color='steelblue')
axes[0, 0].set_title('Tasa de Retrasos por Mes', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Mes')
axes[0, 0].set_ylabel('% Retrasos')
axes[0, 0].set_xticklabels(['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 
                            'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic'], rotation=45)
axes[0, 0].axhline(y=df_sample[target_col].mean()*100, color='red', linestyle='--', label='Promedio')
axes[0, 0].legend()

# Retrasos por d√≠a de la semana (DAY_OF_WEEK)
weekly_delay = df_sample.groupby('DAY_OF_WEEK')[target_col].mean() * 100
weekly_delay.plot(kind='bar', ax=axes[0, 1], color='coral')
axes[0, 1].set_title('Tasa de Retrasos por D√≠a de la Semana', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('D√≠a')
axes[0, 1].set_ylabel('% Retrasos')
axes[0, 1].set_xticklabels(['Lun', 'Mar', 'Mi√©', 'Jue', 'Vie', 'S√°b', 'Dom'], rotation=45)
axes[0, 1].axhline(y=df_sample[target_col].mean()*100, color='red', linestyle='--', label='Promedio')
axes[0, 1].legend()

# Retrasos por hora de salida (DEP_HOUR)
hourly_delay = df_sample.groupby('DEP_HOUR')[target_col].mean() * 100
hourly_delay.plot(kind='line', ax=axes[1, 0], marker='o', color='green', linewidth=2)
axes[1, 0].set_title('Tasa de Retrasos por Hora de Salida', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Hora')
axes[1, 0].set_ylabel('% Retrasos')
axes[1, 0].fill_between(hourly_delay.index, hourly_delay.values, alpha=0.3, color='green')
axes[1, 0].axhline(y=df_sample[target_col].mean()*100, color='red', linestyle='--', label='Promedio')
axes[1, 0].legend()

# Retrasos por a√±o (YEAR)
yearly_delay = df_sample.groupby('YEAR')[target_col].mean() * 100
yearly_delay.plot(kind='bar', ax=axes[1, 1], color='purple')
axes[1, 1].set_title('Tasa de Retrasos por A√±o', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('A√±o')
axes[1, 1].set_ylabel('% Retrasos')
axes[1, 1].axhline(y=df_sample[target_col].mean()*100, color='red', linestyle='--', label='Promedio')
axes[1, 1].legend()

plt.tight_layout()
plt.savefig('../outputs/figures/eda_temporal_analysis.png', dpi=150, bbox_inches='tight')
plt.show()

print('\nüí° Insights Temporales:')
print(f'   - Hora con m√°s retrasos: {hourly_delay.idxmax()}:00 ({hourly_delay.max():.1f}%)')
print(f'   - Hora con menos retrasos: {hourly_delay.idxmin()}:00 ({hourly_delay.min():.1f}%)')
print(f'   - Los vuelos de la tarde/noche tienen mayor tasa de retraso')

## 5. Variables de Operaci√≥n (Aerol√≠neas y Aeropuertos)

In [None]:
# Top 10 aerol√≠neas por tasa de retraso
carrier_stats = df_sample.groupby('OP_UNIQUE_CARRIER').agg({
    target_col: ['mean', 'count']
}).round(4)
carrier_stats.columns = ['tasa_retraso', 'total_vuelos']
carrier_stats['tasa_retraso'] = carrier_stats['tasa_retraso'] * 100
carrier_stats = carrier_stats.sort_values('tasa_retraso', ascending=False)

print('üìä Top 10 Aerol√≠neas por Tasa de Retraso:')
print(carrier_stats.head(10))

# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Top 10 aerol√≠neas con m√°s retrasos
top10 = carrier_stats.head(10)
top10['tasa_retraso'].plot(kind='barh', ax=axes[0], color='indianred')
axes[0].set_title('Top 10 Aerol√≠neas con Mayor Tasa de Retraso', fontsize=14, fontweight='bold')
axes[0].set_xlabel('% Retrasos')
axes[0].set_ylabel('Aerol√≠nea')

# Volumen de vuelos por aerol√≠nea
carrier_stats.sort_values('total_vuelos', ascending=False).head(10)['total_vuelos'].plot(
    kind='barh', ax=axes[1], color='steelblue'
)
axes[1].set_title('Top 10 Aerol√≠neas por Volumen de Vuelos', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Total Vuelos')
axes[1].set_ylabel('Aerol√≠nea')

plt.tight_layout()
plt.savefig('../outputs/figures/eda_airlines_analysis.png', dpi=150, bbox_inches='tight')
plt.show()

## 6. Variables Clim√°ticas (Gran Valor Agregado)

In [None]:
# An√°lisis de variables clim√°ticas vs retrasos
climate_cols = ['TEMP', 'WIND_SPD', 'PRECIP_1H', 'CLIMATE_SEVERITY_IDX']

fig, axes = plt.subplots(2, 2, figsize=(14, 10))

for idx, col in enumerate(climate_cols):
    ax = axes[idx // 2, idx % 2]
    
    # Boxplot por tipo de vuelo
    df_sample.boxplot(column=col, by=target_col, ax=ax)
    ax.set_title(f'{col} por Tipo de Vuelo', fontsize=12, fontweight='bold')
    ax.set_xlabel('0=Puntual, 1=Retrasado')
    ax.set_ylabel(col)
    plt.suptitle('')

plt.tight_layout()
plt.savefig('../outputs/figures/eda_weather_analysis.png', dpi=150, bbox_inches='tight')
plt.show()

print('\nüí° Insights Clim√°ticos:')
for col in climate_cols:
    delayed_mean = df_sample[df_sample[target_col]==1][col].mean()
    ontime_mean = df_sample[df_sample[target_col]==0][col].mean()
    diff = delayed_mean - ontime_mean
    print(f'   - {col}: Retrasados {delayed_mean:.2f} vs Puntuales {ontime_mean:.2f} (Œî={diff:+.2f})')

## 7. Correlaciones

In [None]:
# Matriz de correlaci√≥n
numeric_cols = df_sample.select_dtypes(include=[np.number]).columns.tolist()
corr_matrix = df_sample[numeric_cols].corr()

plt.figure(figsize=(14, 10))
mask = np.triu(np.ones_like(corr_matrix, dtype=bool))
sns.heatmap(corr_matrix, mask=mask, annot=True, cmap='RdYlBu_r', center=0,
            fmt='.2f', square=True, linewidths=0.5)
plt.title('Matriz de Correlaci√≥n de Variables Num√©ricas', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.savefig('../outputs/figures/eda_correlation_matrix.png', dpi=150, bbox_inches='tight')
plt.show()

# Correlaci√≥n con variable objetivo
print('\nüìä Correlaci√≥n con Variable Objetivo (DEP_DEL15):')
target_corr = corr_matrix[target_col].drop(target_col).sort_values(key=abs, ascending=False)
print(target_corr.round(4))

## 8. Resumen de Features Seleccionadas

### Features del Modelo (17 total)

| Categor√≠a | Features | Cantidad |
|-----------|----------|----------|
| Temporales | year, month, day_of_week, day_of_month, dep_hour, sched_minute_of_day | 6 |
| Operaci√≥n | op_unique_carrier, origin, dest (encoded) | 3 |
| Distancia | distance | 1 |
| Clima | temp, wind_spd, precip_1h, climate_severity_idx, dist_met_km | 5 |
| Geogr√°ficas | latitude, longitude | 2 |

### Features Excluidas (Evitar Leakage)

- ‚ùå `DEP_DEL15` - Target
- ‚ùå `DEP_DELAY` - Contiene respuesta
- ‚ùå `STATION_KEY` - Llave t√©cnica
- ‚ùå `FL_DATE` - Alta cardinalidad

In [None]:
# Guardar resumen del EDA
summary = {
    'total_registros': int(len(df)),
    'total_columnas': int(len(df.columns)),
    'tasa_retraso_pct': float(df_sample[target_col].mean() * 100),
    'columnas': df.columns.tolist(),
    'features_modelo': [
        'year', 'month', 'day_of_week', 'day_of_month', 'dep_hour', 'sched_minute_of_day',
        'op_unique_carrier_encoded', 'origin_encoded', 'dest_encoded',
        'distance',
        'temp', 'wind_spd', 'precip_1h', 'climate_severity_idx', 'dist_met_km',
        'latitude', 'longitude'
    ],
    'hora_mas_retrasos': int(hourly_delay.idxmax()),
    'hora_menos_retrasos': int(hourly_delay.idxmin())
}

import json
with open('../outputs/metrics/eda_summary.json', 'w') as f:
    json.dump(summary, f, indent=2)

print('‚úÖ Resumen del EDA guardado en: outputs/metrics/eda_summary.json')
print(f'\nüìä Total de features del modelo: {len(summary["features_modelo"])}')