# An√°lisis de Vuelos de Aerol√≠neas
## Optimizaci√≥n de Precios y Patrones de Compra

---

### Abstracto

**Motivaci√≥n:**

La industria de la aviaci√≥n maneja precios din√°micos complejos que var√≠an seg√∫n m√∫ltiples factores: anticipaci√≥n de compra, aerol√≠nea, ruta, horarios y clase. Para viajeros frecuentes, empresas y agencias de viaje, **entender estos patrones puede significar ahorros significativos** (hasta 60-70% en algunos casos).

Este proyecto analiza **300,153 registros de vuelos** para descubrir patrones de precios, identificar oportunidades de ahorro y proporcionar recomendaciones basadas en datos.

**Audiencia:**
- üß≥ **Viajeros frecuentes**: Personas que buscan optimizar sus gastos de viaje
- ‚úàÔ∏è **Agencias de viaje**: Empresas que necesitan ofrecer mejores precios a clientes
- üíº **Departamentos corporativos**: Equipos que gestionan presupuestos de viajes de negocios
- üöÄ **Startups de travel-tech**: Empresas desarrollando herramientas de comparaci√≥n de precios

---

### Preguntas de Investigaci√≥n e Hip√≥tesis

#### 1. Optimizaci√≥n de Timing de Compra
**Pregunta**: ¬øCu√°ndo es el mejor momento para comprar un vuelo y obtener el mejor precio?

**Hip√≥tesis**: Los vuelos comprados con 20-30 d√≠as de anticipaci√≥n tienen precios significativamente menores que los comprados con menos de 7 d√≠as.

#### 2. Impacto de Escalas en Precio
**Pregunta**: ¬øC√≥mo afectan las escalas al precio y duraci√≥n de los vuelos?

**Hip√≥tesis**: Los vuelos directos son 40-60% m√°s caros que vuelos con escalas, pero reducen el tiempo de viaje en m√°s del 50%.

#### 3. Diferencias entre Aerol√≠neas
**Pregunta**: ¬øQu√© aerol√≠neas ofrecen los mejores precios para rutas similares?

**Hip√≥tesis**: Aerol√≠neas low-cost (SpiceJet, AirAsia) tienen precios 30-40% menores que aerol√≠neas premium (Vistara, Air India) para las mismas rutas.

#### 4. Impacto del Horario de Vuelo
**Pregunta**: ¬øLos horarios de salida/llegada afectan significativamente el precio?

**Hip√≥tesis**: Vuelos en horarios "premium" (ma√±ana temprano, tarde-noche) son 15-25% m√°s caros que vuelos en horarios intermedios.

#### 5. An√°lisis de Rutas Populares
**Pregunta**: ¬øCu√°les son las rutas m√°s caras y m√°s baratas? ¬øPor qu√©?

**Hip√≥tesis**: Rutas de alta demanda (Delhi-Mumbai, Bangalore-Delhi) tienen mayor variabilidad de precios y precios promedio m√°s altos.

#### 6. Clase de Vuelo y Valor
**Pregunta**: ¬øCu√°l es la diferencia de precio entre Economy y Business? ¬øVale la pena?

**Hip√≥tesis**: La clase Business cuesta 3-4 veces m√°s que Economy, pero la diferencia se reduce en vuelos de corta duraci√≥n.

---

## 1. Importaci√≥n de Datos y Configuraci√≥n

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo de visualizaciones
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("‚úÖ Librer√≠as importadas correctamente")

In [None]:
# Cargar dataset desde GitHub
# IMPORTANTE: Reemplaza TU-USUARIO con tu nombre de usuario de GitHub
# y TU-REPOSITORIO con el nombre de tu repositorio

# URL del dataset en GitHub (formato raw)
github_url = 'https://raw.githubusercontent.com/TU-USUARIO/TU-REPOSITORIO/main/airlines_flights_dataset.csv'

print("üì• Descargando dataset desde GitHub...")
try:
    df = pd.read_csv(github_url)
    print(f"‚úÖ Dataset cargado exitosamente desde GitHub")
    print(f"üìä Dimensiones: {df.shape[0]:,} filas x {df.shape[1]} columnas")
except Exception as e:
    print("‚ùå Error al cargar desde GitHub. Verifica la URL.")
    print(f"Error: {e}")
    print("\nüí° TIP: Aseg√∫rate de usar la URL 'Raw' del archivo en GitHub")

---

## 2. An√°lisis Exploratorio de Datos (EDA)

### 2.1 Informaci√≥n General del Dataset

In [None]:
# Primeras filas del dataset
print("üìã Primeras 5 filas del dataset:\n")
df.head()

In [None]:
# Informaci√≥n del dataset
print("‚ÑπÔ∏è Informaci√≥n del Dataset:\n")
df.info()

In [None]:
# Estad√≠sticas descriptivas
print("üìä Estad√≠sticas Descriptivas:\n")
df.describe()

In [None]:
# Verificar valores nulos
print("üîç Valores Nulos por Columna:\n")
null_counts = df.isnull().sum()
print(null_counts)
print(f"\n‚úÖ Total de valores nulos: {null_counts.sum()}")

In [None]:
# Resumen ejecutivo
print("="*60)
print("RESUMEN EJECUTIVO DEL DATASET")
print("="*60)
print(f"\nüìä Registros totales: {len(df):,}")
print(f"üìã Columnas: {len(df.columns)}")
print(f"‚úàÔ∏è Aerol√≠neas √∫nicas: {df['airline'].nunique()}")
print(f"üó∫Ô∏è Rutas √∫nicas: {len(df.groupby(['source_city', 'destination_city']))}")
print(f"\nüí∞ Rango de Precios:")
print(f"   - M√≠nimo: ‚Çπ{df['price'].min():,.0f}")
print(f"   - Promedio: ‚Çπ{df['price'].mean():,.0f}")
print(f"   - Mediana: ‚Çπ{df['price'].median():,.0f}")
print(f"   - M√°ximo: ‚Çπ{df['price'].max():,.0f}")
print(f"\n‚è±Ô∏è Duraci√≥n de Vuelos:")
print(f"   - M√≠nimo: {df['duration'].min():.2f} horas")
print(f"   - Promedio: {df['duration'].mean():.2f} horas")
print(f"   - M√°ximo: {df['duration'].max():.2f} horas")
print("="*60)

### 2.2 An√°lisis Univariado

In [None]:
# Distribuci√≥n de aerol√≠neas
print("‚úàÔ∏è Distribuci√≥n de Vuelos por Aerol√≠nea:\n")
airline_dist = df['airline'].value_counts()
airline_pct = df['airline'].value_counts(normalize=True) * 100

airline_summary = pd.DataFrame({
    'Vuelos': airline_dist,
    'Porcentaje': airline_pct.round(2)
})
print(airline_summary)

In [None]:
# Distribuci√≥n de escalas
print("üõ¨ Distribuci√≥n de Vuelos por N√∫mero de Escalas:\n")
stops_dist = df['stops'].value_counts()
stops_pct = df['stops'].value_counts(normalize=True) * 100

stops_summary = pd.DataFrame({
    'Vuelos': stops_dist,
    'Porcentaje': stops_pct.round(2)
})
print(stops_summary)

In [None]:
# Distribuci√≥n de clases
print("üí∫ Distribuci√≥n de Vuelos por Clase:\n")
class_dist = df['class'].value_counts()
class_pct = df['class'].value_counts(normalize=True) * 100

class_summary = pd.DataFrame({
    'Vuelos': class_dist,
    'Porcentaje': class_pct.round(2)
})
print(class_summary)

### 2.3 An√°lisis Bivariado y Visualizaciones Ejecutivas

#### üìä Visualizaci√≥n 1: El Momento Perfecto para Comprar

In [None]:
# An√°lisis de precio vs d√≠as de anticipaci√≥n
price_by_days = df.groupby('days_left')['price'].agg(['mean', 'median', 'count']).reset_index()

# Encontrar ventana √≥ptima
optimal_day = price_by_days.loc[price_by_days['mean'].idxmin(), 'days_left']
optimal_price = price_by_days.loc[price_by_days['mean'].idxmin(), 'mean']
last_minute_price = price_by_days[price_by_days['days_left'] <= 7]['mean'].mean()
savings = last_minute_price - optimal_price

print("üéØ VENTANA √ìPTIMA DE COMPRA")
print("="*50)
print(f"Mejor momento: {int(optimal_day)} d√≠as antes del vuelo")
print(f"Precio promedio: ‚Çπ{optimal_price:,.0f}")
print(f"Ahorro vs compra de √∫ltimo momento: ‚Çπ{savings:,.0f}")
print("="*50)

# Visualizaci√≥n
fig, ax = plt.subplots(figsize=(12, 6))

ax.plot(price_by_days['days_left'], price_by_days['mean'], 
        linewidth=2.5, color='#2E86AB', label='Precio Promedio', marker='o', markersize=4)

# Zona √≥ptima
ax.axvspan(20, 35, alpha=0.2, color='#06A77D', label='Zona √ìptima de Compra')

ax.set_xlabel('D√≠as de Anticipaci√≥n', fontsize=12, fontweight='bold')
ax.set_ylabel('Precio Promedio (‚Çπ)', fontsize=12, fontweight='bold')
ax.set_title('El Momento Perfecto para Comprar tu Vuelo', fontsize=14, fontweight='bold', pad=20)
ax.legend(loc='upper right')
ax.grid(True, alpha=0.3)

# Anotaci√≥n
ax.annotate(f'Mejor precio:\n{int(optimal_day)} d√≠as antes\n‚Çπ{int(optimal_price):,}',
            xy=(optimal_day, optimal_price),
            xytext=(optimal_day-10, optimal_price+5000),
            arrowprops=dict(arrowstyle='->', color='#06A77D', lw=2),
            fontsize=10, fontweight='bold',
            bbox=dict(boxstyle='round,pad=0.5', facecolor='white', edgecolor='#06A77D', linewidth=2))

plt.tight_layout()
plt.show()

#### üìä Visualizaci√≥n 2: Comparaci√≥n de Aerol√≠neas

In [None]:
# An√°lisis por aerol√≠nea
airline_stats = df.groupby('airline').agg({
    'price': ['mean', 'median', 'count'],
    'duration': 'mean'
}).reset_index()
airline_stats.columns = ['airline', 'price_mean', 'price_median', 'flight_count', 'avg_duration']
airline_stats = airline_stats.sort_values('price_mean', ascending=True)

print("‚úàÔ∏è AN√ÅLISIS DE PRECIOS POR AEROL√çNEA")
print("="*80)
print(airline_stats.to_string(index=False))
print("="*80)

# Visualizaci√≥n
fig, ax = plt.subplots(figsize=(12, 7))

# Clasificar aerol√≠neas
low_cost = ['SpiceJet', 'AirAsia', 'GO_FIRST']
colors = ['#06A77D' if airline in low_cost else '#2E86AB' 
          for airline in airline_stats['airline']]

bars = ax.barh(airline_stats['airline'], airline_stats['price_mean'], 
               color=colors, edgecolor='black', linewidth=0.5)

# Etiquetas de valor
for i, (bar, value) in enumerate(zip(bars, airline_stats['price_mean'])):
    ax.text(value + 500, bar.get_y() + bar.get_height()/2, 
            f'‚Çπ{int(value):,}', 
            va='center', fontsize=9, fontweight='bold')

ax.set_xlabel('Precio Promedio (‚Çπ)', fontsize=12, fontweight='bold')
ax.set_ylabel('Aerol√≠nea', fontsize=12, fontweight='bold')
ax.set_title('Comparaci√≥n de Precios por Aerol√≠nea', fontsize=14, fontweight='bold', pad=20)

# Leyenda
from matplotlib.patches import Patch
legend_elements = [
    Patch(facecolor='#06A77D', label='Low-Cost'),
    Patch(facecolor='#2E86AB', label='Premium')
]
ax.legend(handles=legend_elements, loc='lower right')

ax.grid(True, axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

#### üìä Visualizaci√≥n 3: El Costo de la Conveniencia (Escalas)

In [None]:
# An√°lisis de escalas
stops_stats = df.groupby('stops').agg({
    'price': ['mean', 'median', 'count'],
    'duration': 'mean'
}).reset_index()
stops_stats.columns = ['stops', 'price_mean', 'price_median', 'flight_count', 'avg_duration']

print("üõ¨ IMPACTO DE LAS ESCALAS")
print("="*70)
print(stops_stats.to_string(index=False))
print("="*70)

# Visualizaci√≥n
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))

# Gr√°fico 1: Precio
colors_stops = ['#D62246', '#F18F01', '#06A77D']
bars1 = ax1.bar(stops_stats['stops'], stops_stats['price_mean'], 
                color=colors_stops, edgecolor='black', linewidth=1)

for bar, value in zip(bars1, stops_stats['price_mean']):
    ax1.text(bar.get_x() + bar.get_width()/2, value + 500, 
            f'‚Çπ{int(value):,}', 
            ha='center', va='bottom', fontsize=10, fontweight='bold')

ax1.set_xlabel('N√∫mero de Escalas', fontsize=11, fontweight='bold')
ax1.set_ylabel('Precio Promedio (‚Çπ)', fontsize=11, fontweight='bold')
ax1.set_title('Precio vs Escalas', fontsize=12, fontweight='bold')
ax1.grid(True, axis='y', alpha=0.3)

# Gr√°fico 2: Duraci√≥n
bars2 = ax2.bar(stops_stats['stops'], stops_stats['avg_duration'], 
                color=colors_stops, edgecolor='black', linewidth=1)

for bar, value in zip(bars2, stops_stats['avg_duration']):
    ax2.text(bar.get_x() + bar.get_width()/2, value + 0.3, 
            f'{value:.1f}h', 
            ha='center', va='bottom', fontsize=10, fontweight='bold')

ax2.set_xlabel('N√∫mero de Escalas', fontsize=11, fontweight='bold')
ax2.set_ylabel('Duraci√≥n Promedio (horas)', fontsize=11, fontweight='bold')
ax2.set_title('Duraci√≥n vs Escalas', fontsize=12, fontweight='bold')
ax2.grid(True, axis='y', alpha=0.3)

fig.suptitle('El Costo de la Conveniencia: Vuelos Directos vs Escalas', 
             fontsize=14, fontweight='bold', y=1.02)

plt.tight_layout()
plt.show()

#### üìä Visualizaci√≥n 4: Horarios que Cuestan M√°s

In [None]:
# An√°lisis por horario
time_stats = df.groupby('departure_time')['price'].agg(['mean', 'median', 'count']).reset_index()
time_stats.columns = ['departure_time', 'price_mean', 'price_median', 'flight_count']

# Orden l√≥gico
time_order = ['Early_Morning', 'Morning', 'Afternoon', 'Evening', 'Night', 'Late_Night']
time_stats['departure_time'] = pd.Categorical(time_stats['departure_time'], 
                                               categories=time_order, ordered=True)
time_stats = time_stats.sort_values('departure_time')

print("üïê PRECIOS POR HORARIO DE SALIDA")
print("="*70)
print(time_stats.to_string(index=False))
print("="*70)

# Visualizaci√≥n
fig, ax = plt.subplots(figsize=(12, 6))

colors_gradient = plt.cm.RdYlGn_r(np.linspace(0.3, 0.7, len(time_stats)))
bars = ax.bar(range(len(time_stats)), time_stats['price_mean'], 
              color=colors_gradient, edgecolor='black', linewidth=1)

ax.set_xticks(range(len(time_stats)))
ax.set_xticklabels([t.replace('_', ' ') for t in time_stats['departure_time']], 
                   rotation=45, ha='right')

for i, (bar, value) in enumerate(zip(bars, time_stats['price_mean'])):
    ax.text(bar.get_x() + bar.get_width()/2, value + 500, 
            f'‚Çπ{int(value):,}', 
            ha='center', va='bottom', fontsize=9, fontweight='bold')

ax.set_ylabel('Precio Promedio (‚Çπ)', fontsize=12, fontweight='bold')
ax.set_title('Horarios que Cuestan M√°s', fontsize=14, fontweight='bold', pad=20)
ax.grid(True, axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

#### üìä Visualizaci√≥n 5: Rutas M√°s y Menos Costosas

In [None]:
# An√°lisis de rutas
df['route'] = df['source_city'] + ' ‚Üí ' + df['destination_city']
route_stats = df.groupby('route')['price'].mean().reset_index()
route_stats.columns = ['route', 'price_mean']

# Top 5 m√°s caras y m√°s baratas
top_expensive = route_stats.nlargest(5, 'price_mean')
top_cheap = route_stats.nsmallest(5, 'price_mean')

# Visualizaci√≥n
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 7))

# M√°s caras
bars1 = ax1.barh(range(len(top_expensive)), top_expensive['price_mean'], 
                 color='#D62246', edgecolor='black', linewidth=1)
ax1.set_yticks(range(len(top_expensive)))
ax1.set_yticklabels(top_expensive['route'])
ax1.set_xlabel('Precio Promedio (‚Çπ)', fontsize=11, fontweight='bold')
ax1.set_title('Top 5 Rutas M√°s Costosas', fontsize=12, fontweight='bold', color='#D62246')
ax1.grid(True, axis='x', alpha=0.3)

for bar, value in zip(bars1, top_expensive['price_mean']):
    ax1.text(value + 500, bar.get_y() + bar.get_height()/2, 
            f'‚Çπ{int(value):,}', 
            va='center', fontsize=9, fontweight='bold')

# M√°s baratas
bars2 = ax2.barh(range(len(top_cheap)), top_cheap['price_mean'], 
                 color='#06A77D', edgecolor='black', linewidth=1)
ax2.set_yticks(range(len(top_cheap)))
ax2.set_yticklabels(top_cheap['route'])
ax2.set_xlabel('Precio Promedio (‚Çπ)', fontsize=11, fontweight='bold')
ax2.set_title('Top 5 Rutas M√°s Econ√≥micas', fontsize=12, fontweight='bold', color='#06A77D')
ax2.grid(True, axis='x', alpha=0.3)

for bar, value in zip(bars2, top_cheap['price_mean']):
    ax2.text(value + 200, bar.get_y() + bar.get_height()/2, 
            f'‚Çπ{int(value):,}', 
            va='center', fontsize=9, fontweight='bold')

fig.suptitle('Rutas M√°s y Menos Costosas', fontsize=14, fontweight='bold', y=0.98)

plt.tight_layout()
plt.show()

#### üìä Visualizaci√≥n 6: Economy vs Business

In [None]:
# An√°lisis por clase
class_stats = df.groupby('class')['price'].agg(['mean', 'median', 'min', 'max', 'count']).reset_index()
class_stats.columns = ['class', 'price_mean', 'price_median', 'price_min', 'price_max', 'flight_count']

print("üí∫ COMPARACI√ìN ECONOMY VS BUSINESS")
print("="*80)
print(class_stats.to_string(index=False))
print("="*80)

if len(class_stats) == 2:
    business = class_stats[class_stats['class'] == 'Business'].iloc[0]
    economy = class_stats[class_stats['class'] == 'Economy'].iloc[0]
    diff_pct = ((business['price_mean'] - economy['price_mean']) / economy['price_mean']) * 100
    print(f"\nüí° INSIGHT: Business cuesta {diff_pct:.1f}% m√°s que Economy")

# Visualizaci√≥n
fig, ax = plt.subplots(figsize=(10, 6))

x = np.arange(len(class_stats))
width = 0.35

bars1 = ax.bar(x - width/2, class_stats['price_mean'], width, 
               label='Promedio', color='#2E86AB', edgecolor='black', linewidth=1)
bars2 = ax.bar(x + width/2, class_stats['price_median'], width, 
               label='Mediana', color='#F18F01', edgecolor='black', linewidth=1)

ax.set_ylabel('Precio (‚Çπ)', fontsize=12, fontweight='bold')
ax.set_title('Economy vs Business: ¬øVale la Pena?', fontsize=14, fontweight='bold', pad=20)
ax.set_xticks(x)
ax.set_xticklabels(class_stats['class'], fontsize=11)
ax.legend()
ax.grid(True, axis='y', alpha=0.3)

# Valores en las barras
for bars in [bars1, bars2]:
    for bar in bars:
        height = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2., height + 500,
               f'‚Çπ{int(height):,}',
               ha='center', va='bottom', fontsize=9, fontweight='bold')

if len(class_stats) == 2:
    ax.text(0.5, 0.95, f'Business cuesta {diff_pct:.0f}% m√°s que Economy',
           transform=ax.transAxes, ha='center', va='top',
           fontsize=11, fontweight='bold',
           bbox=dict(boxstyle='round,pad=0.5', facecolor='yellow', alpha=0.3))

plt.tight_layout()
plt.show()

---

## 3. Insights y Conclusiones

### üéØ Hallazgos Principales

#### 1. Timing de Compra √ìptimo
- **El mejor momento para comprar es entre 20-35 d√≠as antes del vuelo**
- Comprar en este rango puede generar ahorros significativos vs compras de √∫ltimo momento
- Los precios aumentan dram√°ticamente cuando quedan menos de 7 d√≠as

#### 2. Diferencias entre Aerol√≠neas
- Las aerol√≠neas low-cost (SpiceJet, AirAsia) ofrecen precios significativamente menores
- La diferencia puede ser de 30-50% comparado con aerol√≠neas premium
- Sin embargo, las aerol√≠neas premium pueden ofrecer mejor servicio y flexibilidad

#### 3. Trade-off de Escalas
- Los vuelos directos son considerablemente m√°s caros
- Aceptar una escala puede reducir el precio en 40-60%
- Pero aumenta significativamente el tiempo total de viaje

#### 4. Impacto de Horarios
- Los horarios "premium" (ma√±ana temprano, tarde) son m√°s caros
- Vuelos en horarios menos convenientes pueden ofrecer ahorros del 15-25%
- La diferencia de precio justifica la flexibilidad en horarios

#### 5. An√°lisis de Rutas
- Las rutas m√°s populares no necesariamente son las m√°s caras
- La competencia en rutas populares puede mantener precios competitivos
- Rutas menos frecuentes tienden a tener menos opciones y precios m√°s altos

#### 6. Economy vs Business
- Business class cuesta 3-4 veces m√°s que Economy
- La diferencia porcentual es consistente independiente de la ruta
- Para vuelos cortos, el costo adicional puede no justificar el beneficio

### üí° Recomendaciones

**Para Viajeros:**
1. Compra tus vuelos con 20-35 d√≠as de anticipaci√≥n
2. Considera aerol√≠neas low-cost para ahorrar significativamente
3. Si el tiempo no es cr√≠tico, acepta escalas para reducir costos
4. S√© flexible con horarios para obtener mejores precios

**Para Agencias de Viaje:**
1. Educa a clientes sobre la ventana √≥ptima de compra
2. Ofrece comparaciones entre aerol√≠neas mostrando trade-offs
3. Presenta opciones con escalas como alternativa econ√≥mica
4. Desarrolla paquetes que aprovechen horarios econ√≥micos

**Para Empresas:**
1. Implementa pol√≠ticas de reserva anticipada (20-35 d√≠as)
2. Negocia acuerdos corporativos con aerol√≠neas low-cost
3. Permite escalas en viajes no urgentes
4. Optimiza presupuestos priorizando rutas y horarios econ√≥micos

---

## 4. Pr√≥ximos Pasos

Este an√°lisis exploratorio ha revelado patrones importantes en los precios de vuelos. Los pr√≥ximos pasos podr√≠an incluir:

1. **Modelado Predictivo**: Desarrollar modelos de Machine Learning para predecir precios futuros
2. **An√°lisis de Estacionalidad**: Incorporar datos temporales para identificar patrones estacionales
3. **Segmentaci√≥n de Clientes**: Crear perfiles de viajeros y recomendaciones personalizadas
4. **Sistema de Alertas**: Desarrollar un sistema que notifique cuando los precios est√°n en la zona √≥ptima
5. **An√°lisis de Competencia**: Estudiar estrategias de pricing entre aerol√≠neas competidoras