In [None]:
# An√°lise Explorat√≥ria de Dados - Voos Comerciais 2015

Este notebook apresenta uma an√°lise explorat√≥ria completa dos dados de voos comerciais dos EUA em 2015, incluindo:
- Estat√≠sticas descritivas
- Visualiza√ß√µes de insights
- Tratamento de valores ausentes

**Datasets:**
- `flights.csv`: Dados de voos (~5.8M registros)
- `airlines.csv`: Informa√ß√µes das companhias a√©reas
- `airports.csv`: Informa√ß√µes dos aeroportos

## 1. Importa√ß√£o de Bibliotecas

In [None]:
# Carregando os datasets
print("Carregando dados...")

# Companhias a√©reas
airlines = pd.read_csv('../data/airlines.csv')
print(f"‚úì Airlines: {airlines.shape[0]} registros, {airlines.shape[1]} colunas")

# Aeroportos
airports = pd.read_csv('../data/airports.csv')
print(f"‚úì Airports: {airports.shape[0]} registros, {airports.shape[1]} colunas")

# Voos - dataset grande, pode demorar
flights = pd.read_csv('../data/flights.csv')
print(f"‚úì Flights: {flights.shape[0]} registros, {flights.shape[1]} colunas")

print("\nDados carregados com sucesso!")

## 2. Carregamento dos Dados

In [None]:
print("=" * 60)
print("DATASET: FLIGHTS")
print("=" * 60)
print(f"\nDimens√µes: {flights.shape}")
print(f"\nPrimeiras linhas:")
display(flights.head(10))
print(f"\nInforma√ß√µes do dataset:")
flights.info()
print(f"\nColunas do dataset:")
for i, col in enumerate(flights.columns, 1):
    print(f"{i:2}. {col}")

### 3.3 Flights (Voos)

In [None]:
print("=" * 60)
print("DATASET: AIRPORTS")
print("=" * 60)
print(f"\nDimens√µes: {airports.shape}")
print(f"\nPrimeiras linhas:")
display(airports.head(10))
print(f"\nInforma√ß√µes do dataset:")
airports.info()
print(f"\nValores ausentes:")
print(airports.isnull().sum())
print(f"\nEstados com mais aeroportos:")
print(airports['STATE'].value_counts().head(10))

### 3.2 Airports (Aeroportos)

In [None]:
print("=" * 60)
print("DATASET: AIRLINES")
print("=" * 60)
print(f"\nDimens√µes: {airlines.shape}")
print(f"\nPrimeiras linhas:")
display(airlines.head(10))
print(f"\nInforma√ß√µes do dataset:")
airlines.info()
print(f"\nValores ausentes:")
print(airlines.isnull().sum())

### 3.1 Airlines (Companhias A√©reas)

## 3. Vis√£o Geral dos Dados

In [None]:
# An√°lise de atrasos
print("=" * 60)
print("AN√ÅLISE DE ATRASOS")
print("=" * 60)

# Filtrar apenas voos n√£o cancelados
flights_operated = flights_clean[flights_clean['CANCELLED'] == 0].copy()

print(f"\nVoos operados (n√£o cancelados): {len(flights_operated):,}")
print(f"\nAtraso m√©dio de partida: {flights_operated['DEPARTURE_DELAY'].mean():.2f} minutos")
print(f"Atraso m√©dio de chegada: {flights_operated['ARRIVAL_DELAY'].mean():.2f} minutos")
print(f"\nVoos com atraso de partida > 15 min: {(flights_operated['DEPARTURE_DELAY'] > 15).sum():,} ({(flights_operated['DEPARTURE_DELAY'] > 15).sum()/len(flights_operated)*100:.2f}%)")
print(f"Voos com atraso de chegada > 15 min: {(flights_operated['ARRIVAL_DELAY'] > 15).sum():,} ({(flights_operated['ARRIVAL_DELAY'] > 15).sum()/len(flights_operated)*100:.2f}%)")

# Tipos de atraso
delay_types = {
    'Sistema A√©reo': flights_operated['AIR_SYSTEM_DELAY'].sum(),
    'Seguran√ßa': flights_operated['SECURITY_DELAY'].sum(),
    'Companhia A√©rea': flights_operated['AIRLINE_DELAY'].sum(),
    'Aeronave Atrasada': flights_operated['LATE_AIRCRAFT_DELAY'].sum(),
    'Clima': flights_operated['WEATHER_DELAY'].sum()
}

print("\n" + "=" * 60)
print("TOTAL DE MINUTOS DE ATRASO POR TIPO")
print("=" * 60)
for tipo, minutos in sorted(delay_types.items(), key=lambda x: x[1], reverse=True):
    print(f"{tipo}: {minutos:,.0f} minutos ({minutos/60:,.0f} horas)")

### 5.2 An√°lise de Atrasos

In [None]:
# Estat√≠sticas descritivas principais
print("=" * 60)
print("ESTAT√çSTICAS DESCRITIVAS - VOOS")
print("=" * 60)

# Selecionando colunas num√©ricas importantes
numeric_cols = ['DEPARTURE_DELAY', 'ARRIVAL_DELAY', 'AIR_TIME', 'DISTANCE', 
                'ELAPSED_TIME', 'TAXI_OUT', 'TAXI_IN']

stats = flights_clean[numeric_cols].describe()
display(stats)

# Estat√≠sticas adicionais
print("\n" + "=" * 60)
print("INFORMA√á√ïES GERAIS")
print("=" * 60)
print(f"Total de voos: {len(flights_clean):,}")
print(f"Per√≠odo: {flights_clean['YEAR'].min()} - M√™s {flights_clean['MONTH'].min()} a {flights_clean['MONTH'].max()}")
print(f"Total de companhias a√©reas: {flights_clean['AIRLINE'].nunique()}")
print(f"Total de aeroportos de origem: {flights_clean['ORIGIN_AIRPORT'].nunique()}")
print(f"Total de aeroportos de destino: {flights_clean['DESTINATION_AIRPORT'].nunique()}")
print(f"Voos cancelados: {flights_clean['CANCELLED'].sum():,} ({(flights_clean['CANCELLED'].sum()/len(flights_clean)*100):.2f}%)")
print(f"Voos desviados: {flights_clean['DIVERTED'].sum():,} ({(flights_clean['DIVERTED'].sum()/len(flights_clean)*100):.2f}%)")

### 5.1 Estat√≠sticas Gerais

## 5. Estat√≠sticas Descritivas

In [None]:
# Distribui√ß√£o de atrasos (limitando a -60 a 180 minutos para melhor visualiza√ß√£o)
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Atraso de partida
dep_delays = flights_operated['DEPARTURE_DELAY'][(flights_operated['DEPARTURE_DELAY'] >= -60) & 
                                                   (flights_operated['DEPARTURE_DELAY'] <= 180)]
ax1.hist(dep_delays, bins=50, color='steelblue', edgecolor='black', alpha=0.7)
ax1.axvline(x=0, color='red', linestyle='--', linewidth=2, label='Sem atraso')
ax1.axvline(x=dep_delays.mean(), color='green', linestyle='--', linewidth=2, label=f'M√©dia: {dep_delays.mean():.1f} min')
ax1.set_xlabel('Atraso de Partida (minutos)', fontsize=12)
ax1.set_ylabel('Frequ√™ncia', fontsize=12)
ax1.set_title('Distribui√ß√£o de Atrasos de Partida', fontsize=14, fontweight='bold')
ax1.legend()
ax1.grid(alpha=0.3)

# Atraso de chegada
arr_delays = flights_operated['ARRIVAL_DELAY'][(flights_operated['ARRIVAL_DELAY'] >= -60) & 
                                                 (flights_operated['ARRIVAL_DELAY'] <= 180)]
ax2.hist(arr_delays, bins=50, color='coral', edgecolor='black', alpha=0.7)
ax2.axvline(x=0, color='red', linestyle='--', linewidth=2, label='Sem atraso')
ax2.axvline(x=arr_delays.mean(), color='green', linestyle='--', linewidth=2, label=f'M√©dia: {arr_delays.mean():.1f} min')
ax2.set_xlabel('Atraso de Chegada (minutos)', fontsize=12)
ax2.set_ylabel('Frequ√™ncia', fontsize=12)
ax2.set_title('Distribui√ß√£o de Atrasos de Chegada', fontsize=14, fontweight='bold')
ax2.legend()
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

### 6.5 Distribui√ß√£o de Atrasos

In [None]:
# Atraso m√©dio por companhia a√©rea
delay_by_airline = flights_operated.groupby('AIRLINE').agg({
    'DEPARTURE_DELAY': 'mean',
    'ARRIVAL_DELAY': 'mean',
    'AIRLINE': 'count'
}).reset_index()
delay_by_airline.columns = ['AIRLINE', 'AVG_DEP_DELAY', 'AVG_ARR_DELAY', 'TOTAL_FLIGHTS']

# Merge com nomes
delay_by_airline = delay_by_airline.merge(airlines, left_on='AIRLINE', right_on='IATA_CODE', how='left')
delay_by_airline = delay_by_airline.sort_values('AVG_ARR_DELAY', ascending=False)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 7))

# Atraso de partida
ax1.barh(delay_by_airline['AIRLINE_y'], delay_by_airline['AVG_DEP_DELAY'], color='tomato')
ax1.set_xlabel('Atraso M√©dio (minutos)', fontsize=12)
ax1.set_ylabel('Companhia A√©rea', fontsize=12)
ax1.set_title('Atraso M√©dio de Partida por Companhia', fontsize=14, fontweight='bold')
ax1.axvline(x=0, color='black', linestyle='--', linewidth=0.8, alpha=0.7)
ax1.grid(axis='x', alpha=0.3)

# Atraso de chegada
ax2.barh(delay_by_airline['AIRLINE_y'], delay_by_airline['AVG_ARR_DELAY'], color='orangered')
ax2.set_xlabel('Atraso M√©dio (minutos)', fontsize=12)
ax2.set_ylabel('Companhia A√©rea', fontsize=12)
ax2.set_title('Atraso M√©dio de Chegada por Companhia', fontsize=14, fontweight='bold')
ax2.axvline(x=0, color='black', linestyle='--', linewidth=0.8, alpha=0.7)
ax2.grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("Ranking de atrasos por companhia:")
display(delay_by_airline[['AIRLINE', 'AIRLINE_y', 'AVG_DEP_DELAY', 'AVG_ARR_DELAY', 'TOTAL_FLIGHTS']].round(2))

### 6.4 An√°lise de Atrasos por Companhia A√©rea

In [None]:
# Voos por m√™s
flights_by_month = flights_clean.groupby('MONTH').size().reset_index(name='COUNT')

# Voos por dia da semana
flights_by_dow = flights_clean.groupby('DAY_OF_WEEK').size().reset_index(name='COUNT')
dow_labels = ['Seg', 'Ter', 'Qua', 'Qui', 'Sex', 'S√°b', 'Dom']

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Por m√™s
month_labels = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez']
ax1.plot(flights_by_month['MONTH'], flights_by_month['COUNT'], marker='o', 
         linewidth=2, markersize=8, color='steelblue')
ax1.fill_between(flights_by_month['MONTH'], flights_by_month['COUNT'], alpha=0.3, color='steelblue')
ax1.set_xlabel('M√™s', fontsize=12)
ax1.set_ylabel('N√∫mero de Voos', fontsize=12)
ax1.set_title('Distribui√ß√£o de Voos por M√™s (2015)', fontsize=14, fontweight='bold')
ax1.set_xticks(range(1, 13))
ax1.set_xticklabels(month_labels)
ax1.grid(alpha=0.3)

# Por dia da semana
ax2.bar(flights_by_dow['DAY_OF_WEEK'], flights_by_dow['COUNT'], color='coral')
ax2.set_xlabel('Dia da Semana', fontsize=12)
ax2.set_ylabel('N√∫mero de Voos', fontsize=12)
ax2.set_title('Distribui√ß√£o de Voos por Dia da Semana', fontsize=14, fontweight='bold')
ax2.set_xticks(range(1, 8))
ax2.set_xticklabels(dow_labels)
ax2.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("Voos por m√™s:")
display(flights_by_month)
print("\nVoos por dia da semana:")
flights_by_dow['DIA'] = dow_labels
display(flights_by_dow[['DIA', 'COUNT']])

### 6.3 Distribui√ß√£o de Voos ao Longo do Ano

In [None]:
# Top aeroportos de origem
top_origins = flights_clean['ORIGIN_AIRPORT'].value_counts().head(15).reset_index()
top_origins.columns = ['AIRPORT', 'COUNT']

# Top aeroportos de destino
top_destinations = flights_clean['DESTINATION_AIRPORT'].value_counts().head(15).reset_index()
top_destinations.columns = ['AIRPORT', 'COUNT']

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 7))

# Aeroportos de origem
ax1.barh(range(len(top_origins)), top_origins['COUNT'], color='coral')
ax1.set_yticks(range(len(top_origins)))
ax1.set_yticklabels(top_origins['AIRPORT'])
ax1.set_xlabel('N√∫mero de Voos', fontsize=12)
ax1.set_ylabel('Aeroporto', fontsize=12)
ax1.set_title('Top 15 Aeroportos de Origem', fontsize=14, fontweight='bold')
ax1.invert_yaxis()
ax1.grid(axis='x', alpha=0.3)

# Aeroportos de destino
ax2.barh(range(len(top_destinations)), top_destinations['COUNT'], color='lightgreen')
ax2.set_yticks(range(len(top_destinations)))
ax2.set_yticklabels(top_destinations['AIRPORT'])
ax2.set_xlabel('N√∫mero de Voos', fontsize=12)
ax2.set_ylabel('Aeroporto', fontsize=12)
ax2.set_title('Top 15 Aeroportos de Destino', fontsize=14, fontweight='bold')
ax2.invert_yaxis()
ax2.grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("Top 5 aeroportos de origem:")
display(top_origins.head())
print("\nTop 5 aeroportos de destino:")
display(top_destinations.head())

### 6.2 Aeroportos Mais Movimentados

In [None]:
# Voos por companhia a√©rea
flights_by_airline = flights_clean['AIRLINE'].value_counts().reset_index()
flights_by_airline.columns = ['AIRLINE', 'COUNT']

# Merge com nomes das companhias
flights_by_airline = flights_by_airline.merge(airlines, left_on='AIRLINE', right_on='IATA_CODE', how='left')

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico de barras
ax1.barh(flights_by_airline['AIRLINE_y'], flights_by_airline['COUNT'], color='steelblue')
ax1.set_xlabel('N√∫mero de Voos', fontsize=12)
ax1.set_ylabel('Companhia A√©rea', fontsize=12)
ax1.set_title('Total de Voos por Companhia A√©rea', fontsize=14, fontweight='bold')
ax1.grid(axis='x', alpha=0.3)
for i, v in enumerate(flights_by_airline['COUNT']):
    ax1.text(v, i, f' {v:,}', va='center', fontsize=9)

# Gr√°fico de pizza
colors = plt.cm.Set3(range(len(flights_by_airline)))
ax2.pie(flights_by_airline['COUNT'], labels=flights_by_airline['AIRLINE'], autopct='%1.1f%%',
        colors=colors, startangle=90)
ax2.set_title('Propor√ß√£o de Voos por Companhia', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\nTop 5 companhias a√©reas:")
display(flights_by_airline[['AIRLINE', 'AIRLINE_y', 'COUNT']].head())

### 6.1 Distribui√ß√£o de Voos por Companhia A√©rea

## 6. Visualiza√ß√µes e Insights

---
### üìù Nota Final

Este notebook apresentou uma an√°lise explorat√≥ria completa dos dados de voos comerciais de 2015, incluindo:

‚úÖ **Estat√≠sticas descritivas detalhadas**  
‚úÖ **M√∫ltiplas visualiza√ß√µes com insights**  
‚úÖ **Tratamento adequado de valores ausentes**  
‚úÖ **An√°lise de correla√ß√µes**  
‚úÖ **Identifica√ß√£o de padr√µes temporais**  
‚úÖ **Compara√ß√£o entre companhias a√©reas**  

Os dados est√£o prontos para an√°lises mais avan√ßadas ou modelagem preditiva.

---

## 8. Conclus√µes Finais

### Principais Descobertas:

1. **Volume e Opera√ß√£o:**
   - Dataset robusto com ~5.8M de registros de voos em 2015
   - Taxa de cancelamento relativamente baixa (~1.5%)
   - Maioria dos voos operou conforme planejado

2. **Atrasos:**
   - Atraso m√©dio de chegada positivo, indicando tend√™ncia de atrasos
   - Aeronaves atrasadas e atrasos de companhias a√©reas s√£o as principais causas
   - Atrasos tendem a aumentar ao longo do dia
   - Forte correla√ß√£o entre atraso de partida e chegada

3. **Cancelamentos:**
   - Clima √© o principal motivo de cancelamento
   - Algumas companhias apresentam taxas significativamente maiores
   - Varia√ß√£o sazonal nos cancelamentos

4. **Padr√µes Temporais:**
   - Per√≠odos de pico identificados em determinados meses
   - Distribui√ß√£o uniforme ao longo dos dias da semana
   - Hor√°rios espec√≠ficos apresentam maior volume e atrasos

5. **Dados T√©cnicos:**
   - Forte correla√ß√£o entre dist√¢ncia e tempo de voo (esperado)
   - Variabilidade nos tempos de taxi (entrada/sa√≠da)
   - Aeroportos hub concentram maior volume de tr√°fego

### Recomenda√ß√µes para An√°lises Futuras:

- An√°lise preditiva de atrasos
- Estudo de rotas espec√≠ficas
- An√°lise de sazonalidade mais profunda
- Impacto de eventos clim√°ticos espec√≠ficos
- Otimiza√ß√£o de hor√°rios de voo

### Tratamento de Dados:

‚úÖ Valores ausentes tratados adequadamente:
- Atrasos preenchidos com 0 (sem atraso)
- CANCELLATION_REASON preenchido com 'N' (n√£o cancelado)
- Dados operacionais mantidos como NaN para voos cancelados (correto)

In [None]:
# Resumo dos principais insights
print("=" * 80)
print("RESUMO - PRINCIPAIS INSIGHTS DA AN√ÅLISE EXPLORAT√ìRIA")
print("=" * 80)

print("\nüìä VOLUME DE DADOS:")
print(f"   ‚Ä¢ Total de voos analisados: {len(flights_clean):,}")
print(f"   ‚Ä¢ Companhias a√©reas: {flights_clean['AIRLINE'].nunique()}")
print(f"   ‚Ä¢ Aeroportos √∫nicos: {flights_clean['ORIGIN_AIRPORT'].nunique()}")

print("\n‚úàÔ∏è OPERA√á√ÉO DE VOOS:")
print(f"   ‚Ä¢ Taxa de cancelamento: {(flights_clean['CANCELLED'].sum()/len(flights_clean)*100):.2f}%")
print(f"   ‚Ä¢ Taxa de desvio: {(flights_clean['DIVERTED'].sum()/len(flights_clean)*100):.2f}%")
print(f"   ‚Ä¢ Voos operados com sucesso: {(len(flights_operated)/len(flights_clean)*100):.2f}%")

print("\n‚è±Ô∏è ATRASOS:")
print(f"   ‚Ä¢ Atraso m√©dio de partida: {flights_operated['DEPARTURE_DELAY'].mean():.2f} minutos")
print(f"   ‚Ä¢ Atraso m√©dio de chegada: {flights_operated['ARRIVAL_DELAY'].mean():.2f} minutos")
print(f"   ‚Ä¢ Voos com atraso > 15 min (partida): {(flights_operated['DEPARTURE_DELAY'] > 15).sum()/len(flights_operated)*100:.2f}%")
print(f"   ‚Ä¢ Voos com atraso > 15 min (chegada): {(flights_operated['ARRIVAL_DELAY'] > 15).sum()/len(flights_operated)*100:.2f}%")

print("\nüèÜ TOP PERFORMERS:")
top_airline = flights_by_airline.iloc[0]
print(f"   ‚Ä¢ Companhia com mais voos: {top_airline['AIRLINE_y']} ({top_airline['COUNT']:,} voos)")
top_origin = top_origins.iloc[0]
print(f"   ‚Ä¢ Aeroporto mais movimentado (origem): {top_origin['AIRPORT']} ({top_origin['COUNT']:,} voos)")
best_delay_airline = delay_by_airline.iloc[-1]
print(f"   ‚Ä¢ Companhia com menor atraso m√©dio: {best_delay_airline['AIRLINE_y']} ({best_delay_airline['AVG_ARR_DELAY']:.2f} min)")

print("\nüìâ PONTOS DE ATEN√á√ÉO:")
worst_delay_airline = delay_by_airline.iloc[0]
print(f"   ‚Ä¢ Companhia com maior atraso m√©dio: {worst_delay_airline['AIRLINE_y']} ({worst_delay_airline['AVG_ARR_DELAY']:.2f} min)")
worst_cancel_airline = cancellation_by_airline.iloc[0]
print(f"   ‚Ä¢ Maior taxa de cancelamento: {worst_cancel_airline['AIRLINE_y']} ({worst_cancel_airline['CANCELLATION_RATE']:.2f}%)")

# Tipo de atraso mais comum
main_delay_type = delay_df.iloc[0]
print(f"   ‚Ä¢ Principal causa de atraso: {main_delay_type['Tipo']} ({main_delay_type['Percentual']:.1f}% dos atrasos)")

# Motivo principal de cancelamento
main_cancel_reason = cancellation_reasons_df.iloc[0]
print(f"   ‚Ä¢ Principal motivo de cancelamento: {main_cancel_reason['Motivo']} ({main_cancel_reason['Percentual']:.1f}%)")

print("\nüìà PADR√ïES TEMPORAIS:")
busiest_month = flights_by_month.loc[flights_by_month['COUNT'].idxmax()]
print(f"   ‚Ä¢ M√™s mais movimentado: M√™s {busiest_month['MONTH']} ({busiest_month['COUNT']:,} voos)")
busiest_dow = flights_by_dow.loc[flights_by_dow['COUNT'].idxmax()]
print(f"   ‚Ä¢ Dia da semana mais movimentado: {dow_labels[int(busiest_dow['DAY_OF_WEEK'])-1]} ({busiest_dow['COUNT']:,} voos)")

print("\nüîç DADOS T√âCNICOS:")
print(f"   ‚Ä¢ Dist√¢ncia m√©dia dos voos: {flights_operated['DISTANCE'].mean():.0f} milhas")
print(f"   ‚Ä¢ Tempo m√©dio de voo: {flights_operated['AIR_TIME'].mean():.0f} minutos")
print(f"   ‚Ä¢ Correla√ß√£o Dist√¢ncia x Tempo: {correlation:.3f} (forte correla√ß√£o positiva)")

print("\n" + "=" * 80)

## 7. Principais Insights e Conclus√µes

In [None]:
# Mapa de correla√ß√£o
correlation_cols = ['DEPARTURE_DELAY', 'ARRIVAL_DELAY', 'AIR_TIME', 'DISTANCE', 
                    'ELAPSED_TIME', 'TAXI_OUT', 'TAXI_IN', 'AIR_SYSTEM_DELAY', 
                    'AIRLINE_DELAY', 'WEATHER_DELAY']

correlation_matrix = flights_operated[correlation_cols].corr()

plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Mapa de Correla√ß√£o - Vari√°veis Num√©ricas', fontsize=16, fontweight='bold', pad=20)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

print("Principais correla√ß√µes encontradas:")
print("\nCorrela√ß√µes mais fortes (> 0.7):")
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        if abs(correlation_matrix.iloc[i, j]) > 0.7:
            print(f"{correlation_matrix.columns[i]} <-> {correlation_matrix.columns[j]}: {correlation_matrix.iloc[i, j]:.3f}")

### 6.11 Mapa de Correla√ß√£o de Vari√°veis Num√©ricas

In [None]:
# An√°lise de hor√°rios de partida
# Extrair hora da partida programada (formato HHMM)
flights_operated['HOUR'] = (flights_operated['SCHEDULED_DEPARTURE'] // 100).astype(int)

flights_by_hour = flights_operated.groupby('HOUR').size().reset_index(name='COUNT')

# Atraso m√©dio por hora
delay_by_hour = flights_operated.groupby('HOUR')['DEPARTURE_DELAY'].mean().reset_index()
delay_by_hour.columns = ['HOUR', 'AVG_DELAY']

fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(16, 10))

# Volume de voos por hora
ax1.bar(flights_by_hour['HOUR'], flights_by_hour['COUNT'], color='steelblue', alpha=0.7)
ax1.set_xlabel('Hora do Dia', fontsize=12)
ax1.set_ylabel('N√∫mero de Voos', fontsize=12)
ax1.set_title('Volume de Voos por Hora do Dia', fontsize=14, fontweight='bold')
ax1.set_xticks(range(0, 24))
ax1.grid(axis='y', alpha=0.3)

# Atraso m√©dio por hora
ax2.plot(delay_by_hour['HOUR'], delay_by_hour['AVG_DELAY'], marker='o', 
         linewidth=2, markersize=8, color='coral')
ax2.fill_between(delay_by_hour['HOUR'], delay_by_hour['AVG_DELAY'], alpha=0.3, color='coral')
ax2.set_xlabel('Hora do Dia', fontsize=12)
ax2.set_ylabel('Atraso M√©dio (minutos)', fontsize=12)
ax2.set_title('Atraso M√©dio de Partida por Hora do Dia', fontsize=14, fontweight='bold')
ax2.set_xticks(range(0, 24))
ax2.axhline(y=0, color='black', linestyle='--', linewidth=0.8, alpha=0.7)
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("Hor√°rios de pico:")
top_hours = flights_by_hour.nlargest(5, 'COUNT')
display(top_hours)

print("\nHor√°rios com maiores atrasos:")
worst_hours = delay_by_hour.nlargest(5, 'AVG_DELAY')
display(worst_hours)

### 6.10 An√°lise de Hor√°rios de Pico

In [None]:
# Rela√ß√£o entre dist√¢ncia e tempo de voo (amostra para melhor visualiza√ß√£o)
sample_flights = flights_operated.sample(n=min(10000, len(flights_operated)), random_state=42)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Scatter plot
ax1.scatter(sample_flights['DISTANCE'], sample_flights['AIR_TIME'], alpha=0.5, s=10, color='steelblue')
ax1.set_xlabel('Dist√¢ncia (milhas)', fontsize=12)
ax1.set_ylabel('Tempo de Voo (minutos)', fontsize=12)
ax1.set_title('Rela√ß√£o entre Dist√¢ncia e Tempo de Voo', fontsize=14, fontweight='bold')
ax1.grid(alpha=0.3)

# Correla√ß√£o
correlation = flights_operated['DISTANCE'].corr(flights_operated['AIR_TIME'])
ax1.text(0.05, 0.95, f'Correla√ß√£o: {correlation:.3f}', transform=ax1.transAxes,
         fontsize=12, verticalalignment='top', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# Distribui√ß√£o de dist√¢ncias
ax2.hist(flights_operated['DISTANCE'], bins=50, color='coral', edgecolor='black', alpha=0.7)
ax2.set_xlabel('Dist√¢ncia (milhas)', fontsize=12)
ax2.set_ylabel('Frequ√™ncia', fontsize=12)
ax2.set_title('Distribui√ß√£o de Dist√¢ncias dos Voos', fontsize=14, fontweight='bold')
ax2.axvline(x=flights_operated['DISTANCE'].mean(), color='red', linestyle='--', 
            linewidth=2, label=f'M√©dia: {flights_operated["DISTANCE"].mean():.0f} milhas')
ax2.legend()
ax2.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print(f"Dist√¢ncia m√©dia: {flights_operated['DISTANCE'].mean():.2f} milhas")
print(f"Tempo m√©dio de voo: {flights_operated['AIR_TIME'].mean():.2f} minutos")
print(f"Correla√ß√£o Dist√¢ncia x Tempo: {correlation:.3f}")

### 6.9 Rela√ß√£o entre Dist√¢ncia e Tempo de Voo

In [None]:
# An√°lise dos motivos de cancelamento
cancelled_flights = flights_clean[flights_clean['CANCELLED'] == 1]
cancellation_reasons = cancelled_flights['CANCELLATION_REASON'].value_counts()

# Mapeamento dos c√≥digos
reason_map = {
    'A': 'Companhia A√©rea',
    'B': 'Clima',
    'C': 'Sistema A√©reo',
    'D': 'Seguran√ßa',
    'N': 'N√£o Cancelado'
}

cancellation_reasons_df = pd.DataFrame({
    'C√≥digo': cancellation_reasons.index,
    'Count': cancellation_reasons.values
})
cancellation_reasons_df['Motivo'] = cancellation_reasons_df['C√≥digo'].map(reason_map)
cancellation_reasons_df['Percentual'] = (cancellation_reasons_df['Count'] / 
                                          cancellation_reasons_df['Count'].sum() * 100).round(2)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico de barras
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A']
ax1.bar(cancellation_reasons_df['Motivo'], cancellation_reasons_df['Count'], color=colors)
ax1.set_xlabel('Motivo', fontsize=12)
ax1.set_ylabel('N√∫mero de Cancelamentos', fontsize=12)
ax1.set_title('Cancelamentos por Motivo', fontsize=14, fontweight='bold')
ax1.tick_params(axis='x', rotation=45)
ax1.grid(axis='y', alpha=0.3)
for i, v in enumerate(cancellation_reasons_df['Count']):
    ax1.text(i, v, f'{v:,}', ha='center', va='bottom', fontsize=10, fontweight='bold')

# Gr√°fico de pizza
ax2.pie(cancellation_reasons_df['Count'], labels=cancellation_reasons_df['Motivo'], 
        autopct='%1.1f%%', colors=colors, startangle=90, textprops={'fontsize': 11})
ax2.set_title('Propor√ß√£o de Cancelamentos por Motivo', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print(f"Total de voos cancelados: {len(cancelled_flights):,}")
print("\nMotivos de cancelamento:")
display(cancellation_reasons_df)

### 6.8 Motivos de Cancelamento

In [None]:
# Taxa de cancelamento por companhia a√©rea
cancellation_by_airline = flights_clean.groupby('AIRLINE').agg({
    'CANCELLED': ['sum', 'count']
}).reset_index()
cancellation_by_airline.columns = ['AIRLINE', 'CANCELLED_COUNT', 'TOTAL_FLIGHTS']
cancellation_by_airline['CANCELLATION_RATE'] = (cancellation_by_airline['CANCELLED_COUNT'] / 
                                                  cancellation_by_airline['TOTAL_FLIGHTS'] * 100).round(2)

# Merge com nomes
cancellation_by_airline = cancellation_by_airline.merge(airlines, left_on='AIRLINE', right_on='IATA_CODE', how='left')
cancellation_by_airline = cancellation_by_airline.sort_values('CANCELLATION_RATE', ascending=False)

fig, ax = plt.subplots(figsize=(14, 7))

ax.barh(cancellation_by_airline['AIRLINE_y'], cancellation_by_airline['CANCELLATION_RATE'], color='crimson')
ax.set_xlabel('Taxa de Cancelamento (%)', fontsize=12)
ax.set_ylabel('Companhia A√©rea', fontsize=12)
ax.set_title('Taxa de Cancelamento por Companhia A√©rea', fontsize=14, fontweight='bold')
ax.grid(axis='x', alpha=0.3)
for i, v in enumerate(cancellation_by_airline['CANCELLATION_RATE']):
    ax.text(v, i, f' {v:.2f}%', va='center', fontsize=10)

plt.tight_layout()
plt.show()

print("Ranking de cancelamentos:")
display(cancellation_by_airline[['AIRLINE', 'AIRLINE_y', 'CANCELLED_COUNT', 'TOTAL_FLIGHTS', 'CANCELLATION_RATE']])

### 6.7 Taxa de Cancelamento por Companhia A√©rea

In [None]:
# An√°lise dos tipos de atraso
delay_types_data = {
    'Sistema A√©reo': flights_operated['AIR_SYSTEM_DELAY'].sum(),
    'Seguran√ßa': flights_operated['SECURITY_DELAY'].sum(),
    'Companhia A√©rea': flights_operated['AIRLINE_DELAY'].sum(),
    'Aeronave Atrasada': flights_operated['LATE_AIRCRAFT_DELAY'].sum(),
    'Clima': flights_operated['WEATHER_DELAY'].sum()
}

delay_df = pd.DataFrame(list(delay_types_data.items()), columns=['Tipo', 'Total_Minutos'])
delay_df['Total_Horas'] = delay_df['Total_Minutos'] / 60
delay_df['Percentual'] = (delay_df['Total_Minutos'] / delay_df['Total_Minutos'].sum() * 100).round(2)
delay_df = delay_df.sort_values('Total_Minutos', ascending=False)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico de barras
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A', '#98D8C8']
ax1.bar(delay_df['Tipo'], delay_df['Total_Horas'], color=colors)
ax1.set_xlabel('Tipo de Atraso', fontsize=12)
ax1.set_ylabel('Total de Horas', fontsize=12)
ax1.set_title('Total de Atrasos por Tipo (em horas)', fontsize=14, fontweight='bold')
ax1.tick_params(axis='x', rotation=45)
ax1.grid(axis='y', alpha=0.3)
for i, v in enumerate(delay_df['Total_Horas']):
    ax1.text(i, v, f'{v:,.0f}h', ha='center', va='bottom', fontsize=10, fontweight='bold')

# Gr√°fico de pizza
ax2.pie(delay_df['Total_Minutos'], labels=delay_df['Tipo'], autopct='%1.1f%%',
        colors=colors, startangle=90, textprops={'fontsize': 11})
ax2.set_title('Propor√ß√£o de Atrasos por Tipo', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("Resumo dos tipos de atraso:")
display(delay_df)

### 6.6 Tipos de Atraso - An√°lise Detalhada

In [None]:
# Criando uma c√≥pia para tratamento
flights_clean = flights.copy()

# 1. Tratar colunas de atraso - preencher com 0
delay_columns = ['DEPARTURE_DELAY', 'ARRIVAL_DELAY', 'AIR_SYSTEM_DELAY', 
                 'SECURITY_DELAY', 'AIRLINE_DELAY', 'LATE_AIRCRAFT_DELAY', 'WEATHER_DELAY']

for col in delay_columns:
    if col in flights_clean.columns:
        flights_clean[col] = flights_clean[col].fillna(0)
        print(f"‚úì {col}: preenchido com 0")

# 2. Tratar CANCELLATION_REASON
if 'CANCELLATION_REASON' in flights_clean.columns:
    flights_clean['CANCELLATION_REASON'] = flights_clean['CANCELLATION_REASON'].fillna('N')
    print(f"‚úì CANCELLATION_REASON: preenchido com 'N' (Not Cancelled)")

# 3. Verificar resultado
print("\n" + "=" * 60)
print("RESULTADO DO TRATAMENTO")
print("=" * 60)
missing_after = pd.DataFrame({
    'Coluna': flights_clean.columns,
    'Missing_Count': flights_clean.isnull().sum(),
    'Missing_Percent': (flights_clean.isnull().sum() / len(flights_clean) * 100).round(2)
})
missing_after = missing_after[missing_after['Missing_Count'] > 0].sort_values('Missing_Count', ascending=False)

print("\nColunas ainda com valores ausentes (esperado para voos cancelados):")
display(missing_after.head(10))

### 4.1 Estrat√©gia de Tratamento de Valores Ausentes

**An√°lise:**
- Colunas de atraso (delays): Ausentes quando n√£o h√° atraso ou voo foi cancelado
- CANCELLATION_REASON: Ausente quando voo n√£o foi cancelado
- Tempos de opera√ß√£o: Ausentes para voos cancelados

**Estrat√©gia de tratamento:**
1. Para colunas de atraso: Preencher com 0 (significa sem atraso)
2. Para CANCELLATION_REASON: Preencher com 'N' (Not Cancelled)
3. Para tempos de opera√ß√£o cancelados: Manter como NaN (s√£o voos que n√£o operaram)

In [None]:
# An√°lise detalhada de valores ausentes no dataset de flights
print("=" * 60)
print("AN√ÅLISE DE VALORES AUSENTES - FLIGHTS")
print("=" * 60)

missing_data = pd.DataFrame({
    'Coluna': flights.columns,
    'Missing_Count': flights.isnull().sum(),
    'Missing_Percent': (flights.isnull().sum() / len(flights) * 100).round(2)
})
missing_data = missing_data[missing_data['Missing_Count'] > 0].sort_values('Missing_Count', ascending=False)

print("\nColunas com valores ausentes:")
display(missing_data)

# Visualiza√ß√£o
fig, ax = plt.subplots(figsize=(14, 6))
missing_data_plot = missing_data.head(15)
ax.barh(missing_data_plot['Coluna'], missing_data_plot['Missing_Percent'], color='coral')
ax.set_xlabel('Percentual de Valores Ausentes (%)', fontsize=12)
ax.set_ylabel('Colunas', fontsize=12)
ax.set_title('Top 15 Colunas com Valores Ausentes', fontsize=14, fontweight='bold')
ax.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\nTotal de colunas com valores ausentes: {len(missing_data)}")
print(f"Total de colunas: {len(flights.columns)}")

## 4. An√°lise de Valores Ausentes

In [None]:
# Importa√ß√£o de bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configura√ß√µes
warnings.filterwarnings('ignore')
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("Bibliotecas importadas com sucesso!")