In [None]:
# ==================================================================================
# TECH CHALLENGE FASE 3 - MACHINE LEARNING ENGINEERING
# EXPLORAÇÃO DE DADOS (EDA)
# ==================================================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime

warnings.filterwarnings('ignore')

In [7]:
# Configurações de visualização
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

In [None]:
# ==================================================================================
# 1. CARREGAMENTO DOS DADOS
# ==================================================================================
print("\n" + "="*80)
print("1. CARREGAMENTO DOS DADOS")
print("="*80)

# IMPORTANTE: Ajustar os caminhos conforme sua estrutura de pastas
df_airlines = pd.read_csv('../data/airlines.csv')
df_airports = pd.read_csv('../data/airports.csv')
df_flights = pd.read_csv('../data/flights.csv')

print(f"\n✓ Dados carregados com sucesso!")
print(f"  - Airlines: {df_airlines.shape}")
print(f"  - Airports: {df_airports.shape}")
print(f"  - Flights: {df_flights.shape}")



1. CARREGAMENTO DOS DADOS

✓ Dados carregados com sucesso!
  - Airlines: (14, 2)
  - Airports: (322, 7)
  - Flights: (5819079, 31)


In [None]:
# ==================================================================================
# 2. ANÁLISE INICIAL - VISÃO GERAL DOS DADOS
# ==================================================================================
print("\n" + "="*80)
print("2. ANÁLISE INICIAL - VISÃO GERAL")
print("="*80)

print("\n" + "-"*80)
print("2.1 DATASET: AIRLINES (Companhias Aéreas)")
print("-"*80)
print(df_airlines.head())
print(f"\nDimensões: {df_airlines.shape[0]} linhas x {df_airlines.shape[1]} colunas")
print(f"Companhias únicas: {df_airlines['IATA_CODE'].nunique()}")

print("\n" + "-"*80)
print("2.2 DATASET: AIRPORTS (Aeroportos)")
print("-"*80)
print(df_airports.head())
print(f"\nDimensões: {df_airports.shape[0]} linhas x {df_airports.shape[1]} colunas")
print(f"Aeroportos únicos: {df_airports['IATA_CODE'].nunique()}")

print("\n" + "-"*80)
print("2.3 DATASET: FLIGHTS (Voos) - DATASET PRINCIPAL")
print("-"*80)
print(df_flights.head())
print(f"\nDimensões: {df_flights.shape[0]:,} linhas x {df_flights.shape[1]} colunas")
print(f"Memória utilizada: {df_flights.memory_usage(deep=True).sum() / 1024**3:.2f} GB")



2. ANÁLISE INICIAL - VISÃO GERAL

--------------------------------------------------------------------------------
2.1 DATASET: AIRLINES (Companhias Aéreas)
--------------------------------------------------------------------------------
  IATA_CODE                 AIRLINE
0        UA   United Air Lines Inc.
1        AA  American Airlines Inc.
2        US         US Airways Inc.
3        F9  Frontier Airlines Inc.
4        B6         JetBlue Airways

Dimensões: 14 linhas x 2 colunas
Companhias únicas: 14

--------------------------------------------------------------------------------
2.2 DATASET: AIRPORTS (Aeroportos)
--------------------------------------------------------------------------------
  IATA_CODE                              AIRPORT         CITY STATE COUNTRY  \
0       ABE  Lehigh Valley International Airport    Allentown    PA     USA   
1       ABI             Abilene Regional Airport      Abilene    TX     USA   
2       ABQ    Albuquerque International Sunport  Albu

In [None]:
# ==================================================================================
# 3. INFORMAÇÕES DETALHADAS DO DATASET PRINCIPAL
# ==================================================================================
print("\n" + "="*80)
print("3. INFORMAÇÕES DETALHADAS - DATASET FLIGHTS")
print("="*80)

print("\n" + "-"*80)
print("3.1 TIPOS DE DADOS")
print("-"*80)
print(df_flights.dtypes)

print("\n" + "-"*80)
print("3.2 ESTATÍSTICAS DESCRITIVAS - VARIÁVEIS NUMÉRICAS")
print("-"*80)
print(df_flights.describe())

print("\n" + "-"*80)
print("3.3 ESTATÍSTICAS DESCRITIVAS - VARIÁVEIS CATEGÓRICAS")
print("-"*80)
print(df_flights.describe(include='object'))



3. INFORMAÇÕES DETALHADAS - DATASET FLIGHTS

--------------------------------------------------------------------------------
3.1 TIPOS DE DADOS
--------------------------------------------------------------------------------
YEAR                     int64
MONTH                    int64
DAY                      int64
DAY_OF_WEEK              int64
AIRLINE                 object
FLIGHT_NUMBER            int64
TAIL_NUMBER             object
ORIGIN_AIRPORT          object
DESTINATION_AIRPORT     object
SCHEDULED_DEPARTURE      int64
DEPARTURE_TIME         float64
DEPARTURE_DELAY        float64
TAXI_OUT               float64
WHEELS_OFF             float64
SCHEDULED_TIME         float64
ELAPSED_TIME           float64
AIR_TIME               float64
DISTANCE                 int64
WHEELS_ON              float64
TAXI_IN                float64
SCHEDULED_ARRIVAL        int64
ARRIVAL_TIME           float64
ARRIVAL_DELAY          float64
DIVERTED                 int64
CANCELLED                int6

In [None]:
# ==================================================================================
# 4. ANÁLISE DE VALORES AUSENTES (MISSING VALUES)
# ==================================================================================
print("\n" + "="*80)
print("4. ANÁLISE DE VALORES AUSENTES")
print("="*80)

# Calcular missing values
missing_data = pd.DataFrame({
    'Coluna': df_flights.columns,
    'Missing_Count': df_flights.isnull().sum(),
    'Missing_Percent': (df_flights.isnull().sum() / len(df_flights)) * 100
})
missing_data = missing_data[missing_data['Missing_Count'] > 0].sort_values('Missing_Percent', ascending=False)

print("\n" + "-"*80)
print("4.1 COLUNAS COM VALORES AUSENTES")
print("-"*80)
if len(missing_data) > 0:
    print(missing_data.to_string(index=False))
else:
    print("✓ Nenhuma coluna com valores ausentes!")



4. ANÁLISE DE VALORES AUSENTES

--------------------------------------------------------------------------------
4.1 COLUNAS COM VALORES AUSENTES
--------------------------------------------------------------------------------
             Coluna  Missing_Count  Missing_Percent
CANCELLATION_REASON        5729195            98.46
     SECURITY_DELAY        4755640            81.72
   AIR_SYSTEM_DELAY        4755640            81.72
LATE_AIRCRAFT_DELAY        4755640            81.72
      WEATHER_DELAY        4755640            81.72
      AIRLINE_DELAY        4755640            81.72
      ARRIVAL_DELAY         105071             1.81
       ELAPSED_TIME         105071             1.81
           AIR_TIME         105071             1.81
            TAXI_IN          92513             1.59
          WHEELS_ON          92513             1.59
       ARRIVAL_TIME          92513             1.59
           TAXI_OUT          89047             1.53
         WHEELS_OFF          89047          

In [12]:
# ==================================================================================
# 5. ANÁLISE DE CANCELAMENTOS E DESVIOS
# ==================================================================================
print("\n" + "="*80)
print("5. ANÁLISE DE CANCELAMENTOS E DESVIOS")
print("="*80)

print("\n" + "-"*80)
print("5.1 RESUMO GERAL")
print("-"*80)

total_flights = len(df_flights)
cancelled_flights = df_flights['CANCELLED'].sum()
diverted_flights = df_flights['DIVERTED'].sum()
completed_flights = total_flights - cancelled_flights - diverted_flights

print(f"Total de voos: {total_flights:,}")
print(f"Voos completados: {completed_flights:,} ({completed_flights/total_flights*100:.2f}%)")
print(f"Voos cancelados: {cancelled_flights:,} ({cancelled_flights/total_flights*100:.2f}%)")
print(f"Voos desviados: {diverted_flights:,} ({diverted_flights/total_flights*100:.2f}%)")

print("\n" + "-"*80)
print("5.2 MOTIVOS DE CANCELAMENTO")
print("-"*80)
cancellation_reasons = df_flights[df_flights['CANCELLED'] == 1]['CANCELLATION_REASON'].value_counts()
print("\nMotivos de cancelamento:")
print(cancellation_reasons)
print("\nLegenda:")
print("  A = Airline (Companhia Aérea)")
print("  B = Weather (Clima)")
print("  C = NAS (National Air System)")
print("  D = Security (Segurança)")



5. ANÁLISE DE CANCELAMENTOS E DESVIOS

--------------------------------------------------------------------------------
5.1 RESUMO GERAL
--------------------------------------------------------------------------------
Total de voos: 5,819,079
Voos completados: 5,714,008 (98.19%)
Voos cancelados: 89,884 (1.54%)
Voos desviados: 15,187 (0.26%)

--------------------------------------------------------------------------------
5.2 MOTIVOS DE CANCELAMENTO
--------------------------------------------------------------------------------

Motivos de cancelamento:
CANCELLATION_REASON
B    48851
A    25262
C    15749
D       22
Name: count, dtype: int64

Legenda:
  A = Airline (Companhia Aérea)
  B = Weather (Clima)
  C = NAS (National Air System)
  D = Security (Segurança)


In [13]:
# ==================================================================================
# 6. ANÁLISE TEMPORAL
# ==================================================================================
print("\n" + "="*80)
print("6. ANÁLISE TEMPORAL DOS VOOS")
print("="*80)

print("\n" + "-"*80)
print("6.1 DISTRIBUIÇÃO POR MÊS")
print("-"*80)
monthly_flights = df_flights['MONTH'].value_counts().sort_index()
print(monthly_flights)

print("\n" + "-"*80)
print("6.2 DISTRIBUIÇÃO POR DIA DA SEMANA")
print("-"*80)
weekday_flights = df_flights['DAY_OF_WEEK'].value_counts().sort_index()
print("\nLegenda: 1=Segunda, 2=Terça, ..., 7=Domingo")
print(weekday_flights)



6. ANÁLISE TEMPORAL DOS VOOS

--------------------------------------------------------------------------------
6.1 DISTRIBUIÇÃO POR MÊS
--------------------------------------------------------------------------------
MONTH
1     469968
2     429191
3     504312
4     485151
5     496993
6     503897
7     520718
8     510536
9     464946
10    486165
11    467972
12    479230
Name: count, dtype: int64

--------------------------------------------------------------------------------
6.2 DISTRIBUIÇÃO POR DIA DA SEMANA
--------------------------------------------------------------------------------

Legenda: 1=Segunda, 2=Terça, ..., 7=Domingo
DAY_OF_WEEK
1    865543
2    844600
3    855897
4    872521
5    862209
6    700545
7    817764
Name: count, dtype: int64


In [14]:
# ==================================================================================
# 7. ANÁLISE DE ATRASOS
# ==================================================================================
print("\n" + "="*80)
print("7. ANÁLISE DE ATRASOS")
print("="*80)

# Filtrar apenas voos não cancelados
df_not_cancelled = df_flights[df_flights['CANCELLED'] == 0].copy()

print("\n" + "-"*80)
print("7.1 ESTATÍSTICAS DE ATRASO NA PARTIDA")
print("-"*80)
print(df_not_cancelled['DEPARTURE_DELAY'].describe())

print("\n" + "-"*80)
print("7.2 ESTATÍSTICAS DE ATRASO NA CHEGADA")
print("-"*80)
print(df_not_cancelled['ARRIVAL_DELAY'].describe())

# Criar variável binária de atraso (>15 minutos)
df_not_cancelled['IS_DELAYED'] = (df_not_cancelled['DEPARTURE_DELAY'] > 15).astype(int)

print("\n" + "-"*80)
print("7.3 PROPORÇÃO DE VOOS COM ATRASO (>15 minutos)")
print("-"*80)
delay_counts = df_not_cancelled['IS_DELAYED'].value_counts()
print(f"\nVoos sem atraso significativo: {delay_counts[0]:,} ({delay_counts[0]/len(df_not_cancelled)*100:.2f}%)")
print(f"Voos com atraso >15min: {delay_counts[1]:,} ({delay_counts[1]/len(df_not_cancelled)*100:.2f}%)")



7. ANÁLISE DE ATRASOS

--------------------------------------------------------------------------------
7.1 ESTATÍSTICAS DE ATRASO NA PARTIDA
--------------------------------------------------------------------------------
count   5729195.00
mean          9.34
std          36.99
min         -82.00
25%          -5.00
50%          -2.00
75%           7.00
max        1988.00
Name: DEPARTURE_DELAY, dtype: float64

--------------------------------------------------------------------------------
7.2 ESTATÍSTICAS DE ATRASO NA CHEGADA
--------------------------------------------------------------------------------
count   5714008.00
mean          4.41
std          39.27
min         -87.00
25%         -13.00
50%          -5.00
75%           8.00
max        1971.00
Name: ARRIVAL_DELAY, dtype: float64

--------------------------------------------------------------------------------
7.3 PROPORÇÃO DE VOOS COM ATRASO (>15 minutos)
--------------------------------------------------------------------

In [15]:
# ==================================================================================
# 8. ANÁLISE POR COMPANHIA AÉREA
# ==================================================================================
print("\n" + "="*80)
print("8. ANÁLISE POR COMPANHIA AÉREA")
print("="*80)

# Juntar com nomes das companhias
df_flights_with_names = df_flights.merge(df_airlines, left_on='AIRLINE', right_on='IATA_CODE', how='left')

print("\n" + "-"*80)
print("8.1 TOTAL DE VOOS POR COMPANHIA")
print("-"*80)
airline_flights = df_flights_with_names.groupby('AIRLINE_y').size().sort_values(ascending=False)
print(airline_flights.head(10))

print("\n" + "-"*80)
print("8.2 TAXA DE CANCELAMENTO POR COMPANHIA")
print("-"*80)
airline_cancellation = df_flights_with_names.groupby('AIRLINE_y').agg({
    'CANCELLED': ['sum', 'mean']
}).round(4)
airline_cancellation.columns = ['Cancelamentos', 'Taxa_Cancelamento']
airline_cancellation = airline_cancellation.sort_values('Taxa_Cancelamento', ascending=False)
print(airline_cancellation.head(10))



8. ANÁLISE POR COMPANHIA AÉREA

--------------------------------------------------------------------------------
8.1 TOTAL DE VOOS POR COMPANHIA
--------------------------------------------------------------------------------
AIRLINE_y
Southwest Airlines Co.          1261855
Delta Air Lines Inc.             875881
American Airlines Inc.           725984
Skywest Airlines Inc.            588353
Atlantic Southeast Airlines      571977
United Air Lines Inc.            515723
American Eagle Airlines Inc.     294632
JetBlue Airways                  267048
US Airways Inc.                  198715
Alaska Airlines Inc.             172521
dtype: int64

--------------------------------------------------------------------------------
8.2 TAXA DE CANCELAMENTO POR COMPANHIA
--------------------------------------------------------------------------------
                              Cancelamentos  Taxa_Cancelamento
AIRLINE_y                                                     
American Eagle Airline

In [16]:
# ==================================================================================
# 9. ANÁLISE POR AEROPORTO
# ==================================================================================
print("\n" + "="*80)
print("9. ANÁLISE POR AEROPORTO")
print("="*80)

print("\n" + "-"*80)
print("9.1 AEROPORTOS COM MAIS VOOS DE ORIGEM")
print("-"*80)
origin_airports = df_flights['ORIGIN_AIRPORT'].value_counts().head(10)
print(origin_airports)

print("\n" + "-"*80)
print("9.2 AEROPORTOS COM MAIS VOOS DE DESTINO")
print("-"*80)
dest_airports = df_flights['DESTINATION_AIRPORT'].value_counts().head(10)
print(dest_airports)

# Calcular atraso médio por aeroporto de origem
print("\n" + "-"*80)
print("9.3 AEROPORTOS COM MAIOR ATRASO MÉDIO (ORIGEM)")
print("-"*80)
origin_delay = df_not_cancelled.groupby('ORIGIN_AIRPORT')['DEPARTURE_DELAY'].agg(['mean', 'count'])
origin_delay = origin_delay[origin_delay['count'] > 100]  # Filtrar aeroportos com volume significativo
origin_delay = origin_delay.sort_values('mean', ascending=False).head(10)
print(origin_delay)



9. ANÁLISE POR AEROPORTO

--------------------------------------------------------------------------------
9.1 AEROPORTOS COM MAIS VOOS DE ORIGEM
--------------------------------------------------------------------------------
ORIGIN_AIRPORT
ATL    346836
ORD    285884
DFW    239551
DEN    196055
LAX    194673
SFO    148008
PHX    146815
IAH    146622
LAS    133181
MSP    112117
Name: count, dtype: int64

--------------------------------------------------------------------------------
9.2 AEROPORTOS COM MAIS VOOS DE DESTINO
--------------------------------------------------------------------------------
DESTINATION_AIRPORT
ATL    346904
ORD    285906
DFW    239582
DEN    196010
LAX    194696
SFO    147966
PHX    146812
IAH    146683
LAS    133198
MSP    112128
Name: count, dtype: int64

--------------------------------------------------------------------------------
9.3 AEROPORTOS COM MAIOR ATRASO MÉDIO (ORIGEM)
-------------------------------------------------------------------------

In [17]:
# ==================================================================================
# 10. ANÁLISE DE DISTÂNCIA
# ==================================================================================
print("\n" + "="*80)
print("10. ANÁLISE DE DISTÂNCIA DOS VOOS")
print("="*80)

print("\n" + "-"*80)
print("10.1 ESTATÍSTICAS DE DISTÂNCIA")
print("-"*80)
print(df_flights['DISTANCE'].describe())

# Categorizar distâncias
df_flights['DISTANCE_CATEGORY'] = pd.cut(df_flights['DISTANCE'], 
                                          bins=[0, 500, 1000, 2000, 5000],
                                          labels=['Curta (<500mi)', 'Média (500-1000mi)', 
                                                 'Longa (1000-2000mi)', 'Muito Longa (>2000mi)'])

print("\n" + "-"*80)
print("10.2 DISTRIBUIÇÃO POR CATEGORIA DE DISTÂNCIA")
print("-"*80)
print(df_flights['DISTANCE_CATEGORY'].value_counts().sort_index())



10. ANÁLISE DE DISTÂNCIA DOS VOOS

--------------------------------------------------------------------------------
10.1 ESTATÍSTICAS DE DISTÂNCIA
--------------------------------------------------------------------------------
count   5819079.00
mean        822.36
std         607.78
min          21.00
25%         373.00
50%         647.00
75%        1062.00
max        4983.00
Name: DISTANCE, dtype: float64

--------------------------------------------------------------------------------
10.2 DISTRIBUIÇÃO POR CATEGORIA DE DISTÂNCIA
--------------------------------------------------------------------------------
DISTANCE_CATEGORY
Curta (<500mi)           2133487
Média (500-1000mi)       2038965
Longa (1000-2000mi)      1272645
Muito Longa (>2000mi)     373982
Name: count, dtype: int64


In [18]:
# ==================================================================================
# 11. CORRELAÇÃO ENTRE VARIÁVEIS NUMÉRICAS
# ==================================================================================
print("\n" + "="*80)
print("11. ANÁLISE DE CORRELAÇÃO")
print("="*80)

# Selecionar variáveis numéricas relevantes
correlation_vars = ['DEPARTURE_DELAY', 'ARRIVAL_DELAY', 'TAXI_OUT', 'TAXI_IN', 
                    'AIR_TIME', 'DISTANCE', 'SCHEDULED_TIME', 'ELAPSED_TIME']

print("\n" + "-"*80)
print("11.1 MATRIZ DE CORRELAÇÃO")
print("-"*80)
correlation_matrix = df_flights[correlation_vars].corr()
print(correlation_matrix.round(3))

print("\n" + "-"*80)
print("11.2 CORRELAÇÕES MAIS FORTES COM DEPARTURE_DELAY")
print("-"*80)
delay_correlations = correlation_matrix['DEPARTURE_DELAY'].sort_values(ascending=False)
print(delay_correlations)



11. ANÁLISE DE CORRELAÇÃO

--------------------------------------------------------------------------------
11.1 MATRIZ DE CORRELAÇÃO
--------------------------------------------------------------------------------
                 DEPARTURE_DELAY  ARRIVAL_DELAY  TAXI_OUT  TAXI_IN  AIR_TIME  \
DEPARTURE_DELAY             1.00           0.94      0.06     0.01      0.02   
ARRIVAL_DELAY               0.94           1.00      0.23     0.12     -0.01   
TAXI_OUT                    0.06           0.23      1.00     0.00      0.09   
TAXI_IN                     0.01           0.12      0.00     1.00      0.08   
AIR_TIME                    0.02          -0.01      0.09     0.08      1.00   
DISTANCE                    0.02          -0.03      0.07     0.07      0.99   
SCHEDULED_TIME              0.03          -0.03      0.11     0.10      0.99   
ELAPSED_TIME                0.03           0.03      0.20     0.16      0.99   

                 DISTANCE  SCHEDULED_TIME  ELAPSED_TIME  
DEPAR

In [19]:
# ==================================================================================
# 12. IDENTIFICAÇÃO DE OUTLIERS
# ==================================================================================
print("\n" + "="*80)
print("12. IDENTIFICAÇÃO DE OUTLIERS")
print("="*80)

print("\n" + "-"*80)
print("12.1 OUTLIERS EM DEPARTURE_DELAY")
print("-"*80)
Q1 = df_not_cancelled['DEPARTURE_DELAY'].quantile(0.25)
Q3 = df_not_cancelled['DEPARTURE_DELAY'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = df_not_cancelled[(df_not_cancelled['DEPARTURE_DELAY'] < lower_bound) | 
                            (df_not_cancelled['DEPARTURE_DELAY'] > upper_bound)]

print(f"Q1: {Q1:.2f} minutos")
print(f"Q3: {Q3:.2f} minutos")
print(f"IQR: {IQR:.2f} minutos")
print(f"Limite inferior: {lower_bound:.2f} minutos")
print(f"Limite superior: {upper_bound:.2f} minutos")
print(f"\nTotal de outliers: {len(outliers):,} ({len(outliers)/len(df_not_cancelled)*100:.2f}%)")



12. IDENTIFICAÇÃO DE OUTLIERS

--------------------------------------------------------------------------------
12.1 OUTLIERS EM DEPARTURE_DELAY
--------------------------------------------------------------------------------
Q1: -5.00 minutos
Q3: 7.00 minutos
IQR: 12.00 minutos
Limite inferior: -23.00 minutos
Limite superior: 25.00 minutos

Total de outliers: 734,486 (12.82%)
