# Análise de Dados - Camada Bronze

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
from IPython.display import display, Markdown

sns.set_theme(style='whitegrid')

## Lendo os Dados

In [None]:
flightDF = pd.read_csv("../../datalake/bronze/flights.csv", sep=";", encoding="utf-8")
airlineDF = pd.read_csv("../../datalake/bronze/airlines.csv", sep=";", encoding="utf-8")
airportDF = pd.read_csv("../../datalake/bronze/airports.csv", sep=";", encoding="utf-8")

## Detalhes dos Arquivos

### Flights

- Arquivo principal:
  - Contém os dados de voos realizados em 2015 nos Estados Unidos.

#### Informações Gerais

In [None]:
flightDF.info()

#### Amostra de Dados

In [None]:
flightDF.sample(10)

#### Resumo Estatístico

In [None]:
flightDF.describe()

#### Análise de Valores Nulos

In [None]:
pctNulosFlight = (flightDF.isnull().sum() / len(flightDF)) * 100

pctNulosFlight = pctNulosFlight[pctNulosFlight > 0]

if not pctNulosFlight.empty:
  display(Markdown("**Foram encontrados valores nulos. Gerando gráfico...**"))
  pctNulosFlight = pctNulosFlight.sort_values(ascending=False)
  
  plt.figure(figsize=(12, 8))

  ax = pctNulosFlight.plot(kind='bar', color='salmon')

  plt.title('Porcentagem de Nulos por Coluna', fontsize=16)
  plt.ylabel('Porcentagem de Valores Nulos (%)', fontsize=12)
  plt.xlabel('Colunas do DataFrame', fontsize=12)
  plt.xticks(rotation=45, ha='right')
  plt.tight_layout()
  
  ax.yaxis.set_major_formatter(mtick.PercentFormatter())
    
  for p in ax.patches:
    ax.annotate(f'{p.get_height():.2f}%', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', 
                xytext=(0, 9), 
                textcoords='offset points',
                fontsize=11)

  plt.ylim(0, pctNulosFlight.max() * 1.15)
  plt.show()
else:
  display(Markdown("**Não foram encontrados valores nulos no conjunto de dados.**"))

### Airlines

- Arquivo complementar:
  - Contém os dados das linhas aéreas dos voos presentes no arquivo principal.

#### Informações Gerais

In [None]:
airlineDF.info()

#### Amostra de Dados

In [None]:
airlineDF.sample(10)

#### Resumo Estatístico

In [None]:
airlineDF.describe()

#### Análise de Valores Nulos

In [None]:
pctNulosAirline = (airlineDF.isnull().sum() / len(airlineDF)) * 100

pctNulosAirline = pctNulosAirline[pctNulosAirline > 0]

if not pctNulosAirline.empty:
  display(Markdown("**Foram encontrados valores nulos. Gerando gráfico...**"))
  pctNulosAirline = pctNulosAirline.sort_values(ascending=False)
  
  plt.figure(figsize=(12, 8))

  ax = pctNulosAirline.plot(kind='bar', color='salmon')

  plt.title('Porcentagem de Nulos por Coluna', fontsize=16)
  plt.ylabel('Porcentagem de Valores Nulos (%)', fontsize=12)
  plt.xlabel('Colunas do DataFrame', fontsize=12)
  plt.xticks(rotation=45, ha='right')
  plt.tight_layout()
  
  ax.yaxis.set_major_formatter(mtick.PercentFormatter())
  
  for p in ax.patches:
    ax.annotate(f'{p.get_height():.2f}%', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', 
                xytext=(0, 9), 
                textcoords='offset points',
                fontsize=11)

  plt.ylim(0, pctNulosAirline.max() * 1.15)
  plt.show()
else:
  display(Markdown("**Não foram encontrados valores nulos no conjunto de dados.**"))

### Airports

- Arquivo complementar:
  - Contém os dados dos aeroportos de origem e destino dos voos presentes no arquivo principal.

#### Informações Gerais

In [None]:
airportDF.info()

#### Amostra de Dados

In [None]:
airportDF.sample(10)

#### Resumo Estatístico

In [None]:
airportDF.describe()

#### Análise de Valores Nulos

In [None]:
pctNulosAirport = (airportDF.isnull().sum() / len(airportDF)) * 100

pctNulosAirport = pctNulosAirport[pctNulosAirport > 0]

if not pctNulosAirport.empty:
  display(Markdown("**Foram encontrados valores nulos. Gerando gráfico...**"))
  pctNulosAirport = pctNulosAirport.sort_values(ascending=False)

  plt.figure(figsize=(12, 8))

  ax = pctNulosAirport.plot(kind='bar', color='salmon')

  plt.title('Contagem de Valores Nulos por Coluna', fontsize=16)
  plt.ylabel('Quantidade de Valores Nulos', fontsize=12)
  plt.xlabel('Colunas do DataFrame', fontsize=12)
  plt.xticks(rotation=45, ha='right')
  plt.tight_layout()
  
  ax.yaxis.set_major_formatter(mtick.PercentFormatter())
    
  for p in ax.patches:
    ax.annotate(f'{p.get_height():.2f}%', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', 
                xytext=(0, 9), 
                textcoords='offset points',
                fontsize=11)

  plt.ylim(0, pctNulosFlight.max() * 1.15)
  plt.show()
else:
  display(Markdown("**Não foram encontrados valores nulos no conjunto de dados.**"))

## Análise do Arquivo Principal (flights.csv)

### Distribuição de Atrasos (Saída)

- Objetivo: visualizar o comportamento geral dos atrasos na decolagem dos voos.

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

departureDf = flightDF['departure_delay'].dropna()

# Gráfico 1: Histograma
sns.histplot(departureDf, bins=40, kde=True, ax=axes[0], color='royalblue')
axes[0].set_title('Distribuição dos Atrasos na Saída (Histograma)', fontsize=16)
axes[0].set_xlabel('Atraso na Saída (Minutos)', fontsize=12)
axes[0].set_ylabel('Frequência (Nº de Voos)', fontsize=12)

# Gráfico 2: Box Plot
sns.boxplot(x=departureDf, ax=axes[1], color='lightcoral', width=.5)
axes[1].set_title('Distribuição dos Atrasos na Saída (Box Plot)', fontsize=16)
axes[1].set_xlabel('Atraso na Saída (Minutos)', fontsize=12)

plt.tight_layout()
plt.show()

# Detecção de outliers
Q1 = departureDf.quantile(0.25)
Q3 = departureDf.quantile(0.75)
IQR = Q3 - Q1
inferiorLim = Q1 - 1.5 * IQR
superiorLim = Q3 + 1.5 * IQR

outliers = departureDf[(departureDf < inferiorLim) | (departureDf > superiorLim)]

if not outliers.empty:
  mensagem_titulo = f"⚠️ **Relatório de Outliers:**"
  mensagem_corpo = (f"Foram detectados **{len(outliers)} outliers** nos dados de atraso na saída.\n\n"
                    f"Estes são pontos que estão fora do intervalo estatisticamente comum, "
                    f"definido como **{inferiorLim:.2f}** a **{superiorLim:.2f}** minutos.\n\n"
                    f"O menor outlier encontrado foi **{outliers.min():.2f}** minutos e o maior foi **{outliers.max():.2f}** minutos.")
    
  display(Markdown(mensagem_titulo))
  display(Markdown(mensagem_corpo))
  display(outliers)
else:
  mensagem = (f"✅ **Sem outliers:** Nenhum outlier significativo foi detectado nos atrasos na saída.\n\n"
              f"Todos os valores estão dentro do intervalo esperado de "
              f"**{inferiorLim:.2f}** a **{superiorLim:.2f}** minutos.")
  display(Markdown(mensagem))


### Distribuição de Atrasos (Chegada)

- Objetivo: visualizar o comportamento geral dos atrasos na aterrisagem dos voos.

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Para mostrar o gráfico sem filtro, comente a linha abaixo
arrivalDf = flightDF['arrival_delay'].dropna()

# Gráfico 1: Histograma
sns.histplot(arrivalDf, bins=40, kde=True, ax=axes[0], color='royalblue')
axes[0].set_title('Distribuição dos Atrasos na Chegada (Histograma)', fontsize=16)
axes[0].set_xlabel('Atraso na Chegada (Minutos)', fontsize=12)
axes[0].set_ylabel('Frequência (Nº de Voos)', fontsize=12)

# Gráfico 2: Box Plot
sns.boxplot(x=arrivalDf, ax=axes[1], color='lightcoral', width=.5)
axes[1].set_title('Distribuição dos Chegada na Chegada (Box Plot)', fontsize=16)
axes[1].set_xlabel('Atraso na Chegada (Minutos)', fontsize=12)

plt.tight_layout()
plt.show()

# Detecção de outliers
Q1 = arrivalDf.quantile(0.25)
Q3 = arrivalDf.quantile(0.75)
IQR = Q3 - Q1
inferiorLim = Q1 - 1.5 * IQR
superiorLim = Q3 + 1.5 * IQR

outliers = arrivalDf[(arrivalDf < inferiorLim) | (arrivalDf > superiorLim)]

if not outliers.empty:
  mensagem_titulo = f"⚠️ **Relatório de Outliers:**"
  mensagem_corpo = (f"Foram detectados **{len(outliers)} outliers** nos dados de atraso na chegada.\n\n"
                    f"Estes são pontos que estão fora do intervalo estatisticamente comum, "
                    f"definido como **{inferiorLim:.2f}** a **{superiorLim:.2f}** minutos.\n\n"
                    f"O menor outlier encontrado foi **{outliers.min():.2f}** minutos e o maior foi **{outliers.max():.2f}** minutos.")
    
  display(Markdown(mensagem_titulo))
  display(Markdown(mensagem_corpo))
  display(outliers)
else:
  mensagem = (f"✅ **Sem outliers:** Nenhum outlier significativo foi detectado nos atrasos na chegada.\n\n"
              f"Todos os valores estão dentro do intervalo esperado de "
              f"**{inferiorLim:.2f}** a **{superiorLim:.2f}** minutos.")
  display(Markdown(mensagem))

### Relação Distância X Tempo de Voo

- Objetivo: confirmar a relação entre distância e tempo de voo através do cálculo da velocidade média do voo.

In [None]:
velocityFlightDf = flightDF.dropna(subset=['distance', 'air_time']).copy()
velocityFlightDf = velocityFlightDf[velocityFlightDf['air_time'] > 0]

velocityFlightDf['avg_speed'] = (velocityFlightDf['distance'] / velocityFlightDf['air_time']) * 60

conditions = [
  velocityFlightDf['avg_speed'] < 200,
  velocityFlightDf['avg_speed'] > 700
]
categories = ['Lento Demais', 'Rápido Demais']

velocityFlightDf['status_velocity'] = np.select(conditions, categories, default='Normal')

print("Contagem de voos por status de velocidade:")
print(velocityFlightDf['status_velocidade'].value_counts())

plt.figure(figsize=(16, 9))
sns.scatterplot(
  data=velocityFlightDf, 
  x='distance', 
  y='air_time',
  hue='status_velocity', # Colore os pontos pela nova coluna
  palette={'Normal': 'gray', 'Lento Demais': 'orange', 'Rápido Demais': 'red'},
  style='status_velocidade',
  s=80,
  alpha=0.7
)

sns.regplot(
  data=velocityFlightDf, 
  x='distance', 
  y='air_time',
  scatter=False, # Importante: para não desenhar os pontos de novo
  line_kws={'color': 'blue', 'linewidth': 2, 'linestyle': '--'},
  label='Tendência Linear'
)

plt.title('Correlação entre Distância e Tempo de Voo com Destaque para Outliers de Velocidade', fontsize=16)
plt.xlabel('Distância (em milhas)', fontsize=12)
plt.ylabel('Tempo no Ar (minutos)', fontsize=12)
plt.legend(title='Status da Velocidade Média')
plt.grid(True)
plt.show()

outliersDf = velocityFlightDf[velocityFlightDf['status_velocity'] != 'Normal'].sort_values(by='avg_speed')
if not outliersDf.empty:
  display(Markdown(f"⚠️ ### Relatório de Voos com Velocidade Anormal"))
  display(Markdown(f"Foram encontrados **{len(outliersDf)} voos** com velocidade média fora do intervalo esperado (200-700 mph)."))
  display(outliersDf)
else:
  display(Markdown("✅ **Nenhum voo com velocidade anormal foi encontrado.**"))

### Voos Cancelados ou Desviados

- Objetivo: visualizar a taxa de voos cancelados ou que aterrisaram em aeroportos diferentes dos planejados.

In [None]:
canceledRate = flightDF['cancelled'].mean() * 100
divertedRate = flightDF['diverted'].mean() * 100

dados_plot = {
    'Status': ['Cancelado', 'Desviado'],
    'Taxa (%)': [canceledRate, divertedRate]
}
df_plot = pd.DataFrame(dados_plot)

fig, ax = plt.subplots(figsize=(8, 6))
sns.barplot(x='Status', y='Taxa (%)', data=df_plot, palette=['firebrick', 'goldenrod'])

for p in ax.patches:
  ax.annotate(f'{p.get_height():.2f}%', 
              (p.get_x() + p.get_width() / 2., p.get_height()), 
              ha='center', va='center', 
              xytext=(0, 9), 
              textcoords='offset points',
              fontsize=12,
              fontweight='bold')

ax.set_ylim(0, max(canceledRate, divertedRate) * 1.2)
ax.set_title('Taxa Percentual de Voos Cancelados e Desviados', fontsize=16)
ax.set_xlabel('Status do Voo', fontsize=12)
ax.set_ylabel('Porcentagem do Total de Voos', fontsize=12)

plt.show()

### Coerência de tempo de voo

- Objetivo: visualizar se o tempo total de voo realmente é a soma do tempo no solo e tempo no ar.

In [None]:
filteredFlightDF = flightDF.dropna(subset=['elapsed_time', 'taxi_out', 'taxi_in', 'air_time']).copy()
filteredFlightDF['air_time_calculated'] = filteredFlightDF['elapsed_time'] - filteredFlightDF['taxi_out'] - filteredFlightDF['taxi_in']

filteredFlightDF['air_time_diff'] = filteredFlightDF['air_time'] - filteredFlightDF['air_time_calculated']

# Filtrando por discrepâncias maiores do que 5 minutos
dataWithProblem = filteredFlightDF[abs(filteredFlightDF['air_time_diff']) > 5]
if not dataWithProblem.empty:
  message = f"⚠️ **Alerta:** Encontrados **{len(dataWithProblem)} voos** com inconsistências no tempo de voo maiores do que 5 minutos."
  display(Markdown(message))
  display(Markdown("Os voos com as maiores discrepâncias são:"))
  display(dataWithProblem.sort_values(by='air_time_diff', key=abs, ascending=False))
  
  # Gráfico de Dispersão
  plt.figure(figsize=(10, 10))
  sns.scatterplot(data=filteredFlightDF, x='air_time', y='air_time_calculated', alpha=0.3)
  plt.plot([0, filteredFlightDF['air_time'].max()], [0, filteredFlightDF['air_time'].max()], color='red', linestyle='--', label='Coerência Perfeita')

  plt.title('Verificação de Coerência: Tempo de Voo Reportado vs. Calculado', fontsize=16)
  plt.xlabel('Tempo de Voo Reportado (air_time)', fontsize=12)
  plt.ylabel('Tempo de Voo Calculado (elapsed_time - taxi)', fontsize=12)
  plt.legend()
  plt.axis('equal')

  plt.show()
else:
  message = f"✅ **Sucesso:** Nenhuma inconsistência significativa (maior que 5 minutos) foi encontrada nos tempos de voo."
  display(Markdown(message))

### Verificação de voos impossíveis

- Objetivo: visualizar se existem voos com tempo ou distância igual a 0 ou negativos.

In [None]:
impossibleFlights = flightDF[
  (flightDF['air_time'] <= 0 and flightDF['canceled'] == 0) | 
  (flightDF['distance'] <= 0 and flightDF['canceled'] == 0) |
  (flightDF['taxi_in'] <= 0 and flightDF['canceled'] == 0) |
  (flightDF['taxi_out'] <= 0 and flightDF['canceled'] == 0) |
  (flightDF['elapsed_time'] <= 0 and flightDF['canceled'] == 0)
]

if not impossibleFlights.empty:
  message = f"⚠️ Encontrados {len(impossibleFlights)} voos com tempos/distâncias impossíveis (<= 0):"
  display(Markdown(message))
  display(impossibleFlights.head())
else:
  message = "✅ Nenhum voo com tempos ou distâncias impossíveis (<= 0) foi encontrado."
  display(Markdown(message))