# Análise de Dados - Camada Silver

#### **IMPORTANTE:** Esse notebook está apresentando gráficos temporários para evitar perda de trabalho. Eles serão refatorados no futuro pois, atualmente, estão sendo feitos sobre dados da camada bronze.

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
from IPython.display import display, Markdown

sns.set_theme(style='whitegrid')

## Lendo os Dados

In [None]:
flightDF = pd.read_csv("../../datalake/bronze/flights.csv", sep=";", encoding="utf-8")
airlineDF = pd.read_csv("../../datalake/bronze/airlines.csv", sep=";", encoding="utf-8")
airportDF = pd.read_csv("../../datalake/bronze/airports.csv", sep=";", encoding="utf-8")

## Análise do Arquivo Principal (flights.csv)

### Distribuição de Voos (Companhia Aérea)

- Objetivo: visualizar o volume de voos por companhia aérea.

In [None]:
countAirlines = flightDF['airline'].value_counts()

top10Airlines = countAirlines.head(10)

plt.figure(figsize=(14, 8))
sns.barplot(x=top10Airlines.values, y=top10Airlines.index, palette='viridis', orient='h')

plt.title('Top 10 Companhias Aéreas por Número de Voos', fontsize=16)
plt.xlabel('Número de Voos', fontsize=12)
plt.ylabel('Companhia Aérea (Código IATA)', fontsize=12)
plt.xticks(fontsize=11)
plt.yticks(fontsize=11)

plt.tight_layout()
plt.show()

### Distribuição de Voos (Mês)

- Objetivo: visualizar os meses com a maior porcentagem de voos no ano.

In [None]:
pctPerMonth = flightDF['month'].value_counts(normalize=True) * 100

pctPerMonth = pctPerMonth.sort_index()

mapMonth = {
  1: 'Janeiro',
  2: 'Fevereiro',
  3: 'Março',
  4: 'Abril',
  5: 'Maio',
  6: 'Junho',
  7: 'Julho',
  8: 'Agosto',
  9: 'Setembro',
  10: 'Outubro',
  11: 'Novembro',
  12: 'Dezembro'
}

pctPerMonth = pctPerMonth.rename(index=pctPerMonth)

plt.figure(figsize=(14, 8))
ax = sns.barplot(x=pctPerMonth.values, y=pctPerMonth.index, palette='viridis', orient='h')

plt.title('Porcentagem de Voos por Mês', fontsize=16)
plt.xlabel('Porcentagem de Voos (%)', fontsize=12)
plt.ylabel('Mês', fontsize=12)
plt.xticks(fontsize=11)
plt.yticks(fontsize=11)

ax.xaxis.set_major_formatter(mtick.PercentFormatter())
for index, value in enumerate(pctPerMonth):
    plt.text(value, index, f' {value:.2f}%', va='center', fontsize=11, color='black')

plt.tight_layout()
plt.show()

### Distribuição de Voos (Dia da Semana)

- Objetivo: visualizar quais os dias da semana com a maior porcentagem de voos.

In [None]:
pctPerDay = flightDF['day_of_week'].value_counts(normalize=True) * 100

pctPerDay = pctPerDay.sort_index()

mapDays = {
  1: 'Segunda-feira',
  2: 'Terça-feira',
  3: 'Quarta-feira',
  4: 'Quinta-feira',
  5: 'Sexta-feira',
  6: 'Sábado',
  7: 'Domingo'
}

pctPerDay = pctPerDay.rename(index=mapDays)

plt.figure(figsize=(14, 8))
ax = sns.barplot(x=pctPerDay.values, y=pctPerDay.index, palette='viridis', orient='h')

plt.title('Porcentagem de Voos por Dia da Semana', fontsize=16)
plt.xlabel('Porcentagem de Voos (%)', fontsize=12)
plt.ylabel('Dia da Semana', fontsize=12)
plt.xticks(fontsize=11)
plt.yticks(fontsize=11)

ax.xaxis.set_major_formatter(mtick.PercentFormatter())
for index, value in enumerate(pctPerDay):
    plt.text(value, index, f' {value:.2f}%', va='center', fontsize=11, color='black')

plt.tight_layout()
plt.show()

### Aeroportos Mais Movimentados

- Objetivo: visualizar os aeroportos que são origem da maior quantidade de voos.

In [None]:
countAirports = flightDF['origin_airport'].value_counts()

top20Airports = countAirports.head(20)

plt.figure(figsize=(14, 10))
sns.barplot(x=top20Airports.values, y=top20Airports.index, palette='plasma', orient='h')

plt.title('Top 20 Aeroportos por Volume de Partidas', fontsize=16)
plt.xlabel('Número de Voos (Partidas)', fontsize=12)
plt.ylabel('Aeroporto de Origem (Código IATA)', fontsize=12)

plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(12, 6))
sns.boxplot(
    data=flights_df,
    x='AIRLINE',
    y='ARRIVAL_DELAY',
    ax=ax,
    showfliers=True,
    flierprops=dict(marker='o', markersize=4, alpha=0.4)
)
sns.stripplot(
    data=flights_df.sample(frac=0.02, random_state=42),
    x='AIRLINE',
    y='ARRIVAL_DELAY',
    color='gray',
    alpha=0.3,
    ax=ax
)

ax.set_title("Distribuição do Atraso na Chegada por Companhia Aérea", fontsize=13, weight='bold')
ax.set_xlabel("Companhia Aérea")
ax.set_ylabel("Atraso na Chegada (minutos)")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
