# Análise de Dados - Camada Bronze

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
from IPython.display import display, Markdown

sns.set_theme(style='whitegrid')

## Lendo os Dados

In [None]:
flightDF = pd.read_csv("../../datalake/bronze/flights.csv", sep=";", encoding="utf-8")
airlineDF = pd.read_csv("../../datalake/bronze/airlines.csv", sep=";", encoding="utf-8")
airportDF = pd.read_csv("../../datalake/bronze/airports.csv", sep=";", encoding="utf-8")

## Detalhes dos Arquivos

### Flights

- Arquivo principal:
  - Contém os dados de voos realizados em 2015 nos Estados Unidos.

#### Informações Gerais

In [None]:
flightDF.info()

#### Amostra de Dados

In [None]:
flightDF.sample(10)

#### Resumo Estatístico

In [None]:
flightDF.describe()

#### Análise de Valores Nulos

In [None]:
pctNulosFlight = (flightDF.isnull().sum() / len(flightDF)) * 100

pctNulosFlight = pctNulosFlight[pctNulosFlight > 0]

if not pctNulosFlight.empty:
  display(Markdown("**Foram encontrados valores nulos. Gerando gráfico...**"))
  pctNulosFlight = pctNulosFlight.sort_values(ascending=False)
  
  plt.figure(figsize=(12, 8))

  ax = pctNulosFlight.plot(kind='bar', color='salmon')

  plt.title('Porcentagem de Nulos por Coluna', fontsize=16)
  plt.ylabel('Porcentagem de Valores Nulos (%)', fontsize=12)
  plt.xlabel('Colunas do DataFrame', fontsize=12)
  plt.xticks(rotation=45, ha='right')
  plt.tight_layout()
  
  ax.yaxis.set_major_formatter(mtick.PercentFormatter())
    
  for p in ax.patches:
    ax.annotate(f'{p.get_height():.2f}%', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', 
                xytext=(0, 9), 
                textcoords='offset points',
                fontsize=11)

  plt.ylim(0, pctNulosFlight.max() * 1.15)
  plt.show()
else:
  display(Markdown("**Não foram encontrados valores nulos no conjunto de dados.**"))

### Airlines

- Arquivo complementar:
  - Contém os dados das linhas aéreas dos voos presentes no arquivo principal.

#### Informações Gerais

In [None]:
airlineDF.info()

#### Amostra de Dados

In [None]:
airlineDF.sample(10)

#### Resumo Estatístico

In [None]:
airlineDF.describe()

#### Análise de Valores Nulos

In [None]:
pctNulosAirline = (airlineDF.isnull().sum() / len(airlineDF)) * 100

pctNulosAirline = pctNulosAirline[pctNulosAirline > 0]

if not pctNulosAirline.empty:
  display(Markdown("**Foram encontrados valores nulos. Gerando gráfico...**"))
  pctNulosAirline = pctNulosAirline.sort_values(ascending=False)
  
  plt.figure(figsize=(12, 8))

  ax = pctNulosAirline.plot(kind='bar', color='salmon')

  plt.title('Porcentagem de Nulos por Coluna', fontsize=16)
  plt.ylabel('Porcentagem de Valores Nulos (%)', fontsize=12)
  plt.xlabel('Colunas do DataFrame', fontsize=12)
  plt.xticks(rotation=45, ha='right')
  plt.tight_layout()
  
  ax.yaxis.set_major_formatter(mtick.PercentFormatter())
  
  for p in ax.patches:
    ax.annotate(f'{p.get_height():.2f}%', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', 
                xytext=(0, 9), 
                textcoords='offset points',
                fontsize=11)

  plt.ylim(0, pctNulosAirline.max() * 1.15)
  plt.show()
else:
  display(Markdown("**Não foram encontrados valores nulos no conjunto de dados.**"))

### Airports

- Arquivo complementar:
  - Contém os dados dos aeroportos de origem e destino dos voos presentes no arquivo principal.

#### Informações Gerais

In [None]:
airportDF.info()

#### Amostra de Dados

In [None]:
airportDF.sample(10)

#### Resumo Estatístico

In [None]:
airportDF.describe()

#### Análise de Valores Nulos

In [None]:
pctNulosAirport = (airportDF.isnull().sum() / len(airportDF)) * 100

pctNulosAirport = pctNulosAirport[pctNulosAirport > 0]

if not pctNulosAirport.empty:
  display(Markdown("Foram encontrados valores nulos. Gerando gráfico..."))
  pctNulosAirport = pctNulosAirport.sort_values(ascending=False)

  plt.figure(figsize=(12, 8))

  ax = pctNulosAirport.plot(kind='bar', color='salmon')

  plt.title('Contagem de Valores Nulos por Coluna', fontsize=16)
  plt.ylabel('Quantidade de Valores Nulos', fontsize=12)
  plt.xlabel('Colunas do DataFrame', fontsize=12)
  plt.xticks(rotation=45, ha='right')
  plt.tight_layout()
  
  ax.yaxis.set_major_formatter(mtick.PercentFormatter())
    
  for p in ax.patches:
    ax.annotate(f'{p.get_height():.2f}%', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', 
                xytext=(0, 9), 
                textcoords='offset points',
                fontsize=11)

  plt.ylim(0, pctNulosFlight.max() * 1.15)
  plt.show()
else:
  display(Markdown("Não foram encontrados valores nulos no conjunto de dados."))

## Análise do Arquivo Principal (flights.csv)

### Distribuição de Atrasos (Saída)

- Objetivo: visualizar o comportamento geral dos atrasos na decolagem dos voos.

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Para mostrar o gráfico sem filtro, comente a linha abaixo
filtroAtrasoSaida = flightDF['departure_delay'].between(-60, 180)

# Gráfico 1: Histograma
sns.histplot(flightDF.loc[filtroAtrasoSaida, 'departure_delay'], bins=40, kde=True, ax=axes[0], color='royalblue')
axes[0].set_title('Distribuição dos Atrasos na Saída (Histograma)', fontsize=16)
axes[0].set_xlabel('Atraso na Saída (Minutos)', fontsize=12)
axes[0].set_ylabel('Frequência (Nº de Voos)', fontsize=12)

# Gráfico 2: Box Plot
sns.boxplot(x=flightDF.loc[filtroAtrasoSaida, 'departure_delay'], ax=axes[1], color='lightcoral', width=.5)
axes[1].set_title('Distribuição dos Atrasos na Saída (Box Plot)', fontsize=16)
axes[1].set_xlabel('Atraso na Saída (Minutos)', fontsize=12)

plt.tight_layout()
plt.show()

### Distribuição de Atrasos (Chegada)

- Objetivo: visualizar o comportamento geral dos atrasos na aterrisagem dos voos.

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Para mostrar o gráfico sem filtro, comente a linha abaixo
filtroAtrasoChegada = flightDF['arrival_delay'].between(-60, 180)

# Gráfico 1: Histograma
sns.histplot(flightDF.loc[filtroAtrasoChegada, 'arrival_delay'], bins=40, kde=True, ax=axes[0], color='royalblue')
axes[0].set_title('Distribuição dos Atrasos na Chegada (Histograma)', fontsize=16)
axes[0].set_xlabel('Atraso na Chegada (Minutos)', fontsize=12)
axes[0].set_ylabel('Frequência (Nº de Voos)', fontsize=12)

# Gráfico 2: Box Plot
sns.boxplot(x=flightDF.loc[filtroAtrasoChegada, 'arrival_delay'], ax=axes[1], color='lightcoral', width=.5)
axes[1].set_title('Distribuição dos Chegada na Chegada (Box Plot)', fontsize=16)
axes[1].set_xlabel('Atraso na Chegada (Minutos)', fontsize=12)

plt.tight_layout()
plt.show()

### Distribuição de Voos (Companhia Aérea)

- Objetivo: visualizar o volume de voos por companhia aérea.

In [None]:
countAirlines = flightDF['airline'].value_counts()

top10Airlines = countAirlines.head(10)

plt.figure(figsize=(14, 8))
sns.barplot(x=top10Airlines.values, y=top10Airlines.index, palette='viridis', orient='h')

plt.title('Top 10 Companhias Aéreas por Número de Voos', fontsize=16)
plt.xlabel('Número de Voos', fontsize=12)
plt.ylabel('Companhia Aérea (Código IATA)', fontsize=12)
plt.xticks(fontsize=11)
plt.yticks(fontsize=11)

plt.tight_layout()
plt.show()

### Distribuição de Voos (Mês)

- Objetivo: visualizar os meses com a maior porcentagem de voos no ano.

In [None]:
pctPerMonth = flightDF['month'].value_counts(normalize=True) * 100

pctPerMonth = pctPerMonth.sort_index()

mapMonth = {
  1: 'Janeiro',
  2: 'Fevereiro',
  3: 'Março',
  4: 'Abril',
  5: 'Maio',
  6: 'Junho',
  7: 'Julho',
  8: 'Agosto',
  9: 'Setembro',
  10: 'Outubro',
  11: 'Novembro',
  12: 'Dezembro'
}

pctPerMonth = pctPerMonth.rename(index=pctPerMonth)

plt.figure(figsize=(14, 8))
ax = sns.barplot(x=pctPerMonth.values, y=pctPerMonth.index, palette='viridis', orient='h')

plt.title('Porcentagem de Voos por Mês', fontsize=16)
plt.xlabel('Porcentagem de Voos (%)', fontsize=12)
plt.ylabel('Mês', fontsize=12)
plt.xticks(fontsize=11)
plt.yticks(fontsize=11)

ax.xaxis.set_major_formatter(mtick.PercentFormatter())
for index, value in enumerate(pctPerMonth):
    plt.text(value, index, f' {value:.2f}%', va='center', fontsize=11, color='black')

plt.tight_layout()
plt.show()

### Distribuição de Voos (Dia da Semana)

- Objetivo: visualizar quais os dias da semana com a maior porcentagem de voos.

In [None]:
pctPerDay = flightDF['day_of_week'].value_counts(normalize=True) * 100

pctPerDay = pctPerDay.sort_index()

mapDays = {
  1: 'Segunda-feira',
  2: 'Terça-feira',
  3: 'Quarta-feira',
  4: 'Quinta-feira',
  5: 'Sexta-feira',
  6: 'Sábado',
  7: 'Domingo'
}

pctPerDay = pctPerDay.rename(index=mapDays)

plt.figure(figsize=(14, 8))
ax = sns.barplot(x=pctPerDay.values, y=pctPerDay.index, palette='viridis', orient='h')

plt.title('Porcentagem de Voos por Dia da Semana', fontsize=16)
plt.xlabel('Porcentagem de Voos (%)', fontsize=12)
plt.ylabel('Dia da Semana', fontsize=12)
plt.xticks(fontsize=11)
plt.yticks(fontsize=11)

ax.xaxis.set_major_formatter(mtick.PercentFormatter())
for index, value in enumerate(pctPerDay):
    plt.text(value, index, f' {value:.2f}%', va='center', fontsize=11, color='black')

plt.tight_layout()
plt.show()