# Voos nos aeroportos brasileiros - Análise Exploratória dos dados

In [1]:
#importando bibliotecas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import datetime as dt

%matplotlib inline

In [4]:
#lendo arquivo csv e importando o dataframe para análise

file = '/Users/Lucas/Documents/Lucas/jornadaDS/projetos/datasets/voosbrasil/brflights.csv'
df = pd.read_csv(file, sep = ',', header = 0, encoding = 'unicode_escape')

#### A partir  do dataset, as seguintes análises serão realizadas:

1. Aeroporto com mais partidas;
2. Estado com mais partidas;
3. Destino brasileiro mais visitado;
4. Destino Internacional mais visitados por voos saídos do Brasil;
5. Período de maior partidas;
6. Período de maior número de voos internacionais;
7. Viagens as regiões do Brasil (da perspectiva de cada região);
8. Cia aérea mais operante;
9. Cia aérea mais pontual;
10. Cia aérea com mais atrasos;
11. De que origem internacional recebemos mais voos;
12. Rotas mais comuns;

In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.sample(5)

In [None]:
df.isnull().sum()

In [None]:
df.info()

#### Observações sobre o dataset:

- Mesma quantidade de missing values para as colunas de Partida.Real e Chegada.Real;
- Verificar a elevada quantidade de missing values para a coluna Codigo.Justificativa;
- As colunas LongDest, LatDest, LongOrig e LatOrig podem ser excluídas sem nenhum prejuízo pois, não serão utilizadas para análise;

#### ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

### Investigando os Missing Values

Temos 289196 missing values na coluna Partida.Real, 289196 missing values na coluna Chegada.Real e 1510212 missing values na coluna Codigo.Justificativa.

#### - Começarei investigando os MVs das colunas Partida.Real e Chegada.Real

In [None]:
#nomeei de inv_na um novo dataframe para os dados que possuam os valores nulos para as colunas Partida.Real e Chegada.Real.

inv_na_df = df[df['Partida.Real'].isnull() & df['Chegada.Real'].isnull()]

In [None]:
inv_na_df.shape

In [None]:
inv_na_df.head()

In [None]:
inv_na_df.tail()

In [None]:
pd.value_counts(inv_na_df['Situacao.Voo'])

-------------------------------------------------------------------------------------------------------------------------------

Até aqui, percebe-se que os valores nulos para as colunas Partida.Real e Chegada.Real são referentes a voos cancelados. Dessa forma, não houve embarque e, nem muito menos, decolagem desses voos. Por essa razão possuem valores vazios.

-------------------------------------------------------------------------------------------------------------------------------

#### - Investigando agora, os MVs da coluna Codigo.Justificativa

In [None]:
#nomeei de cjna_df o novo dataframe no qual os dados para a coluna Codigo.Justificativa são não nulos.

cjna_df = df[df['Codigo.Justificativa'].isnull()]

In [None]:
cjna_df.shape

In [None]:
cjna_df.head()

In [None]:
cjna_df.tail()

In [None]:
pd.value_counts(cjna_df['Situacao.Voo'])

-------------------------------------------------------------------------------------------------------------------------------

Observa-se que no dataframe cjna_df possui dados apenas dos voos que foram realizados e que na coluna Codigo.Justificativa possuem valores nulos.

-------------------------------------------------------------------------------------------------------------------------------

In [None]:
#nomeei de ontime_cjna_df o dataframe que possui dados nos quais possuem valores nulos para a coluna Codigo.Justificativa 
#e os valores para as colunas Partida.Prevista e Partida.Real são iguais.

ontime_cjna_df = cjna_df[cjna_df['Partida.Prevista'] == cjna_df['Partida.Real']]

In [None]:
ontime_cjna_df.head()

In [None]:
ontime_cjna_df.shape

-------------------------------------------------------------------------------------------------------------------------------

Aqui concluiu-se que dos 1510212 voos realizados e que possuem valores nulos para a coluna Codigo.Justificativa, 1489678 saíram no horário previsto. Já 20534 voos foram realizados com algum atraso ou adiantamento, porém não foi justificado.

-------------------------------------------------------------------------------------------------------------------------------

#### - Conclusões estudo dos Missing Values

- Os missing values para colunas Partida.Real e Chegada.Real foram de voos cancelados.
- Dos 1510212 missing values da coluna Codigo.Justificativa, 1489678 foram de voos que saíram no horário previsto.
- Enquanto 20534 foram de voos que saíram atrasados ou adiantados porém sem justificativa.

#### ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

### Excluindo colunas que não serão utilizadas nas análises

##### Estarão sendo excluídas as seguintes colunas:
- Voos;
- LongDest; 
- LatDest;
- LongOrig;
- LatOrig 

In [None]:
df.drop(['Voos', 'LongDest', 'LongOrig', 'LatDest', 'LatOrig'], axis = 1, inplace = True)

In [None]:
df.head()

#### ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

### Visualizações Gráficas

#### 1. Aeroporto com mais partidas

In [None]:
aeroportos = df['Aeroporto.Origem'].value_counts().head(3).values
aeroportos = aeroportos.tolist()
aeroportos.reverse()

ind = df['Aeroporto.Origem'].value_counts().head(3).index
ind = ind.tolist()
ind.reverse()

fig, ax = plt.subplots(figsize = (10, 6))

plt.barh(ind, aeroportos, alpha = 0.4, color = "c")

for i in range(3):
    ax.text(x = aeroportos[i] + 3000, y = ind[i], s = str(aeroportos[i]), fontsize = 10)
    
plt.title("Aeroportos com maior número de decolagens do Brasil", fontsize = 15)

ax.spines['left'].set_linewidth(2.5)
ax.set_xlabel('')
for axis in ['top', 'right', 'bottom']:
    ax.spines[axis].set_color(None)
ax.tick_params(axis = 'x', labelbottom = False, bottom = None)

plt.show()

#tentar categorizar (nacional, regional, internacional) os voos por aeroporto



In [None]:
df['Aeroporto.Origem'].value_counts().head(3)

In [None]:
graf = df.groupby(['Aeroporto.Origem'])

In [None]:
guarulhos = graf['Codigo.Tipo.Linha'].value_counts().loc['Guarulhos - Governador Andre Franco Montoro']

In [None]:
guar_nac = guarulhos[0]
guar_reg = guarulhos[2]
guar_int = guarulhos[1]

In [None]:
jk = graf['Codigo.Tipo.Linha'].value_counts().loc['Presidente Juscelino Kubitschek']

In [None]:
jk_nac = jk[0]
jk_reg = jk[1]
jk_int = jk[2]

In [None]:
congonhas = graf['Codigo.Tipo.Linha'].value_counts().loc['Congonhas']

In [None]:
cong_nac = congonhas[0]
cong_reg = congonhas[1]
cong_int = 0

In [None]:
group = 3
labels = ['Guarulhos', 'JK', 'Congonhas']

nacional = [guar_nac, jk_nac, cong_nac] 
regional = [guar_reg, jk_reg, cong_reg]
internacional = [guar_int, jk_int, cong_int] 

fig, ax = plt.subplots(figsize = (10, 6))
ind = np.arange(group)
width = 0.25

plt.bar(ind - width, nacional, width = width, alpha = 0.4, color = 'g', label = 'Nacional')
plt.bar(ind, regional, width = width, alpha = 0.4, color = 'r', label = 'Regional')
plt.bar(ind + width, internacional, width = width, alpha = 0.4, color = 'b', label = 'Internacional')

plt.xticks(ticks = ind, labels = labels, fontsize = 12)
plt.legend()
plt.title('Tipos de Voo que Ocorrem em cada Aeroporto', fontsize = 15)


ax.spines['bottom'].set_linewidth(2.5)
ax.set_ylabel('')
for axis in ['top', 'right', 'left']:
    ax.spines[axis].set_color(None)
ax.tick_params(axis = 'y', labelleft = False, left = None)
    
    
altura_nac = nacional
altura_reg = regional
altura_int = internacional
posicao = ind
for i in range(3):
    ax.text(x = posicao[i] - 0.32, y = altura_nac[i] + 3000, s = str(altura_nac[i]), fontsize = 10)
    ax.text(x = posicao[i] - 0.07, y = altura_reg[i] + 3000, s = str(altura_reg[i]), fontsize = 10)
    ax.text(x = posicao[i] + 0.2, y = altura_int[i] + 3000, s = str(altura_int[i]), fontsize = 10)
    
plt.show()


#### 2. Estado com maior número de partidas

In [None]:
estado = df['Estado.Origem'].value_counts().head().values
ind = df['Estado.Origem'].value_counts().head().index

index = np.arange(len(ind))
width = 0.5

fig, ax = plt.subplots(figsize = (10, 6))

plt.bar(ind, estado, width=width, alpha = 0.5, color = 'red')

plt.title('Número de Voos que partem por estado', fontsize = 15)
plt.xlabel('Estados', fontsize = 12)

ax.spines['bottom'].set_linewidth(2.5)
ax.set_ylabel('')
for axis in ['top', 'right', 'left']:
    ax.spines[axis].set_color(None)
ax.tick_params(axis = 'y', labelleft = False, left = None)

for i in range(5):
    ax.text(x = index[i] - 0.18, y = estado[i] + 10000, s = str(estado[i]), fontsize = 10)
   

plt.show()

OBS: Nesse gráfico, o N/I representa os destinos internacionais, ou seja, todos os voos que partem de um destino internacional para o Brasil.

#### 3. Destino brasileiro mais visitado

In [None]:
def alterar_cidade(cidade):
    if cidade == 'Guarulhos':
        return 'Sao Paulo'
    elif cidade == 'Confins':
        return 'Belo Horizonte'
    elif cidade == 'Sao Jose Dos Pinhais':
        return 'Curitiba'
    return cidade

In [None]:
df['Cidade.Destino'] = df['Cidade.Destino'].map(alterar_cidade)

In [None]:
df['Cidade.Destino'].value_counts().head(10)

In [None]:
cidade = df['Cidade.Destino'].value_counts().head().values
ind = df['Cidade.Destino'].value_counts().head().index

index = np.arange(len(ind))
width = 0.4

fig, ax = plt.subplots(figsize = (10, 6))
plt.bar(ind, cidade, width=width, alpha = 0.6, color = 'g')

plt.xlabel('Cidades brasileiras mais Visitadas', fontsize = 12)
plt.title('Cidades que mais recebem voos no Brasil', fontsize = 15)

ax.spines['bottom'].set_linewidth(2.5)
ax.set_ylabel = ''
for axis in ['top', 'right', 'left']:
    ax.spines[axis].set_color(None)
ax.tick_params(axis = 'y', labelleft = False, left = None)

for i in range(5):
    ax.text(x = index[i] - 0.15, y = cidade[i] + 8000, s = str(cidade[i]), fontsize = 10)

plt.show()

#ajeitar os nomes dos aeroportos e somar com as respectivas cidades

#### 4. Destino Internacional mais visitados por brasileiros

In [None]:
internacional_df = df[df['Codigo.Tipo.Linha'] == 'Internacional']

In [None]:
internacional_df.head()

In [None]:
saida_inter_df = internacional_df[internacional_df['Estado.Destino'] == 'N/I']

In [None]:
saida_inter_df.head()

In [None]:
saida_inter_df['Cidade.Destino'].value_counts().head(10)

In [None]:
def alter_cidade_inter(cidade):
    if cidade == 'Buenos Aires/Aeroparque':
        return 'Buenos Aires'
    return cidade

In [None]:
saida_inter_df['Cidade.Destino'] = saida_inter_df['Cidade.Destino'].map(alter_cidade_inter)

In [None]:
saida_inter_df['Cidade.Destino'].value_counts().head(10)

In [None]:
cidade_inter = saida_inter_df['Cidade.Destino'].value_counts().head().values
cidade_inter = cidade_inter.tolist()
cidade_inter.reverse()

ind = saida_inter_df['Cidade.Destino'].value_counts().head().index
ind = ind.tolist()
ind.reverse()

index = np.arange(len(cidade_inter))

fig, ax = plt.subplots(figsize = (10, 6))
plt.barh(ind, cidade_inter, alpha = 0.8, color = 'y')

plt.title('Cidades Internacionais que mais Recebem Voos do Brasil', fontsize = 15)

ax.spines['left'].set_linewidth(2.5)
for axis in ['top', 'bottom', 'right']:
    ax.spines[axis].set_color(None)
ax.tick_params(axis = 'x', labelbottom = False, bottom = None)

for i in range(5):
    ax.text(x = cidade_inter[i] + 300, y = index[i] - 0.08, s = str(cidade_inter[i]), fontsize = 10)

plt.show()

In [None]:
saida_inter_df['Pais.Destino'].value_counts().head(10)

In [None]:
pais_destino_inter = saida_inter_df['Pais.Destino'].value_counts().head().values
pais_destino_inter = pais_destino_inter.tolist()
pais_destino_inter.reverse()

ind = saida_inter_df['Pais.Destino'].value_counts().head().index
ind = ind.tolist()
ind.reverse()

index = np.arange(len(pais_destino_inter))

fig, ax = plt.subplots(figsize = (10, 6))
plt.barh(ind, pais_destino_inter, alpha = 0.8, color = 'm')

plt.title('Países que mais recebem voos do Brasil', fontsize = 15)

ax.spines['left'].set_linewidth(2.5)
for axis in ['top', 'right', 'bottom']:
    ax.spines[axis].set_color(None)
ax.tick_params(axis = 'x', labelbottom = False, bottom = None)

for i in range(5):
    ax.text(x = pais_destino_inter[i] + 300, y = index[i] - 0.08, s = str(pais_destino_inter[i]), fontsize = 10)
    
plt.show()

#### 5. Período de maior partidas

In [None]:
#covertendo as strings das colunas de data e horário em tipos datetime

df['Partida.Prevista'] = pd.to_datetime(df['Partida.Prevista']).dt.tz_localize(None)
df['Partida.Real'] = pd.to_datetime(df['Partida.Real']).dt.tz_localize(None)
df['Chegada.Prevista'] = pd.to_datetime(df['Chegada.Prevista']).dt.tz_localize(None)
df['Chegada.Real'] = pd.to_datetime(df['Chegada.Real']).dt.tz_localize(None)

#criando colunas de data
df['Data.Partida.Real'] = pd.to_datetime(df['Partida.Real']).dt.date
df['Data.Chegada.Real'] = pd.to_datetime(df['Chegada.Real']).dt.date

df['Mes.Partida'] = pd.to_datetime(df['Data.Partida.Real']).dt.month
df['Ano.Partida'] = pd.to_datetime(df['Data.Partida.Real']).dt.year

In [None]:
def nome_mes(mes):
    if mes == 1:
        return "Janeiro"
    elif mes == 2:
        return "Fevereiro"
    elif mes == 3:
        return "Março"
    elif mes == 4:
        return "Abril"
    elif mes == 5:
        return "Maio"
    elif mes == 6:
        return "Junho"
    elif mes == 7:
        return "Julho"
    elif mes == 8:
        return "Agosto"
    elif mes == 9:
        return "Setembro"
    elif mes == 10:
        return "Outubro"
    elif mes == 11:
        return "Novembro"
    elif mes == 12:
        return "Dezembro"
    return mes

In [None]:
df['Mes.Partida'] = df['Mes.Partida'].fillna(0)
df['Mes.Partida'] = df['Mes.Partida'].astype(int)
df['Mes.Partida'] = df['Mes.Partida'].map(nome_mes)

In [None]:
df['Ano.Partida'] = df['Ano.Partida'].fillna(0)
df['Ano.Partida'] = df['Ano.Partida'].astype(int)

In [None]:
df.dtypes

In [None]:
df['Dif.Tempo.Partida'] = (df['Partida.Real'] - df['Partida.Prevista'])
df['Dif.Tempo.Chegada'] = (df['Chegada.Real'] - df['Chegada.Prevista'])

In [None]:
df.head()

In [None]:
df['Mes.Partida'].value_counts()

In [None]:
voos_realizados_df = df[df['Mes.Partida'] != 0]

In [None]:
voos_realizados_df.isnull().sum()

In [None]:
voos_realizados_df['Ano.Partida'].value_counts()

In [None]:
voos_realizados_2015_df = voos_realizados_df[voos_realizados_df['Ano.Partida'] == 2015]
voos_realizados_2016_df = voos_realizados_df[voos_realizados_df['Ano.Partida'] == 2016]
voos_realizados_2017_df = voos_realizados_df[voos_realizados_df['Ano.Partida'] == 2017]

In [None]:
voos_realizados_2015_df['Mes.Partida'].value_counts()[voos_realizados_df['Mes.Partida'].unique()].index

In [None]:
voos_realizados_2016_df['Mes.Partida'].value_counts()[voos_realizados_df['Mes.Partida'].unique()].index

In [None]:
voos_realizados_2015_df['Mes.Partida'].value_counts()

In [None]:
voos_realizados_2016_df['Mes.Partida'].value_counts()

In [None]:
voos_realizados_2017_df['Mes.Partida'].value_counts()[voos_realizados_2017_df['Mes.Partida'].unique()].index

In [None]:
voos_realizados_2015_df['Mes.Partida'].value_counts().index