# Descrição dos dados

Iremos utilizar o conjunto de dados [Airline On-Time: On-Time Performance](https://www.bts.gov/topics/airline-time-tables) que contém informações de voos realizado de 1987 até 2020.

Inicialmente iremos utilizar os últimos 3 meses de 2016 (~300MB) para realizar uma análise exploratória de dados.

A tabela abaixo tem uma descrição das variáveis.

| | Nome | Descrição |
|-|:-|:-|
|1 | YEAR | 2016
|2 | MONTH | 1-12
|3 | DAY_OF_MONTH | 1-31
|4 | DAY_OF_WEEK | 1 (Segunda) - 7 (Domingo)
|5 | UNIQUE_CARRIER | Lista com as companhias aéreas: `atrasos_voo/carriers.csv`
|6 | TAIL_NUM | Número da cauda do avião
|7 | FL_NUM | Número do voo
|8 | ORIGIN_AIRPORT_ID | Id do aeroporto de origem
|9 | ORIGIN | Aeroporto de Origem: `atrasos_voo/airports.csv`
|10 | ORIGIN_CITY_NAME | Nome cidade do aeroporto de origem
|11 | ORIGIN_STATE_ABR | Código do estado do aeroporto de origem
|12 | ORIGIN_STATE_NM | Nome do estado do aeroporto de origem
|13 | DEST_AIRPORT_ID | Id do aeroporto de origem
|9 | ORIGIN | Aeroporto de Origem: `atrasos_voo/airports.csv`
|14 | DEST | Aeroporto de Destino: `atrasos_voo/airports.csv`
|15 | DEST_CITY_NAME | Nome cidade do aeroporto de destino
|16 | DEST_STATE_ABR | Código do estado do aeroporto de destino
|17 | DEST_STATE_NM | Nome do estado do aeroporto de destino
|18 | CRS_DEP_TIME | Hora programada para saída (local, hhmm)
|19 | DEP_TIME | Hora da saída (local, hhmm)
|20 | DEP_DELAY | Tempo de atraso saída (em minutos)
|21 | TAXI_OUT | Tempo que a aeronave leva para se afastar do portão até estar totalmente em voo (em minutos)
|22 | TAXI_IN | Tempo que a aeronave leva depois de pousar até estar totalmente parada (em minutos)
|23 | CRS_ARR_TIME | Hora programada para chegada (local, hhmm)
|24 | ARR_TIME | Hora da chegada (local, hhmm)
|25 | ARR_DELAY | Tempo de atraso chegada (em minutos)
|26 | CANCELLED | O voo foi cancelado? (1=sim)
|27 | CANCELLATION_CODE | Razões para o cancelamento do voo (A=companhia, B=Clima, C=NAS (Sistema Nacional de Aviação), D=Segurança)
|28 | DIVERTED | Indicador de voo desviado (1=Yes)
|29 | CRS_ELAPSED_TIME | Tempo programado para a duração do voo (em minutos)
|30 | ACTUAL_ELAPSED_TIME | Tempo da duração do voo (em minutos)
|31 | AIR_TIME | Tempo em Voo (em minutos)
|31 | FLIGHTS | Número de Voos
|33 | DISTANCE | Distância entre aeroportos.
|34 | CARRIER_DELAY | Atraso ocasionado pela companhia (em minutos)
|35 | WEATHER_DELAY | Atraso ocasionado pelo tempo (em minutos)
|36 | NAS_DELAY | Atraso ocasionado pelo sistema nacional de aviação (em minutos)
|37 | SECURITY_DELAY | Atraso ocasionado pela segurança (em minutos)
|38 | LATE_AIRCRAFT_DELAY | Atraso ocasionado pela aeronave (em minutos)



In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
pasta_raiz = '/content/drive/MyDrive/datasets/atrasos_voos'

In [None]:
import pandas as pd

In [None]:
df_voos = pd.read_csv(f'{pasta_raiz}/atrasos_voos_2016_parcial.csv', low_memory=False) # Utilize o parametro , low_memory=False

In [None]:
df_voos.drop(columns='Unnamed: 38', inplace=True)

In [None]:
# df_voos = df_voos[df_voos.MONTH != 'MONTH'] # Teste resolvendo um exercício com e sem essas linhas para entender o problema de ter tipos diferentes de dados.

In [None]:
df_voos.head()

Unnamed: 0,YEAR,MONTH,DAY_OF_MONTH,DAY_OF_WEEK,UNIQUE_CARRIER,TAIL_NUM,FL_NUM,ORIGIN_AIRPORT_ID,ORIGIN,ORIGIN_CITY_NAME,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,FLIGHTS,DISTANCE,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY
0,2016,10,3,1,AA,N786AA,1,10721,BOS,"Boston, MA",...,75.0,73.0,40.0,1.0,187.0,,,,,
1,2016,10,4,2,AA,N794AA,1,10721,BOS,"Boston, MA",...,75.0,78.0,48.0,1.0,187.0,,,,,
2,2016,10,1,6,AA,N783AA,1,12478,JFK,"New York, NY",...,371.0,348.0,320.0,1.0,2475.0,,,,,
3,2016,10,2,7,AA,N798AA,1,12478,JFK,"New York, NY",...,371.0,372.0,327.0,1.0,2475.0,17.0,0.0,1.0,0.0,0.0
4,2016,10,3,1,AA,N786AA,1,12478,JFK,"New York, NY",...,371.0,366.0,331.0,1.0,2475.0,,,,,


In [None]:
df_aeroportos = pd.read_csv(f'{pasta_raiz}/airports.csv')
df_aeroportos.head()

Unnamed: 0,iata,airport,city,state,country,lat,long
0,00M,Thigpen,Bay Springs,MS,USA,31.953765,-89.234505
1,00R,Livingston Municipal,Livingston,TX,USA,30.685861,-95.017928
2,00V,Meadow Lake,Colorado Springs,CO,USA,38.945749,-104.569893
3,01G,Perry-Warsaw,Perry,NY,USA,42.741347,-78.052081
4,01J,Hilliard Airpark,Hilliard,FL,USA,30.688012,-81.905944


In [None]:
df_operadoras =  pd.read_csv(f'{pasta_raiz}/carriers.csv')
df_operadoras.head()

Unnamed: 0,Code,Description
0,02Q,Titan Airways
1,04Q,Tradewind Aviation
2,05Q,"Comlux Aviation, AG"
3,06Q,Master Top Linhas Aereas Ltd.
4,07Q,Flair Airlines Ltd.


# Exercícios

**```1. Utilize o DataFrame df_voos. Quais variáveis contêm missing? Qual a porcentagem total de missing considerando todas as variáveis? Faça uma análise sobre a possibilidade de remover as linhas ou colunas que tem missing.```**

**``` 2. Qual o mês que teve mais atrasos na decolagem? Lembre-se de verifiar a conversão de tipos.```**

**```3. Quais as 10 companhias aereas tiveram menos atraso na decolagem? Utilize o DataFrame df_operadoras converter o código da companhia para o nome. ```**

**```4. Quantos voo foram cancelados? ```**

**```5. Qual a quantidade de voes cancelados por cada razão documentada? Qual é o total das seguintes razões?```**

As seguintes razões estão documentadas da seguinte forma:
    
    A = Companhia
    B = Clima
    C = Sistema Nacional de Aviação
    D = Segurança


Crie um dicionario para realizar a conversão e imprima o seguinte texto para cada razação:

- `O código {} com descrição {} teve {} voos cancelados`
- `O total de cancelamentos foi de {} voos`



**```6. Qual a quantidade de minutos de cada justificativa de atraso utilizada? ```**

Utilize as seguintes chaves para recuperar a quantidade de cada um dos atrasos.

| Código | Descrição |
|-|-|
| CARRIER_DELAY | Atraso ocasionado pela companhia (em minutos) |
| WEATHER_DELAY | Atraso ocasionado pelo tempo (em minutos) |
| NAS_DELAY | Atraso ocasionado pelo sistema nacional de aviação (em minutos) |
| SECURITY_DELAY | Atraso ocasionado pela segurança (em minutos) |
| LATE_AIRCRAFT_DELAY | Atraso ocasionado pela aeronave (em minutos) |

Para cada justificativa, imprima o seguinte texto: `A justificativa {} teve {} minutos de atraso nos últimos 3 meses de 2016`
    

**```7.  Qual foi o tempo de voo máximo e minímo de cada aeronave?```**

Utilize a chave ACTUAL_ELAPSED_TIME para recuperar o tempo e o TAIL_NUM para a aeronave para imprimir os 10 primeiros com maior tempo de voo.

**```8. Qual é o nome do aeroporto de origem que teve mais voos atrasados em dezembro de 2016?```**

**```9. Qual é a operada com mais atrasos em outubro de 2016? ```**

**```10. Quais são as 5 maiores distâncias entre aeroportos com voos realizados ao longo dos últimos 3 meses?  Crie um DataFrame com o código (ORIGIN), nome do do aeroporto de origem e destino, bem como a distancia. Lembre-se de remover os duplicados.```**

O DataFrame resultante deve ser parecido com:

| | codigo_aeroporto_origem | aeroporto_origem | distancia | codigo_aeroporto_destino | aeroporto_destino
|-|:-|:-|:-|:-|:-|
|0 | JFK | John F Kennedy Intl | 4983.0 | HNL | Honolulu International
|1 | HNL | Honolulu International | 4983.0 | JFK | John F Kennedy Intl