# Clayton Lima
## Case vaga de Analytics Engineer

### Contexto:

A partir de uma base de dados com um histórico de informações sobre atrasos de voos em aeroportos americanos, pedimos que responda às perguntas abaixo:



### Perguntas:

1. Faça pelo menos 3 testes de consistência de dados da base e explique os resultados.

2. Dentre os motivos que geram atrasos, qual o principal?

3. Quais os aeroportos que mais sofrem com as condições climáticas? Este efeito é sazonal?

4. Qual o pior ano (da base) em termos de atrasos? Dentre os motivos geradores de atrasos, houve algum que se destacou?

5. Devido ao tipo de operação das companhias aéreas, quando há atraso em um voo, isso acaba impactando os voos seguintes.

Dessa forma, um único problema de atraso de aeronave pode atrasar vários voos. Suponha que você precisa analisar este efeito em cascata em uma nova análise, quais dados você solicitaria?



### Observações:

1. Quando houver mais de uma forma de responder a pergunta (mais de um ângulo de análise), você pode elaborar premissas ou explorar os diferentes caminhos.

2. Fique a vontade para utilizar a base em formato .json ou .csv

3. Na pergunta 5, entende-se que a base não dispõe dos dados necessários para análise. É pedido então um exercício de definir que dados seriam necessários para analisar o que foi pedido.

# Imports

In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
pd.set_option('display.max_columns', None)

# Lendo o arquivo

In [2]:
df_airport = pd.read_csv('input/airlines.csv')
df_airport.head()

Unnamed: 0,Airport.Code,Airport.Name,Time.Label,Time.Month,Time.Month Name,Time.Year,Statistics.# of Delays.Carrier,Statistics.# of Delays.Late Aircraft,Statistics.# of Delays.National Aviation System,Statistics.# of Delays.Security,Statistics.# of Delays.Weather,Statistics.Carriers.Names,Statistics.Carriers.Total,Statistics.Flights.Cancelled,Statistics.Flights.Delayed,Statistics.Flights.Diverted,Statistics.Flights.On Time,Statistics.Flights.Total,Statistics.Minutes Delayed.Carrier,Statistics.Minutes Delayed.Late Aircraft,Statistics.Minutes Delayed.National Aviation System,Statistics.Minutes Delayed.Security,Statistics.Minutes Delayed.Total,Statistics.Minutes Delayed.Weather
0,ATL,"Atlanta, GA: Hartsfield-Jackson Atlanta Intern...",2003/06,6,June,2003,1009,1275,3217,17,328,"American Airlines Inc.,JetBlue Airways,Contine...",11,216,5843,27,23974,30060,61606,68335,118831,518,268764,19474
1,BOS,"Boston, MA: Logan International",2003/06,6,June,2003,374,495,685,3,66,"American Airlines Inc.,Alaska Airlines Inc.,Co...",14,138,1623,3,7875,9639,20319,28189,24400,99,77167,4160
2,BWI,"Baltimore, MD: Baltimore/Washington Internatio...",2003/06,6,June,2003,296,477,389,8,78,"American Airlines Inc.,Continental Air Lines I...",11,29,1245,15,6998,8287,13635,26810,17556,278,64480,6201
3,CLT,"Charlotte, NC: Charlotte Douglas International",2003/06,6,June,2003,300,472,735,2,54,"American Airlines Inc.,Continental Air Lines I...",11,73,1562,14,7021,8670,14763,23379,23804,127,65865,3792
4,DCA,"Washington, DC: Ronald Reagan Washington National",2003/06,6,June,2003,283,268,487,4,58,"American Airlines Inc.,Alaska Airlines Inc.,Co...",13,74,1100,18,5321,6513,13775,13712,20999,120,52747,4141


# Modelagem dos dados
Com o intuito de nos ajudar a responder as perguntas, fiz uma modelagem do conjunto de dados, a qual descrevo abaixo. 
Por facilidade, utilizei a ferramena que uso no trabalho hoje (Targit Decision Suite), mas o mesmo resultado pode ser atingido com diversas ferramentas (inclusive com o python!).

## ETL
![etl.png](attachment:etl.png)

Não fiz tratamentos para subir os dados, apenas os selecionei diretamente do arquivo para gerar um DW.

## DW
O resultado do processamento da ETL é nosso conjunto de dados em formato de DW, onde podemos consultar as informações em SQL e as modelar.

![DW.png](attachment:DW.png)

## Dimensões
![dimensions.png](attachment:dimensions.png)
Dimensões extraídas para efetuarmos aberturas em nossos dados e analisarmos os dados.

## Grupo de medidas
![medidas.png](attachment:medidas.png)
Grupos de medidas e suas respectivas medidas que mensuram as informações do nosso conjunto.

# Perguntas e discussões

Optei por começar respondendo as perguntas objetivamente em python para ter uma ideia de como o conjunto se portaria. Depois de ter uma ideia de sua consistência e distribuição, parti pra modelagem e criação de indicadores que nos apoiassem nas discussões mais subjetivas.

## 1. Faça pelo menos 3 testes de consistência de dados da base e explique os resultados.

### Primeiro teste de consistência

In [3]:
df_airport.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4408 entries, 0 to 4407
Data columns (total 24 columns):
 #   Column                                               Non-Null Count  Dtype 
---  ------                                               --------------  ----- 
 0   Airport.Code                                         4408 non-null   object
 1   Airport.Name                                         4408 non-null   object
 2   Time.Label                                           4408 non-null   object
 3   Time.Month                                           4408 non-null   int64 
 4   Time.Month Name                                      4408 non-null   object
 5   Time.Year                                            4408 non-null   int64 
 6   Statistics.# of Delays.Carrier                       4408 non-null   int64 
 7   Statistics.# of Delays.Late Aircraft                 4408 non-null   int64 
 8   Statistics.# of Delays.National Aviation System      4408 non-null   int64 
 9

Verificando se temos alguma linha com informação nula no conjunto para tratarmos. E validando se as colunas em estão em seus respectivos formatos (texto, número, etc). Podemos

### Segundo teste de consistência

In [4]:
df_airport.describe()

Unnamed: 0,Time.Month,Time.Year,Statistics.# of Delays.Carrier,Statistics.# of Delays.Late Aircraft,Statistics.# of Delays.National Aviation System,Statistics.# of Delays.Security,Statistics.# of Delays.Weather,Statistics.Carriers.Total,Statistics.Flights.Cancelled,Statistics.Flights.Delayed,Statistics.Flights.Diverted,Statistics.Flights.On Time,Statistics.Flights.Total,Statistics.Minutes Delayed.Carrier,Statistics.Minutes Delayed.Late Aircraft,Statistics.Minutes Delayed.National Aviation System,Statistics.Minutes Delayed.Security,Statistics.Minutes Delayed.Total,Statistics.Minutes Delayed.Weather
count,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0,4408.0
mean,6.578947,2009.243421,574.632486,789.078947,954.580309,5.575544,78.216878,12.253403,213.558076,2402.000454,27.880898,9254.420826,11897.860254,35021.369782,49410.274955,45077.107985,211.769737,135997.535163,6276.982759
std,3.45789,3.667475,329.616475,561.79842,921.907801,6.007046,75.181726,2.289861,288.873477,1710.947613,36.356399,5337.214211,6861.691876,24327.721037,38750.01705,57636.745683,257.174789,113972.27637,6477.417169
min,1.0,2003.0,112.0,86.0,61.0,-1.0,1.0,3.0,3.0,283.0,0.0,2003.0,2533.0,6016.0,5121.0,2183.0,0.0,14752.0,46.0
25%,4.0,2006.0,358.0,425.0,399.0,2.0,33.0,11.0,58.0,1298.75,8.0,5708.75,7400.0,19530.75,25084.25,14389.0,65.0,65444.75,2310.75
50%,7.0,2009.0,476.0,618.5,667.5,4.0,58.0,12.0,123.0,1899.0,15.0,7477.0,9739.5,27782.0,37483.0,25762.0,141.0,100711.0,4298.5
75%,10.0,2012.0,692.0,959.0,1166.0,7.0,98.0,14.0,250.0,2950.0,32.0,10991.5,13842.5,41606.0,59951.25,50362.0,274.0,164294.75,7846.0
max,12.0,2016.0,3087.0,4483.0,9066.0,94.0,812.0,18.0,3680.0,13699.0,442.0,31468.0,38241.0,220796.0,345456.0,602479.0,4949.0,989367.0,76770.0


Dando uma passada geral nas estatísticas básicas das colunas númericas e avaliando se temos algo fora do comum.
- Verificar Statistics.# of Delays.Security e entender o motivo de termos um valor negativo.


### Terceiro teste de consistência

Analisando as linhas com Statistics.# of Delays.Security menores que 0 levantada acima.
Precisaremos tratar esses dois casos para que não influenciem negativamente quantos formos sumarizar as informações.

In [5]:
df_airport[df_airport['Statistics.# of Delays.Security'] < 0]

Unnamed: 0,Airport.Code,Airport.Name,Time.Label,Time.Month,Time.Month Name,Time.Year,Statistics.# of Delays.Carrier,Statistics.# of Delays.Late Aircraft,Statistics.# of Delays.National Aviation System,Statistics.# of Delays.Security,Statistics.# of Delays.Weather,Statistics.Carriers.Names,Statistics.Carriers.Total,Statistics.Flights.Cancelled,Statistics.Flights.Delayed,Statistics.Flights.Diverted,Statistics.Flights.On Time,Statistics.Flights.Total,Statistics.Minutes Delayed.Carrier,Statistics.Minutes Delayed.Late Aircraft,Statistics.Minutes Delayed.National Aviation System,Statistics.Minutes Delayed.Security,Statistics.Minutes Delayed.Total,Statistics.Minutes Delayed.Weather
115,TPA,"Tampa, FL: Tampa International",2003/09,9,September,2003,135,197,283,-1,11,"American Airlines Inc.,JetBlue Airways,Contine...",11,34,629,0,4535,5198,6378,10114,10231,13,27377,637
1845,MIA,"Miami, FL: Miami International",2008/09,9,September,2008,244,190,370,-1,19,"American Airlines Inc.,Alaska Airlines Inc.,Co...",12,67,827,5,3736,4635,19850,12366,11713,5,45073,1135


### Quarto teste de consistência
Validar se todas as somas de flighs total batem com a soma dos flights individuais.

### Quinto teste de consistência
Validar se todas Statistics.Minutes Delayed.Total corresponde à soma de todos os motivos.

### Solucionando problemas encontrados nos testes

## 2. Dentre os motivos que geram atrasos, qual o principal?

In [6]:
colunas_atraso = ['Statistics.# of Delays.Carrier', 'Statistics.# of Delays.Late Aircraft', 'Statistics.# of Delays.National Aviation System', 'Statistics.# of Delays.Security', 'Statistics.# of Delays.Weather']
df_atraso = df_airport[colunas_atraso]
df_atraso.sum().sort_values(ascending=False)

Statistics.# of Delays.National Aviation System    4207790
Statistics.# of Delays.Late Aircraft               3478260
Statistics.# of Delays.Carrier                     2532980
Statistics.# of Delays.Weather                      344780
Statistics.# of Delays.Security                      24577
dtype: int64

Selecionando apenas as colunas de atrasos e as sumarizando podemos ver que o principal motivo de atraso o "National Aviation System" com mais de 4 milhões de atrasos no conjunto.

### Motivos de atraso
![pergunat2.1.png](attachment:pergunat2.1.png)

No indicador acima temos exatamente o mesmo filtro que fizemos em python para responder nossa pergunta. Podemos notar que as informações "batem na vírgula". 
Porém, analisando o gráfico inferior, onde temos os motivos abertos pelo período, podemos notar que o motivo que tivemos como principal no conjunto inteiro parece começar a diminuir após o ano de 2010.

![pergunat2.2.png](attachment:pergunat2.2.png)

Filtrando a partir do ano de 2010 podemos ver que o motivo "Late Aircraft" começa a tomar a frente no conjunto.

![pergunat2.3.png](attachment:pergunat2.3.png)

![pergunat2.4.png](attachment:pergunat2.4.png)

Olhando os dois últimos anos fechados (2014 e 2015), podemos verificar nossa hipótese de que o motivo 'Late Aircraft' tem gerado mais atraso entre todos os motivos do conjunto no período.

## 3. Quais os aeroportos que mais sofrem com as condições climáticas? Este efeito é sazonal?

In [7]:
group_atraso_clima = df_airport.groupby(by=['Airport.Code'])['Statistics.# of Delays.Weather'].sum()
group_atraso_clima.sort_values(ascending=False).head(5)

Airport.Code
ATL    40113
DFW    30476
ORD    24358
LGA    16350
DEN    15556
Name: Statistics.# of Delays.Weather, dtype: int64

Acima temos os cinco aeroportos que, de acordo com a medida 'Statistics.# of Delays.Weather', mais sofreram com atrasos por clima no conjunto de dados, 

In [8]:
group_minutos_clima = df_airport.groupby(by=['Airport.Code'])['Statistics.Minutes Delayed.Weather'].sum()
group_minutos_clima.sort_values(ascending=False).head(5)

Airport.Code
ATL    3209941
DFW    2549836
ORD    2192250
DEN    1240212
IAH    1209686
Name: Statistics.Minutes Delayed.Weather, dtype: int64

E acima temos os aeroportos que mais tiveram atrasos em minutos no conjunto de dados.

### Aeroportos afetados pelo clima
![pergunta%203.1-2.png](attachment:pergunta%203.1-2.png)
Novamente, temos no indicador acima as informações "batendo na vírgula" com o python. Na tabela podemos ordenar os Top 5 aeroportos por três medidas diferentes. As primeiras duas medidas são as mesmas que temos na análise em python. Porém, na terceira (% Delayed Weather), proponho uma visão diferente do problema.

Partindo do princípio que um aeroporto pode ter um número de grande de problemas climáticos apenas por ser maior que os outros, pensei em também verificarmos quais são os aeroportos que possuem uma maior porcentagem de problemas climáticos comparando entre seus próprios problemas e não só entre aeroportos. Para isso, proponho a seguinte medida.

![pergunta%203.2.png](attachment:pergunta%203.2.png)

![pergunta%203.3.png](attachment:pergunta%203.3.png)
Podemos notar, então, que, dos aeroportos que estamos analisando, não necessariamente aquele que possui maior número de atrasos por clima sofre mais com esse problema do que aeroportos com um menor número de vôos.

### Sazonalidade dos efeitos climáticos
Para a análise da sazonalidade proponho duas abordagens. A primeira pela quantidade de vôos e a segunda pela medida que criamos acima.

![pergunta%203.4.png](attachment:pergunta%203.4.png)
Aqui destacamos o mesmo indicador que vimos acima.

![pergunta%203.5-2.png](attachment:pergunta%203.5-2.png)
E aqui como ele foi construído para facilitar a validação da sazonalidade dos efeitos climáticos.

Nessa primeira abordagem, olhando todos os aeroportos, podemos notar um efeito sazonal na métrica de números de atraso pelo clima em meses que possuem mais vôos em todos os anos (

## 4. Qual o pior ano (da base) em termos de atrasos? Dentre os motivos geradores de atrasos, houve algum que se destacou?

In [12]:
group_flights_year = df_airport.groupby(by=['Time.Year'])['Statistics.Flights.Delayed'].sum()
group_flights_year.sort_values(ascending=False).head(5)

Time.Year
2007    1129439
2006    1024612
2008     965136
2005     925578
2004     880677
Name: Statistics.Flights.Delayed, dtype: int64

In [10]:
df_airport.groupby(by=['Time.Year'])['Statistics.Minutes Delayed.Total'].sum()

Time.Year
2003    21185559
2004    46609028
2005    50060286
2006    56997528
2007    64942741
2008    56598187
2009    44005337
2010    40660911
2011    40751156
2012    38057964
2013    47098086
2014    46493190
2015    43121664
2016     2895498
Name: Statistics.Minutes Delayed.Total, dtype: int64

In [11]:
#colunas_numero_atraso = ['Statistics.# of Delays.Carrier', 'Statistics.# of Delays.Late Aircraft', 'Statistics.# of Delays.National Aviation System', 'Statistics.# of Delays.Security', 'Statistics.# of Delays.Weather']
df_airport.groupby(by=['Time.Year'])[colunas_numero_atraso].sum().plot()

NameError: name 'colunas_numero_atraso' is not defined

In [None]:
colunas_minuto_atraso = ['Statistics.Minutes Delayed.Carrier', 'Statistics.Minutes Delayed.Late Aircraft', 'Statistics.Minutes Delayed.National Aviation System', 'Statistics.Minutes Delayed.Security', 'Statistics.Minutes Delayed.Weather']
df_airport.groupby(by=['Time.Year'])[colunas_minuto_atraso].sum().plot()

## 5. Devido ao tipo de operação das companhias aéreas, quando há atraso em um voo, isso acaba impactando os voos seguintes.
- Precisamos das informações sobre o tipo de operação das companhias
    
- Precisamos de uma base com abertura por dia e com os timestamps de cada vôo para que possamos analisar o atraso acumulado a partir de um vôo específico.