# Trilha 6

Para iniciar a trilha 6 deste componente curricular, iremos explorar alguns pacotes de manipulação de dados.

O R tem muitas funções integradas, que são acessadas através do pacote base que já vem por padrão no motor da linguagem. Contudo, também podemos usar funções que são armazenadas em pacotes criados por outras pessoas.

Para instalar pacotes você utiliza a função *install.packages()*. O processo de instalação faz com que o seu motor da linguagem vá até o repositório do [*Comprehensive R Archive Network* - **CRAN**](https://cran.r-project.org/) e faz o download para o local que está executando. Somente após fazer o download é possível utilizar as funções internas.

Para usar as funções de um pacote, você precisa primeiro carregá-lo usando a função *library()*. Isso precisa ser feito todas as vezes que iniciar o seu projeto, porém uma vez carregado durante a execução, não precisa carregar novamente para usar as funções. Há uma convenção de boa prática que diz para fazer isso na parte superior de seu *jupyter notebook* para que seja fácil ver de quais pacotes seu código R utiliza.

## Atualizando o motor do R

Para garantir que estamos utilizando a ultima versão do R no nosso computador, podemos forçar a atualização da versão do motor de processamento através de pacotes. 

O primeiro passo para atualizar o ambiente é instalar o pacote **installR** e depois carregá-lo. Para então ser feita a chamada da função *updateR* e seguir com o guia de instalação. 

In [1]:
#install.packages("installr")
#library(installr)

#updateR()

#version

Em seguida é feita a intalação e atualização do pacote **DevTools**. Este pacote ajuda a construir pacotes mais fácil, fornecendo funções R que simplificam as tarefas comuns.

In [2]:
#install.packages('devtools')
#library(devtools)

## Instalando o pacote Tidyverse

Depois da garantia de atualização do ambiente, vamos explorar algumas outras funções. Neste caso vamos usar um pacote bastante utilizado no mercado de trabalho para fazer manipulação de dados, chamado **tidyverse**. Este pacote permite carregar, modificar e plotar gráficos com os dados. Veja abaixo o código que faz a instalação do pacote e depois faz o carregamento das suas funções para esta execução do ambiente.

In [3]:
#install.packages('tidyverse', dependencies=TRUE)
library(tidyverse)

-- [1mAttaching packages[22m ------------------------------------------------------------------------------- tidyverse 1.3.1 --

[32mv[39m [34mggplot2[39m 3.3.5     [32mv[39m [34mpurrr  [39m 0.3.4
[32mv[39m [34mtibble [39m 3.1.3     [32mv[39m [34mdplyr  [39m 1.0.7
[32mv[39m [34mtidyr  [39m 1.1.3     [32mv[39m [34mstringr[39m 1.4.0
[32mv[39m [34mreadr  [39m 2.0.0     [32mv[39m [34mforcats[39m 0.5.1

-- [1mConflicts[22m ---------------------------------------------------------------------------------- tidyverse_conflicts() --
[31mx[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31mx[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()



Depois de instalado e carregado o pacote **tidyverse**, vamos testá-lo com o carregamento de um conjunto de dados com informações de desempenho das companhias aéreas. Estes *datasets* são coletadas do site [ASA - American Statistical ASsociation](https://community.amstat.org/jointscsg-section/dataexpo/dataexpo2009), em arquivo Zip que possui 1.6Gb (quando descompactado chega a 12 Gb de dados).

> Acompanhe a seção **Trilha 6 - Download dataset** para reproduzir como este conjunto de dados foi criado

Foi feito um recorte para ficar mais fácil a manipulação e podem ser baixados do repositório aqui no componente curricular. Quando você baixar todos os *jupyter notebook* para reproduzir os experimentos, estes *datasets* já estarão disponíveis.

A função *read_csv* do pacote *tidyverse* permite que um arquivo **csv** seja carregado em uma variável, já no formato de *Data Frame*. Siga o código abaixo para carregar os dados.

In [4]:
voos2008 <- read_csv("voos2008.csv")

[1m[1mRows: [1m[22m[34m[34m100000[34m[39m [1m[1mColumns: [1m[22m[34m[34m29[34m[39m

[36m--[39m [1m[1mColumn specification[1m[22m [36m------------------------------------------------------------------------------------------------[39m
[1mDelimiter:[22m ","
[31mchr[39m  (5): UniqueCarrier, TailNum, Origin, Dest, CancellationCode
[32mdbl[39m (24): Year, Month, DayofMonth, DayOfWeek, DepTime, CRSDepTime, ArrTime, ...


[36mi[39m Use [30m[47m[30m[47m`spec()`[47m[30m[49m[39m to retrieve the full column specification for this data.
[36mi[39m Specify the column types or set [30m[47m[30m[47m`show_col_types = FALSE`[47m[30m[49m[39m to quiet this message.



Para observar as primeiras linhas do conjunto de dados, é executada a função *head* que irá retornar as primeiras 6 linhas do *data frame*. Veja como fica esta chamada.

In [5]:
head(voos2008)

Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>,...,<dbl>,<dbl>,<dbl>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2008,9,21,7,1909,1900,2040,2036,DL,156,...,10,17,0,,0,,,,,
2008,9,18,4,1440,1445,1630,1636,US,1199,...,5,24,0,,0,,,,,
2008,8,11,1,2033,2035,2335,2340,AA,864,...,7,12,0,,0,,,,,
2008,5,3,6,1936,1930,2012,2007,HA,556,...,5,10,0,,0,,,,,
2008,5,13,2,2332,2340,654,719,US,1404,...,4,14,0,,0,,,,,
2008,1,13,7,907,915,1008,1020,MQ,3661,...,2,13,0,,0,,,,,


Agora que já estamos com o conjunto de dados carregado em memória, te convido a me acompanhar para estudarmos as possibilidades do pacote *tidyverse*.

## Desafios com o Dataset 

Depois de carregar o conjunto de dados, pode-se explorar alguns problemas que foram propostos no desafio da ASA para este *dataset*. Os desafios são direcionados à resolver estas questões:
  1) Qual é a melhor hora do dia / dia da semana / época do ano para voar para minimizar atrasos?
  
  2) Os aviões mais antigos sofrem mais atrasos?
  
  3) Como o número de pessoas voando entre locais diferentes muda ao longo do tempo?
  
  4) Quão bem o tempo prevê atrasos de avião?
  
  5) Você pode detectar falhas em cascata à medida que atrasos em um aeroporto criam atrasos em outros? Existem links críticos no sistema?

Vamos explorar e trabalhar em cada um destes desafios com o objetivo de fixar o conhecimento de manipulação de dados com linguagem R.

Uma coisa muito importante quando se trabalha com dados, é conhecê-lo. Aqui há um **mini-dicionário de dados** sobre esse *dataset*.


Variável **=** Descrição  **|** 
**Year** **=** 1987-2008  **|**
**Month** **=** 1-12  **|**
**DayofMonth** **=** 1-31  **|**
**DayOfWeek** **=** 1 (segunda-feira) - 7 (domingo)  **|**
**DepTime** **=** hora de partida real (local, hhmm)  **|**
**CRSDepTime** **=** hora de partida programada (local, hhmm)  **|**
**ArrTime** **=** hora de chegada real (local, hhmm)  **|**
**CRSArrTime** **=** 	hora de chegada programada (local, hhmm)  **|**
**UniqueCarrier** **=** código de operadora único  **|**
**FlightNum** **=** Número do vôo  **|**
**TailNum** **=** número da cauda do avião  **|**
**ActualElapsedTime** **=** em minutos  **|**
**CRSElapsedTime** **=** em minutos  **|**
**AirTime** **=** em minutos  **|**
**ArrDelay** **=** atraso de chegada, em minutos  **|**
**DepDelay** **=** atraso de partida, em minutos  **|**
**Origin** **=** código de aeroporto IATA de origem  **|**
**Dest** **=** código de aeroporto IATA de destino  **|**
**Distance** **=** em milhas  **|**
**TaxiIn** **=** tempo taxiando no pouso, em minutos **|**
**TaxiOut** **=** tempo taxiando na decolagem, em minutos  **|**
**Cancelled** **=** o vôo foi cancelado?  **|**
**CancellationCode** **=** motivo do cancelamento (A = operadora, B = clima, C = NAS, D = segurança)  **|**
**Diverted** **=** 1 = sim, 0 = não **|**
**CarrierDelay** **=** em minutos  **|**
**WeatherDelay** **=** em minutos  **|**
**NASDelay** **=** em minutos  **|**
**SecurityDelay** **=** em minutos  **|**
**LateAircraftDelay** **=** em minutos 

###  Minimizar atrasos

Olhando para o dataset, não são todas as variáveis (ou colunas) que precisamos trazer para resolver este problema. O problema é bastante claro **Qual é a melhor hora do dia / dia da semana / época do ano para voar para minimizar atrasos?**, então podemos olhar o dicionário de dados deste *dataset* para escolher algumas variáveis que fazem sentido para ajudar a resolver o problema. No bloco de código abaixo, são apresentados duas funções do pacote *tidyverse*. A primeira função é o *pipe*, que é representado pelo símbolo *%>%* e a segunda é a *select*.

O *pipe* permite que funções sejam executadas de forma ordenada, ou seja, uma função será executada somente após a outra. Repare no símbolo do *pipe* está entre a variável com os dados e a função *select*. Isso faz com que o interpretador do R execute a instrução que está do lado direito em cima do objeto que está do lado esquerdo do *pipe*. Ou seja, executa o *select* em cima da base de dados.

Já o *select* é a função responsável por selecionar determinadas colunas em um *dataset*, fazendo com que somente aquelas colunas definidas sejam mantidas no retorno da função. Observe que o código abaixo faz a seleção de apenas 7 variáveis dentre as 29 existentes no *dataset* e armazena em um novo objeto chamado **novoDataset**.

In [6]:
novoDataset <- voos2008 %>% select(Year,Month,DayofMonth,DepTime,DepDelay,ArrDelay,Cancelled) 

Por enquanto todas as 100.000 observações (linhas) são mantidas, mas somente as 7 variáveis que são relevantes para resolver o problema foram retornadas.

In [7]:
str(novoDataset)
head(novoDataset)

tibble [100,000 x 7] (S3: tbl_df/tbl/data.frame)
 $ Year      : num [1:100000] 2008 2008 2008 2008 2008 ...
 $ Month     : num [1:100000] 9 9 8 5 5 1 9 10 5 5 ...
 $ DayofMonth: num [1:100000] 21 18 11 3 13 13 17 8 17 4 ...
 $ DepTime   : num [1:100000] 1909 1440 2033 1936 2332 ...
 $ DepDelay  : num [1:100000] 9 -5 -2 6 -8 -8 6 -7 4 -12 ...
 $ ArrDelay  : num [1:100000] 4 -6 -5 5 -25 -12 6 -13 5 -42 ...
 $ Cancelled : num [1:100000] 0 0 0 0 0 0 0 0 0 0 ...


Year,Month,DayofMonth,DepTime,DepDelay,ArrDelay,Cancelled
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2008,9,21,1909,9,4,0
2008,9,18,1440,-5,-6,0
2008,8,11,2033,-2,-5,0
2008,5,3,1936,6,5,0
2008,5,13,2332,-8,-25,0
2008,1,13,907,-8,-12,0


Agora repare em mais uma cláusula utilizada com o *pipe*, veja que foi adicionara no final da linha uma nova instrução. Desta vez, a função *filter* foi incluída, e adicionado um predicado de comparação com o valor 9 na variável *Month*. Esta condição de filter fará com que o dado seja retornado apenas quando o mês for setembro. 

Seguindo a estrutura de como o *pipe* funciona, o filtro para o mês de setembro será executado somente após a seleção de variáveis já ter sido executada. Ou seja, executa a instrução que está do lado direito do *pipe* em cima do objeto que está do lado esquerdo.

In [8]:
novoDataset <- voos2008 %>% select(Year,Month,DayofMonth,DepTime,DepDelay,ArrDelay,Cancelled) %>% filter (Month == 9)
str(novoDataset)

tibble [7,739 x 7] (S3: tbl_df/tbl/data.frame)
 $ Year      : num [1:7739] 2008 2008 2008 2008 2008 ...
 $ Month     : num [1:7739] 9 9 9 9 9 9 9 9 9 9 ...
 $ DayofMonth: num [1:7739] 21 18 17 19 11 2 12 15 12 10 ...
 $ DepTime   : num [1:7739] 1909 1440 1054 1742 1925 ...
 $ DepDelay  : num [1:7739] 9 -5 6 -3 -5 -5 -5 NA -6 33 ...
 $ ArrDelay  : num [1:7739] 4 -6 6 -16 11 -15 -10 NA 8 38 ...
 $ Cancelled : num [1:7739] 0 0 0 0 0 0 0 1 0 0 ...


Bom, agora que já sabemos como realizar operações de *pipe*, *select* e *filter* é hora de voltar para resolver o problema proposto. O objetivo principal é pensar em quais épocas são melhores para ter mais eficiência com os vôos, porém o problema pede três separações diferentes: Hora do dia, dia da semana, época do ano. Para nos facilitar vamos pensar em época do ano como o mês.

Ao fazer a operação manual para calcular a média de atraso de um mês específico, pode-se filtrar o mês que se deseja e então calcular a média atraso de partida. A média é calculada com a função *mean*. Veja o codigo abaixo como seria uma forma de se fazer este calculo da média.

In [9]:
novoDataset <- voos2008 %>% select(Year,Month,DayofMonth,DepTime,DepDelay,ArrDelay,Cancelled) %>% filter (Month == 9)
mean(novoDataset$DepDelay, na.rm = TRUE)

Porém, o que nós buscamos é enteder a melhor época do ano para não ter os atrasos. Nós combinamos há pouco que trataríamos a época como meses, então vamos fazer esse calculo para todos os meses. Para isso, vamos inserir três novas funções no nosso estudo. A função *mutate* é capaz de criar uma nova variável a partir de alguma operação programada, a função *group_by* que agrupa os dados a partir das variáveis definidas, e a função *arrange* que ordena os dados de forma crescente a partir das variáveis informadas.

Veja como fica uma possível forma de resolver o problema, utilizando as funções que aprendemos até agora:

In [10]:
voos2008 %>%
 select(Month,DepDelay) %>%
 group_by(Month) %>%
 mutate(atrasoMedio = mean(DepDelay, na.rm = TRUE)) %>%
 select(Month,atrasoMedio) %>%
 arrange(atrasoMedio, Month) %>%
 unique()

Month,atrasoMedio
<dbl>,<dbl>
9,3.728758
10,4.084229
11,5.606048
5,7.768342
4,8.237131
8,10.654034
1,11.328178
7,11.843637
3,12.263297
6,13.610787
