# Trilha 6

Para iniciar a trilha 6 deste componente curricular, iremos explorar alguns pacotes de manipulação de dados.

O R tem muitas funções integradas, que são acessadas através do pacote base que já vem por padrão no motor da linguagem. Contudo, também podemos usar funções que são armazenadas em pacotes criados por outras pessoas.

Para instalar pacotes você utiliza a função *install.packages()*. O processo de instalação faz com que o seu motor da linguagem vá até o repositório do [*Comprehensive R Archive Network* - **CRAN**](https://cran.r-project.org/) e faz o download para o local que está executando. Somente após fazer o download é possível utilizar as funções internas.

Para usar as funções de um pacote, você precisa primeiro carregá-lo usando a função *library()*. Isso precisa ser feito todas as vezes que iniciar o seu projeto, porém uma vez carregado durante a execução, não precisa carregar novamente para usar as funções. Há uma convenção de boa prática que diz para fazer isso na parte superior de seu *jupyter notebook* para que seja fácil ver de quais pacotes seu código R utiliza.

## Atualizando o motor do R

Para garantir que estamos utilizando a ultima versão do R no nosso computador, podemos forçar a atualização da versão do motor de processamento através de pacotes. 

O primeiro passo para atualizar o ambiente é instalar o pacote **installR** e depois carregá-lo. Para então ser feita a chamada da função *updateR* e seguir com o guia de instalação. 

In [1]:
#install.packages("installr")
#library(installr)

#updateR()

#version

Em seguida é feita a intalação e atualização do pacote **DevTools**. Este pacote ajuda a construir pacotes mais fácil, fornecendo funções R que simplificam as tarefas comuns.

In [2]:
#install.packages('devtools')
#library(devtools)

## Instalando o pacote Tidyverse

Depois da garantia de atualização do ambiente, vamos explorar algumas outras funções. Neste caso vamos usar um pacote bastante utilizado no mercado de trabalho para fazer manipulação de dados, chamado **tidyverse**. Este pacote permite carregar, modificar e plotar gráficos com os dados. Veja abaixo o código que faz a instalação do pacote e depois faz o carregamento das suas funções para esta execução do ambiente.

In [3]:
#install.packages('tidyverse', dependencies=TRUE)
library(tidyverse)

-- [1mAttaching packages[22m ------------------------------------------------------------------------------- tidyverse 1.3.1 --

[32mv[39m [34mggplot2[39m 3.3.5     [32mv[39m [34mpurrr  [39m 0.3.4
[32mv[39m [34mtibble [39m 3.1.3     [32mv[39m [34mdplyr  [39m 1.0.7
[32mv[39m [34mtidyr  [39m 1.1.3     [32mv[39m [34mstringr[39m 1.4.0
[32mv[39m [34mreadr  [39m 2.0.0     [32mv[39m [34mforcats[39m 0.5.1

-- [1mConflicts[22m ---------------------------------------------------------------------------------- tidyverse_conflicts() --
[31mx[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31mx[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()



Depois de instalado e carregado o pacote **tidyverse**, vamos testá-lo com o carregamento de um conjunto de dados com informações de desempenho das companhias aéreas. Estes *datasets* são coletadas do site [ASA - American Statistical ASsociation](https://community.amstat.org/jointscsg-section/dataexpo/dataexpo2009), em arquivo Zip que possui 1.6Gb (quando descompactado chega a 12 Gb de dados).

> Acompanhe a seção **Trilha 6 - Download dataset** para reproduzir como este conjunto de dados foi criado

Foi feito um recorte para ficar mais fácil a manipulação e podem ser baixados do repositório aqui no componente curricular. Quando você baixar todos os *jupyter notebook* para reproduzir os experimentos, estes *datasets* já estarão disponíveis.

A função *read_csv* do pacote *tidyverse* permite que um arquivo **csv** seja carregado em uma variável, já no formato de *Data Frame*. Siga o código abaixo para carregar os dados.

In [4]:
voos2008 <- read_csv("voos2008.csv")

[1m[1mRows: [1m[22m[34m[34m100000[34m[39m [1m[1mColumns: [1m[22m[34m[34m29[34m[39m

[36m--[39m [1m[1mColumn specification[1m[22m [36m------------------------------------------------------------------------------------------------[39m
[1mDelimiter:[22m ","
[31mchr[39m  (5): UniqueCarrier, TailNum, Origin, Dest, CancellationCode
[32mdbl[39m (24): Year, Month, DayofMonth, DayOfWeek, DepTime, CRSDepTime, ArrTime, ...


[36mi[39m Use [30m[47m[30m[47m`spec()`[47m[30m[49m[39m to retrieve the full column specification for this data.
[36mi[39m Specify the column types or set [30m[47m[30m[47m`show_col_types = FALSE`[47m[30m[49m[39m to quiet this message.



Para observar as primeiras linhas do conjunto de dados, é executada a função *head* que irá retornar as primeiras 6 linhas do *data frame*. Veja como fica esta chamada.

In [5]:
head(voos2008)

Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>,...,<dbl>,<dbl>,<dbl>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2008,9,21,7,1909,1900,2040,2036,DL,156,...,10,17,0,,0,,,,,
2008,9,18,4,1440,1445,1630,1636,US,1199,...,5,24,0,,0,,,,,
2008,8,11,1,2033,2035,2335,2340,AA,864,...,7,12,0,,0,,,,,
2008,5,3,6,1936,1930,2012,2007,HA,556,...,5,10,0,,0,,,,,
2008,5,13,2,2332,2340,654,719,US,1404,...,4,14,0,,0,,,,,
2008,1,13,7,907,915,1008,1020,MQ,3661,...,2,13,0,,0,,,,,


Agora que já estamos com o conjunto de dados carregado em memória, te convido a me acompanhar para estudarmos as possibilidades do pacote *tidyverse*.

## Desafios com o Dataset 

Depois de carregar o conjunto de dados, pode-se explorar alguns problemas que são resolvidos com este *dataset*. Os desafios são direcionados à resolver questões como:
  1) Qual é o dia da semana / época do ano para voar que minimiza atrasos?
  
  2) Quais são os aviões que sofrem mais atrasos?
  
  3) Qual aeroporto atrasa mais nas decolagens?
  
  4) Qual é a principal causa dos vôos cancelados?
  
Vamos explorar e trabalhar em cada um destes desafios com o objetivo de fixar o conhecimento de manipulação de dados com linguagem R.

Uma coisa muito importante quando se trabalha com dados, é conhecê-lo. Aqui há um **mini-dicionário de dados** sobre esse *dataset*.

Variável **=** Descrição  **|** 
**Year** **=** 1987-2008  **|**
**Month** **=** 1-12  **|**
**DayofMonth** **=** 1-31  **|**
**DayOfWeek** **=** 1 (segunda-feira) - 7 (domingo)  **|**
**DepTime** **=** Hora de partida real (local, hhmm)  **|**
**CRSDepTime** **=** Hora de partida programada (local, hhmm)  **|**
**ArrTime** **=** Hora de chegada real (local, hhmm)  **|**
**CRSArrTime** **=** Hora de chegada programada (local, hhmm)  **|**
**UniqueCarrier** **=** Código de operadora único  **|**
**FlightNum** **=** Número do vôo  **|**
**TailNum** **=** Número da cauda do avião  **|**
**ActualElapsedTime** **=** Tempo real de vôo em minutos  **|**
**CRSElapsedTime** **=** Tempo programado de vôo em minutos  **|**
**AirTime** **=** Tempo de vôo em minutos  **|**
**ArrDelay** **=** Atraso de chegada, em minutos  **|**
**DepDelay** **=** Atraso de partida, em minutos  **|**
**Origin** **=** Código de aeroporto IATA de origem  **|**
**Dest** **=** Código de aeroporto IATA de destino  **|**
**Distance** **=** Distância em milhas  **|**
**TaxiIn** **=** Tempo taxiando no pouso, em minutos **|**
**TaxiOut** **=** Tempo taxiando na decolagem, em minutos  **|**
**Cancelled** **=** Vôo foi cancelado?  **|**
**CancellationCode** **=** Motivo do cancelamento (A = operadora, B = clima, C = NAS, D = segurança)  **|**
**Diverted** **=** 1 = sim, 0 = não **|**
**CarrierDelay** **=** Atraso da operadora em minutos  **|**
**WeatherDelay** **=** Atraso do clima em minutos  **|**
**NASDelay** **=** Atraso NAS em minutos  **|**
**SecurityDelay** **=** Atraso da segurança em minutos  **|**
**LateAircraftDelay** **=** Atraso da aeronave em minutos 

###  Minimizar atrasos

Olhando para o dataset, não são todas as variáveis (ou colunas) que precisamos trazer para resolver este problema. O problema é bastante claro **Qual é o dia da semana / época do ano para voar que minimiza atrasos??**, então podemos olhar o dicionário de dados deste *dataset* para escolher algumas variáveis que fazem sentido para ajudar a resolver o problema. No bloco de código abaixo, são apresentados duas funções do pacote *tidyverse*. A primeira função é o *pipe*, que é representado pelo símbolo *%>%* e a segunda é a *select*.

O *pipe* permite que funções sejam executadas de forma ordenada, ou seja, uma função será executada somente após a outra. Repare no símbolo do *pipe* está entre a variável com os dados e a função *select*. Isso faz com que o interpretador do R execute a instrução que está do lado esquerdo, para então, a partir do seu resultado, executar a instrução que está do lado direito do *pipe*. Ou seja, este exemplo de código irá executar o *select* em cima da base de dados.

Já o *select* é a função responsável por selecionar determinadas colunas em um *dataset*, fazendo com que somente aquelas colunas definidas sejam mantidas no retorno da função. Observe que o código abaixo faz a seleção de apenas 7 variáveis dentre as 29 existentes no *dataset* e armazena em um novo objeto chamado **novoDataset**.

In [6]:
novoDataset <- voos2008 %>% select(Year,Month,DayofMonth,DepTime,DepDelay,ArrDelay,Cancelled) 

Por enquanto todas as 100.000 observações (linhas) são mantidas, mas somente as 7 variáveis que são relevantes para resolver o problema foram retornadas. É possível ver este resultado com a função *str()* já estudada, e também com a função *head()* estudada há pouco.

In [7]:
str(novoDataset)
head(novoDataset)

tibble [100,000 x 7] (S3: tbl_df/tbl/data.frame)
 $ Year      : num [1:100000] 2008 2008 2008 2008 2008 ...
 $ Month     : num [1:100000] 9 9 8 5 5 1 9 10 5 5 ...
 $ DayofMonth: num [1:100000] 21 18 11 3 13 13 17 8 17 4 ...
 $ DepTime   : num [1:100000] 1909 1440 2033 1936 2332 ...
 $ DepDelay  : num [1:100000] 9 -5 -2 6 -8 -8 6 -7 4 -12 ...
 $ ArrDelay  : num [1:100000] 4 -6 -5 5 -25 -12 6 -13 5 -42 ...
 $ Cancelled : num [1:100000] 0 0 0 0 0 0 0 0 0 0 ...


Year,Month,DayofMonth,DepTime,DepDelay,ArrDelay,Cancelled
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2008,9,21,1909,9,4,0
2008,9,18,1440,-5,-6,0
2008,8,11,2033,-2,-5,0
2008,5,3,1936,6,5,0
2008,5,13,2332,-8,-25,0
2008,1,13,907,-8,-12,0


Agora repare em mais uma condição no bloco de código que utiliza o *pipe*, veja que foi adicionada no final da linha uma nova instrução. Desta vez, a função *filter* foi incluída, e adicionado um operador lógico de comparação com o valor 9 na variável *Month*. Esta função *filter* fará com que o dado seja retornado apenas quando o mês for setembro. 

Seguindo a estrutura de como o *pipe* funciona, o filtro para o mês de setembro será executado somente após a seleção de variáveis já ter sido executada. Ou seja, executa a instrução que está do lado direito do *pipe* em cima do objeto que está do lado esquerdo.

Em ordem, este bloco de código executará na ordem:
1) Pegar todos os dados;

2) Selecionar apenas 7 variáveis;

3) Fazer um filtro para o mês de setembro.

Observe que, agora com o filtro aplicado, o conjunto de dados não tem mais 100.000 linhas. Ficou com apenas 7.739 que foram observadas no mês de setembro.

In [8]:
novoDataset <- voos2008 %>% select(Year,Month,DayofMonth,DepTime,DepDelay,ArrDelay,Cancelled) %>% filter(Month == 9)
str(novoDataset)

tibble [7,739 x 7] (S3: tbl_df/tbl/data.frame)
 $ Year      : num [1:7739] 2008 2008 2008 2008 2008 ...
 $ Month     : num [1:7739] 9 9 9 9 9 9 9 9 9 9 ...
 $ DayofMonth: num [1:7739] 21 18 17 19 11 2 12 15 12 10 ...
 $ DepTime   : num [1:7739] 1909 1440 1054 1742 1925 ...
 $ DepDelay  : num [1:7739] 9 -5 6 -3 -5 -5 -5 NA -6 33 ...
 $ ArrDelay  : num [1:7739] 4 -6 6 -16 11 -15 -10 NA 8 38 ...
 $ Cancelled : num [1:7739] 0 0 0 0 0 0 0 1 0 0 ...


Bom, agora que já sabemos como realizar operações de *pipe*, *select* e *filter* é hora de voltar para resolver o problema proposto. O objetivo principal é pensar em quais épocas são melhores para ter mais eficiência com os vôos, porém o problema pede duas formas diferentes de encontrar essa época: Dia da semana e época do ano. Para nos simplificar o estudo, vamos pensar em época do ano como sendo o mês.

Ao fazer a operação manual para calcular a média de atraso de um mês específico, pode-se filtrar o mês que se deseja e então calcular a média de atraso da decolagem. A média é calculada com a função *mean*. Veja o codigo abaixo como seria uma forma de se fazer este calculo da média.

In [9]:
novoDataset <- voos2008 %>%
    select(Year,Month,DayofMonth,DepTime,DepDelay,ArrDelay,Cancelled) %>%
    filter(Month == 9)

mean(novoDataset$DepDelay, na.rm = TRUE)

Veja que a média de atraso no mês de setembro é de 3.72 minutos. Porém, o que nós buscamos é descobrir a melhor época do ano para não ter os atrasos.

Nós combinamos há pouco que trataríamos a época como meses, então vamos fazer esse calculo para todos os meses?

Para isso, vamos inserir três novas funções no nosso estudo. A função *mutate* é capaz de criar uma nova variável a partir de alguma operação programada, a função *group_by* fará o agrupamento dos dados a partir das variáveis definidas, e a função *arrange* que ordena os dados de forma crescente a partir das variáveis informadas.

Veja como fica uma possível forma de resolver o problema, utilizando as funções que aprendemos até agora:

In [16]:
voos2008 %>%
    select(Month,DepDelay) %>%
    group_by(Month) %>%
    mutate(atrasoMedio = mean(DepDelay, na.rm = TRUE)) %>%
    select(Month,atrasoMedio) %>%
    unique() %>%
    arrange(atrasoMedio) 

Month,atrasoMedio
<dbl>,<dbl>
9,3.728758
10,4.084229
11,5.606048
5,7.768342
4,8.237131
8,10.654034
1,11.328178
7,11.843637
3,12.263297
6,13.610787


A média do atraso foi criada com a função *mean* e salva em uma nova variável chamada **atrasoMedio** com a função *mutate*. No final do bloco de código acima, foi incluída a função *unique* que remove os valores duplicados. Como anteriormente à função *unique* estava uma função de seleção das variáveis *Month* e *atrasoMedio*, somente uma aparição da combinação destas duas variáveis será apresentada. Por fim, após todos os processos de manipulação de dados é feita a ordenação com a variável *atrasoMedio* para que o resultado apresente os atrasos em ordem crescente. Assim é possível ver quais meses são os melhores para voar.

> **Pergunta 1)** Aproveitando a função *mutate*, como deve ser feito o cálculo de tempo médio de atraso de vôo com todas observações (linhas) que temos no *dataset* original? Mostre os 10 primeiros registros deste resultado.

> **Pergunta 2)** No experimento para mostrar o mês com menos atrasos, o que acontece se executar a função *unique()* antes de executar a função *select*?

## Qual aeroporto devemos evitar?

Ao se atentear às questões que envolvem os atrasos, alguns outros desafios podem ser pensados. Um deles é **Qual aeroporto atrasa mais nas decolagens?**. Ao explorar as funções que já estudamos até aqui, esta é uma resposta relativamente simples de se encontrar neste *dataset*.

A primeira coisa a se fazer é pensar nas variáveis que serão utilizadas. Para isso, fique atento à pergunta que precisa de resposta. Neste caso, é uma pergunta que exige apenas o aeroporto de decolagem (que é a variável **Origin**) e qual é o atraso na decolagem (que é a variável **DepDelay**). Será que conseguimos responder a questão só com estas variáveis?

Para fazer esta construção passo a passo, e melhorar a forma de fixar o conhecimento estudado. Faça a seleção apenas destas duas variáveis e veja o resultado.

In [41]:
voos2008 %>%
    select(Origin, DepDelay) %>%
    head(10)

Origin,DepDelay
<chr>,<dbl>
MCO,9
EWR,-5
DFW,-2
HNL,6
LAS,-8
DFW,-8
JAN,6
SLC,-7
BOS,4
TUS,-12


Após fazer a seleção das variáveis, é hora de agrupar os códigos do aeroporto de origem. Isso nos ajudará a encontrar a soma dos atrasos. Veja o uso da função *group_by* e *mutate*, e em seguida os 10 primeiros registros deste resultado.

In [42]:
voos2008 %>%
    select(Origin, DepDelay) %>%
    group_by(Origin) %>%
    mutate(totalAtraso = sum(DepDelay, na.rm = TRUE)) %>%
    head(10)

Origin,DepDelay,totalAtraso
<chr>,<dbl>,<dbl>
MCO,9,20649
EWR,-5,35770
DFW,-2,43555
HNL,6,1784
LAS,-8,24756
DFW,-8,43555
JAN,6,1986
SLC,-7,11334
BOS,4,16569
TUS,-12,2322


Repare que os mesmos aeroportos de origem apresentam o mesmo total de atraso. Procure o aeroporto *DFW* na lista que foi apresentada acima. O total de atraso neste aeroporto é de 43.555 minutos durante todas as observações que estão no *dataset*.

O passo seguinte é unir os valores unicos deste resultado, isso é feito com a função *unique*, e para garantir que os dados estão ordenados com os principais atrasos no topo da lista, é necessário fazer a ordenação de forma decrescente. Nós vimos no e-book que a função *arrange* nos dá o resultado em ordem crescente. E se deixar o resultado em ordem crescente, nós encontraremos os aeroportos que tem menos atrasos, como pode ser visto no bloco de código a seguir:

In [38]:
voos2008 %>%
    select(Origin, DepDelay) %>%
    group_by(Origin) %>%
    mutate(totalAtraso = sum(DepDelay, na.rm = TRUE)) %>%
    select(Origin, totalAtraso) %>%
    unique() %>%
    arrange(totalAtraso) %>%
    head(10)


Origin,atrasoMedio
<chr>,<dbl>
ITO,-259
BIL,-169
PIH,-121
RAP,-97
RDM,-94
BFL,-82
GCC,-80
GTF,-75
IYK,-71
PSC,-70


Para fazer a ordem inversa dos valores, ao invés de usar somente a função *arrange* é necessário adicionar a função *desc*. Esta função tem o objetivo de apresentar os valores do resultado de forma decrescente a partir da variável que foi informada no parâmetro. Veja como fica o código final.

In [47]:
voos2008 %>%
    select(Origin, DepDelay) %>%
    group_by(Origin) %>%
    mutate(totalAtraso = sum(DepDelay, na.rm = TRUE)) %>%
    select(Origin, totalAtraso) %>%
    unique() %>%
    arrange(desc(totalAtraso)) %>%
    head(10)

Origin,totalAtraso
<chr>,<dbl>
ORD,82327
ATL,68122
DFW,43555
EWR,35770
DEN,35063
LAX,30335
IAH,27415
SFO,26169
PHX,25232
LAS,24756


E dos vôos cancelados, quais são as principais causas? 

In [72]:
voosCancelados <- voos2008 %>%
    select(Cancelled, CancellationCode) %>%
    filter(Cancelled == 1) %>%
    group_by(CancellationCode) %>%
    mutate(totalAtraso = sum(Cancelled)) %>%
    select(CancellationCode, totalAtraso) %>%
    unique() %>%
    arrange(desc(totalAtraso))

head(voosCancelados)

CancellationCode,totalAtraso
<chr>,<dbl>
A,790
B,785
C,416


Repare que o resultado ficou com o código do cancelamento, mas isso não é muito interessante para quem for consumir o resultado do seu trabalho. Se você se lembrar, lá no dicionário de dados há uma descrição para cada um dos 4 códigos de cancelamento. Que tal juntarmos a descrição com essa manipulação que fizemos?

Para isso, é necessário criar um outro *dataframe*, para depois utilizarmos uma função de *join* para unir este novo *dataframe* com o resultado que foi criado.

Vamos criar este *dataframe* fazendo passo a passo para ficar didático. Então, relembrando o que foi aprendido na trilha 5, crie 2 vetores, um deles terá os códigos e o outro a descrição. 

In [68]:
codigoCancelamento = c('A','B','C','D')
descricaoCancelamento = c('Operadora', 'Clima', 'NAS', 'Segurança')

Codigo,Descricao
<chr>,<chr>
A,Operadora
B,Clima
C,NAS
D,Segurança


Com os dois vetores criados, é hora de incluir uma nova função no nosso aprendizado. A função *data.frame* recebe uma lista de parâmetros compostos que equivalem ao nome da coluna e seus valores. Veja que vamos usar a função *data.frame* e passar o nome da coluna que queremos como **Codigo** dizendo que ela terá os valores do vetor de código que criamos anteriormente. A mesma coisa será feita com a coluna **Descricao** que receberá os valores que trouxemos lá do dicionário.

Veja como é esse código:

In [70]:
tiposOcorrencias <- data.frame(Codigo = codigoCancelamento, Descricao = descricaoCancelamento)

head(tiposOcorrencias)

Unnamed: 0_level_0,Codigo,Descricao
Unnamed: 0_level_1,<chr>,<chr>
1,A,Operadora
2,B,Clima
3,C,NAS
4,D,Segurança


Agora é hora de unir os resultados dos dois *data frame*, o que tem a sua manipulação de dados e o que tem o código e a descrição dos cancelamentos. Para isso, é necessário utilizar a função de *join* do pacote *tidyverse*. Esta função permite unir os conjuntos de dados de algumas formas, eu recomendo explorar a [documentação do join](https://dplyr.tidyverse.org/reference/join.html) para ter mais detalhes sobre as opções.

No nosso exemplo vamos utilizar a função *inner_join* informando por qual variável (coluna) que faremos a união dos *data frames*.

In [78]:
inner_join(x=voosCancelados,y=tiposOcorrencias, by = c("CancellationCode" = "Codigo"))

CancellationCode,totalAtraso,Descricao
<chr>,<dbl>,<chr>
A,790,Operadora
B,785,Clima
C,416,NAS


Veja que agora, quem for consumir seu resultado, saberá o que significa *A*, *B*, *C* ou *D*. 

Neste e-book nós estudamos o pacote *tidyverse* e algumas de suas funções:
* Pipe
* Select
* group_by
* mutate
* arrange / desc
* unique
* join

## Respostas das perguntas

**Pergunta 1)** Aproveitando a função *mutate*, como deve ser feito o cálculo de tempo médio de atraso de vôo com todas observações (linhas) que temos no *dataset* original? Mostre os 10 primeiros registros deste resultado.

> **Resposta 1)**

In [18]:
voos2008 %>%
    select(ArrTime,CRSArrTime, ArrDelay, TailNum, Month) %>%
    group_by(TailNum) %>%
    mutate(tempoAtraso = mean(ArrTime - CRSArrTime)) %>%
    select(TailNum, tempoAtraso) %>% 
    unique() %>%
    arrange(tempoAtraso, TailNum) %>%
    head(10)

TailNum,tempoAtraso
<chr>,<dbl>
N245AY,-2030.0
N289YV,-1174.0
N1610D,-1105.0
N067AA,-1073.0
N3DCAA,-919.6
N791UA,-794.6667
N200UU,-779.3333
N583HA,-748.3333
N078AA,-705.0
N062AA,-686.0


**Pergunta 2)** No experimento para mostrar o mês com menos atrasos, o que acontece se executar a função unique() antes de executar a função select?

> **Resposta 2)** Como o conjunto de dados possui muitas variáveis ainda (5 no total), a função *unique* faz com que os dados repetidos sejam removidos. Porém, ela usa todas as variáveis existentes naquele momento, fazendo com que as 5 variáveis sejam utlizadas. Para garantir que somente as 12 observações sejam apresentadas, coloque a função *unique* no momento que realmente precise fazer a remoção de valores duplicados

In [19]:
voos2008 %>%
    select(Month,DepDelay) %>%
    group_by(Month) %>%
    mutate(atrasoMedio = mean(DepDelay, na.rm = TRUE)) %>%
    unique() %>%
    select(Month,atrasoMedio) %>%
    arrange(atrasoMedio) 

Month,atrasoMedio
<dbl>,<dbl>
9,3.728758
9,3.728758
9,3.728758
9,3.728758
9,3.728758
9,3.728758
9,3.728758
9,3.728758
9,3.728758
9,3.728758
