<h2>Introdução à Ciência de Dados</h2>

Usaremos para nossos estudos futuros a linguagem R. Portanto, primeiramente iremos carregar a biblioteca Tidyverse. Esse ambiente de programação já vem pré-configurado de modo que você não precisa baixá-la, caso resolva executar os seguintes exemplos localmente faça o download. Algumas funções básicas que serão usadas ao longo deste material são:

-   `mean()` Média
-   `median()` Mediana
-   `var()` Variância
-   `sd()` Desvio Padrão

### Sumário:

-   [1. Problema](#cell1)
-   [2. Lendo Dados](#cell2)
-   [3. Entendendo Dados](#cell3)
-   [4. Dplyr para manipulação e transformação de dados](#cell4)

In [2]:
# Se estiver executando localmente apague o '#'

# install.packages("tidyverse")

In [3]:
# Carrega tidyverse

library(tidyverse)

── Attaching packages ─────────────────────────────────────── tidyverse 1.3.0 ──
✔ ggplot2 3.3.0     ✔ purrr   0.3.4
✔ tibble  3.0.1     ✔ dplyr   0.8.5
✔ tidyr   1.0.2     ✔ stringr 1.4.0
✔ readr   1.3.1     ✔ forcats 0.5.0
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()


Os pacotes que vêm nessa biblioteca e nos auxiliarão na análise de dados são:

-   tidyr: ajuda a criar dados organizados
-   dplyr: manipulação e transformação de dados
-   readr: faz a leitura de arquivos
-   purrr: programação funcional e suas ferramentas
-   ggplot2: vizualização de dados e gráficos.

<a id="cell1"></a>

<h3>Problema</h3>

Antes de colocar a *mão na massa*, vamos primeiro analisar um problema. Digamos que você trabalha para uma empresa nos EUA e irá fazer uma viagem, a trabalho, de Los Angeles a Nova York. É necessário chegar pontualmente ao seu compromisso. Portanto, precisamos saber quais fatores levam ao atraso de um voo, fazer uma estimativa deles e descobrir qual linha aérea é a melhor.

A empresa IBM, mantém em seu site uma série de conjunto de dados. Nesse caso usaremos o <a href="https://developer.ibm.com/exchanges/data/all/airline/">Airline Dataset</a> que contém dados de mais de 200 milhões de voos domésticos feitos em território americano, coletados pelo Departamento de Estatísticas de Transporte dos Estados Unidos. Por questões didáticas usaremos a amostra desses dados e não o arquivo inteiro.

<ul>
    <li>data source: <a href="https://dax-cdn.cdn.appdomain.cloud/dax-airline/1.0.1/lax_to_jfk.tar.gz" target="_blank">https://dax-cdn.cdn.appdomain.cloud/dax-airline/1.0.1/lax_to_jfk.tar.gz</a></li>
    <li>data type: csv</li>
</ul>

<a id="cell2"></a>

<h3>Lendo Dados</h3>

Usamos a função read_csv() para ler arquivos csv, lembrando que ela faz parte do pacote readr. Os seus parâmetros são:

-   `file` (primeiro parâmetro): endereço URL ou caminho no seu computador onde o arquivo se encontra
-   `col_names`: por padrão temos, `col_names = TRUE`. Significa que a primeira linha é o cabeçalho do conjunto de dados.
-   `col_types`: especificamos o tipo de dados em cada coluna. Por padrão a linguagem R *advinha* eles para você. Caso queira, especifique manualmente
    -   Você pode usar os seguinte tipos: `col_logical()`, `col_integer()`, `col_number()`, `col_character()`.

A variável `companhias_aereas` guardará os dados.

In [6]:
# url onde os dados estão localizados
# url <- "https://dax-cdn.cdn.appdomain.cloud/dax-airline/1.0.1/lax_to_jfk.tar.gz"

# download do arquivo
#download.file(url, destfile = "lax_to_jfk.tar.gz")

# extrair arquivo 
#untar("lax_to_jfk.tar.gz", tar = "internal")

# Lemos o arquivo csv => read_csv (Se for de um formato diferente use a função apropriada, verifique a documentação de readr)
# companhias_aereas <- read_csv("lax_to_jfk/lax_to_jfk.csv",
#                     col_types = cols(
#                      'DivDistance' = col_number(),
#                      'DivArrDelay' = col_number()
#                      ))

# O arquivo já está instalado, portanto leremos direto do diretório dados
companhias_aereas <- read_csv("dados/losAngeles_para_novaYork.csv",
                     col_types = cols(
                      'DivDistance' = col_number(),
                      'DivArrDelay' = col_number()
                      ))

Uma vez lido o conjunto de dados, vamos fazer algumas análises iniciais sobre ele.

-   `head(dataframe, n)`: Retorna as primeiras 6 linhas do conjunto de dados se `n` não for especificado
-   `tail(dataframe, n)`: Retorna as últimas 6 linhas do conjunto de dados se `n` não for especificado
-   `colnames(dataframe)`: Retorna o nome das colunas
-   `dim(dataframe)`: Retorna as dimensões do conjunto de dados.

In [5]:
# mostra as 3 primeiras linhas
head(companhias_aereas, 3)

Month,DayOfWeek,FlightDate,Reporting_Airline,Origin,Dest,CRSDepTime,CRSArrTime,DepTime,ArrTime,⋯,ArrDelayMinutes,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,DepDelay,DepDelayMinutes,DivDistance,DivArrDelay
<dbl>,<dbl>,<date>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
3,5,2003-03-28,UA,LAX,JFK,2210,615,2209,617,⋯,2,,,,,,-1,0,,
11,4,2018-11-29,AS,LAX,JFK,1045,1912,1049,1851,⋯,0,,,,,,4,4,,
8,5,2015-08-28,UA,LAX,JFK,805,1634,757,1620,⋯,0,,,,,,-8,0,,


In [6]:
# mostra as 3 últimas linhas
tail(companhias_aereas, 3)

Month,DayOfWeek,FlightDate,Reporting_Airline,Origin,Dest,CRSDepTime,CRSArrTime,DepTime,ArrTime,⋯,ArrDelayMinutes,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay,DepDelay,DepDelayMinutes,DivDistance,DivArrDelay
<dbl>,<dbl>,<date>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,3,2010-01-06,DL,LAX,JFK,2125,543,2118,540,⋯,0,,,,,,-7,0,,
5,5,2009-05-15,AA,LAX,JFK,2115,535,2119,533,⋯,0,,,,,,4,4,,
7,4,2000-07-06,AA,LAX,JFK,2200,622,2158,610,⋯,0,,,,,,-2,0,,


<a id="cell3"></a>

<h3>Entendendo Dados</h3>

Como mencionado anteriormente, estamos interessados em voos feitos de Los Angeles para Nova York, representados respectivamente por LAX e JFK no nosso dataset (usaremos o termo em inglês dataset para nos referimos a conjunto de dados). A sigla JFK faz referência ao Aeroporto Internacional John F. Kennedy. Também queremos focar em informações referentes a possíveis atrasos, as colunas ArrDelay(Atraso na chegada), SecurityDelay (Atraso devido a medidas de segurança), CarrierDelay(atrasos que são causados pela companhia aérea como limpeza do avião), e outras são objetos da nossa análise.

In [7]:
# A amostra que estamos usando já vem com os voos LAX para JFK separados
# e com as colunas que precisamos para análise
# As dimensões e nomes das colunas do dataset são:

dim(companhias_aereas)
colnames(companhias_aereas)

In [8]:
# Salvamos o dataset no diretório dados
# Não faremos isso pois já temos o dataset salvo na pasta dados.
# write_csv(companhias_aereas, "dados/losAngeles_para_novaYork.csv")

In [9]:
#Descobrir o tipo de dados no dataset

sapply(companhias_aereas, typeof) 

<a id="cell4"></a>

<h3> Dplyr para manipulação e transformação de dados </h3>

Algumas funções do pacote dplyr:

-   `select()` Seleciona
-   `filter()` Filtra
-   `summarize()` Resume
-   `arrange()` Organiza linhas de dados por valores das colunas
-   `mutate()` Adiciona novas variáveis
-   `group_by()` Agrupa dados em um novo dataset

In [10]:
# A média de atrasos na chegada de cada companhia aéra
# Os valores na coluna ArrDelay funcionam da seguinte maneira:
# Se o valor é positivo houve atraso
# Se o valor é negativo ela chegou adiantada ou cedo.
# O operador '>' pode ser lido como então

companhias_aereas %>%
  group_by(Reporting_Airline) %>%
  summarize(atraso_Companhia = mean(ArrDelay, na.rm = TRUE))

# Podemos observar que a empresa com menor tempo médio de atraso na chegada é a AS

Reporting_Airline,atraso_Companhia
<chr>,<dbl>
AA,0.5939781
AS,-1.1111111
B6,7.8139535
DL,5.0057034
HP,13.2857143
PA (1),27.969697
TW,10.427027
UA,3.8963093
VX,6.5193798


In [11]:
# Um resumo do data_set
glimpse(companhias_aereas)

Rows: 2,855
Columns: 21
$ Month             <dbl> 3, 11, 8, 4, 11, 4, 12, 12, 2, 3, 10, 8, 6, 2, 8, 3…
$ DayOfWeek         <dbl> 5, 4, 5, 7, 3, 1, 1, 3, 4, 4, 4, 5, 4, 3, 7, 6, 4, …
$ FlightDate        <date> 2003-03-28, 2018-11-29, 2015-08-28, 2003-04-20, 20…
$ Reporting_Airline <chr> "UA", "AS", "UA", "DL", "UA", "UA", "VX", "HP", "UA…
$ Origin            <chr> "LAX", "LAX", "LAX", "LAX", "LAX", "LAX", "LAX", "L…
$ Dest              <chr> "JFK", "JFK", "JFK", "JFK", "JFK", "JFK", "JFK", "J…
$ CRSDepTime        <chr> "2210", "1045", "0805", "2205", "0840", "1450", "10…
$ CRSArrTime        <chr> "0615", "1912", "1634", "0619", "1653", "2308", "19…
$ DepTime           <chr> "2209", "1049", "0757", "2212", "0836", "1452", "10…
$ ArrTime           <chr> "0617", "1851", "1620", "0616", "1640", "2248", "19…
$ ArrDelay          <dbl> 2, -21, -14, -3, -13, -20, 1, -40, 25, 7, 5, 34, 21…
$ ArrDelayMinutes   <dbl> 2, 0, 0, 0, 0, 0, 1, 0, 25, 7, 5, 34, 21, 0, 14, 68…
$ CarrierDelay      <dbl> NA