# Aula 02 - Trabalhando com dados


## 2.1. Objetivos de aprendizagem

1. Entender os tipos de dado elementares;
2. Entender os tipos de _container_ básicos;
3. Criar vetores e armazená-los em variáveis;
4. Entender operações entre vetores;
5. Importar dados de arquivos CSV e Excel.

## 2.2. Recursos

* Para melhor aproveitamento da aula recomenda-se a leitura prévia do [Capítulo 11: Importação de dados](https://r4ds.had.co.nz/data-import.html) do Livro _R for Data Science_
* [_Dataset_ de nomes de bebê na Escócia](https://www.nrscotland.gov.uk/files//statistics/babies-first-names-full-list/summary-records/babies-names16-all-names-years.csv)

Vamos iniciar o notebook carregando as bibliotecas locais.

In [8]:
home <- path.expand("~")
lib_dir <- file.path(file.path(home, "R"), "lib")
dir.create(lib_dir, showWarnings = FALSE)

library(utils)
.libPaths(c(lib_dir, .libPaths()))

## 2.3. Tipos de dado elementares

A linguagem R possui cinco tipos de dado elementares:

**type** | **description** | **example**
:---------|:-----------------|:-------------
double   | ponto flutuante | `.333337`
integer  | integer         | `-1`, `0` , `1`
numeric  | qualquer número real (int,dbl) | 	`1`, `.5`, `-.222`
boolean  | verdadeiro ou falso | `TRUE`, `FALSE`
character | string de texto | `"hello world"`, `'howdy'`

Existem outros tipos de dados, como `factor` que será importante em algum momento, mas com os tipos apresentados é possível tratar a maior parte dos dados.

Strings de caractere podem incluir qualquer elemento, incluindo aspas, desde que utilizando a contrabarra para escapar

In [1]:
my_string <- "The instructor said, \"R is cool,\" and the class agreed."
cat(my_string) # cat() prints the arguments

The instructor said, "R is cool," and the class agreed.

Os números que não possuem anotação de tipo são armazenados como double, mesmo aqueles que são números decimais, como `9`. Se quiser utilizar um inteiro exato, utilize o sufixo `L` (`9L` para o caso).

Se for necessário descobrir o tipo de dado, é possível utilizar a função `class`.

In [2]:
class(10) # numeric
class(10L) # integer
class("10") # string
class(10L == 11L) # logical

## 2.4. Tipos de _container_ básicos

### 2.4.1. Vetores

Vetores são as estruturas de dados mais importantes na linguagem R. Assim como na Matemática, um vetor em R é um conjunto de elementos ordenados, e todos os seus membros devem ser do mesmo tipo. Para criar um vetor é possível utilizar a sintaxe `c(...)`:

In [3]:
## put information into a vector using c(...)
c(1, 2, 3, 4)
c("this", "is", "cool")
1:6 # shortcut to make a vector of all integers x:y

#### 2.4.1.1. Selecionando valores em um vetor

Para selecionar valores de um vetor utilizamos o operador especial `[]` ou o vetor especial `LETTERS`

In [6]:
word <- c(18, 19, 20, 21, 4, 9, 15)
LETTERS[word]

In [8]:
word[1]

Também é possível criar _named vectors_ onde cada um dos elementos tem um nome. Ex.:

In [9]:
vec <- c(first = 77.9, second = -13.2, third = 100.1)
vec

Assim é possível acessar os elementos através do nome

In [10]:
vec[c("third", "second", "second")]

Note no exemplo que a ordem de acesso num vetor com nome (`named vector`) não faz diferença.

Também é possível acessar os elementos utilizando um vetor lógico entre colchetes. Nesse caso serão impressos somente os elementos cujo resultado for `TRUE` para o vetor de origem.

In [16]:
length(LETTERS)
LETTERS[c(TRUE, FALSE)]

#### 2.4.1.2. Sequências de repetição

O operador `:` cria uma lista de elementos no intervalo definido. Contudo, se for necessário repetir o vetor várias vezes existe a função `rep()`, que permite diferentes formas de repetição.

In [17]:
rep(0, 10)                      # ten zeroes
rep(c(1L, 3L), times = 7)       # alternating 1 and 3, 7 times
rep(c("A", "B", "C"), each = 2) # A to C, 2 times each

A função `rep()` e útil para criar um vetor de valores lógicos (`TRUE`/`FALSE` ou `0`/`1`) para selecionar valores de outro vetor.

In [18]:
# Get subject IDs in the pattern Y Y N N ...
subject_ids <- 1:40
yynn <- rep(c(TRUE, FALSE), each = 2, 
            length.out = length(subject_ids))
subject_ids[yynn]

E se for necessário criar uma sequência que possua incremento diferente de números inteiros? Para isso existe a função `seq()`:

In [19]:
seq(from = -1, to = 1, by = 0.2)
seq(0, 100, length.out = 11)
seq(0, 10, along.with = LETTERS)

#### 2.4.1.3. Operações entre vetores

A linguagem R realiza operações entre vetores de uma forma bastante peculiar. Vejamos um exemplo utilizando _z-scores_ que representa o _score_ de desvio (um _score_ menos a média) dividido pelo desvio padrão com quatro IQ _scores_

In [2]:
## example IQ scores: mu = 100, sigma = 15
iq <- c(86, 101, 127, 99)

Se quisermos subtrair a média dos quatro `scores` do vetor, utilizamos apenas o seguinte trecho de código:

In [3]:
iq - 100

Esse comando vai subtrair 100 (a média) de cada um dos elementos do vetor. A linguagem R assume que esse é o comportamento desejado, custituindo o que se define como _vectorized operation_ , e facilita a representação de operações complexas de maneira mais eficiente.

Tomemos como exemplo o cálculo dos z-scores:

![Fórmula z-score](images/z-scores.png)

onde X são os scores, mi a média e alfa o desvio padrão. É possível expressar a fórmula em R utilizando a seguinte sintaxe:

In [5]:
## z-scores
(iq - 100) / 15

Assim, computamos os _z-scores_ com apenas uma linha de código.

#### 2.4.1.4. Exercícios

1. O vetor `letters` contém as letras do alfabeto em inglês. Utilize um vetor indexado de inteiros para extrair as letras da palavra 'cat'.
2. A função `colors()` retorna o nome de todas as cores que o R conhece. Qual o tamanho do vetor retornado por essa função? Utilize as operações da linguagem R para encontrar a resposta.
3. A chamada `runif(1000, 0, 1)` desenha 1000 números de uma distribuição uniforme de 0 a 1, simulando os p-valores retornados ao realizar 1000 experimentos onde a hipótese nula é verdadeira. Armazene o resultado dessa chamada na variável `pvals`. Crie um vetor lógico chamado `is_sig` que é `TRUE` se o elemento correspondente de `pvals` for menor que .05, e `FALSE` se não for. Depois, utilize esse vetor lógio para recuperar esses p-valores. Finalmente, calcule a proporção dos p-valores que foi insignificante.


In [1]:
# Faça os exercícios aqui

### 2.4.2. Listas

Como informado na seção anterior, os vetores podem armazenar somente valores do mesmo tipo. O que fazer então se desejarmos armazenar uma coleção de valores com diferentes tipos? É para isso que utilizamos o tipo `list`, utilizando a função `list()`.

In [6]:
albums <- 
  list(
    Michael_Jackson = c(
      "Off the Wall",
      "Thriller",
      "Bad",
      "Dangerous"
    ),
    Nirvana = c(
      "Bleach",
      "Nevermind",
      "In Utero"
    )
  )  

names(albums)
length(albums)

### 2.4.3. Dados tabulados

A maior parte dos dados que utilizamos nas análises são **dados tabulados** , ou seja, dados oriundos de tabelas.  Estruturas de dados tabulares, como listas, permitem criar uma coleção de dados de diferentes tipos, mas restrita ao fato de que cada coluna da tabela (elemento da lista) deve ter o mesmo número de elementos. A versão em R das tabelas é chamada de `data.frame`, enquanto a versão do _tidyverse_ é chamada de `tibble`. Como os tibbles são um formato mais fácil de trabalhar, vamos focar os primeiros exemplos nessa estrutura de dados. Para conhecer melhor a diferença entre essas duas estruturas de dados, veja `vignette("tibble")`.

Ao criar um tibble é possível utilizar a função `tibble()` definindo o tipo de dado no momento da criação. Note que se for necessário repetir um valor, só é preciso definir um vetor com um único elemento; o R vai estender o vetor para preencher a tabela. Todas as colunas no tibble devem ter o mesmo tamanho ou tamanho 1.

Para utilizar a função `tibble()`, é necessário carregar o pacote `tibble` ou o pacote `tidyverse`.

In [9]:
install.packages("tidyverse")
library("tidyverse")

Installing package into ‘/home/eduardo/R/lib’
(as ‘lib’ is unspecified)

── [1mAttaching packages[22m ─────────────────────────────────────── tidyverse 1.3.0 ──

[32m✔[39m [34mggplot2[39m 3.2.1     [32m✔[39m [34mpurrr  [39m 0.3.3
[32m✔[39m [34mtibble [39m 2.1.3     [32m✔[39m [34mdplyr  [39m 0.8.3
[32m✔[39m [34mtidyr  [39m 1.0.0     [32m✔[39m [34mstringr[39m 1.4.0
[32m✔[39m [34mreadr  [39m 1.3.1     [32m✔[39m [34mforcats[39m 0.4.0

── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()



É possível obter informação a respeito das dimensões da tabela utilizando a função `ncols()` (colunas), `nrows()` (linhas) ou `dim()` (vetor com número de linhas e colunas).

In [10]:
months <- tibble(ID = 1:12,
                 name = c("Jan", "Feb", "Mar", "Apr",
                          "May", "Jun", "Jul", "Aug",
                          "Sep", "Oct", "Nov", "Dec"))

# print it
months

# how many rows?
nrow(months)

# how many columns?
ncol(months)

ID,name
<int>,<chr>
1,Jan
2,Feb
3,Mar
4,Apr
5,May
6,Jun
7,Jul
8,Aug
9,Sep
10,Oct


#### 2.4.3.2. Visualizando seu tibble

Sempre visualize seus dados uma vez que tiver criado a tabela para armazená-los. Depois veja pelo menos um ubstrato das informações após cada transformação.

As funções para visualização dos dados em um tibble são 3: `View()`, `print()` e `glimpse()`. Perceba que não é comum imprimir os dados em um script; normalmente trata-se de uma operação intermediária para validação das informações. 

O método `print()` pode ser chamado, mas também é executado ao simplesmente chamar a variável na linha de comando. Normalmente utilizamos a função `print()` quando desejamos controlar a disposição das informações.

A utilização do Jupyter facilita a visualização de dados tabulados. Para exemplificar a diferença, utilizamos a tabela `starwars` que faz parte do _tidyverse_ . No console do R, somente as 10 primeiras linhas seriam visualizadas:

```
starwars

## # A tibble: 87 x 13
##    name  height  mass hair_color skin_color eye_color birth_year gender
##    <chr>  <int> <dbl> <chr>      <chr>      <chr>          <dbl> <chr> 
##  1 Luke…    172    77 blond      fair       blue            19   male  
##  2 C-3PO    167    75 <NA>       gold       yellow         112   <NA>  
##  3 R2-D2     96    32 <NA>       white, bl… red             33   <NA>  
##  4 Dart…    202   136 none       white      yellow          41.9 male  
##  5 Leia…    150    49 brown      light      brown           19   female
##  6 Owen…    178   120 brown, gr… light      blue            52   male  
##  7 Beru…    165    75 brown      light      blue            47   female
##  8 R5-D4     97    32 <NA>       white, red red             NA   <NA>  
##  9 Bigg…    183    84 black      light      brown           24   male  
## 10 Obi-…    182    77 auburn, w… fair       blue-gray       57   male  
## # … with 77 more rows, and 5 more variables: homeworld <chr>, species <chr>,
## #   films <list>, vehicles <list>, starships <list>
```

Com a utilização do Jupyter vemos os dados da tabela formatados para auxiliar a visualização:

In [11]:
starwars

name,height,mass,hair_color,skin_color,eye_color,birth_year,gender,homeworld,species,films,vehicles,starships
<chr>,<int>,<dbl>,<chr>,<chr>,<chr>,<dbl>,<chr>,<chr>,<chr>,<list>,<list>,<list>
Luke Skywalker,172,77.0,blond,fair,blue,19.0,male,Tatooine,Human,"Revenge of the Sith , Return of the Jedi , The Empire Strikes Back, A New Hope , The Force Awakens","Snowspeeder , Imperial Speeder Bike","X-wing , Imperial shuttle"
C-3PO,167,75.0,,gold,yellow,112.0,,Tatooine,Droid,"Attack of the Clones , The Phantom Menace , Revenge of the Sith , Return of the Jedi , The Empire Strikes Back, A New Hope",,
R2-D2,96,32.0,,"white, blue",red,33.0,,Naboo,Droid,"Attack of the Clones , The Phantom Menace , Revenge of the Sith , Return of the Jedi , The Empire Strikes Back, A New Hope , The Force Awakens",,
Darth Vader,202,136.0,none,white,yellow,41.9,male,Tatooine,Human,"Revenge of the Sith , Return of the Jedi , The Empire Strikes Back, A New Hope",,TIE Advanced x1
Leia Organa,150,49.0,brown,light,brown,19.0,female,Alderaan,Human,"Revenge of the Sith , Return of the Jedi , The Empire Strikes Back, A New Hope , The Force Awakens",Imperial Speeder Bike,
Owen Lars,178,120.0,"brown, grey",light,blue,52.0,male,Tatooine,Human,"Attack of the Clones, Revenge of the Sith , A New Hope",,
Beru Whitesun lars,165,75.0,brown,light,blue,47.0,female,Tatooine,Human,"Attack of the Clones, Revenge of the Sith , A New Hope",,
R5-D4,97,32.0,,"white, red",red,,,Tatooine,Droid,A New Hope,,
Biggs Darklighter,183,84.0,black,light,brown,24.0,male,Tatooine,Human,A New Hope,,X-wing
Obi-Wan Kenobi,182,77.0,"auburn, white",fair,blue-gray,57.0,male,Stewjon,Human,"Attack of the Clones , The Phantom Menace , Revenge of the Sith , Return of the Jedi , The Empire Strikes Back, A New Hope",Tribubble bongo,"Jedi starfighter , Trade Federation cruiser, Naboo star skiff , Jedi Interceptor , Belbullab-22 starfighter"


A função `print()` pode ser chamada explicitamente para visualizar todos os dados no formato do console. O exemplo abaixo utiliza o símbolo `+Inf` para representar infinitas linhas.

In [14]:
print(starwars, n = +Inf)

[38;5;246m# A tibble: 87 x 13[39m
   name  height   mass hair_color skin_color eye_color birth_year gender
   [3m[38;5;246m<chr>[39m[23m  [3m[38;5;246m<int>[39m[23m  [3m[38;5;246m<dbl>[39m[23m [3m[38;5;246m<chr>[39m[23m      [3m[38;5;246m<chr>[39m[23m      [3m[38;5;246m<chr>[39m[23m          [3m[38;5;246m<dbl>[39m[23m [3m[38;5;246m<chr>[39m[23m 
[38;5;250m 1[39m Luke…    172   77   blond      fair       blue            19   male  
[38;5;250m 2[39m C-3PO    167   75   [31mNA[39m         gold       yellow         112   [31mNA[39m    
[38;5;250m 3[39m R2-D2     96   32   [31mNA[39m         white, bl… red             33   [31mNA[39m    
[38;5;250m 4[39m Dart…    202  136   none       white      yellow          41.9 male  
[38;5;250m 5[39m Leia…    150   49   brown      light      brown           19   female
[38;5;250m 6[39m Owen…    178  120   brown, gr… light      blue            52   male  
[38;5;250m 7[39m Beru…    165   75   brown

Contudo, o exemplo acaba ocultando algumas colunas. Se quisermos visualizar todas as colunas, podemos utilizar a função `glimpse()`, que inverte a orientação da tabela para mostrar todas as colunas.

In [15]:
glimpse(starwars)

Observations: 87
Variables: 13
$ name       [3m[38;5;246m<chr>[39m[23m "Luke Skywalker", "C-3PO", "R2-D2", "Darth Vader", "Leia O…
$ height     [3m[38;5;246m<int>[39m[23m 172, 167, 96, 202, 150, 178, 165, 97, 183, 182, 188, 180, …
$ mass       [3m[38;5;246m<dbl>[39m[23m 77.0, 75.0, 32.0, 136.0, 49.0, 120.0, 75.0, 32.0, 84.0, 77…
$ hair_color [3m[38;5;246m<chr>[39m[23m "blond", NA, NA, "none", "brown", "brown, grey", "brown", …
$ skin_color [3m[38;5;246m<chr>[39m[23m "fair", "gold", "white, blue", "white", "light", "light", …
$ eye_color  [3m[38;5;246m<chr>[39m[23m "blue", "yellow", "red", "yellow", "brown", "blue", "blue"…
$ birth_year [3m[38;5;246m<dbl>[39m[23m 19.0, 112.0, 33.0, 41.9, 19.0, 52.0, 47.0, NA, 24.0, 57.0,…
$ gender     [3m[38;5;246m<chr>[39m[23m "male", NA, NA, "male", "female", "male", "female", NA, "m…
$ homeworld  [3m[38;5;246m<chr>[39m[23m "Tatooine", "Tatooine", "Naboo", "Tatooine", "Alderaan", "…
$ species    [3m[38;5;246m<chr>

A função `View()` pode ser utilizada no console para visualizar a mesma tabela fornecida pelo Jupyter ao chamar a função `print()`. Por razões óbvias não é possível utilizar a função no Jupyter.

A maior vantagem da utilização dos notebooks é poder visualizar os dados em formato amigável a cada passo da análise, facilitando ainda a importação dos resultados.

#### 2.4.3.2. Acessando linhas e colunas

Existem diferentes formas de acessar colunas em uma tabela, mas trataremos o acesso aos dados na tabela mais a frente no curso. Alguns exemplos:

In [20]:
months[1, ] # first row

months[, 2] # second column (position)

months[1:3, ] # first 3 months

months[, c("name")] # access column by name

months$name  # by column name

ID,name
<int>,<chr>
1,Jan


name
<chr>
Jan
Feb
Mar
Apr
May
Jun
Jul
Aug
Sep
Oct


ID,name
<int>,<chr>
1,Jan
2,Feb
3,Mar


name
<chr>
Jan
Feb
Mar
Apr
May
Jun
Jul
Aug
Sep
Oct


#### 2.4.3.3. Exercícios

1. Utilize a função `as_tibble()` para formatar o dataset `mtcars` do pacote `tidyverse` e apresente os resultados no console do R.
2. Crie um tibble com nome, idade e sexo de 3-5 pessoas cujos nomes, idade e sexo você conhece.
3. Crie um tibble que tem a estrutura da tabela abaixo, utilizando a menor quantidade de digitação possível. Armazene os resultados na variável `my_tbl`. Dica: `rep()`
```
## # A tibble: 8 x 4
##      ID A     B     C    
##   <int> <chr> <chr> <chr>
## 1     1 A1    B1    C1   
## 2     2 A1    B2    C1   
## 3     3 A1    B1    C1   
## 4     4 A1    B2    C1   
## 5     5 A2    B1    C1   
## 6     6 A2    B2    C1   
## 7     7 A2    B1    C1   
## 8     8 A2    B2    C1
```
4. Faça a conversão da base `iris` nativa do R para um tibble, armazenando o resultado na variável `iris2`.

In [2]:
# Faça os exercícios aqui

## 2.5. Importando dados

Os dados utilizados nas análise estarão em diferentes fontes e formatos. Para carregar os arquivos, algumas extensões serão mais facilmente tratadas pela linguagem R, sendo suportadas por funções nativas para saída e/ou entrada.

**Extensão** | **Tipo de Arquivo** | **Leitura** | **Escrita**
:-------------|:---------------------|:-------------|:-------------
.csv | Separado por vírgula | readr::read_csv() | readr::write_csv()
.xls, .xslx | Planilha do Excel | readxl::read_excel() | N/A
.rds | Arquivo binário do R | readRDS() | saveRDS()
.RData | Arquivo binário do R | load() | save()

**Obs.:** Para chamadas de função, lembre-se da sintaxe. A chamada `readr::read_csv()` representa a função `read_csv()` do pacote `readr`.

O tipo de dados mais comum é o `.csv`. Como o nome sugere, trata-se de uma sequência de dados separados por vírgula, onde a primeira linha normalmente representa o nome das colunas. Vejamos um exemplo do [registro de nomes de bebê na Escócia](http://www.nrscotland.gov.uk/statistics-and-data/statistics/statistics-by-theme/vital-events/names/babies-first-names/babies-first-names-summary-records-comma-separated-value-csv-format):

```
yr,sex,FirstForename,number,rank,position
1974,B,David,1794,1,1
1974,B,John,1528,2,2
1974,B,Paul,1260,3,3
1974,B,Mark,1234,4,4
1974,B,James,1202,5,5
1974,B,Andrew,1067,6,6
1974,B,Scott,1060,7,7
1974,B,Steven,1020,8,8
1974,B,Robert,885,9,9
1974,B,Stephen,866,10,10
```

Esse dataset é composto de seis variáveis, cujos nomes estão na primeira linha: `yr`, `sex`, `FirstForename`, `number`, `rank` e `position`. Observe que os valores estão em ordem, separados por vírgula, cada linha uma ocorrência.

Ao realizar a leitura de arquivos do tipo CSV é uma boa prática utilizar a função `readr::read_csv()`. Na maior parte dos casos os dados lidos serão armazenados em uma variável.

### 2.5.1. Escrevendo os dados

Para salvar no formato CSV, utilize a função `readr::write_csv()`

## 2.6. Exercícios

1. Utilize os dados fornecidos de nomes de bebê na Escócia para ler os dados no formato CSV. Processe e depois escreva os resultados em um novo CSV.