# O OPERADOR PIPE

O operador `%>%` (pipe) foi uma das grandes revoluções recentes do R, tornando a leitura de códigos mais lógica, fácil e compreensível. Ele foi introduzido por Stefan Milton Bache no pacote magrittr e já existem diversos pacotes construidos para facilitar a sua utilizaçăo.

Para começar a utilizar o pipe, instale e carregue o pacote `magrittr`.

In [69]:
install.packages("magrittr")
library(magrittr)

"package 'magrittr' is in use and will not be installed"


A ideia do operador `%>%` (pipe) é bem simples: usar o valor resultante da expressão do lado esquerdo como primeiro argumento da função do lado direito.

Nos casos mais simples, o pipe parece não trazer grandes vantagens. Agora, veja como fica um caso mais etapas.

#### Vamos calcular a raiz quadrada da soma dos valores de 1 a 4. Primeiro, sem o pipe.


In [70]:
x <- c(1, 2, 3, 4)
sqrt(sum(x))

#### Agora com o pipe.

In [71]:
x %>% sum() %>% sqrt()

O caminho que o código `x %>% sum %>% sqrt` seguiu foi 
- enviar o objeto x como argumento da função sum() e 
- em seguida, enviar a saida da expressão sum(x) como argumento da função sqrt(). 

Observe que escrevemos o código na mesma ordem das operações. 
A utilização de parênteses após o nome das funções não é necessário, mas recomendável.

## Exemplo com o dataset airquality

Vamos fazer mais um exemplo do pipe, mas antes vamos ocnhcer o datset airquality

In [72]:
head(airquality)

Unnamed: 0_level_0,Ozone,Solar.R,Wind,Temp,Month,Day
Unnamed: 0_level_1,<int>,<int>,<dbl>,<int>,<int>,<int>
1,41.0,190.0,7.4,67,5,1
2,36.0,118.0,8.0,72,5,2
3,12.0,149.0,12.6,74,5,3
4,18.0,313.0,11.5,62,5,4
5,,,14.3,56,5,5
6,28.0,,14.9,66,5,6


Às vezes, queremos que o resultado do lado esquerdo vá para outro argumento do lado direito que não o primeiro. Para isso, utilizamos um . como marcador.

#### Queremos que o dataset seja recebido pelo segundo argumento (data=) da função "lm".

In [73]:
airquality %>%
  na.omit %>% 
  lm(Ozone ~ Wind + Temp + Solar.R, data = .) %>% 
  summary


Call:
lm(formula = Ozone ~ Wind + Temp + Solar.R, data = .)

Residuals:
    Min      1Q  Median      3Q     Max 
-40.485 -14.219  -3.551  10.097  95.619 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -64.34208   23.05472  -2.791  0.00623 ** 
Wind         -3.33359    0.65441  -5.094 1.52e-06 ***
Temp          1.65209    0.25353   6.516 2.42e-09 ***
Solar.R       0.05982    0.02319   2.580  0.01124 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 21.18 on 107 degrees of freedom
Multiple R-squared:  0.6059,	Adjusted R-squared:  0.5948 
F-statistic: 54.83 on 3 and 107 DF,  p-value: < 2.2e-16


# MANIPULAÇÃO  DE DADOS

## INTRODUÇÃO

Esta AULA trataremos do tema manipulação de dados. 

Trata-se de uma tarefa dolorosa e demorada, tomando muitas vezes a maior parte do tempo de uma análise estatística. 

Essa etapa é essencial em qualquer análise de dados e, apesar de negligenciada pela academia, é decisiva para o sucesso de estudos aplicados.

Usualmente, o cientista de dados parte de uma base “crua” e a transforma até obter uma base de dados analítica, que, a menos de transformações simples, está preparada para passar por análises estatísticas.

A figura abaixo mostra a fase de “disputa” com os dados (data wrangling) para deixá-los no formato analítico.

<img src=https://www.curso-r.com/material/manipulacao/figures/ciclo-ciencia-de-dados.png alt="Drawing" style="width: 600px;"/>

Um conceito importante para obtenção de uma base analítica é o data tidying, ou arrumação de dados. Uma base é considerada tidy se

 1. Cada linha da base representa uma observação.
 2. Cada coluna da base representa uma variável.

A base de dados analítica é estruturada de tal forma que pode ser colocada diretamente em ambientes de modelagem estatística ou de visualização. Nem sempre uma base de dados analítica está no formato tidy, mas usualmente são necessários poucos passos para migrar de uma para outra. A filosofia tidy é a base do tidyverse.

Os principais pacotes encarregados da tarefa de estruturar os dados são o dplyr e o tidyr. Eles serão o tema desse tópico. Instale e carregue os pacotes utilizando:

In [1]:
install.packages("dplyr")
install.packages("tidyr")

Installing package into 'C:/Users/domin/OneDrive/Documentos/R/win-library/4.0'
(as 'lib' is unspecified)



package 'dplyr' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\domin\AppData\Local\Temp\RtmpYpNT33\downloaded_packages


Installing package into 'C:/Users/domin/OneDrive/Documentos/R/win-library/4.0'
(as 'lib' is unspecified)



package 'tidyr' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\domin\AppData\Local\Temp\RtmpYpNT33\downloaded_packages


In [2]:
library(dplyr)
library(tidyr)

"package 'dplyr' was built under R version 4.0.3"

Attaching package: 'dplyr'


The following objects are masked from 'package:stats':

    filter, lag


The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union


"package 'tidyr' was built under R version 4.0.3"


## TRABALHANDO COM TIBBLES

Uma tibble nada mais é do que um data.frame, mas com um método de impressão mais adequado.

As tibbles são parte do pacote tibble. Assim, para começar a usá-las, instale e carregue o pacote.

In [78]:
install.packages("tibble")
library(tibble)

"package 'tibble' is in use and will not be installed"


vamos trabalhar com uma base de filmes do IMDB. Essa base pode ser baixada [clicando aqui](https://github.com/curso-r/site-v2/raw/master/content/material/importacao/data/imdb.rds).

In [79]:
install.packages("readr")

"package 'readr' is in use and will not be installed"


In [80]:
library(readr)

In [3]:
imdb <- readr::read_rds("imdb.rds")

Assim, utilizaremos o objeto imdb para acessar os dados.

In [4]:
head(imdb)

titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
Avatar,2009,James Cameron,178,Color,Action|Adventure|Fantasy|Sci-Fi,USA,A partir de 13 anos,237000000,760505847,7.9,33000,CCH Pounder,Joel David Moore,Wes Studi
Pirates of the Caribbean: At World's End,2007,Gore Verbinski,169,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,300000000,309404152,7.1,0,Johnny Depp,Orlando Bloom,Jack Davenport
The Dark Knight Rises,2012,Christopher Nolan,164,Color,Action|Thriller,USA,A partir de 13 anos,250000000,448130642,8.5,164000,Tom Hardy,Christian Bale,Joseph Gordon-Levitt
John Carter,2012,Andrew Stanton,132,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,263700000,73058679,6.6,24000,Daryl Sabara,Samantha Morton,Polly Walker
Spider-Man 3,2007,Sam Raimi,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,258000000,336530303,6.2,0,J.K. Simmons,James Franco,Kirsten Dunst
Tangled,2010,Nathan Greno,100,Color,Adventure|Animation|Comedy|Family|Fantasy|Musical|Romance,USA,Livre,260000000,200807262,7.8,29000,Brad Garrett,Donna Murphy,M.C. Gainey


Veja que, no RStudio, apenas as dez primeiras linhas da tibble são impressas na tela. Além disso, as colunas que não couberem na largura do console serão omitidas. Também são apresentadas a dimensão da tabela e as classes de cada coluna.

Como estou usando o Jpyter Notebook a formatação pode ser um pouco diferente

In [5]:
head(imdb)

titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
Avatar,2009,James Cameron,178,Color,Action|Adventure|Fantasy|Sci-Fi,USA,A partir de 13 anos,237000000,760505847,7.9,33000,CCH Pounder,Joel David Moore,Wes Studi
Pirates of the Caribbean: At World's End,2007,Gore Verbinski,169,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,300000000,309404152,7.1,0,Johnny Depp,Orlando Bloom,Jack Davenport
The Dark Knight Rises,2012,Christopher Nolan,164,Color,Action|Thriller,USA,A partir de 13 anos,250000000,448130642,8.5,164000,Tom Hardy,Christian Bale,Joseph Gordon-Levitt
John Carter,2012,Andrew Stanton,132,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,263700000,73058679,6.6,24000,Daryl Sabara,Samantha Morton,Polly Walker
Spider-Man 3,2007,Sam Raimi,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,258000000,336530303,6.2,0,J.K. Simmons,James Franco,Kirsten Dunst
Tangled,2010,Nathan Greno,100,Color,Adventure|Animation|Comedy|Family|Fantasy|Musical|Romance,USA,Livre,260000000,200807262,7.8,29000,Brad Garrett,Donna Murphy,M.C. Gainey


### O PACOTE DPLYR

O dplyr é o pacote mais útil para realizar transformação de dados, aliando simplicidade e eficiência de uma forma elegante. 

Os scripts em R que fazem uso inteligente dos verbos dplyr e as facilidades do operador pipe tendem a ficar mais legíveis e organizados sem perder velocidade de execução.

As principais funções do dplyr são:

- filter() - filtra linhas
- select() - seleciona colunas
- arrange() - ordena a base
- mutate() - cria/modifica colunas
- group_by() - agrupa a base
- summarise() - sumariza a base

Todas essas funções seguem as mesmas características:

- O input é sempre uma tibble e o output é sempre um tibble.
- Colocamos o tibble no primeiro argumento e o que queremos fazer nos outros argumentos.
- A utilização é facilitada com o emprego do operador %>%.
- O pacote faz uso extensivo de NSE (non standard evaluation).

As principais vantagens de se usar o dplyr em detrimento das funções do R base são:

- Manipular dados se torna uma tarefa muito mais simples.
- O código fica mais intuitivo de ser escrito e mais simples de ser lido.
- O pacote dplyr utiliza C e C++ por trás da maioria das funções, o que geralmente torna o código mais eficiente.
- É possível trabalhar com diferentes fontes de dados, como bases relacionais (SQL) e data.table.
Agora, vamos avaliar com mais detalhes as principais funções do pacote dplyr.

### FILTRANDO LINHAS

A função filter() filtra linhas. Ela é semelhante à função subset(), do R base. 
O código abaixo retorna apenas filmes com nota maior que nove.

In [6]:
imdb %>% 
  filter(nota_imdb > 9)

titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
The Shawshank Redemption,1994,Frank Darabont,142,Color,Crime|Drama,USA,A partir de 18 anos,25000000,28341469.0,9.3,108000,Morgan Freeman,Jeffrey DeMunn,Bob Gunton
The Godfather,1972,Francis Ford Coppola,175,Color,Crime|Drama,USA,A partir de 18 anos,6000000,134821952.0,9.2,43000,Al Pacino,Marlon Brando,Robert Duvall
Kickboxer: Vengeance,2016,John Stockwell,90,,Action,USA,Outros,17000000,,9.1,0,Matthew Ziff,T.J. Storm,Sam Medina


Para fazer várias condições, use os operadores lógicos & e | ou separe filtros entre vírgulas. Vamos seleicionar filmes posteriores a 2010 e com nota maior que 8.5

In [7]:
imdb %>% 
  filter(ano > 2010 & nota_imdb > 8.5)

titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
Interstellar,2014,Christopher Nolan,169,Color,Adventure|Drama|Sci-Fi,USA,A partir de 13 anos,165000000.0,187991439.0,8.6,349000,Matthew McConaughey,Anne Hathaway,Mackenzie Foy
Running Forever,2015,Mike Mayhall,88,Color,Family,USA,Outros,5000000.0,,8.6,49,David Raizor,Cody Howard,Martin Kove
A Beginner's Guide to Snuff,2016,Mitchell Altieri,87,Color,Comedy|Horror|Thriller,USA,Outros,,,8.7,8,Kimberley Crossman,Luke Edwards,Bree Williamson
Kickboxer: Vengeance,2016,John Stockwell,90,,Action,USA,Outros,17000000.0,,9.1,0,Matthew Ziff,T.J. Storm,Sam Medina
Butterfly Girl,2014,Cary Bell,78,Color,Documentary,USA,Outros,180000.0,,8.7,88,Abigail Evans,Stacie Evans,Emily Gorell


Agora vamos selecionar filems cuja receita foi maior que o orçamento OU que a nota foi maior que nove

In [8]:
imdb %>% 
  filter(receita > orcamento | nota_imdb > 9)

titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
Avatar,2009,James Cameron,178,Color,Action|Adventure|Fantasy|Sci-Fi,USA,A partir de 13 anos,237000000,760505847,7.9,33000,CCH Pounder,Joel David Moore,Wes Studi
Pirates of the Caribbean: At World's End,2007,Gore Verbinski,169,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,300000000,309404152,7.1,0,Johnny Depp,Orlando Bloom,Jack Davenport
The Dark Knight Rises,2012,Christopher Nolan,164,Color,Action|Thriller,USA,A partir de 13 anos,250000000,448130642,8.5,164000,Tom Hardy,Christian Bale,Joseph Gordon-Levitt
Spider-Man 3,2007,Sam Raimi,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,258000000,336530303,6.2,0,J.K. Simmons,James Franco,Kirsten Dunst
Avengers: Age of Ultron,2015,Joss Whedon,141,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,250000000,458991599,7.5,118000,Chris Hemsworth,Robert Downey Jr.,Scarlett Johansson
Batman v Superman: Dawn of Justice,2016,Zack Snyder,183,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,250000000,330249062,6.9,197000,Henry Cavill,Lauren Cohan,Alan D. Purwin
Pirates of the Caribbean: Dead Man's Chest,2006,Gore Verbinski,151,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,225000000,423032628,7.3,5000,Johnny Depp,Orlando Bloom,Jack Davenport
Man of Steel,2013,Zack Snyder,143,Color,Action|Adventure|Fantasy|Sci-Fi,USA,A partir de 13 anos,225000000,291021565,7.2,118000,Henry Cavill,Christopher Meloni,Harry Lennix
The Avengers,2012,Joss Whedon,173,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,220000000,623279547,8.1,123000,Chris Hemsworth,Robert Downey Jr.,Scarlett Johansson
The Amazing Spider-Man,2012,Marc Webb,153,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,230000000,262030663,7.0,56000,Emma Stone,Andrew Garfield,Chris Zylka


O operador %in% é muito útil na hora de criar filtros. O resultado das operações com %in% é um vetor lógico o tamanho do vetor do elemento da esquerda, identificando quais elementos da esquerda batem com algum elemento da direita.

In [86]:
letters

In [87]:
letters %in% c("a", "e", "z")

Agora vamos criar um filtro para os Filmes dos diretores Stven Spielberg e Quentin Tarantino

In [88]:
imdb %>% 
  filter(diretor %in% c("Steven Spielberg", "Quentin Tarantino")) %>%
  head()

titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
Indiana Jones and the Kingdom of the Crystal Skull,2008,Steven Spielberg,122,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,185000000,317011114,6.2,5000,Harrison Ford,Ray Winstone,Jim Broadbent
War of the Worlds,2005,Steven Spielberg,116,Color,Adventure|Sci-Fi|Thriller,USA,A partir de 13 anos,132000000,234277056,6.5,0,Tom Cruise,Lisa Ann Walter,Rick Gonzalez
The Adventures of Tintin,2011,Steven Spielberg,107,Color,Action|Adventure|Family|Mystery,USA,Livre,135000000,77564037,7.4,44000,Toby Jones,Mackenzie Crook,Tony Curran
Minority Report,2002,Steven Spielberg,145,Color,Action|Mystery|Sci-Fi|Thriller,USA,A partir de 13 anos,102000000,132014112,7.7,0,Tom Cruise,Frank Grillo,Jessica Capshaw
Django Unchained,2012,Quentin Tarantino,165,Color,Drama|Western,USA,A partir de 18 anos,100000000,162804648,8.5,199000,Leonardo DiCaprio,Christoph Waltz,Ato Essandoh
A.I. Artificial Intelligence,2001,Steven Spielberg,146,Color,Adventure|Drama|Sci-Fi,USA,A partir de 13 anos,100000000,78616689,7.1,11000,Haley Joel Osment,William Hurt,Kevin Sussman


In [89]:
library(stringr)

imdb %>% 
  filter(str_detect(generos, "Action"))

titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
Avatar,2009,James Cameron,178,Color,Action|Adventure|Fantasy|Sci-Fi,USA,A partir de 13 anos,237000000,760505847,7.9,33000,CCH Pounder,Joel David Moore,Wes Studi
Pirates of the Caribbean: At World's End,2007,Gore Verbinski,169,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,300000000,309404152,7.1,0,Johnny Depp,Orlando Bloom,Jack Davenport
The Dark Knight Rises,2012,Christopher Nolan,164,Color,Action|Thriller,USA,A partir de 13 anos,250000000,448130642,8.5,164000,Tom Hardy,Christian Bale,Joseph Gordon-Levitt
John Carter,2012,Andrew Stanton,132,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,263700000,73058679,6.6,24000,Daryl Sabara,Samantha Morton,Polly Walker
Spider-Man 3,2007,Sam Raimi,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,258000000,336530303,6.2,0,J.K. Simmons,James Franco,Kirsten Dunst
Avengers: Age of Ultron,2015,Joss Whedon,141,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,250000000,458991599,7.5,118000,Chris Hemsworth,Robert Downey Jr.,Scarlett Johansson
Batman v Superman: Dawn of Justice,2016,Zack Snyder,183,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,250000000,330249062,6.9,197000,Henry Cavill,Lauren Cohan,Alan D. Purwin
Superman Returns,2006,Bryan Singer,169,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,209000000,200069408,6.1,0,Kevin Spacey,Marlon Brando,Frank Langella
Pirates of the Caribbean: Dead Man's Chest,2006,Gore Verbinski,151,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,225000000,423032628,7.3,5000,Johnny Depp,Orlando Bloom,Jack Davenport
The Lone Ranger,2013,Gore Verbinski,150,Color,Action|Adventure|Western,USA,A partir de 13 anos,215000000,89289910,6.5,48000,Johnny Depp,Ruth Wilson,Tom Wilkinson


### SELECIONANDO COLUNAS
A função select() seleciona colunas (variáveis). É possível utilizar nomes, índices, intervalos de variáveis ou utilizar as funções starts_with(x), contains(x), matches(x), one_of(x) para selecionar as variáveis.

In [90]:
names(imdb)

In [91]:
imdb %>% 
  select(titulo, ano, orcamento) %>%
  head()

titulo,ano,orcamento
<chr>,<int>,<int>
Avatar,2009,237000000
Pirates of the Caribbean: At World's End,2007,300000000
The Dark Knight Rises,2012,250000000
John Carter,2012,263700000
Spider-Man 3,2007,258000000
Tangled,2010,260000000


In [92]:
imdb %>% 
  select(starts_with("ator")) %>%
  head()

ator_1,ator_2,ator_3
<chr>,<chr>,<chr>
CCH Pounder,Joel David Moore,Wes Studi
Johnny Depp,Orlando Bloom,Jack Davenport
Tom Hardy,Christian Bale,Joseph Gordon-Levitt
Daryl Sabara,Samantha Morton,Polly Walker
J.K. Simmons,James Franco,Kirsten Dunst
Brad Garrett,Donna Murphy,M.C. Gainey


O operador : pode ser usado para selecionar intervalos de colunas.

In [93]:
imdb %>% 
  select(titulo, ator_1:ator_3) %>%
  head()

titulo,ator_1,ator_2,ator_3
<chr>,<chr>,<chr>,<chr>
Avatar,CCH Pounder,Joel David Moore,Wes Studi
Pirates of the Caribbean: At World's End,Johnny Depp,Orlando Bloom,Jack Davenport
The Dark Knight Rises,Tom Hardy,Christian Bale,Joseph Gordon-Levitt
John Carter,Daryl Sabara,Samantha Morton,Polly Walker
Spider-Man 3,J.K. Simmons,James Franco,Kirsten Dunst
Tangled,Brad Garrett,Donna Murphy,M.C. Gainey


Para retirar colunas da base, base acrescentar um - antes da seleção.

In [94]:
imdb %>% 
  select(-ano, - diretor) %>%
  head()

titulo,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
Avatar,178,Color,Action|Adventure|Fantasy|Sci-Fi,USA,A partir de 13 anos,237000000,760505847,7.9,33000,CCH Pounder,Joel David Moore,Wes Studi
Pirates of the Caribbean: At World's End,169,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,300000000,309404152,7.1,0,Johnny Depp,Orlando Bloom,Jack Davenport
The Dark Knight Rises,164,Color,Action|Thriller,USA,A partir de 13 anos,250000000,448130642,8.5,164000,Tom Hardy,Christian Bale,Joseph Gordon-Levitt
John Carter,132,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,263700000,73058679,6.6,24000,Daryl Sabara,Samantha Morton,Polly Walker
Spider-Man 3,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,258000000,336530303,6.2,0,J.K. Simmons,James Franco,Kirsten Dunst
Tangled,100,Color,Adventure|Animation|Comedy|Family|Fantasy|Musical|Romance,USA,Livre,260000000,200807262,7.8,29000,Brad Garrett,Donna Murphy,M.C. Gainey


In [95]:
imdb %>% 
  select(-starts_with("ator")) %>%
  head()

titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>
Avatar,2009,James Cameron,178,Color,Action|Adventure|Fantasy|Sci-Fi,USA,A partir de 13 anos,237000000,760505847,7.9,33000
Pirates of the Caribbean: At World's End,2007,Gore Verbinski,169,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,300000000,309404152,7.1,0
The Dark Knight Rises,2012,Christopher Nolan,164,Color,Action|Thriller,USA,A partir de 13 anos,250000000,448130642,8.5,164000
John Carter,2012,Andrew Stanton,132,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,263700000,73058679,6.6,24000
Spider-Man 3,2007,Sam Raimi,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,258000000,336530303,6.2,0
Tangled,2010,Nathan Greno,100,Color,Adventure|Animation|Comedy|Family|Fantasy|Musical|Romance,USA,Livre,260000000,200807262,7.8,29000


### ORDENANDO A BASE
A função arrange() ordena a base segundo uma ou mais colunas. O argumento desc= pode ser utilizado para gerar uma ordem decrescente.

In [96]:
imdb %>% 
  arrange(orcamento) %>% 
  select(orcamento, everything()) %>%
  head()

orcamento,titulo,ano,diretor,duracao,cor,generos,pais,classificacao,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<int>,<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
218,Tarnation,2003,Jonathan Caouette,88,Color,Biography|Documentary,USA,Outros,592014.0,7.2,754,Greg Ayres,Jonathan Caouette,Renee Leblanc
1100,My Date with Drew,2004,Jon Gunn,90,Color,Documentary,USA,Livre,85222.0,6.6,456,John August,Brian Herzlinger,Jon Gunn
1400,A Plague So Pleasant,2013,Benjamin Roberds,76,Color,Drama|Horror|Thriller,USA,Outros,,6.3,16,Eva Boehnke,Maxwell Moody,David Chandler
3250,The Mongol King,2005,Anthony Vallone,84,Color,Crime|Drama,USA,A partir de 13 anos,,7.8,4,Richard Jewell,John Considine,Sara Stepnicka
7000,Primer,2004,Shane Carruth,77,Color,Drama|Sci-Fi|Thriller,USA,A partir de 13 anos,424760.0,7.0,19000,Shane Carruth,David Sullivan,Casey Gooden
7000,El Mariachi,1992,Robert Rodriguez,81,Color,Action|Crime|Drama|Romance|Thriller,USA,A partir de 18 anos,2040920.0,6.9,0,Carlos Gallardo,Peter Marquardt,Consuelo Gómez


In [97]:
imdb %>% 
  arrange(desc(orcamento)) %>% 
  select(orcamento, everything()) %>%
  head()

orcamento,titulo,ano,diretor,duracao,cor,generos,pais,classificacao,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<int>,<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
300000000,Pirates of the Caribbean: At World's End,2007,Gore Verbinski,169,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,309404152,7.1,0,Johnny Depp,Orlando Bloom,Jack Davenport
263700000,John Carter,2012,Andrew Stanton,132,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,73058679,6.6,24000,Daryl Sabara,Samantha Morton,Polly Walker
260000000,Tangled,2010,Nathan Greno,100,Color,Adventure|Animation|Comedy|Family|Fantasy|Musical|Romance,USA,Livre,200807262,7.8,29000,Brad Garrett,Donna Murphy,M.C. Gainey
258000000,Spider-Man 3,2007,Sam Raimi,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,336530303,6.2,0,J.K. Simmons,James Franco,Kirsten Dunst
258000000,Spider-Man 3,2007,Sam Raimi,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,336530303,6.2,0,J.K. Simmons,James Franco,Kirsten Dunst
250000000,The Dark Knight Rises,2012,Christopher Nolan,164,Color,Action|Thriller,USA,A partir de 13 anos,448130642,8.5,164000,Tom Hardy,Christian Bale,Joseph Gordon-Levitt


In [98]:
imdb %>% 
  arrange(desc(ano), titulo) %>% 
  select(titulo, ano, everything()) %>%
  head()

titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
10 Cloverfield Lane,2016,Dan Trachtenberg,104,Color,Drama|Horror|Mystery|Sci-Fi|Thriller,USA,A partir de 13 anos,15000000.0,71897215.0,7.3,33000,Bradley Cooper,John Gallagher Jr.,Sumalee Montano
13 Hours,2016,Michael Bay,144,Color,Action|Drama|Thriller|War,USA,A partir de 18 anos,50000000.0,52822418.0,7.4,44000,Toby Stephens,James Badge Dale,David Costabile
A Beginner's Guide to Snuff,2016,Mitchell Altieri,87,Color,Comedy|Horror|Thriller,USA,Outros,,,8.7,8,Kimberley Crossman,Luke Edwards,Bree Williamson
Alice Through the Looking Glass,2016,James Bobin,113,Color,Adventure|Family|Fantasy,USA,Livre,170000000.0,76846624.0,6.4,30000,Johnny Depp,Alan Rickman,Anne Hathaway
Allegiant,2016,Robert Schwentke,120,Color,Action|Adventure|Mystery|Sci-Fi|Thriller,USA,A partir de 13 anos,110000000.0,66002193.0,5.8,12000,Naomi Watts,Theo James,Zoë Kravitz
Alleluia! The Devil's Carnival,2016,Darren Lynn Bousman,97,Color,Horror|Musical,USA,Outros,500000.0,,7.4,707,Paul Sorvino,Barry Bostwick,Terrance Zdunich


### MUTATE()
A função mutate() cria ou modifica colunas. Ela é equivalente à função transform(), mas aceita várias novas colunas iterativamente. Novas variáveis devem ter o mesmo número de linhas da base original (ou comprimento 1).

#### A coluna "duracao" é sobrescrita

In [99]:
imdb %>% 
  mutate(duracao = duracao/60) %>% 
  select(duracao) %>%
  head()

duracao
<dbl>
2.966667
2.816667
2.733333
2.2
2.6
1.666667


#### Criamos uma nova coluna na base

In [100]:
imdb %>% 
  mutate(duracao_horas = duracao/60) %>% 
  select(duracao, duracao_horas) %>%
  head()

duracao,duracao_horas
<int>,<dbl>
178,2.966667
169,2.816667
164,2.733333
132,2.2
156,2.6
100,1.666667


#### Podemos fazer diversas operações em um mesmo mutate.

In [101]:
imdb %>% 
  mutate(
    lucro = receita - orcamento,
    resultado = ifelse(lucro < 0, "prejuizo", "lucro")
  ) %>% 
  select(lucro, resultado) %>%
  head()

lucro,resultado
<int>,<chr>
523505847,lucro
9404152,lucro
198130642,lucro
-190641321,prejuizo
78530303,lucro
-59192738,prejuizo


## AGRUPANDO E SUMARIZANDO A BASE
A função summarise() sumariza a base. Ela aplica uma função às variáveis, retornando um vetor de tamanho 1. Ela é utilizada em conjunto da função group_by(). A função n() costuma ser bastante utilizada com a função summarise().

In [102]:
imdb %>% 
  summarise(media_orcamento = mean(orcamento, na.rm = TRUE))

media_orcamento
<dbl>
35755986


In [103]:
imdb %>% 
  summarise(
    media_orcamento = mean(orcamento, na.rm = TRUE),
    mediana_orcamento = median(orcamento, na.rm = TRUE),
    qtd = n(),
    qtd_diretores = n_distinct(diretor)
  )

media_orcamento,mediana_orcamento,qtd,qtd_diretores
<dbl>,<int>,<int>,<int>
35755986,20000000,3807,1813


In [104]:
imdb %>% 
  group_by(ano) %>% 
  summarise(qtd_filmes = n()) %>%
  head()

`summarise()` ungrouping output (override with `.groups` argument)



ano,qtd_filmes
<int>,<int>
1916,1
1920,1
1925,1
1929,1
1930,1
1932,1


### O PACOTE TIDYR

O pacote tidyr dispõe de funções úteis para deixar os seus dados no formato que você precisa para a análise. Na maioria das vezes, utilizamos para deixá-los tidy. 

Outras, precisamos “bagunçá-los” um pouco para poder aplicar alguma função específica.

As principais funções deste pacote são a gather() e a spread()

### GATHER()
A função gather() “empilha” o banco de dados. Ela é utilizada principalmente quando as colunas da base não representam nomes de variáveis, mas sim seus valores.

In [105]:
imdb_gather <- imdb %>% 
  mutate(id = 1:n()) %>% 
  gather(
    key = "importancia_ator", 
    value = "nome_ator", 
    ator_1, ator_2, ator_3
  ) %>% 
  select(nome_ator, importancia_ator, everything())

In [106]:
head(imdb_gather)

nome_ator,importancia_ator,titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,id
<chr>,<chr>,<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<int>
CCH Pounder,ator_1,Avatar,2009,James Cameron,178,Color,Action|Adventure|Fantasy|Sci-Fi,USA,A partir de 13 anos,237000000,760505847,7.9,33000,1
Johnny Depp,ator_1,Pirates of the Caribbean: At World's End,2007,Gore Verbinski,169,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,300000000,309404152,7.1,0,2
Tom Hardy,ator_1,The Dark Knight Rises,2012,Christopher Nolan,164,Color,Action|Thriller,USA,A partir de 13 anos,250000000,448130642,8.5,164000,3
Daryl Sabara,ator_1,John Carter,2012,Andrew Stanton,132,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,263700000,73058679,6.6,24000,4
J.K. Simmons,ator_1,Spider-Man 3,2007,Sam Raimi,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,258000000,336530303,6.2,0,5
Brad Garrett,ator_1,Tangled,2010,Nathan Greno,100,Color,Adventure|Animation|Comedy|Family|Fantasy|Musical|Romance,USA,Livre,260000000,200807262,7.8,29000,6


### SPREAD()
A função spread() é essencialmente o inverso da gather(). Ela espalha uma variável nas colunas.

In [107]:
imdb_spread <- imdb_gather %>% 
  spread(
    key = importancia_ator,
    value = nome_ator
  )

In [108]:
head(imdb_spread)

titulo,ano,diretor,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,id,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<int>,<chr>,<chr>,<chr>
Avatar,2009,James Cameron,178,Color,Action|Adventure|Fantasy|Sci-Fi,USA,A partir de 13 anos,237000000,760505847,7.9,33000,1,CCH Pounder,Joel David Moore,Wes Studi
Pirates of the Caribbean: At World's End,2007,Gore Verbinski,169,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,300000000,309404152,7.1,0,2,Johnny Depp,Orlando Bloom,Jack Davenport
The Dark Knight Rises,2012,Christopher Nolan,164,Color,Action|Thriller,USA,A partir de 13 anos,250000000,448130642,8.5,164000,3,Tom Hardy,Christian Bale,Joseph Gordon-Levitt
John Carter,2012,Andrew Stanton,132,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,263700000,73058679,6.6,24000,4,Daryl Sabara,Samantha Morton,Polly Walker
Spider-Man 3,2007,Sam Raimi,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,258000000,336530303,6.2,0,5,J.K. Simmons,James Franco,Kirsten Dunst
Tangled,2010,Nathan Greno,100,Color,Adventure|Animation|Comedy|Family|Fantasy|Musical|Romance,USA,Livre,260000000,200807262,7.8,29000,6,Brad Garrett,Donna Murphy,M.C. Gainey


### OUTRAS FUNÇÕES DO TIDYR

A função unite() junta duas ou mais colunas usando algum separador (_, por exemplo).

A função separate() faz o inverso de unite(): transforma uma coluna em várias usando um separador.

In [109]:
imdb %>% 
  unite(
    col = "titulo_diretor",
    titulo, diretor,
    sep = " - "
  ) %>%
  head()

titulo_diretor,ano,duracao,cor,generos,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<int>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
Avatar - James Cameron,2009,178,Color,Action|Adventure|Fantasy|Sci-Fi,USA,A partir de 13 anos,237000000,760505847,7.9,33000,CCH Pounder,Joel David Moore,Wes Studi
Pirates of the Caribbean: At World's End - Gore Verbinski,2007,169,Color,Action|Adventure|Fantasy,USA,A partir de 13 anos,300000000,309404152,7.1,0,Johnny Depp,Orlando Bloom,Jack Davenport
The Dark Knight Rises - Christopher Nolan,2012,164,Color,Action|Thriller,USA,A partir de 13 anos,250000000,448130642,8.5,164000,Tom Hardy,Christian Bale,Joseph Gordon-Levitt
John Carter - Andrew Stanton,2012,132,Color,Action|Adventure|Sci-Fi,USA,A partir de 13 anos,263700000,73058679,6.6,24000,Daryl Sabara,Samantha Morton,Polly Walker
Spider-Man 3 - Sam Raimi,2007,156,Color,Action|Adventure|Romance,USA,A partir de 13 anos,258000000,336530303,6.2,0,J.K. Simmons,James Franco,Kirsten Dunst
Tangled - Nathan Greno,2010,100,Color,Adventure|Animation|Comedy|Family|Fantasy|Musical|Romance,USA,Livre,260000000,200807262,7.8,29000,Brad Garrett,Donna Murphy,M.C. Gainey


In [110]:
imdb %>% 
  separate(
    col = generos, 
    into = c("genero_1", "genero_2", "genero_3"), 
    sep = "\\|", 
    extra = "drop"
  ) %>%
  head()

"Expected 3 pieces. Missing pieces filled with `NA` in 1537 rows [3, 19, 21, 42, 84, 88, 92, 102, 106, 111, 113, 129, 138, 147, 178, 183, 186, 219, 222, 233, ...]."


titulo,ano,diretor,duracao,cor,genero_1,genero_2,genero_3,pais,classificacao,orcamento,receita,nota_imdb,likes_facebook,ator_1,ator_2,ator_3
<chr>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>
Avatar,2009,James Cameron,178,Color,Action,Adventure,Fantasy,USA,A partir de 13 anos,237000000,760505847,7.9,33000,CCH Pounder,Joel David Moore,Wes Studi
Pirates of the Caribbean: At World's End,2007,Gore Verbinski,169,Color,Action,Adventure,Fantasy,USA,A partir de 13 anos,300000000,309404152,7.1,0,Johnny Depp,Orlando Bloom,Jack Davenport
The Dark Knight Rises,2012,Christopher Nolan,164,Color,Action,Thriller,,USA,A partir de 13 anos,250000000,448130642,8.5,164000,Tom Hardy,Christian Bale,Joseph Gordon-Levitt
John Carter,2012,Andrew Stanton,132,Color,Action,Adventure,Sci-Fi,USA,A partir de 13 anos,263700000,73058679,6.6,24000,Daryl Sabara,Samantha Morton,Polly Walker
Spider-Man 3,2007,Sam Raimi,156,Color,Action,Adventure,Romance,USA,A partir de 13 anos,258000000,336530303,6.2,0,J.K. Simmons,James Franco,Kirsten Dunst
Tangled,2010,Nathan Greno,100,Color,Adventure,Animation,Comedy,USA,Livre,260000000,200807262,7.8,29000,Brad Garrett,Donna Murphy,M.C. Gainey


Faça a atividade desta aula neste [link](https://forms.gle/6tvkDosSgoPayCjL6)

https://forms.gle/6tvkDosSgoPayCjL6