# Data Wrangling R

Introdução ao pacote dplyr (https://dplyr.tidyverse.org/)

In [1]:
library(readxl)
library("tidyverse")
library(dplyr)

Registered S3 methods overwritten by 'ggplot2':
  method         from 
  [.quosures     rlang
  c.quosures     rlang
  print.quosures rlang
Registered S3 method overwritten by 'rvest':
  method            from
  read_xml.response xml2
-- Attaching packages --------------------------------------- tidyverse 1.2.1 --
v ggplot2 3.1.1       v purrr   0.3.2  
v tibble  2.1.1       v dplyr   0.8.0.1
v tidyr   0.8.3       v stringr 1.4.0  
v readr   1.3.1       v forcats 0.4.0  
-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter()  masks stats::filter()
x purrr::flatten() masks jsonlite::flatten()
x dplyr::lag()     masks stats::lag()


# Dataset Inicial

## Read Excel

In [2]:
dataset_inicial <- read_excel("(1.2) Dataset Aula Data Wrangling.xls")

head(dataset_inicial, n=5)

Estudante,Tempo para chegar à escola (minutos),Distância percorrida até a escola (quilômetros),Quantidade de semáforos,Período do dia,Perfil ao volante
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


## Definindo novo cabeçalho

In [3]:
novos_nomes <- c("Observações",
                 "Tempo para chegar",
                 "Distância percorrida",
                 "Semáforos",
                 "Período",
                 "Perfil")

# 
names(dataset_inicial) <- novos_nomes

head(dataset_inicial, n=5)

Observações,Tempo para chegar,Distância percorrida,Semáforos,Período,Perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


## Usando a função rename

In [4]:
nova_base <- rename(dataset_inicial, 
                    observacoes = Observações,
                    tempo = "Tempo para chegar",
                    distancia = "Distância percorrida",
                    semaforos = "Semáforos",
                    periodo = "Período",
                    perfil = "Perfil"
                   )

head(nova_base, n=5)

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


## Criando novo objeto dataframe

In [5]:
# 
nova_base_pipe <- nova_base %>% rename(obs = observacoes,
                                       temp = tempo,
                                       dist = distancia,
                                       sem = semaforos,
                                       per = periodo,
                                       perf = perfil)

nova_base_pipe

obs,temp,dist,sem,per,perf
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


## Função select

A seguir, com "select", informaremos a ordem (inclusive, excluindo variáveis)

In [6]:
head(nova_base, n=5)

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


In [7]:
nova_base %>% select(tempo, semaforos, perfil, observacoes)

tempo,semaforos,perfil,observacoes
15,0,calmo,Gabriela
20,1,moderado,Dalila
20,0,moderado,Gustavo
40,1,agressivo,Letícia
50,2,agressivo,Luiz Ovídio
25,1,moderado,Leonor
10,0,calmo,Ana
55,3,calmo,Antônio
35,1,moderado,Júlia
30,1,moderado,Mariana


# Função relocate

O mesmo trabalho poderia ser feito com a função "relocate"

In [8]:
nova_base %>% relocate(perfil, .after = observacoes)

ERROR: Error in relocate(., perfil, .after = observacoes): não foi possível encontrar a função "relocate"


In [9]:
nova_base %>% relocate(perfil, .before = tempo)

ERROR: Error in relocate(., perfil, .before = tempo): não foi possível encontrar a função "relocate"


In [10]:
nova_base

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


In [11]:
relocate(nova_base, tempo, .after = periodo)

ERROR: Error in relocate(nova_base, tempo, .after = periodo): não foi possível encontrar a função "relocate"


# Função pull

A função "pull" executa trabalho semelhante ao "select", porém gera um vetor

In [12]:
vetor_pull <- nova_base %>% pull(var = 3)

vetor_pull

# Função summarise

Função "summarise": função que resume o dataset, podendo criar outros. No primeiro caso, abaixo, todas as observações são resumidas em descritivas

In [13]:
descritivas_nova_base <- summarise(nova_base,
                                   observações=n(),
                                   média=mean(tempo),
                                   mediana=median(tempo),
                                   desv_pad=sd(tempo),
                                   mínimo=min(tempo),
                                   máximo=max(tempo),
                                   quartil_3=quantile(tempo, type=5, 0.75))

descritivas_nova_base

observações,média,mediana,desv_pad,mínimo,máximo,quartil_3
10,30,27.5,14.90712,10,55,40


# Função groupby

Então, acima, criamos um data frame com uma linha de descritivas da variável. Poderia ser utilizada para criar informações mais específicas sobre o dataset. Para isto, o "summarise" é utilizado em conjunto com a função "group by". A seguir, vamos agrupar as informações do dataset pelo critério de "período".

In [14]:
nova_base

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


Porém, o "group by" fica registrado no objeto

In [15]:
base_grupo <- group_by(nova_base, periodo)

base_grupo

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


O resultado do "summarise" abaixo é para cada grupo especificado no objeto. Também criamos um data frame com duas linhas, uma para cada grupo. Caso queira retirar o agrupamento criado, basta aplicar o "ungroup".

In [16]:
descritivas_base_grupo <- base_grupo %>% summarise(média = mean(tempo),
                                                   desvio_pad=sd(tempo),
                                                   n_obs = n()
                                                   )

descritivas_base_grupo

periodo,média,desvio_pad,n_obs
Manhã,22.14286,8.591247,7
Tarde,48.33333,7.637626,3


O resultado do "summarise" acima é para cada grupo especificado no objeto. Também criamos um data frame com duas linhas, uma para cada grupo. Caso queira retirar o agrupamento criado, basta aplicar o "ungroup".


In [17]:
base_sem_grupo <- base_grupo %>% ungroup () %>% droplevels(.)

# informações para a base completa
summarise(base_sem_grupo,
          mean(tempo)
         ) 

mean(tempo)
30


A função "arrange" apenas fez a organização de apresentação do dataset. Foi pedido que fosse organizado de forma decrescente (desc). Se retirar o desc, fica na ordem crescente.

In [18]:
nova_base_grupos <- nova_base %>% group_by(periodo, perfil
                                          ) %>% 
                                                  summarise(tempo_médio = mean(tempo),
                                                            mínimo = min(tempo),
                                                            máximo = max(tempo),
                                                            contagem = n()
                                                           ) %>% 
                                                  arrange(desc(máximo))

nova_base_grupos

periodo,perfil,tempo_médio,mínimo,máximo,contagem
Tarde,calmo,55.0,55,55,1
Tarde,agressivo,45.0,40,50,2
Manhã,moderado,26.0,20,35,5
Manhã,calmo,12.5,10,15,2


# Função filter

A função "filter" tem o objetivo de gerar subconjuntos do dataset. São especificados os critérios e as linhas que os atenderem serão filtradas. Os principais operadores lógicos são:

* ==: igual
* !=: diferente
* Os símbolos > e <: maior e menor (podem conter o igual >= e <=)
* &: indica "E"
* | : indica "OU"

## Sem função filter

Inicialmente, sem utilizar a função, poderia ser feito:

In [19]:
# critérios antes da vírgula
filtro_1 <- nova_base[nova_base$tempo > 20,] 

filtro_1

observacoes,tempo,distancia,semaforos,periodo,perfil
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


In [20]:
filtro_2 <- nova_base[nova_base$tempo > 20 & nova_base$distancia < 25,]

filtro_2

observacoes,tempo,distancia,semaforos,periodo,perfil
Letícia,40,20,1,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


In [21]:
filtro_5 <- nova_base[nova_base$tempo <=15 | nova_base$periodo == "Tarde",]

filtro_5

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo


## Usando a função filter

In [22]:
base_filtro_1 <- filter(nova_base, tempo > 20)

base_filtro_1

observacoes,tempo,distancia,semaforos,periodo,perfil
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


In [23]:
base_filtro_2 <- filter(nova_base, tempo > 20 & distancia < 25)

base_filtro_2

observacoes,tempo,distancia,semaforos,periodo,perfil
Letícia,40,20,1,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


In [24]:
base_filtro_3 <- filter(nova_base, periodo == "Manhã")

base_filtro_3

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


In [25]:
base_filtro_4 <- filter(nova_base, periodo != "Manhã" & between(tempo, 20, 50))

base_filtro_4

observacoes,tempo,distancia,semaforos,periodo,perfil
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


In [26]:
base_filtro_5 <- filter(nova_base, tempo <= 15 | periodo == "Tarde")

base_filtro_5

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo


In [27]:
# base_filtro_6: observações tempo > 30 (média geral) foram filtradas
base_filtro_6 <- filter(nova_base, tempo > mean(tempo, na.rm = TRUE))

base_filtro_6

observacoes,tempo,distancia,semaforos,periodo,perfil
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado


## Função filter com groupby

A função filter também pode ser aplicada em datasets com grupos (group by). Neste caso, a função é aplicada dentro de cada grupo.


In [28]:

base_filtro_7 <- nova_base %>% group_by(periodo) %>% 
                                                      filter(tempo > mean(tempo, na.rm=TRUE)
                                                            ) %>% 
                                                      ungroup () %>% droplevels(.)

base_filtro_7

observacoes,tempo,distancia,semaforos,periodo,perfil
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


# Função slice

In [29]:
# com base na posição das linhas
nova_base %>% slice(5:9) 

observacoes,tempo,distancia,semaforos,periodo,perfil
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado


In [30]:
# as três primeiras linhas
nova_base %>% slice_head(n=3) 

ERROR: Error in slice_head(., n = 3): não foi possível encontrar a função "slice_head"


In [None]:
# as três últimas linhas
nova_base %>% slice_tail(n=3) 

In [31]:
# os prop % menores
nova_base %>% slice_min(order_by = distancia, prop = 0.40) 

ERROR: Error in slice_min(., order_by = distancia, prop = 0.4): não foi possível encontrar a função "slice_min"


In [32]:
# os prop % maiores
nova_base %>% slice_max(order_by = distancia, prop = 0.10) 

ERROR: Error in slice_max(., order_by = distancia, prop = 0.1): não foi possível encontrar a função "slice_max"
