# Data Wrangling R

Introdução ao pacote dplyr (https://dplyr.tidyverse.org/)

In [1]:
library(readxl)
library("tidyverse")

Registered S3 methods overwritten by 'ggplot2':
  method         from 
  [.quosures     rlang
  c.quosures     rlang
  print.quosures rlang
Registered S3 method overwritten by 'rvest':
  method            from
  read_xml.response xml2
-- Attaching packages --------------------------------------- tidyverse 1.2.1 --
v ggplot2 3.1.1       v purrr   0.3.2  
v tibble  2.1.1       v dplyr   0.8.0.1
v tidyr   0.8.3       v stringr 1.4.0  
v readr   1.3.1       v forcats 0.4.0  
-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter()  masks stats::filter()
x purrr::flatten() masks jsonlite::flatten()
x dplyr::lag()     masks stats::lag()


# Dataset Inicial

## Read Excel

In [2]:
dataset_inicial <- read_excel("(1.2) Dataset Aula Data Wrangling.xls")

dataset_inicial

Estudante,Tempo para chegar à escola (minutos),Distância percorrida até a escola (quilômetros),Quantidade de semáforos,Período do dia,Perfil ao volante
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


## View dataset

In [3]:
# Mostra a base de dados completa em uma nova aba
View(dataset_inicial)

ERROR: Error in View(dataset_inicial): 'View()' not yet supported in the Jupyter R kernel


## Head dataset

In [4]:
head(dataset_inicial, n=5)

Estudante,Tempo para chegar à escola (minutos),Distância percorrida até a escola (quilômetros),Quantidade de semáforos,Período do dia,Perfil ao volante
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


## str dataset

In [5]:
# Mostra a estrutura da base de dados
str(dataset_inicial)

Classes 'tbl_df', 'tbl' and 'data.frame':	10 obs. of  6 variables:
 $ Estudante                                      : chr  "Gabriela" "Dalila" "Gustavo" "Letícia" ...
 $ Tempo para chegar à escola (minutos)           : num  15 20 20 40 50 25 10 55 35 30
 $ Distância percorrida até a escola (quilômetros): num  8 6 15 20 25 11 5 32 28 20
 $ Quantidade de semáforos                        : num  0 1 0 1 2 1 0 3 1 1
 $ Período do dia                                 : chr  "Manhã" "Manhã" "Manhã" "Tarde" ...
 $ Perfil ao volante                              : chr  "calmo" "moderado" "moderado" "agressivo" ...


## glimpse

In [6]:
# Função parecida com a str
glimpse(dataset_inicial) 

Observations: 10
Variables: 6
$ Estudante                                         <chr> "Gabriela", "Dali...
$ `Tempo para chegar à escola (minutos)`            <dbl> 15, 20, 20, 40, 5...
$ `Distância percorrida até a escola (quilômetros)` <dbl> 8, 6, 15, 20, 25,...
$ `Quantidade de semáforos`                         <dbl> 0, 1, 0, 1, 2, 1,...
$ `Período do dia`                                  <chr> "Manhã", "Manhã",...
$ `Perfil ao volante`                               <chr> "calmo", "moderad...


## print

In [7]:
# Apresenta a base de dados no console
print(dataset_inicial)

# A tibble: 10 x 6
   Estudante `Tempo para che~ `Distância perc~ `Quantidade de ~ `Período do dia`
   <chr>                <dbl>            <dbl>            <dbl> <chr>           
 1 Gabriela                15                8                0 Manhã           
 2 Dalila                  20                6                1 Manhã           
 3 Gustavo                 20               15                0 Manhã           
 4 Letícia                 40               20                1 Tarde           
 5 Luiz Oví~               50               25                2 Tarde           
 6 Leonor                  25               11                1 Manhã           
 7 Ana                     10                5                0 Manhã           
 8 Antônio                 55               32                3 Tarde           
 9 Júlia                   35               28                1 Manhã           
10 Mariana                 30               20                1 Manhã           
# ... wit

## dim

In [8]:
# As dimensões do dataset: linhas e colunas, respectivamente
dim(dataset_inicial) 

## names

In [9]:
# Para ver os nomes das variáveis
names(dataset_inicial) 

## comando $

Poderíamos fazer o print de apenas uma variável. O símbolo "$" é utilizado para especificar uma variável do dataset.

In [10]:
# 
dataset_inicial$`Tempo para chegar à escola (minutos)`

## Rename

Relembrando algumas definições sobre as variáveis:

* Variáveis <Chr> são caracteres ("characters"), isto é, contêm textos
* Variáveis <dbl> são "doubles", isto é, contêm números
* Variáveis <int> são integers, isto é, contêm números inteiros

Função "rename": utilizada para alterar o nome das variáveis. No dataset de exemplo, os nomes das variáveis contêm: espaços, maiúsculas, acentos e caracteres especiais. É melhor não utilizá-los, podem gerar conflito e dificultam a escrita. Inicialmente, sem utilizar a função, poderíamos fazer da seguinte forma:
    
**1º:Combinamos os novos nomes desejados em um vetor**

In [11]:
novos_nomes <- c("Observações",
                 "Tempo para chegar",
                 "Distância percorrida",
                 "Semáforos",
                 "Período",
                 "Perfil")

print(novos_nomes)

[1] "Observações"          "Tempo para chegar"    "Distância percorrida"
[4] "Semáforos"            "Período"              "Perfil"              


## Definindo novo cabeçalho

2º: Em seguida, atribuimos o vetor com nomes ao dataset, dessa forma o cabeçalho com os nomes das colunas é renomeado.

In [12]:
dataset_inicial

Estudante,Tempo para chegar à escola (minutos),Distância percorrida até a escola (quilômetros),Quantidade de semáforos,Período do dia,Perfil ao volante
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


In [13]:
# 
names(dataset_inicial) <- novos_nomes

head(dataset_inicial, n=5)

Observações,Tempo para chegar,Distância percorrida,Semáforos,Período,Perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


## Usando a função rename

A função **rename** torna este trabalho mais prático. A seguir, o argumento da função é: novo nome = nome antigo.

In [14]:
head(dataset_inicial, n=5)

Observações,Tempo para chegar,Distância percorrida,Semáforos,Período,Perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


In [15]:
nova_base <- rename(dataset_inicial, 
                    observacoes = Observações,
                    tempo = "Tempo para chegar",
                    distancia = "Distância percorrida",
                    semaforos = "Semáforos",
                    periodo = "Período",
                    perfil = "Perfil"
                   )

head(nova_base, n=5)

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


Existe uma forma um pouco diferente de escrever as funções no R. Trata-se do uso do operador pipe - %>%, cujo atalho é **Ctrl+Shift+M**. Com ele, tiramos o primeiro argumento do código. É muito útil para realizar diversas funções em sequência.

In [16]:
nova_base %>% rename(obs = observacoes,
                     temp = tempo,
                     dist = distancia,
                     sem = semaforos,
                     per = periodo,
                     perf = perfil) 

obs,temp,dist,sem,per,perf
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


No código acima, não criamos um novo objeto, mas poderíamos criar, utilizando a definição de um objeto dataframe no R com a **<-**.

In [17]:
# 
nova_base_pipe <- nova_base %>% rename(obs = observacoes,
                                       temp = tempo,
                                       dist = distancia,
                                       sem = semaforos,
                                       per = periodo,
                                       perf = perfil)

nova_base_pipe

obs,temp,dist,sem,per,perf
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


Note que executando o código acima criamos um novo objeto no ambiente do R, mas podemos remover este objeto criado utilizando a função remove **rm**.

In [18]:
# 
head(nova_base_pipe, n=5)

# Remove o objeto especificado do ambiente
rm(nova_base_pipe) 

obs,temp,dist,sem,per,perf
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


Perceba que ao executar a linha 5 do código acima, removemos o objeto **nova_base_pipe**. O código abaixo deve gerar um erro, pois este objeto não se encontra mais na memória do R.

In [19]:
nova_base_pipe

ERROR: Error in eval(expr, envir, enclos): objeto 'nova_base_pipe' não encontrado


Também é possível utilizar a função "rename" com base na posição da variável no objeto dataframe. Em datasets com muitas variáveis esta função facilita bastante a escrita do código

In [20]:
# 
nova_base %>% rename(obs = 1,
                     temp = 2,
                     dist = 3,
                     sem = 4,
                     per = 5,
                     perf = 6)

obs,temp,dist,sem,per,perf
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


No código abaixo, vamos alterar as posições das colunas **per** e **perf**. Compare a saída do código abaixo com a saída do código anterior (acima), o resultado deve diferir na ordem das duas últimas colunas do dataframe **nova_base**.

In [21]:
#
nova_base %>% rename(obs = 1,
                     temp = 2,
                     dist = 3,
                     sem = 4,
                     per = 6,
                     perf = 5)

obs,temp,dist,sem,perf,per
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


É possível alterar apenas uma ou outra variável, 

In [22]:
# 
nova_base %>% rename(sem = 4,
                     perf = 6)

observacoes,tempo,distancia,sem,periodo,perf
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado
Ana,10,5,0,Manhã,calmo
Antônio,55,32,3,Tarde,calmo
Júlia,35,28,1,Manhã,moderado
Mariana,30,20,1,Manhã,moderado


## Mutate

Função "mutate": apresenta duas utilidades principais:

1. Inclui variáveis no dataset, mantendo as existentes
2. Transforma o conteúdo das variáveis

Numa primeira situação, são adicionados duas variáveis a um dataset existente . As observações no dataset e nas variáveis devem estar igualmente ordenadas

In [23]:
#
variavel_nova_1 <- c(1,2,3,4,5,6,7,8,9,10)

#
variavel_nova_2 <- c(11:20)

#
print(variavel_nova_1)

#
print(variavel_nova_2)

 [1]  1  2  3  4  5  6  7  8  9 10
 [1] 11 12 13 14 15 16 17 18 19 20


## Acrescentando novas variáveis

Utilizando a função **mutate**, podemos incluir novas variáveis ao dataframe. No código abaixo, vamos incluir duas novas colunas ao dataframe, com nomes respectivos de **variavel_nova_1** e **variavel_nova_2**. Vamos criar um novo dataframe chamado de **base_inclui** com estas duas colunas extras em relação ao dataframe original **nova_base**. Compare a saída dos dois códigos abaixo, no qual o primeiro imprime o cabeçalho da base nova_base, e o outro imprime o resultado da adição das duas novas colunas ao dataframe base_inclui.

In [24]:
head(nova_base)

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo
Leonor,25,11,1,Manhã,moderado


In [25]:
base_inclui <- mutate(nova_base,
                      variavel_nova_1, 
                      variavel_nova_2)
#
base_inclui

observacoes,tempo,distancia,semaforos,periodo,perfil,variavel_nova_1,variavel_nova_2
Gabriela,15,8,0,Manhã,calmo,1,11
Dalila,20,6,1,Manhã,moderado,2,12
Gustavo,20,15,0,Manhã,moderado,3,13
Letícia,40,20,1,Tarde,agressivo,4,14
Luiz Ovídio,50,25,2,Tarde,agressivo,5,15
Leonor,25,11,1,Manhã,moderado,6,16
Ana,10,5,0,Manhã,calmo,7,17
Antônio,55,32,3,Tarde,calmo,8,18
Júlia,35,28,1,Manhã,moderado,9,19
Mariana,30,20,1,Manhã,moderado,10,20


## Operador pipe %>%

Podemos utilizar o operador %>% para criar uma nova base (como antes), e no mesmo código vamos inserir as duas "variáveis novas".

In [26]:
nova_base %>% rename(obs = observacoes,
                     temp = tempo,
                     dist = distancia,
                     sem = semaforos,
                     per = periodo,
                     perf = perfil
                    ) %>% 
                     mutate(variavel_nova_1,
                            variavel_nova_2,
                            temp_novo = tempo*2
                           )

ERROR: Error: objeto 'tempo' não encontrado


Note que ocorreu um erro com o código acima. Qual seria o motivo? Na etapa do "mutate", a variável "tempo" está com o nome antigo. Nesta etapa, a variável já se chama "temp". Foi alterada na etapa do "rename". Portanto, a forma correta de escrita do comando é:

In [27]:
nova_base %>% rename(obs = observacoes,
                     temp = tempo,
                     dist = distancia,
                     sem = semaforos,
                     per = periodo,
                     perf = perfil
                    ) %>% 
                     mutate(variavel_nova_1, 
                            variavel_nova_2, 
                            temp_novo = temp*2
                           )

obs,temp,dist,sem,per,perf,variavel_nova_1,variavel_nova_2,temp_novo
Gabriela,15,8,0,Manhã,calmo,1,11,30
Dalila,20,6,1,Manhã,moderado,2,12,40
Gustavo,20,15,0,Manhã,moderado,3,13,40
Letícia,40,20,1,Tarde,agressivo,4,14,80
Luiz Ovídio,50,25,2,Tarde,agressivo,5,15,100
Leonor,25,11,1,Manhã,moderado,6,16,50
Ana,10,5,0,Manhã,calmo,7,17,20
Antônio,55,32,3,Tarde,calmo,8,18,110
Júlia,35,28,1,Manhã,moderado,9,19,70
Mariana,30,20,1,Manhã,moderado,10,20,60


## Função replace

Também criamos a variável "temp_novo": é uma função de uma variável do dataset .A função "mutate" também pode tranformar as variáveis já existentes. Vamos supor que gostaríamos de tranformar a variável "semáforos" em texto. Para isto, podemos utilizar a função "replace":

In [28]:
# 
base_texto_1 <- mutate(nova_base, 
                       semaforos = replace(semaforos, semaforos==0, "Zero"),
                       semaforos = replace(semaforos, semaforos==1, "Um"),
                       semaforos = replace(semaforos, semaforos==2, "Dois"),
                       semaforos = replace(semaforos, semaforos==3, "Três")
                      )

head(base_texto_1)

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,Zero,Manhã,calmo
Dalila,20,6,Um,Manhã,moderado
Gustavo,20,15,Zero,Manhã,moderado
Letícia,40,20,Um,Tarde,agressivo
Luiz Ovídio,50,25,Dois,Tarde,agressivo
Leonor,25,11,Um,Manhã,moderado


## Função recode

Em conjunto com o mutate, também pode ser utilizada a função "recode". A seguir, trocaremos um texto por outro texto e criaremos uma nova variável:

In [29]:
base_texto_2 <- mutate(nova_base, 
                       perfil_novo = recode(perfil,
                                            "calmo" = "perfil 1",
                                            "moderado" = "perfil 2",
                                            "agressivo" = "perfil 3"
                                           )
                      )

head(base_texto_2)

observacoes,tempo,distancia,semaforos,periodo,perfil,perfil_novo
Gabriela,15,8,0,Manhã,calmo,perfil 1
Dalila,20,6,1,Manhã,moderado,perfil 2
Gustavo,20,15,0,Manhã,moderado,perfil 2
Letícia,40,20,1,Tarde,agressivo,perfil 3
Luiz Ovídio,50,25,2,Tarde,agressivo,perfil 3
Leonor,25,11,1,Manhã,moderado,perfil 2


## Redefinindo variáveis

Poderíamos manter na variável original (ao invés de criar "perfil_novo"). Vamos utizar o "recode" para transformar um texto em valores:

In [31]:
#
base_texto_valores <- mutate(nova_base,
                             periodo = recode(periodo,
                                              "Manhã"=0,
                                              "Tarde"=1
                                             )
                            )

head(base_texto_valores)

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,0,calmo
Dalila,20,6,1,0,moderado
Gustavo,20,15,0,0,moderado
Letícia,40,20,1,1,agressivo
Luiz Ovídio,50,25,2,1,agressivo
Leonor,25,11,1,0,moderado


## Função recode

Um código semelhante poderia ser utilizado para gerar dummies. Deve ser observado que há códigos mais simples para gerar dummies, vamos praticar utilizando a função recode, e criar novas colunas de variáveis dummy a partir de uma coluna com variáveis categóricas. 

In [35]:
head(nova_base, n = 3)

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado


In [36]:
#
base_dummy <- mutate(nova_base, perfil_agressivo = recode(perfil,
                                                          "agressivo"=1,
                                                          "moderado"=0,
                                                          "calmo"=0
                                                         ),
                                perfil_moderado = recode(perfil,
                                                          "agressivo"=0,
                                                          "moderado"=1,
                                                          "calmo"=0
                                                        ),
                                perfil_calmo = recode(perfil,
                                                       "agressivo"=0,
                                                       "moderado"=0,
                                                       "calmo"=1
                                                     )
                    )

head(base_dummy, n = 3)

observacoes,tempo,distancia,semaforos,periodo,perfil,perfil_agressivo,perfil_moderado,perfil_calmo
Gabriela,15,8,0,Manhã,calmo,0,0,1
Dalila,20,6,1,Manhã,moderado,0,1,0
Gustavo,20,15,0,Manhã,moderado,0,1,0


## Função transmute

Função "transmute": inclui variáveis no dataset, excluindo as existentes. Depois de informar o dataset, informe as variáveis mantidas e adicionadas. Inclui variáveis no dataset, excluindo as existentes. Depois de informar o dataset, informe as variáveis mantidas e adicionadas.

In [40]:
head(nova_base, n = 5)

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


In [41]:
base_exclui <- transmute(nova_base,
                         observacoes, 
                         tempo,
                         variavel_nova_1, 
                         variavel_nova_2
                        )

head(base_exclui, n = 5)

observacoes,tempo,variavel_nova_1,variavel_nova_2
Gabriela,15,1,11
Dalila,20,2,12
Gustavo,20,3,13
Letícia,40,4,14
Luiz Ovídio,50,5,15


Utilizamos o comando "cut", que converte uma variável de valores em intervalos. No exemplo abaixo, pedimos 2 intervalos tendo a mediana como referência. Em seguida, já adicionamos novos nomes aos intervalos.

In [47]:
base_exclui_rename <- nova_base %>% transmute(observacoes, tempo,
                                                variavel_nova_1
                                             ) %>% 
                      mutate(tempo_novo = recode(tempo,
                                                 "10"="dez",
                                                 "15"="quinze",
                                                 "20"="vinte",
                                                 "25"="vinte e cinco",
                                                 "30"="trinta",
                                                 "35"="trinta e cinco",
                                                 "40"="quarenta",
                                                 "50"="cinquenta",
                                                 "55"="cinquenta e cinco"
                                                )
                            ) %>% 
                      mutate(posicao = cut(tempo, 
                                           c(0, median(tempo), Inf), 
                                           c("menores",
                                             "maiores")
                                          )
                            )

head(base_exclui_rename, n = 5)

observacoes,tempo,variavel_nova_1,tempo_novo,posicao
Gabriela,15,1,quinze,menores
Dalila,20,2,vinte,menores
Gustavo,20,3,vinte,menores
Letícia,40,4,quarenta,maiores
Luiz Ovídio,50,5,cinquenta,maiores


In [45]:
median(nova_base$tempo)

# Função "select"

Tem a finalidade principal de extair variáveis selecionadas. Também pode ser utilizada para reposicionar as variáveis no dataset. Inicialmente, sem utilizar a função, poderia ser feito da seguinte forma. Abaixo primeiro mostramos o dataset nova_base, e no script seguinte mostramos como extrair colunas específicas deste dataset e gerar um novo objeto dataframe com somente essa escolha de colunas.

In [52]:
head(nova_base, n = 5)

observacoes,tempo,distancia,semaforos,periodo,perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


In [50]:
# critérios após a vírgula
selecao_1 <- nova_base[,c("observacoes","tempo")] 

head(selecao_1, n = 5)

observacoes,tempo
Gabriela,15
Dalila,20
Gustavo,20
Letícia,40
Luiz Ovídio,50


In [51]:
# selecionando pela posição das colunas de 1 a 3
selecao_2 <- nova_base[,1:3] 

head(selecao_2, n = 5)

observacoes,tempo,distancia
Gabriela,15,8
Dalila,20,6
Gustavo,20,15
Letícia,40,20
Luiz Ovídio,50,25


É possível selecionar parte do dataset (incluindo a seleção de linhas). Linhas antes da vírgula, colunas após a vírgula.

In [55]:
#
extrai_parte_1 <- nova_base[3:7, c("observacoes", "perfil")]

head(extrai_parte_1, n = 5)

observacoes,perfil
Gustavo,moderado
Letícia,agressivo
Luiz Ovídio,agressivo
Leonor,moderado
Ana,calmo


In [56]:
#
extrai_parte_2 <- nova_base[3:7, 1:2]

head(extrai_parte_2, n = 5)

observacoes,tempo
Gustavo,20
Letícia,40
Luiz Ovídio,50
Leonor,25
Ana,10


Função "select" utilizada para selecionar e manter variáveis no dataset. Portanto, seleciona as variáveis que devem ficar no dataset

In [58]:
# especificando
base_select_1 <- select(nova_base, observacoes, tempo) 

head(base_select_1, n = 5)

observacoes,tempo
Gabriela,15
Dalila,20
Gustavo,20
Letícia,40
Luiz Ovídio,50


In [57]:
# todas menos uma
base_select_2 <- select(nova_base,  everything(), -perfil) 

head(base_select_2, n = 5)

observacoes,tempo,distancia,semaforos,periodo
Gabriela,15,8,0,Manhã
Dalila,20,6,1,Manhã
Gustavo,20,15,0,Manhã
Letícia,40,20,1,Tarde
Luiz Ovídio,50,25,2,Tarde


In [59]:
# de uma a outra
base_select_3 <- select(nova_base, observacoes:distancia) 

head(base_select_3, n = 5)

observacoes,tempo,distancia
Gabriela,15,8
Dalila,20,6
Gustavo,20,15
Letícia,40,20
Luiz Ovídio,50,25


In [60]:
# para algum prefixo comum
base_select_4 <- select(nova_base, starts_with("p")) 

head(base_select_4, n = 5)

periodo,perfil
Manhã,calmo
Manhã,moderado
Manhã,moderado
Tarde,agressivo
Tarde,agressivo


Reposicionar variáveis do dataset com "select"

In [61]:
nova_base %>% select(observacoes, perfil, everything())

observacoes,perfil,tempo,distancia,semaforos,periodo
Gabriela,calmo,15,8,0,Manhã
Dalila,moderado,20,6,1,Manhã
Gustavo,moderado,20,15,0,Manhã
Letícia,agressivo,40,20,1,Tarde
Luiz Ovídio,agressivo,50,25,2,Tarde
Leonor,moderado,25,11,1,Manhã
Ana,calmo,10,5,0,Manhã
Antônio,calmo,55,32,3,Tarde
Júlia,moderado,35,28,1,Manhã
Mariana,moderado,30,20,1,Manhã


## Função relocate

O mesmo trabalho poderia ser feito com a função "relocate"

In [62]:
nova_base %>% relocate(perfil, .after = observacoes)

ERROR: Error in relocate(., perfil, .after = observacoes): não foi possível encontrar a função "relocate"


In [None]:
nova_base %>% relocate(perfil, .before = tempo)

# Dataset Merge

In [53]:
dataset_merge <- read_excel("(1.3) Dataset Aula Data Wrangling (Join).xls")

head(dataset_merge, n = 5)

Estudante,Gênero
Gabriela,Feminino
Dalila,Feminino
Letícia,Feminino
Leonor,Feminino
Ana,Feminino


# 

In [44]:
head(dataset_inicial, n = 5)

observacoes,Tempo para chegar,Distância percorrida,Semáforos,Período,Perfil
Gabriela,15,8,0,Manhã,calmo
Dalila,20,6,1,Manhã,moderado
Gustavo,20,15,0,Manhã,moderado
Letícia,40,20,1,Tarde,agressivo
Luiz Ovídio,50,25,2,Tarde,agressivo


In [43]:
dataset_inicial <- dataset_inicial %>% rename(observacoes=Observações)

head(dataset_inicial, n = 5)

ERROR: Error in .f(.x[[i]], ...): objeto 'Observações' não encontrado
