# Manipulação de Dataframes

In [0]:
dtf <- read.table("https://gitlab.com/luizcelso/datascience/raw/master/data/aluguel.csv",header=T,sep=",",dec=".")
head(dtf)

Para checar quantas linhas e colunas há nos dados importados, usamos a função **dim**:

In [0]:
dim(dtf)

E observar os nomes das colunas:

In [0]:
names(dtf)

# Manipulando DataFrames em com sintaxe padrão em R

Existem várias formas manipular dataframes e selecionar colunas ou linhas no R.

Para selecionar a coluna aluguel por exemplo, você pode utilizar o símbolo **$**:


```
dtf$aluguel
```

Também é possível utilizar o **colchetes**:


```
dtf[,"aluguel"]
```


Ou utilizar **duplo colchetes** como lista:


```
dtf[["aluguel"]]
```

Nestes casos acima, é retornado um vetor como resultado da operação

In [0]:
dtf$aluguel #retornando um vetor

In [0]:
class(dtf$aluguel) #verificando a classe do objeto

In [0]:
dtf[,"aluguel"] #retornando um vetor contendo apenas os valores de aluguel

In [0]:
class(dtf[,"aluguel"])

In [0]:
dtf[["aluguel"]] #retornando um vetor

In [0]:
class(dtf[["aluguel"]])

Diferente dos anteriores, o formato abaixo, retorna um dataframe como resultado:

In [0]:
dtf["aluguel"] #retornando um dataframe

In [0]:
class(dtf["aluguel"])

---
**Selecionando múltiplas colunas**
Existem diversas maneiras de selecionar múltiplas colunas de um dataframe.
É necessário atribuir um vetor contendo as colunas desejadas como parâmetro. 
Veja o exemplo abaixo:

In [0]:
colunas = c("aluguel","condominio") #criando um vetor que irá conter as colunas
colunas

In [0]:
dtf[,colunas] #retorna um data.frame

In [0]:
dtf[colunas] #retorna um data.frame com as colunas selecionadas

Também existe uma função chamada **subset** que retornará um subconjunto do dataframe. Nesse caso vamos selecionar um subconjunto contendo o *aluguel* e o *condominio*:

In [0]:
subset(dtf, select = c("aluguel","condominio")) #retorna um data.frame

Vamos selecionar subconjuntos baseados em uma lógica, isto é, linhas que contenham área maior que 50m2:

In [0]:
dtf[dtf$area > 50, ]

Uma maneira de criarmos uma nova coluna em um Dataframe, é através da seguinte sintaxe:

In [0]:
dtf['total'] = dtf['aluguel'] + dtf['condominio']
head(dtf)
dtf['total'] = NULL #removendo a coluna total

Também podemos fazer a mesma operação utilizando o indexador $:

In [0]:
dtf$total = dtf$aluguel + dtf$condominio
head(dtf)

Podemos fazer uma análise estatística do dataframe:

In [0]:
summary(dtf)

Calculando alguns valores estatísticos em dataframes:

In [0]:
vet = c(mean(dtf$aluguel), sd(dtf$aluguel), var(dtf$aluguel))
vet

---
**Ordenando por uma ou mais colunas**

Ordenando por quartos:

In [0]:
dtf[order(dtf$quartos), ]

Ordenando por quartos em ordem decrescente:

In [0]:
dtf[order(dtf$quartos, decreasing=TRUE),]

Ordenando por quartos (crescente), area (crescente) e aluguel (decrescente):

In [0]:
dtf[order(dtf$quartos,dtf$area,dtf$aluguel, decreasing=c(FALSE,FALSE,TRUE)),]

---
**Inserindo uma nova linha**

Existem várias maneiras de inserir uma nova linha. Neste exemplo vamos utilizar o **rbind**, para isso todos as colunas devem ser definidas:

In [0]:
linha <- data.frame(
    codigo=5,
    endereco="Rua Cascavel",
    quartos=2,
    suite=1,
    area=56,
    vaga=0,
    aluguel=670,
    condominio=700,
    data='12/10/19',
    total=670+700
)
dtf <- rbind(dtf, linha)
dtf

---
**Categorização**

Categorizando uma coluna utilizando a função **cut**.

Neste exemplo, vamos determinar uma nova coluna que estabelece uma etiqueta, com os possíveis valores: BAIXO, MÉDIO, ALTO com relação aos preços de aluguel.

* BAIXO: aluguel < 700
* MÉDIO: 700 < aluguel <= 1000
* ALTO: 1000 < aluguel


In [0]:
dtf$etiqueta <- cut(dtf$aluguel, 
    c(0, 700, 1000, Inf),
    labels = c("BAIXO", "MÉDIO", "ALTO"),
    ordered_result = TRUE)
dtf

# Usando o pacote dplyr para manipular DataFrames em R
A primeira coisa que precisamos fazer é carregar o pacote **tidyverse**, que inclui o **dplyr**


```
library(tidyverse)
```

O pacote **dplyr** é um pacote bastante rico e que permite facilitar a escrita de seleção e aplicação de funções nos dataframes.

Este pacote bastante recomendado em análises exploratória de dados, por prover soluções de fácil codificação.
É um dos pacotes mais poderosos e populares do R e foi desenvolvido por Hadley Wickham.

A sua utilização é facilitada com o emprego do operador pipe **%>%**.

O operador pipe **%>%** é uma funcionalidade extremamente útil. Com este operador, podemos realizar manipulações no formato **dados %>% fx()** que basicamente significa: *“Pega esse objeto e execute essa operação, depois essa, depois essa, …”*

As cinco funções principais dessa biblioteca são:
* select
* filter
* mutate
* arrange
* summarise

Veremos cada uma dessas funções abaixo.

In [0]:
install.packages("tidyverse") #antes de utilizar o dplyr, é necessário instalar a biblioteca tidyverse

In [0]:
library(tidyverse)

In [0]:
tbl_dtf <- as_tibble(dtf) #transformando um dataframe, convertendo-o em um tibble dataframe (tbl_df)
head(tbl_dtf)

In [0]:
class(tbl_dtf) #veja que agora o seu tipo é tibble

Para explorar os dados vamos usar uma função chamada **glimpse()**, também aplicável a tibbles:

In [0]:
glimpse(tbl_dtf) #ao invés do

Para renomear as colunas, podemos utilizar o comando **rename()**

In [0]:
tbl_dtf <- rename(tbl_dtf, banheiro = suite)
head(tbl_dtf)

In [0]:
tbl_dtf <- rename(tbl_dtf, suite = banheiro) #renomeando para o original novamente
head(tbl_dtf)

---
Função **select()**

**Extraindo colunas como uma tabela**

Selecionado as colunas de 1 a 3, isto é, código, endereco e quartos

In [0]:
tbl_dtf %>% 
    select(1:3)


Selecionado as colunas de 1 e 3, sem incluir a 2:

In [0]:
tbl_dtf %>% 
    select(1,3)

Selecionando as colunas pelo nome:

In [0]:
tbl_dtf %>% 
    select(aluguel,condominio)

Selecionando uma faixa de colunas, ou seja, de *aluguel* até *data*:

In [0]:
tbl_dtf %>% 
    select(aluguel:data)

Removendo duas colunas:

In [0]:
tbl_dtf %>% 
    select(-aluguel, -condominio)

Removendo uma faixa de valores:

In [0]:
tbl_dtf %>% 
    select(-(quartos:data))

Selecionar baseado em uma condição, aplicando uma função, neste caso **is.numeric**. As colunas que retornarem TRUE serão selecionadas.

In [0]:
tbl_dtf %>% 
    select_if(is.numeric) #neste caso, as colunas não numéricas foram removidas

Obs: estes comandos acima não removem as colunas do dataframe **tbl_dtf**, ele simplesmente retorna esse novo dataframe. Para remover as colunas utilizando essa sintaxe, você pode sobreescrever o dataframe **tbl_dtf**.

---
Função **filter()**

**Filtrando valores das colunas**

Selecionado somente as linhas com aluguel maior que 800 e condominio menor que 400

In [0]:
tbl_dtf %>%
  filter(aluguel > 800, condominio < 400)

Também é possível usar operadores lógicos ao invés de vírgula:

In [0]:
tbl_dtf %>%
  filter(aluguel > 800 & condominio < 400)

Podemos utilizar o operador **in**, e passar um vetor, para que sejam filtradas todas as linhas cujo endereco seja: **Rua Lourenço Pinto** ou **Rua Rockefeller**

In [0]:
tbl_dtf %>%
  filter(endereco %in% c('Rua Lourenço Pinto','Rua Rockefeller'))

É possível utilizar o operador **in**, em conjunto com outra condição:

In [0]:
tbl_dtf %>%
  filter(quartos %in% c(2,3) & aluguel < 800)

Podemos utilizar o operador de expressões regulares **grepl** em associação com o comando **filter**, neste caso filtrando apenas os endereços que contenham **Rua** na descrição:

In [0]:
tbl_dtf %>%
  filter(grepl("Rua",endereco))

Também podemos utilizar a função **str_detect** para o mesmo propósito

In [0]:
tbl_dtf %>% 
  filter(str_detect(endereco, "Alameda"))

---
Função **mutate()**

**Alterando as colunas**

Para esta função as novas colunas devem ter o mesmo tamanho que o dataframe oridinal ou 1.

In [0]:
tbl_dtf

Neste caso abaixo, estamos considerando que o custo de cada vaga é 20% do valor do aluguel. Para isso, vamos criar uma nova coluna chamada **preco_vaga** e calcular o seu valor, neste caso aproveitamos para usar o select e reorganizar as colunas:

In [0]:
tbl_dtf %>%
  mutate(preco_vaga = aluguel * 0.2 * vaga) %>%
  select(quartos, condominio, everything()) #reorganiza as colunas, começando com quartos, condominio e os demais.

É possível também adicionar um texto ao preço da vaga:

In [0]:
ntbl_dtf <- tbl_dtf %>%
  mutate(preco_vaga = aluguel * 0.2 * vaga,
         preco_vaga_txt = paste(preco_vaga,'reais'))
head(ntbl_dtf)

A função **case_when()** permite aplicar múltiplos testes de modificação ou criação de conteúdo. Neste caso a lógica cria uma nova coluna *tipo*:

In [0]:
ntbl_dtf %>%
 select(aluguel, vaga, area, suite) %>%
 mutate(
   tipo = case_when(
     suite > 0 & vaga > 0 ~ "GRANDE",
     aluguel <= 800       ~ "PEQUENO",
     area   <= 50         ~ "MÉDIO",
     TRUE                 ~ "NÃO CLASSIFICADO"
   )
 )


---
Função **arrange**

**Ordenando as colunas**

Ordenando pelo aluguel:

In [0]:
tbl_dtf %>%
  arrange(aluguel)

Utilizamos a definição **desc** para definir a ordem:

In [0]:
tbl_dtf %>%
  arrange(desc(aluguel)) #ordenação descendente

Ordenando com múltiplas colunas, sendo por quartos (crescente), area (crescente) e aluguel (decrescente):

In [0]:
tbl_dtf %>%
  arrange(quartos, area, desc(aluguel)) #ordenação: crescente, crescente, descendente

---
Função **summarise**

**Resumindo resultados**

Essa função tem o objetivo de retornar uma espécie de dataframe resumido.

Geralmente utilizamos em conjunto com a função **group_by**, **n()** e **n_distinct()**.

No exemplo abaixo, é retornado o número de quartos, o número de ocorrências agrupadas e as médias do aluguel, condomínio e área:

In [0]:
tbl_dtf %>%
  group_by(quartos) %>%
  summarise(count=n(),
            aluguel=mean(aluguel),
            condominio=mean(condominio),
            area=mean(area)) %>%
  arrange(desc(quartos))

Usando o **count()**, para agrupar e contar o número de ocorrências agrupadas:

In [0]:
tbl_dtf %>%
  count(quartos)

Usando o **tally** para o mesmo propósito:

In [0]:
tbl_dtf %>%
  group_by(quartos) %>%
  tally()

Agrupando mais de uma coluna, sendo *quartos* e *vaga* e imprimindo a média de aluguel agrupado:

In [0]:
tbl_dtf %>%
  group_by(quartos,vaga) %>%
  summarise(aluguel=mean(aluguel))

Contando o número de ocorrências **n()**:

In [0]:
tbl_dtf %>%
  group_by(quartos,vaga) %>%
  summarise(count=n(),
            aluguel=mean(aluguel))

O comando **summarise_at()** também permite resumir todas as colunas listadas:

In [0]:
tbl_dtf %>%
    summarise_at(vars(aluguel, condominio), funs(n(), mean, median))

---
**Outras funções**

Extraindo apenas a coluna *aluguel* como um vetor usando o comando **pull**:

In [0]:
tbl_dtf %>% 
    pull(aluguel) #resultado como vetor

Selecionando N linhas aleatoriamente utilizando a função **sample_n()**:

In [0]:
# Selecionando 3 linhas aleatoriamente
ntbl_dtf %>%
  sample_n(3)

Removendo a palavra "reais" da coluna *preco_vaga_txt*:

In [0]:
ntbl_dtf <- ntbl_dtf %>% 
  mutate(preco_vaga_txt = gsub("reais", "", preco_vaga_txt))
head(ntbl_dtf)

Removendo a coluna **preco_vaga_txt**:

In [0]:
ntbl_dtf$preco_vaga_txt <- NULL #removendo coluna
head(ntbl_dtf)

E se quisermos recodificar uma variável de texto? Por exemplo, vamos definir e examinar a coluna *ano* que contém o mês e ano no formato m/Y:

In [0]:
ntbl_dtf$ano <- c("01/2016","01/2015","01/2017","01/2016","01/2016","01/2016","01/2015","01/2017","01/2016","01/2016",
"01/2015","01/2015","01/2017","01/2016","01/2016","01/2016","01/2016","01/2015","01/2017","01/2016","01/2016")
ntbl_dtf

São 3 valores possíveis em nossa amostra: “01/2015”, “01/2016” e “01/2017”. 
Agora vamos gerar uma nova variável, ano, que indica apenas se o valor é 2015, 2016 ou 2017.

In [0]:
#O comando seria:
ntbl_dtf <- ntbl_dtf %>% 
  mutate(ano = replace(ano, ano == "01/2015", "2015"),
         ano = replace(ano, ano == "01/2016", "2016"),
         ano = replace(ano, ano == "01/2017", "2017"))
ntbl_dtf

Uma maneira mais inteligente é usar o comando **recode()**:

In [0]:
ntbl_dtf <- ntbl_dtf %>% 
  mutate(ano = recode(ano, "01/2015" = "2015", "01/2016" = "2016", "01/2017" = "2017"))
ntbl_dtf  

Removendo linhas duplicadas com a função **distinct()**

In [0]:
ntbl_dtf %>%
  distinct() # excluindo linhas iguais (vejam que removemos o apartamento da Rua Cascavel)

Removendo linhas duplicadas baseado em uma coluna:

In [0]:
ntbl_dtf %>%
  distinct(data) # excluindo linhas que possuem datas iguais

Removendo linhas duplicadas baseado em mais de uma coluna:

In [0]:
ntbl_dtf %>%
  distinct(vaga, endereco)  