# Manipulação de Dataframes

In [None]:
dtf <- read.table("https://gitlab.com/luizcelso/datascience/raw/master/data/aluguel.csv",header=T,sep=",",dec=".")
head(dtf)

Para checar quantas linhas e colunas há nos dados importados, usamos a função **dim**:

In [None]:
dim(dtf)

E observar os nomes das colunas:

In [None]:
names(dtf)

# Manipulando DataFrames em com sintaxe padrão em R

Existem várias formas manipular dataframes e selecionar colunas ou linhas no R.

Para selecionar a coluna aluguel por exemplo, você pode utilizar o símbolo **$**:


```
dtf$aluguel
```

Também é possível utilizar o **colchetes**:


```
dtf[,"aluguel"]
```


Ou utilizar **duplo colchetes** como lista:


```
dtf[["aluguel"]]
```

Nestes casos acima, é retornado um vetor como resultado da operação

In [None]:
dtf$aluguel #retornando um vetor

In [None]:
class(dtf$aluguel)

In [None]:
dtf[,"aluguel"] #retornando um vetor

In [None]:
class(dtf[,"aluguel"])

In [None]:
dtf[["aluguel"]] #retornando um vetor

In [None]:
class(dtf[["aluguel"]])

O formato abaixo, retorna um dataframe como resultado:

In [None]:
dtf["aluguel"] #retornando um dataframe

In [None]:
class(dtf["aluguel"])

---
**Selecionando múltiplas colunas**
Existem diversas maneiras de selecionar múltiplas colunas de um dataframe em R.
É necessário atribuir um vetor contendo as colunas desejadas como parâmetro. 
Veja o exemplo abaixo:

In [None]:
colunas = c("aluguel","condominio") #criando um vetor que irá conter as colunas
colunas

In [None]:
dtf[,colunas] #retorna um data.frame

In [None]:
dtf[colunas] #retorna um data.frame

Também existe uma função chamada **subset** que também retornará um dataframe:

In [None]:
subset(dtf, select = c("aluguel","condominio")) #retorna um data.frame

---
**Ordenando múltiplas colunas**

Ordenando por quartos:

In [None]:
dtf[order(dtf$quartos), ]

Ordenando por quartos em ordem crescente:

In [None]:
dtf[order(dtf$quartos, decreasing=FALSE),]

Ordenando por quartos (crescente), area (crescente) e aluguel (decrescente):

In [None]:
dtf[order(dtf$quartos,dtf$area,dtf$aluguel, decreasing=c(FALSE,FALSE,TRUE)),]

Existem várias maneiras de inserir uma nova linha. Neste exemplo vamos utilizar o **rbind**, para isso todos as colunas devem ser definidas:

In [None]:
linha <- data.frame(
    codigo=5,
    endereco="Rua Cascavel",
    quartos=2,
    suite=1,
    area=56,
    vaga=0,
    aluguel=670,
    condominio=700,
    data='12/10/19')
dtf <- rbind(dtf, linha)
dtf

---
Categorizando uma coluna utilizando a função **cut**.

Neste exemplo, vamos determinar uma nova coluna que estabelece uma etiqueta, com os possíveis valores: BAIXO, MÉDIO, ALTO com relação aos preços de aluguel.

* BAIXO: aluguel < 700
* MÉDIO: 700 < aluguel < 1000
* ALTO: 1000 < aluguel


In [None]:
dtf$etiqueta <- cut(dtf$aluguel, 
    c(0, 700, 1000, Inf),
    labels = c("BAIXO", "MÉDIO", "ALTO"),
    ordered_result = TRUE)
dtf

# Usando o pacote dplyr para manipular DataFrames em R
A primeira coisa que precisamos fazer é carregar o pacote **tidyverse**, que inclui o **dplyr**


```
library(tidyverse)
```

O pacote dplyr é um pacote bastante rico e que permite facilitar a escrita de seleção e aplicação de funções nos dataframes.

Este pacote bastante recomendado em análises exploratória de dados, por prover soluções de fácil codificação.
É um dos pacotes mais poderosos e populares do R e foi desenvolvido por Hadley Wickham.

A sua utilização é facilitada com o emprego do operador pipe **%>%**.

O operador pipe **%>%** é uma funcionalidade extremamente útil. Com este operador, podemos realizar manipulações no formato **dados %>% fx()** que basicamente significa: “Pega esse objeto e execute essa operação, depois essa, depois essa, …”

As cinco funções principais dessa biblioteca são:
* select
* filter
* mutate
* arrange
* summarise

Veremos cada uma dessas funções abaixo.

In [None]:
install.packages("tidyverse")

In [None]:
library(tidyverse)

In [None]:
dpdtf <- as_tibble(dtf) #transformando um dataframe, convertendo-o em um tibble dataframe (tbl_df)
head(dpdtf)

In [None]:
class(dpdtf)

Para explorar os dados vamos usar uma função nova, glimpse, aplicável a tibbles:

In [None]:
glimpse(dpdtf)

Para renomear as colunas, podemos utilizar o comando **rename()**

In [None]:
dpdtf <- rename(dpdtf, suite = banheiro)
head(dpdtf)
dpdtf <- rename(dpdtf, banheiro = suite) #renomeando para o original

---
Função **select**

**Extraindo colunas como uma tabela**

Selecionado as colunas de 1 a 3, isto é, código, endereco e quartos

In [None]:
dpdtf %>% 
    select(1:3)


Selecionado as colunas de 1 e 3, sem incluir a 2:

In [None]:
dpdtf %>% 
    select(1,3)

Selecionando as colunas pelo nome:

In [None]:
dpdtf %>% 
    select(aluguel,condominio)

Selecionando uma faixa de colunas:

In [None]:
dpdtf %>% 
    select(aluguel:data)

Removendo duas colunas:

In [None]:
dpdtf %>% 
    select(-aluguel, -condominio)

Removendo uma faixa de valores:

In [None]:
dpdtf %>% 
    select(-(quartos:data))

Selecionar baseado em uma condição, aplicando uma função, neste caso **is.numeric**. As colunas que retornarem TRUE serão selecionadas.

In [None]:
dpdtf %>% 
    select_if(is.numeric) #neste caso, a coluna endereco foi removida

---
Função **filter**

**Filtrando valores das colunas**

Selecionado somente as linhas com aluguel maior que 800 e condominio menor que 400

In [None]:
dpdtf %>%
  filter(aluguel > 800, condominio < 400)

Também é possível usar operadores lógicos ao invés de vírgula:

In [None]:
dpdtf %>%
  filter(aluguel > 800 & condominio < 400)

Podemos utilizar o operador **in**, e passar um vetor, para que sejam filtradas todas as linhas cujo endereco seja: **Rua Lourenço Pinto** ou **Rua Rockefeller**

In [None]:
dpdtf %>%
  filter(endereco %in% c('Rua Lourenço Pinto','Rua Rockefeller'))

In [None]:
dpdtf %>%
  filter(quartos %in% c(2,3) & aluguel < 800)

Podemos utilizar o operador de expressões regulares **grepl** em associação com o comando **filter**, neste caso filtrando apenas os endereços que contenham **Rua** na descrição:

In [None]:
dpdtf %>%
  filter(grepl("Rua",endereco))

Também podemos utilizar a função **str_detect**

In [None]:
dpdtf %>% 
  filter(str_detect(endereco, "Rua"))

---
Função **mutate**

**Alterando as colunas**

Para esta função as novas colunas devem ter o mesmo tamanho que o dataframe oridinal ou 1.

In [None]:
dpdtf

Neste caso abaixo, estamos considerando que o custo de cada vaga é 20% do valor do aluguel. Para isso, vamos criar uma nova coluna chamada **preco_vaga**:

In [None]:
dpdtf %>%
  mutate(preco_vaga = aluguel * 0.2 * vaga) %>%
  select(quartos, condominio, everything()) #reorganiza as colunas, começando com quartos, condominio e os demais.

É possível também adicionar um texto ao preço da vaga:

In [None]:
ndpdtf <- dpdtf %>%
  mutate(preco_vaga = aluguel * 0.2 * vaga,
         preco_vaga_txt = paste(preco_vaga,'reais'))
head(ndpdtf)

A função **case_when()** permite aplicar múltiplos testes de modificação ou criação de conteúdo.

In [None]:
ndpdtf %>%
 select(aluguel, vaga, suite) %>%
 mutate(
   tipo = case_when(
     suite > 1 | vaga > 1 ~ "GRANDE",
     aluguel <= 800       ~ "PEQUENO",
     TRUE                 ~ "NÃO CLASSIFICADO"
   )
 )


---
Função **arrange**

**Ordenando as colunas**

Utilizamos a definição **desc** para ordem decrescente

In [None]:
dpdtf %>%
  arrange(aluguel)

In [None]:
dpdtf %>%
  arrange(desc(aluguel)) #ordenação descendente

In [None]:
Ordenando com múltiplas colunas, sendo por quartos (crescente), area (crescente) e aluguel (decrescente):

In [None]:
dpdtf %>%
  arrange(quartos, area, desc(aluguel)) #ordenação descendente

In [None]:
class(dpdtf)

---
Função **summarise**

**Retornado as colunas**

Essa função tem o objetivo de retornar uma espécie de dataframe resumido.

Geralmente utilizamos em conjunto com a função **group_by**, **n()** e **n_distinct()**.

No exemplo abaixo, é retornado o número de quartos, a frequência de linhas com os relativos números e as médias do aluguel, condomínio e área:

In [None]:
dpdtf %>%
  group_by(quartos) %>%
  summarise(count=n(),
            aluguel=mean(aluguel),
            condominio=mean(condominio),
            area=mean(area)) %>%
  arrange(desc(quartos))

Usando o **count**:

In [None]:
dpdtf %>%
  count(quartos)

Usando o **tally**:

In [None]:
dpdtf %>%
  group_by(quartos) %>%
  tally() %>%
  head # nao precisa de parenteses!

Agrupando mais de uma coluna, quartos e vaga:

In [None]:
dpdtf %>%
  group_by(quartos,vaga) %>%
  summarise(aluguel=mean(aluguel))

Contando o número de ocorrências:

In [None]:
dpdtf %>%
  group_by(quartos,vaga) %>%
  summarise(count=n(),
            aluguel=mean(aluguel))

O comando **summarise_all()** permite resumir todas as colunas, aplicando uma determinada função(ões):

In [None]:
dpdtf %>%
    summarise_all(funs(n(),mean,median))

O comando **summarise_at()** também permite resumir todas as colunas listadas:

In [None]:
dpdtf %>%
    summarise_at(vars(aluguel, condominio), funs(n(), mean, median))

# ***********CONTINUAR:

03c1-Exercício-Pandas_Manipulação e Agregação de Dados.ipynb

---
**Outras funções**

Extraindo apenas a coluna **aluguel** como um vetor usando o comando **pull**:

In [None]:
dpdtf %>% 
    pull(aluguel) #resultado como vetor

Selecionando N linhas aleatoriamente utilizando a função **sample_n**

In [None]:
# Selecionando 3 linhas aleatoriamente
dpdtf %>%
  sample_n(3)

Removendo a palavra **reais** da coluna preco_vaga_txt:

In [None]:
ndpdtf <- ndpdtf %>% 
  mutate(preco_vaga_txt = gsub("reais", "", preco_vaga_txt))
head(ndpdtf)

Removendo a coluna **preco_vaga_txt**:

In [None]:
ndpdtf$preco_vaga_txt <- NULL #removendo coluna
head(ndpdtf)

E se quisermos recodificar uma variável de texto? Por exemplo, vamos examinar a variável que contenha datas. 
Ela contém uma string contendo mês e ano. Vamor inserir essa nova coluna e usemos a função table para examiná-la:

In [None]:
v <- c("01/2016","01/2015","01/2016","01/2016","01/2016","01/2016","01/2015","01/2017","01/2016","01/2016")
table(v)

São 3 valores possíveis em nossa amostra: “01⁄2015”, “01⁄2016” e “01/2017” em nossa amostra. 
Vamos gerar uma nova variável, ano, que indica apenas se o valor é 2015, 2016 ou 2017. 
Vamos começar fazendo uma cópia da variável original e depois substituiremos cada um dos valores:

In [None]:
#O comando seria:
ndpdtf <- ndpdtf %>% 
  mutate(ano = mes,
         ano = replace(ano, ano == "01/2015", "2015"),
         ano = replace(ano, ano == "01/2016", "2016"),
         ano = replace(ano, ano == "01/2017", "2017"))

Uma maneira mais inteligente é usar o comando recode:

In [None]:
ndpdtf <- ndpdtf %>% 
  mutate(ano = recode(mes, "01/2015" = "2015", "01/2016" = "2016", "01/2017" = "2017"))

Removendo linhas duplicadas com a função **distinct()**

In [None]:
ndpdtf %>%
  distinct() # excluindo linhas iguais

Removendo linhas duplicadas baseado em uma coluna:

In [None]:
ndpdtf %>%
  distinct(data) # excluindo linhas que possuem datas iguais

Removendo linhas duplicadas baseado em mais de uma coluna:

In [None]:
ndpdtf %>%
  distinct(data, endereco)  

# Continuação

Agora vamos selecionar um subconjunto contendo o **aluguel** e o **condomínio**, usando o comando subset:

In [None]:
subdtf = subset(dtf, select = c("aluguel","condominio"))

subdtf

Vamos selecionar subconjuntos baseados em uma lógica, isto é, linhas que contenham área maior que 50m2:

In [None]:
#df[df.area > 50]
dtf[dtf$area > 50, ]

Para criarmos uma nova coluna em um Dataframe, podemos utilizar a seguinte sintaxe:

In [None]:
dtf['total'] = dtf['aluguel'] + dtf['condominio']
head(dtf)
dtf['total'] = NULL #removendo a coluna total

In [None]:
head(dtf)

Também podemos fazer a mesma operação utilizando o indexador **$**:

In [None]:
dtf$total = dtf$aluguel + dtf$condominio
head(dtf)

Podemos fazer uma análise do dataframe:

In [None]:
summary(dtf)

Calculando alguns valores estatísticos em dataframes:

In [None]:
vet = c(mean(dtf$aluguel), sd(dtf$aluguel), var(dtf$aluguel))
vet

Para ordenar por uma coluna, podemos usar o comando **order**:

In [None]:
dtf[order(dtf$total),]

Ou podemos incluir o parâmetro decreasing = TRUE, para ordenar de forma decrescente:

In [None]:
dtf[order(dtf$total, decreasing = TRUE),]