# Manipulação de Dataframes

In [1]:
dtf <- read.table("https://gitlab.com/luizcelso/datascience/raw/master/data/aluguel.csv",header=T,sep=",",dec=".")
head(dtf)

codigo,endereco,quartos,suite,area,vaga,aluguel,condominio,data
34,Rua Desembargador Westphalen,2,0,90,0,900,371,11/10/17
167,Rua Jose Loureiro,2,0,64,0,650,428,15/07/17
6784,Rua Jose Loureiro,2,0,81,0,1100,400,23/08/17
82,Rua Lourenço Pinto,2,0,50,0,1350,300,19/09/17
2970,Rua Lourenço Pinto,2,0,63,0,1300,300,05/08/17
34197,Alameda Doutor Muricy,2,0,80,1,900,410,23/10/17


Para sabermos o número de linhas de um dataframe:

In [0]:
nrow(dtf)

# Manipulando DataFrames em R

Existem várias formas manipular dataframes e selecionar colunas ou linhas no R.

Para selecionar a coluna aluguel por exemplo, você pode utilizar o símbolo **$**:


```
dtf$aluguel
```

Também é possível utilizar o **colchetes**:


```
dtf[,"aluguel"]
```


Ou utilizar **duplo colchetes** como lista:


```
dtf[["aluguel"]]
```

Nestes casos acima, é retornado um vetor como resultado da operação

In [0]:
dtf$aluguel

In [0]:
dtf[,"aluguel"]

In [0]:
dtf[["aluguel"]]

O formato abaixo, retorna um dataframe como resultado:

In [0]:
dtf["aluguel"]

**Selecionando múltiplas colunas**
Existem diversas maneiras de selecionar múltiplas colunas de um dataframe em R.
É necessário atribuir um vetor contendo as colunas desejadas como parâmetro. 
Veja o exemplo abaixo:

In [0]:
colunas = c("aluguel","condominio")
colunas

In [0]:
dtf[,colunas]

In [0]:
dtf[colunas]

Também existe uma função chamada **subset** que também retornará um dataframe:

In [0]:
subset(dtf, select = c("aluguel","condominio"))

# Usando o pacote dplyr para manipular DataFrames em R
A primeira coisa que precisamos fazer é carregar o pacote tidyverse, que inclui o dplyr



```
library(tidyverse)
```

In [0]:
library(tidyverse)

In [0]:
dpdtf <- as_tibble(dtf) #transformando um dataframe, convertendo-o em um tibble dataframe (tbl_df)
dpdtf

Capturando apenas a coluna **aluguel** como um vetor:

In [0]:
dpdtf %>% pull(aluguel)

**Extraindo colunas como uma tabela**

Selecionado as colunas de 1 a 3, isto é, código, endereco e quartos

In [44]:
dpdtf %>% select(1:3)


codigo,endereco,quartos
<int>,<fct>,<int>
34,Rua Desembargador Westphalen,2
167,Rua Jose Loureiro,2
6784,Rua Jose Loureiro,2
82,Rua Lourenço Pinto,2
2970,Rua Lourenço Pinto,2
34197,Alameda Doutor Muricy,2
5072,Alameda Doutor Muricy,2
469,Rua Desembargador Westphalen,1
24,Rua Desembargador Westphalen,1
74,Avenida Visconde de Guarapuava,2


Selecionado as colunas de 1 e 3, sem incluir a 2:

In [0]:
dpdtf %>% select(1,3)

Selecionando as colunas pelo nome

In [0]:
dpdtf %>% select(aluguel,condominio)

Selecionando uma faixa de colunas:

In [0]:
dpdtf %>% select(aluguel:data)

# Continuação

Agora vamos selecionar um subconjunto contendo o **aluguel** e o **condomínio**, usando o comando subset:

In [0]:
subdtf = subset(dtf, select = c("aluguel","condominio"))

subdtf

Vamos selecionar subconjuntos baseados em uma lógica, isto é, linhas que contenham área maior que 50m2:

In [0]:
#df[df.area > 50]
dtf[dtf$area > 50, ]

Para criarmos uma nova coluna em um Dataframe, podemos utilizar a seguinte sintaxe:

In [0]:
dtf['total'] = dtf['aluguel'] + dtf['condominio']
head(dtf)
dtf['total'] = NULL #removendo a coluna total

In [0]:
head(dtf)

Também podemos fazer a mesma operação utilizando o indexador **$**:

In [0]:
dtf$total = dtf$aluguel + dtf$condominio
head(dtf)

Podemos fazer uma análise do dataframe:

In [79]:
summary(dtf)

     codigo                                   endereco    quartos   
 Min.   :    24.0   Rua Desembargador Westphalen  :5   Min.   :1.0  
 1st Qu.:   145.8   Alameda Doutor Muricy         :2   1st Qu.:1.0  
 Median :  4021.0   Avenida Sete de Setembro      :2   Median :1.5  
 Mean   : 31557.2   Avenida Silva Jardim          :2   Mean   :1.5  
 3rd Qu.: 36848.5   Avenida Visconde de Guarapuava:2   3rd Qu.:2.0  
 Max.   :294579.0   Rua Jose Loureiro             :2   Max.   :2.0  
                    (Other)                       :5                
     suite           area             vaga         aluguel       condominio   
 Min.   :0.00   Min.   : 30.00   Min.   :0.00   Min.   : 550   Min.   :120.0  
 1st Qu.:0.00   1st Qu.: 46.50   1st Qu.:0.00   1st Qu.: 600   1st Qu.:300.0  
 Median :0.00   Median : 63.50   Median :0.00   Median : 900   Median :350.0  
 Mean   :0.05   Mean   : 64.65   Mean   :0.35   Mean   : 898   Mean   :335.9  
 3rd Qu.:0.00   3rd Qu.: 80.00   3rd Qu.:1.00   3rd Q

Calculando alguns valores estatísticos em dataframes:

In [0]:
vet = c(mean(dtf$aluguel), sd(dtf$aluguel), var(dtf$aluguel))
vet

Para ordenar por uma coluna, podemos usar o comando **order**:

In [0]:
dtf[order(dtf$total),]

Ou podemos incluir o parâmetro decreasing = TRUE, para ordenar de forma decrescente:

In [87]:
dtf[order(dtf$total, decreasing = TRUE),]

Unnamed: 0_level_0,codigo,endereco,quartos,suite,area,vaga,aluguel,condominio,data,total,diferenca
Unnamed: 0_level_1,<int>,<fct>,<int>,<int>,<int>,<int>,<int>,<int>,<fct>,<int>,<dbl>
10,74,Avenida Visconde de Guarapuava,2,1,132,1,1800,520,12/10/17,2320,-1420
4,82,Rua Lourenço Pinto,2,0,50,0,1350,300,19/09/17,1650,-750
5,2970,Rua Lourenço Pinto,2,0,63,0,1300,300,05/08/17,1600,-700
3,6784,Rua Jose Loureiro,2,0,81,0,1100,400,23/08/17,1500,-600
7,5072,Alameda Doutor Muricy,2,0,84,0,1100,382,02/09/17,1482,-582
18,66490,Rua Desembargador Westphalen,1,0,80,1,1100,350,29/08/17,1450,-550
6,34197,Alameda Doutor Muricy,2,0,80,1,900,410,23/10/17,1310,-410
1,34,Rua Desembargador Westphalen,2,0,90,0,900,371,11/10/17,1271,-371
17,80,Rua Desembargador Westphalen,1,0,80,1,900,350,12/08/17,1250,-350
12,82343,Avenida Sete de Setembro,1,0,45,0,750,420,11/10/17,1170,-270


# Seleção de valores em um dataframe

In [0]:
Podemos selecionar valores em um dataframe baseado em uma lógica: