# Preços de moradias em São Paulo

**Dados**


* **Endereço:** O endereço do imóvel
* **Distrito:** O distrito onde o imóvel está localizado
* **Área:** A área do imóvel em metros quadrados
* **Quartos:** O número de quartos na propriedade
* **Garagem:** O número de vagas de estacionamento disponíveis na propriedade
* **Aluguel:** O aluguel mensal do imóvel
* **Tipo:** O tipo do imóvel (apartamento, casa, etc.)
* **Total:** O custo total do imóvel, incluindo aluguel, impostos e outras taxas.

# Aula 01 - Trabalhando com os Dados


## Importando a base de dados

In [1]:
library(tidyverse)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.1     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


In [2]:
dados <- read.csv("https://raw.githubusercontent.com/danyoliver/Analise-descritiva-com-R/refs/heads/main/dados.csv", sep=";")

In [None]:
dados

address,district,area,bedrooms,garage,type,rent,total
<chr>,<chr>,<int>,<int>,<int>,<chr>,<int>,<int>
Rua Herval,Belenzinho,21,1,0,Studio e kitnet,2400,2939
Avenida São Miguel,Vila Marieta,15,1,1,Studio e kitnet,1030,1345
Rua Oscar Freire,Pinheiros,18,1,0,Apartamento,4000,4661
Rua Júlio Sayago,Vila Ré,56,2,2,Casa em condomínio,1750,1954
Rua Barata Ribeiro,Bela Vista,19,1,0,Studio e kitnet,4000,4654
Rua Domingos Paiva,Brás,50,2,1,Apartamento,3800,4587
Rua Guararapes,Brooklin Paulista,72,2,1,Apartamento,3500,5187
Avenida Cásper Líbero,Centro,26,1,0,Studio e kitnet,1727,2244
Rua José Peres Campelo,Piqueri,32,2,0,Apartamento,1200,1592
Rua Guaperuvu,Vila Aricanduva,36,1,0,Apartamento,1200,1501


In [None]:
head(dados)

Unnamed: 0_level_0,address,district,area,bedrooms,garage,type,rent,total
Unnamed: 0_level_1,<chr>,<chr>,<int>,<int>,<int>,<chr>,<int>,<int>
1,Rua Herval,Belenzinho,21,1,0,Studio e kitnet,2400,2939
2,Avenida São Miguel,Vila Marieta,15,1,1,Studio e kitnet,1030,1345
3,Rua Oscar Freire,Pinheiros,18,1,0,Apartamento,4000,4661
4,Rua Júlio Sayago,Vila Ré,56,2,2,Casa em condomínio,1750,1954
5,Rua Barata Ribeiro,Bela Vista,19,1,0,Studio e kitnet,4000,4654
6,Rua Domingos Paiva,Brás,50,2,1,Apartamento,3800,4587


## Limpando os dados

### Identificando linhas com dados nulos

In [None]:
is.na(dados)

address,district,area,bedrooms,garage,type,rent,total
FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE
FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE
FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE
FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE
FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE
FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE
FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE
FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE
FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE
FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE


In [None]:
sum(is.na(dados))

In [None]:
rowSums(is.na(dados))

In [None]:
rowSums(is.na(dados)) > 0

In [3]:
linhas_invalidas <- rowSums(is.na(dados)) > 0

In [4]:
dados[linhas_invalidas, ]

Unnamed: 0_level_0,address,district,area,bedrooms,garage,type,rent,total
Unnamed: 0_level_1,<chr>,<chr>,<int>,<int>,<int>,<chr>,<int>,<int>
24,Avenida Rio Branco,,,,,,,
85,Rua Gomes de Carvalho,Vila Olímpia,70.0,2.0,,Apartamento,,
439,Rua Ernani Pinto,Vila Maria Alta,123.0,3.0,1.0,Apartamento,,
713,Rua Poconé,,,,,,,
961,Rua Trapiche,Vila Matilde,,,,Casa em condomínio,,
1320,Largo do Arouche,República,,,,,,
1637,Rua Eugênio Pradez,Jardim Piracuama,45.0,1.0,0.0,Apartamento,,
1949,Rua Rondinha,Chácara Inglesa,,,,,,
9170,Rua Diogo Pereira,Super Quadra Morumbi,,,,,,
11646,Rua São Benedito,Santo Amaro,185.0,4.0,3.0,Apartamento,,


In [5]:
dados_limpos <- na.omit(dados)

In [6]:
sum(is.na(dados_limpos))

### Removendo linhas com dados faltantes

In [None]:
head(dados)

Unnamed: 0_level_0,address,district,area,bedrooms,garage,type,rent,total
Unnamed: 0_level_1,<chr>,<chr>,<int>,<int>,<int>,<chr>,<int>,<int>
1,Rua Herval,Belenzinho,21,1,0,Studio e kitnet,2400,2939
2,Avenida São Miguel,Vila Marieta,15,1,1,Studio e kitnet,1030,1345
3,Rua Oscar Freire,Pinheiros,18,1,0,Apartamento,4000,4661
4,Rua Júlio Sayago,Vila Ré,56,2,2,Casa em condomínio,1750,1954
5,Rua Barata Ribeiro,Bela Vista,19,1,0,Studio e kitnet,4000,4654
6,Rua Domingos Paiva,Brás,50,2,1,Apartamento,3800,4587


In [7]:
colunas <- c('area', 'rent', 'total')

for(coluna in colunas){
  resultado <- any(dados_limpos[[coluna]] == 0)
  print(paste('A coluna', coluna, 'tem zero?', resultado))
}


[1] "A coluna area tem zero? TRUE"
[1] "A coluna rent tem zero? FALSE"
[1] "A coluna total tem zero? FALSE"


In [8]:
dados_limpos %>% dplyr::filter(area == 0)

address,district,area,bedrooms,garage,type,rent,total
<chr>,<chr>,<int>,<int>,<int>,<chr>,<int>,<int>
Rua Relíquia,Jardim das Laranjeiras,0,2,1,Apartamento,1600,2569
Rua Edmundo de Amicis,Morumbi,0,3,2,Casa,3200,3351


In [9]:
dados_limpos <- dados_limpos %>% dplyr::filter(area != 0)

In [10]:
dados_limpos %>% dplyr::filter(area == 0)

address,district,area,bedrooms,garage,type,rent,total
<chr>,<chr>,<int>,<int>,<int>,<chr>,<int>,<int>


## Criando novas variáveis

In [None]:
head(dados_limpos)

Unnamed: 0_level_0,address,district,area,bedrooms,garage,type,rent,total
Unnamed: 0_level_1,<chr>,<chr>,<int>,<int>,<int>,<chr>,<int>,<int>
1,Rua Herval,Belenzinho,21,1,0,Studio e kitnet,2400,2939
2,Avenida São Miguel,Vila Marieta,15,1,1,Studio e kitnet,1030,1345
3,Rua Oscar Freire,Pinheiros,18,1,0,Apartamento,4000,4661
4,Rua Júlio Sayago,Vila Ré,56,2,2,Casa em condomínio,1750,1954
5,Rua Barata Ribeiro,Bela Vista,19,1,0,Studio e kitnet,4000,4654
6,Rua Domingos Paiva,Brás,50,2,1,Apartamento,3800,4587


Criando novas variaveis:

Para criar uma nova variável que representa o valor do aluguel e o custo total por metro quadrado em sua base de dados, você pode seguir os seguintes passos no R:

In [11]:
dados_limpos$Aluguel_por_metro_quadrado <- dados_limpos$rent / dados_limpos$area

In [12]:
dados_limpos$Total_por_metro_quadrado <- dados_limpos$total / dados_limpos$area

In [13]:
head(dados_limpos)

Unnamed: 0_level_0,address,district,area,bedrooms,garage,type,rent,total,Aluguel_por_metro_quadrado,Total_por_metro_quadrado
Unnamed: 0_level_1,<chr>,<chr>,<int>,<int>,<int>,<chr>,<int>,<int>,<dbl>,<dbl>
1,Rua Herval,Belenzinho,21,1,0,Studio e kitnet,2400,2939,114.28571,139.95238
2,Avenida São Miguel,Vila Marieta,15,1,1,Studio e kitnet,1030,1345,68.66667,89.66667
3,Rua Oscar Freire,Pinheiros,18,1,0,Apartamento,4000,4661,222.22222,258.94444
4,Rua Júlio Sayago,Vila Ré,56,2,2,Casa em condomínio,1750,1954,31.25,34.89286
5,Rua Barata Ribeiro,Bela Vista,19,1,0,Studio e kitnet,4000,4654,210.52632,244.94737
6,Rua Domingos Paiva,Brás,50,2,1,Apartamento,3800,4587,76.0,91.74


# Aula 02 - Estatísticas Descritivas

## Obtendo estatísticas por variável

In [17]:
mean(dados_limpos$rent)

In [18]:
aggregate(list(Aluguel = dados_limpos$rent), list(Tipo = dados_limpos$type), mean)

Tipo,Aluguel
<chr>,<dbl>
Apartamento,3358.278
Casa,3472.02
Casa em condomínio,3912.552
Studio e kitnet,2128.489


## Obtendo estatísticas para conjuntos de variáveis

In [19]:
aggregate(dados_limpos %>% select(rent, total, Aluguel_por_metro_quadrado, Total_por_metro_quadrado), list(Tipo = dados_limpos$type), mean)

Tipo,rent,total,Aluguel_por_metro_quadrado,Total_por_metro_quadrado
<chr>,<dbl>,<dbl>,<dbl>,<dbl>
Apartamento,3358.278,4437.307,48.46547,62.77483
Casa,3472.02,3824.411,27.69859,30.18694
Casa em condomínio,3912.552,4576.232,68.29282,85.16387
Studio e kitnet,2128.489,2668.934,72.7663,90.55275


In [20]:
aggregate(dados_limpos %>% select(rent, total, Aluguel_por_metro_quadrado, Total_por_metro_quadrado), list(Tipo = dados_limpos$type), median)

Tipo,rent,total,Aluguel_por_metro_quadrado,Total_por_metro_quadrado
<chr>,<dbl>,<dbl>,<dbl>,<dbl>
Apartamento,2500,3296.0,41.55844,54.74157
Casa,2600,2842.5,24.74342,26.81796
Casa em condomínio,2200,2712.0,31.25,35.04651
Studio e kitnet,1850,2318.0,61.11111,76.91667


In [21]:
aggregate(dados_limpos %>% select(rent, total, Aluguel_por_metro_quadrado, Total_por_metro_quadrado), list(Tipo = dados_limpos$type), sd)

Tipo,rent,total,Aluguel_por_metro_quadrado,Total_por_metro_quadrado
<chr>,<dbl>,<dbl>,<dbl>,<dbl>
Apartamento,2640.232,3497.657,27.45893,32.06921
Casa,2874.288,3259.624,31.6687,33.90043
Casa em condomínio,3930.907,4733.798,545.56517,733.35311
Studio e kitnet,1366.585,1625.094,80.64141,95.49953


## Outras estatísticas

In [22]:
summary(dados_limpos)

   address            district              area           bedrooms    
 Length:11645       Length:11645       Min.   :  1.00   Min.   :0.000  
 Class :character   Class :character   1st Qu.: 40.00   1st Qu.:1.000  
 Mode  :character   Mode  :character   Median : 60.00   Median :2.000  
                                       Mean   : 84.71   Mean   :1.967  
                                       3rd Qu.: 96.00   3rd Qu.:3.000  
                                       Max.   :580.00   Max.   :6.000  
     garage          type                rent           total      
 Min.   :0.000   Length:11645       Min.   :  500   Min.   :  509  
 1st Qu.:0.000   Class :character   1st Qu.: 1590   1st Qu.: 1996  
 Median :1.000   Mode  :character   Median : 2420   Median : 3057  
 Mean   :1.061                      Mean   : 3252   Mean   : 4081  
 3rd Qu.:2.000                      3rd Qu.: 3800   3rd Qu.: 4775  
 Max.   :6.000                      Max.   :25000   Max.   :28700  
 Aluguel_por_metro_q

# Aula 03 - Visualização de Dados

## Avaliando a variável alvo

## Avaliando as variáveis explicativas

## Gráficos de Dispersão

# Aula 04 - Distribuição de Frequência

## Tabela de frequências

## Distribuição de frequências para variáveis contínuas

## Distribuição de Frequências Conjunta (Tabelas Cruzadas)

# Aula 05 - Correlação e Regressão Linear


## Correlação

Vamos calcular a correlação entre a Área e o Total do imóvel.

## Regressão linear

## Regressão linear com transformação de variáveis

## Fazendo previsões