In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from ydata_profiling import ProfileReport

  from .autonotebook import tqdm as notebook_tqdm


## Exploração com os dados brutos

In [3]:
# Importação da base dos dados
df = pd.read_csv('../data/raw/dataset_imoveis_sp.csv')

In [None]:
# Visualização das primeiras 5 linhas
df.head(5)

Unnamed: 0,address,district,area,bedrooms,garage,type,rent,total
0,Rua Herval,Belenzinho,21,1,0,Studio e kitnet,2400,2939
1,Avenida São Miguel,Vila Marieta,15,1,1,Studio e kitnet,1030,1345
2,Rua Oscar Freire,Pinheiros,18,1,0,Apartamento,4000,4661
3,Rua Júlio Sayago,Vila Ré,56,2,2,Casa em condomínio,1750,1954
4,Rua Barata Ribeiro,Bela Vista,19,1,0,Studio e kitnet,4000,4654


In [16]:
# Visualização das últimas 5 linhas
df.tail(5)

Unnamed: 0,address,district,area,bedrooms,garage,type,rent,total
11652,Avenida Adolfo Pinheiro,Santo Amaro,94,2,1,Apartamento,4100,5778
11653,Rua Professor Alexandre Correia,Jardim Vitória Régia,350,4,4,Apartamento,11250,17480
11654,Rua Abílio Borin,Jardim Caravelas,84,1,2,Apartamento,4500,5467
11655,Rua Forte William,Jardim Fonte do Morumbi,76,1,0,Apartamento,9000,10200
11656,Rua Alexandre Dumas,Santo Amaro,110,3,1,Casa,3300,3440


In [17]:
# Tamanho da base
df.shape

(11657, 8)

In [18]:
# Verificar informações da base
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11657 entries, 0 to 11656
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   address   11657 non-null  object
 1   district  11657 non-null  object
 2   area      11657 non-null  int64 
 3   bedrooms  11657 non-null  int64 
 4   garage    11657 non-null  int64 
 5   type      11657 non-null  object
 6   rent      11657 non-null  int64 
 7   total     11657 non-null  int64 
dtypes: int64(5), object(3)
memory usage: 728.7+ KB


In [None]:
# Quantidade de valores nulos
df.isnull().sum()

address     0
district    0
area        0
bedrooms    0
garage      0
type        0
rent        0
total       0
dtype: int64

In [None]:
# Verificando informações estatísticas

# count: número de valores não nulos
# unique: valores distintos
# top: valor mais frequente (moda)
# freq: frequência do valor mais comum
# mean: média 
# std: desvio padrão
# min: valor mínimo
# 25%: primeiro quartil (Q1)
# 50%: mediana (Q2)
# 75%: terceiro quartil (Q3)
# max: valor máximo

df.describe(include='all')

Unnamed: 0,address,district,area,bedrooms,garage,type,rent,total
count,11657,11657,11657.0,11657.0,11657.0,11657,11657.0,11657.0
unique,5348,1199,,,,4,,
top,Rua da Consolação,Bela Vista,,,,Apartamento,,
freq,49,352,,,,7194,,
mean,,,84.655658,1.966286,1.060393,,3250.814789,4080.030625
std,,,74.020536,0.931313,1.132349,,2650.711557,3352.480274
min,,,0.0,0.0,0.0,,500.0,509.0
25%,,,40.0,1.0,0.0,,1590.0,1996.0
50%,,,60.0,2.0,1.0,,2415.0,3057.0
75%,,,96.0,3.0,2.0,,3800.0,4774.0


In [None]:
# Número de valores distintos
df.nunique()

address     5348
district    1199
area         381
bedrooms       7
garage         7
type           4
rent        1662
total       5571
dtype: int64

In [5]:
# Número de vezes que cada bairro aparecem 

df['district'].value_counts().sort_index()
df['district'].value_counts().to_csv('../outputs/district_counts.csv', header=True)
pd.read_csv('../outputs/district_counts.csv')


Unnamed: 0,district,count
0,Bela Vista,352
1,Vila Mariana,232
2,Jardim Paulista,220
3,Centro,178
4,Pinheiros,159
...,...,...
1194,Nova Aldeinha,1
1195,Pacaembu.,1
1196,Parque Munhoz,1
1197,Jardim dos Prados,1


In [13]:
# Bairros que aparecem apenas com contagem 1
unique_districts = df['district'].value_counts()
unique_districts = unique_districts[unique_districts == 1]  
unique_districts.to_csv('../outputs/unique_districts.csv', header=True, index=True)
print(len(unique_districts))


340


In [None]:
# Bairros com ocorrências maiores de 20 vezes
district_counts = df['district'].value_counts()
districts_more_than_20 = district_counts[district_counts > 20]  # Filtra bairros com mais de 20 ocorrências

print(len(districts_more_than_20))


122


## Resumo da Análise Exploratória com os dados brutos

Base de dados brutos com informações de moradias para alugar em São Paulo, no qual foi possível observar as seguintes características:

- O dataset possui 11.657 registros, com 8 colunas: 
  * address (endereço - logradouro):
  * district (bairro)
  * area (área do imóvel)
  * bedrooms (quantidade de quartos)
  * garage (número de vagas na garagem)
  * type (tipo de moradia)
  * rent (valor aluguel mensal)
  * total(custo do imóvel incluindo impostos, taxas e etc.)

- Colunas object (String): address, district e type.

- Colunas numéricas (int): area, bedrooms, garage, rent e total.

- Não possui valores nulos.

- Quantidade de valores distintos:
   * Possui 5.348 logradouros diferentes;
   * Possui 1.199 bairros diferentes;
   * Possui 381 valores diferentes de área;
   * Possui 7 valores de quantidade de quartos diferentes;
   * Possui 7 valores de vagas de garagem diferentes;
   * Possui 4 tipos de moradias diferentes;
   * Possui 1.662 valores diferentes de aluguéis;
   * Possui 5.571 valores diferentes de impostos;

- 340 bairros aparecem uma única vez no dataset
- 122 bairros aparecem mais de 20 vezes

- O endereço (logradouro) mais comum é a 'Rua da Consolação', aparecendo 49 vezes na base de dados.

- O bairro mais comum é a 'Bela Vista', aparecendo 352 vezes na base de dados. 

- O tipo de moradia mais comum é o 'Apartamento', aparecendo 7.194 vezes.




## Visualização Gráfica

## Exploração com os dados tratados e limpos

In [5]:
df = pd.read_csv('../data/processed/dataset_imoveis_sp_clean.csv')
df.head()

Unnamed: 0,area,bedrooms,garage,rent,zone_Centro,zone_Leste,zone_Norte,zone_Oeste,zone_Sul,type_Apartamento,type_Casa,type_Casa em condomínio,type_Studio e kitnet
0,21,1,0,2400,False,True,False,False,False,False,False,False,True
1,50,2,1,3800,False,True,False,False,False,True,False,False,False
2,63,2,0,1500,True,False,False,False,False,True,False,False,False
3,34,1,0,1000,True,False,False,False,False,True,False,False,False
4,32,1,0,2100,False,True,False,False,False,False,False,False,True


In [21]:
df = pd.read_csv('../data/processed/dataset_imoveis_sp_clean.csv')
df.isnull().sum()

area                       0
bedrooms                   0
garage                     0
rent                       0
zone_Centro                0
zone_Leste                 0
zone_Norte                 0
zone_Oeste                 0
zone_Sul                   0
type_Apartamento           0
type_Casa                  0
type_Casa em condomínio    0
type_Studio e kitnet       0
dtype: int64