<a href="https://colab.research.google.com/github/viniciusacosta/rent_calculator/blob/main/data_cleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **1. Carregando Dados**

### **1.1 Importando bibliotecas necessárias**


In [None]:
# Importando bibliotecas, para a manipulação e exploração dos conjuntos de dados.
import pandas as pd

# Importando bibliotecas, para a plotagem de gráficos interativos com o plotly.

import plotly.offline as py
import plotly.graph_objs as go
import plotly.figure_factory as ff

# Importando bibliotecas, para a plotagem de gráficos com o Seaborn e Matplotlib.
import matplotlib.pyplot as plt
import seaborn as sns

from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


### **1.2 Carregando Dados**

In [None]:
# Carregando conjunto de dados.
df = pd.read_csv('/content/drive/MyDrive/data_science/imoveis/apto_rawdata.csv')

# Exibindo as primeiras linhas do DataFrame.
df

Unnamed: 0.1,Unnamed: 0,address,city,area,rooms,bathrooms,garage,amenites,price_rent,condo,crawled_at
0,0,"Rua Professor José Freitas de Andrade, 428 - C...",aracaju,99.0,4 Quartos,2 Banheiros,1 Vaga,Mobiliado Condomínio_fechado Aceita_animais Ar...,R$ 1.500 /mês,,2022-06-23 21:10
1,1,"Rua Napoleão Dórea, 723 - Atalaia, Aracaju - SE",aracaju,70.0,3 Quartos,2 Banheiros,1 Vaga,Piscina Mobiliado Elevador Aceita_animais Ar-c...,R$ 220.000 /mês,R$ 450,2022-06-23 21:10
2,2,"Rua Maria Vasconcelos de Andrade, 1720 - Aruan...",aracaju,80.0,3 Quartos,2 Banheiros,1 Vaga,Piscina Churrasqueira Elevador Condomínio_fech...,R$ 750 /mês,R$ 400,2022-06-23 21:10
3,3,"Luzia, Aracaju - SE",aracaju,67.0,2 Quartos,1 Banheiro,1 Vaga,Piscina Churrasqueira Playground Salão_de_fest...,R$ 1.250 /mês,R$ 395,2022-06-23 21:10
4,4,"Avenida São João Batista, 638 - Ponto Novo, Ar...",aracaju,70.0,3 Quartos,1 Banheiro,1 Vaga,Piscina Mobiliado Churrasqueira Condomínio_fec...,R$ 1.200 /mês,R$ 380,2022-06-23 21:10
...,...,...,...,...,...,...,...,...,...,...,...
17238,17238,"Rua 9, 544 - Setor Oeste, Goiânia - GO",goiania,,,,,,,,2022-06-23 22:21
17239,17239,"Rua 9, 544 - Setor Oeste, Goiânia - GO",goiania,,,,,,,,2022-06-23 22:21
17240,17240,"Rua 9, 544 - Setor Oeste, Goiânia - GO",goiania,,,,,,,,2022-06-23 22:21
17241,17241,"Rua 9, 544 - Setor Oeste, Goiânia - GO",goiania,,,,,,,,2022-06-23 22:21


In [None]:
# Verificando as dimensões do dataset.
df.shape

(17243, 11)

Verificamos a existência de **11** variáveis, e **17178** observações dentro do dataset.

In [None]:
# Verificando o nome das colunas
df.columns

Index(['Unnamed: 0', 'address', 'city', 'area', 'rooms', 'bathrooms', 'garage',
       'amenites', 'price_rent', 'condo', 'crawled_at'],
      dtype='object')

In [None]:
# Eliminando colunas indesejadas
df.drop(columns=['Unnamed: 0'], inplace=True)

In [None]:
# Verificando o número de NaNs existentes dentro do dataset
df.isna().sum()

address           0
city              0
area          10119
rooms         10151
bathrooms     10192
garage        10227
amenites          0
price_rent        0
condo         12501
crawled_at        0
dtype: int64

In [None]:
# Verificando a localização dos valores NaN
df[df.isnull()]

Unnamed: 0,address,city,area,rooms,bathrooms,garage,amenites,price_rent,condo,crawled_at
0,,,,,,,,,,
1,,,,,,,,,,
2,,,,,,,,,,
3,,,,,,,,,,
4,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
17238,,,,,,,,,,
17239,,,,,,,,,,
17240,,,,,,,,,,
17241,,,,,,,,,,


In [None]:
# Eliminando as linhas que não possuem valores price
df.dropna(subset=['price_rent', 'rooms', 'bathrooms', 'area'], inplace = True)

# Verificando o número de NaNs restantes
df.isna().sum()

address          0
city             0
area             0
rooms            0
bathrooms        0
garage          35
amenites         0
price_rent       0
condo         2309
crawled_at       0
dtype: int64

In [None]:
# Criando uma bool series
bool_series = df[['address', 'rooms', 'bathrooms', 'garage', 'area']].duplicated(keep = False)

# Passando valores que não estão na matriz, para vermos somente os valores únicos
df = df[~bool_series]

# Retornando o dataframe
df

Unnamed: 0,address,city,area,rooms,bathrooms,garage,amenites,price_rent,condo,crawled_at
2,"Rua Maria Vasconcelos de Andrade, 1720 - Aruan...",aracaju,80.0,3 Quartos,2 Banheiros,1 Vaga,Piscina Churrasqueira Elevador Condomínio_fech...,R$ 750 /mês,R$ 400,2022-06-23 21:10
3,"Luzia, Aracaju - SE",aracaju,67.0,2 Quartos,1 Banheiro,1 Vaga,Piscina Churrasqueira Playground Salão_de_fest...,R$ 1.250 /mês,R$ 395,2022-06-23 21:10
4,"Avenida São João Batista, 638 - Ponto Novo, Ar...",aracaju,70.0,3 Quartos,1 Banheiro,1 Vaga,Piscina Mobiliado Churrasqueira Condomínio_fec...,R$ 1.200 /mês,R$ 380,2022-06-23 21:10
5,"Rua Matilde Silva Lima, 421 - Luzia, Aracaju - SE",aracaju,65.0,3 Quartos,1 Banheiro,1 Vaga,Piscina Churrasqueira Elevador Condomínio_fech...,R$ 800 /mês,R$ 375,2022-06-23 21:10
6,"Luzia, Aracaju - SE",aracaju,59.0,3 Quartos,1 Banheiro,1 Vaga,Área_de_serviço,R$ 850 /mês,R$ 370,2022-06-23 21:10
...,...,...,...,...,...,...,...,...,...,...
17137,"Setor Oeste, Goiânia - GO",goiania,173.0,2 Quartos,3 Banheiros,2 Vagas,Elevador Interfone Cozinha,R$ 1.300 /mês,R$ 480,2022-06-23 22:20
17138,"Rua 141, 0 - Setor Marista, Goiânia - GO",goiania,32.0,1 Quarto,1 Banheiro,1 Vaga,Piscina Mobiliado Churrasqueira Elevador Condo...,,,2022-06-23 22:20
17171,"Setor Marista, Goiânia - GO",goiania,43.0,1 Quarto,1 Banheiro,1 Vaga,Mobiliado Área_de_serviço,R$ 2.490 /mês,R$ 340,2022-06-23 22:20
17172,"Rua 1124, 1 - Setor Marista, Goiânia - GO",goiania,189.0,3 Quartos,4 Banheiros,2 Vagas,,,,2022-06-23 22:20


In [None]:
#Criando coluna estado
df["estado"] = df["address"].str.split(" - ").str[-1]

df

Unnamed: 0,address,city,area,rooms,bathrooms,garage,amenites,price_rent,condo,crawled_at,estado
2,"Rua Maria Vasconcelos de Andrade, 1720 - Aruan...",aracaju,80.0,3 Quartos,2 Banheiros,1 Vaga,Piscina Churrasqueira Elevador Condomínio_fech...,R$ 750 /mês,R$ 400,2022-06-23 21:10,SE
3,"Luzia, Aracaju - SE",aracaju,67.0,2 Quartos,1 Banheiro,1 Vaga,Piscina Churrasqueira Playground Salão_de_fest...,R$ 1.250 /mês,R$ 395,2022-06-23 21:10,SE
4,"Avenida São João Batista, 638 - Ponto Novo, Ar...",aracaju,70.0,3 Quartos,1 Banheiro,1 Vaga,Piscina Mobiliado Churrasqueira Condomínio_fec...,R$ 1.200 /mês,R$ 380,2022-06-23 21:10,SE
5,"Rua Matilde Silva Lima, 421 - Luzia, Aracaju - SE",aracaju,65.0,3 Quartos,1 Banheiro,1 Vaga,Piscina Churrasqueira Elevador Condomínio_fech...,R$ 800 /mês,R$ 375,2022-06-23 21:10,SE
6,"Luzia, Aracaju - SE",aracaju,59.0,3 Quartos,1 Banheiro,1 Vaga,Área_de_serviço,R$ 850 /mês,R$ 370,2022-06-23 21:10,SE
...,...,...,...,...,...,...,...,...,...,...,...
17137,"Setor Oeste, Goiânia - GO",goiania,173.0,2 Quartos,3 Banheiros,2 Vagas,Elevador Interfone Cozinha,R$ 1.300 /mês,R$ 480,2022-06-23 22:20,GO
17138,"Rua 141, 0 - Setor Marista, Goiânia - GO",goiania,32.0,1 Quarto,1 Banheiro,1 Vaga,Piscina Mobiliado Churrasqueira Elevador Condo...,,,2022-06-23 22:20,GO
17171,"Setor Marista, Goiânia - GO",goiania,43.0,1 Quarto,1 Banheiro,1 Vaga,Mobiliado Área_de_serviço,R$ 2.490 /mês,R$ 340,2022-06-23 22:20,GO
17172,"Rua 1124, 1 - Setor Marista, Goiânia - GO",goiania,189.0,3 Quartos,4 Banheiros,2 Vagas,,,,2022-06-23 22:20,GO


In [None]:
# Contabilizando o número de valores únicos em cada variável do dataset.
info = df.nunique().sort_values()

# Determinando o tipo de dado de cada uma das variáveis do dataset.
info = pd.DataFrame(info.values, index = info.index, columns = ['NUniques'])

# Atribuindo informações sobre o tipo de dado das variáveis ao DataFrame.
info['dtypes'] = df.dtypes

# Exibindo informações.
info

Unnamed: 0,NUniques,dtypes
rooms,7,object
bathrooms,9,object
garage,12,object
city,17,object
estado,17,object
crawled_at,70,object
area,273,float64
price_rent,456,object
condo,769,object
amenites,1593,object


**Transformando os tipos de dados das colunas**

In [None]:
#### Transformando tipo de dado  das colunas
### Object to float64 - Apartamento e garagem
apto_garage = ["rooms", 'bathrooms', 'garage']

for col in apto_garage:
  df[col] = df[col].str.split(" ").str[0].str.replace("--","0").astype(float)

### Object to float64 - Aluguel, preço de venda e condominio
## Object to float64 - condominio
df["condo"] = df["condo"].str.split(" ").str[1].str.replace(".","").astype(float)

## Object to float64 - Preço aluguel
# Criando função para transformar lista em string
def to_string(x):
  for n in x: 
    string = ''.join(str(n) for n in x)
    return string

# Object to float64 - Preço aluguel
df['price_rent'] = df['price_rent'].str.findall('[0-9]+').apply(to_string).astype(float)

### Object to datetime
df['crawled_at'] = pd.to_datetime(df['crawled_at'])

# Verificando dtypes
info = df.nunique().sort_values()
info = pd.DataFrame(info.values, index = info.index, columns = ['NUniques'])
info['dtypes'] = df.dtypes
info


The default value of regex will change from True to False in a future version. In addition, single character regular expressions will *not* be treated as literal strings when regex=True.



Unnamed: 0,NUniques,dtypes
rooms,7,float64
bathrooms,9,float64
garage,12,float64
city,17,object
estado,17,object
crawled_at,70,datetime64[ns]
area,273,float64
price_rent,448,float64
condo,769,float64
amenites,1593,object


In [None]:
# Ordenando as colunas
df = df[['crawled_at', 'estado', 'city', 'address',  'area', 'rooms', 'bathrooms', 'garage',
       'price_rent', 'condo', 'amenites']]

In [None]:
# Criando dummies para a aplicação dos modelos
df = pd.concat([df,df['amenites'].str.get_dummies(sep=" ")], axis=1)

df.drop(columns=['amenites'], inplace=True)

In [None]:
# Retirando todos os acentos e deixando todas as letras minusculas para facilitar a manipulação do conjunto de dados
df.columns = df.columns.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8').str.lower()

In [None]:
df

Unnamed: 0,crawled_at,estado,city,address,area,rooms,bathrooms,garage,price_rent,condo,...,varanda_fechada_com_vidro,varanda_gourmet,ventilacao_natural,vestiario,vigia,vista_exterior,vista_para_a_montanha,vista_para_o_mar,area_de_lazer,area_de_servico
2,2022-06-23 21:10:00,SE,aracaju,"Rua Maria Vasconcelos de Andrade, 1720 - Aruan...",80.0,3.0,2.0,1.0,750.0,400.0,...,0,0,0,0,0,0,0,0,0,0
3,2022-06-23 21:10:00,SE,aracaju,"Luzia, Aracaju - SE",67.0,2.0,1.0,1.0,1250.0,395.0,...,0,0,0,0,0,0,0,0,0,0
4,2022-06-23 21:10:00,SE,aracaju,"Avenida São João Batista, 638 - Ponto Novo, Ar...",70.0,3.0,1.0,1.0,1200.0,380.0,...,0,0,0,0,0,0,0,0,0,1
5,2022-06-23 21:10:00,SE,aracaju,"Rua Matilde Silva Lima, 421 - Luzia, Aracaju - SE",65.0,3.0,1.0,1.0,800.0,375.0,...,0,0,0,0,0,0,0,0,0,0
6,2022-06-23 21:10:00,SE,aracaju,"Luzia, Aracaju - SE",59.0,3.0,1.0,1.0,850.0,370.0,...,0,0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17137,2022-06-23 22:20:00,GO,goiania,"Setor Oeste, Goiânia - GO",173.0,2.0,3.0,2.0,1300.0,480.0,...,0,0,0,0,0,0,0,0,0,0
17138,2022-06-23 22:20:00,GO,goiania,"Rua 141, 0 - Setor Marista, Goiânia - GO",32.0,1.0,1.0,1.0,,,...,0,0,0,0,0,0,0,0,0,0
17171,2022-06-23 22:20:00,GO,goiania,"Setor Marista, Goiânia - GO",43.0,1.0,1.0,1.0,2490.0,340.0,...,0,0,0,0,0,0,0,0,0,1
17172,2022-06-23 22:20:00,GO,goiania,"Rua 1124, 1 - Setor Marista, Goiânia - GO",189.0,3.0,4.0,2.0,,,...,0,0,0,0,0,0,0,0,0,0


In [None]:
# Salvando conjunto de dados no Google Drive

path = '/content/drive/MyDrive/data_science/imoveis/apto_capitais_data.csv'

with open(path, 'w', encoding = 'utf-8-sig') as f:
  df.to_csv(f)