# Data Manipulation And Cleansing - Property Rent Calculator Project

This notebook will be used to manipulate and cleanse the data collected in the previous project step, using Pandas and NumPy libraries.

In [150]:
# importing libraries
import numpy as np
import pandas as pd

Using GitHuB API to import the data on the CSV file.

In [24]:
!curl --remote-name \
     -H 'Accept: application/vnd.github.v3.raw' \
     --location https://raw.githubusercontent.com/antunes-lima/Property-Rent-Calculator/f2ad44aedcd7d4ae3bc36e61bddb0be83013022a/1%20-%20Data%20Collection%20-%20Web%20Scrapping/selenium%20property%20info%20output.csv

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  903k  100  903k    0     0  2664k      0 --:--:-- --:--:-- --:--:-- 2672k


Taking the data to a DataFrame.

In [95]:
df = pd.read_csv('/content/selenium%20property%20info%20output.csv')

df.head()

Unnamed: 0.1,Unnamed: 0,title,subtitle,price_unit,price,price_unit_2,price_2,type_size,bedrooms,suite,parking,description
0,0,"Quadra 107 Rua E, NORTE, AGUAS CLARAS",,R$,2.55,m² R$,35.0,Aluguel Apartamento 72 m²,3 Quartos,1 Suíte,2 Vagas,AP13545 - Apartamento para alugar com 3 quarto...
1,1,"Rua 22, SUL, AGUAS CLARAS",,R$,2.4,m² R$,31.0,Aluguel Apartamento 76 m²,3 Quartos,1 Suíte,1 Vaga,Sala com varanda; 03 quartos com armários (01 ...
2,2,"Rua 08, PARQUE ESPLANADA II, VALPARAISO DE GOIAS",,R$,750.0,m² R$,15.0,Aluguel Apartamento 48 m²,2 Quartos,1 Suíte,1 Vaga,APARTAMENTO 02 QUARTOS COM 1 SUÍTE - BELLO SOL...
3,3,"Rua COPAIBA, NORTE, AGUAS CLARAS",,R$,2.2,m² R$,50.0,Aluguel Apartamento 44 m²,1 Quarto,1 Suíte,1 Vaga,AP13667 - Apartamento para alugar com 1 quarto...
4,4,"Avenida das Castanheiras, NORTE, AGUAS CLARAS",,R$,1.4,m² R$,42.0,Aluguel Apartamento 32 m²,1 Quarto,1 Suíte,1 Vaga,BRASÍLIA IMÓVEIS VENDE: Apartamento no Residen...


Checking data types

In [96]:
df.dtypes

Unnamed: 0        int64
title            object
subtitle         object
price_unit       object
price            object
price_unit_2     object
price_2         float64
type_size        object
bedrooms         object
suite            object
parking          object
description      object
dtype: object

Dropping column that is not needed.

In [97]:
df = df.drop(['Unnamed: 0'], axis=1)

In [98]:
columns = df.columns

In [99]:
columns

Index(['title', 'subtitle', 'price_unit', 'price', 'price_unit_2', 'price_2',
       'type_size', 'bedrooms', 'suite', 'parking', 'description'],
      dtype='object')

In [100]:
type( columns )

pandas.core.indexes.base.Index

Renaming columns for easier visualization.

In [101]:
df.columns = ['title', 'subtitle', 'rent_unit', 'rent', 'rent_per_m2_unit', 'rent_per_m2',
       'type_size', 'bedrooms', 'suite', 'parking', 'description']

In [104]:
df.head()

Unnamed: 0,title,subtitle,rent_unit,rent,rent_per_m2_unit,rent_per_m2,type_size,bedrooms,suite,parking,description
0,"Quadra 107 Rua E, NORTE, AGUAS CLARAS",,R$,2.55,m² R$,35.0,Aluguel Apartamento 72 m²,3 Quartos,1 Suíte,2 Vagas,AP13545 - Apartamento para alugar com 3 quarto...
1,"Rua 22, SUL, AGUAS CLARAS",,R$,2.4,m² R$,31.0,Aluguel Apartamento 76 m²,3 Quartos,1 Suíte,1 Vaga,Sala com varanda; 03 quartos com armários (01 ...
2,"Rua 08, PARQUE ESPLANADA II, VALPARAISO DE GOIAS",,R$,750.0,m² R$,15.0,Aluguel Apartamento 48 m²,2 Quartos,1 Suíte,1 Vaga,APARTAMENTO 02 QUARTOS COM 1 SUÍTE - BELLO SOL...
3,"Rua COPAIBA, NORTE, AGUAS CLARAS",,R$,2.2,m² R$,50.0,Aluguel Apartamento 44 m²,1 Quarto,1 Suíte,1 Vaga,AP13667 - Apartamento para alugar com 1 quarto...
4,"Avenida das Castanheiras, NORTE, AGUAS CLARAS",,R$,1.4,m² R$,42.0,Aluguel Apartamento 32 m²,1 Quarto,1 Suíte,1 Vaga,BRASÍLIA IMÓVEIS VENDE: Apartamento no Residen...


Checking nulls amount on each column.

In [105]:
df.isnull().sum(axis=0)

title                  0
subtitle            3103
rent_unit              0
rent                   0
rent_per_m2_unit       0
rent_per_m2            0
type_size              0
bedrooms               5
suite               1208
parking             2390
description            0
dtype: int64

In [106]:
for col in df.columns:
  missing = round(np.mean(df[col].isnull())*100, 2)
  print('{} - {}%'.format(col, missing))

title - 0.0%
subtitle - 83.3%
rent_unit - 0.0%
rent - 0.0%
rent_per_m2_unit - 0.0%
rent_per_m2 - 0.0%
type_size - 0.0%
bedrooms - 0.13%
suite - 32.43%
parking - 64.16%
description - 0.0%


Checking the amount of unique values.

In [107]:
df.nunique()

title               1794
subtitle             529
rent_unit              1
rent                 325
rent_per_m2_unit       1
rent_per_m2          133
type_size            265
bedrooms              10
suite                  7
parking                6
description         3538
dtype: int64

Extracting property size from type_syze column.

In [108]:
df['size_m2'] = df['type_size'].str.extract(r'(\d+)', expand=False)

In [109]:
df.head()

Unnamed: 0,title,subtitle,rent_unit,rent,rent_per_m2_unit,rent_per_m2,type_size,bedrooms,suite,parking,description,size_m2
0,"Quadra 107 Rua E, NORTE, AGUAS CLARAS",,R$,2.55,m² R$,35.0,Aluguel Apartamento 72 m²,3 Quartos,1 Suíte,2 Vagas,AP13545 - Apartamento para alugar com 3 quarto...,72
1,"Rua 22, SUL, AGUAS CLARAS",,R$,2.4,m² R$,31.0,Aluguel Apartamento 76 m²,3 Quartos,1 Suíte,1 Vaga,Sala com varanda; 03 quartos com armários (01 ...,76
2,"Rua 08, PARQUE ESPLANADA II, VALPARAISO DE GOIAS",,R$,750.0,m² R$,15.0,Aluguel Apartamento 48 m²,2 Quartos,1 Suíte,1 Vaga,APARTAMENTO 02 QUARTOS COM 1 SUÍTE - BELLO SOL...,48
3,"Rua COPAIBA, NORTE, AGUAS CLARAS",,R$,2.2,m² R$,50.0,Aluguel Apartamento 44 m²,1 Quarto,1 Suíte,1 Vaga,AP13667 - Apartamento para alugar com 1 quarto...,44
4,"Avenida das Castanheiras, NORTE, AGUAS CLARAS",,R$,1.4,m² R$,42.0,Aluguel Apartamento 32 m²,1 Quarto,1 Suíte,1 Vaga,BRASÍLIA IMÓVEIS VENDE: Apartamento no Residen...,32


Extracting property type from type_size column.

In [110]:
df['property_type'] = df['type_size'].str.replace('\d+', '', regex=True)

In [111]:
df['property_type'] = df['property_type'].str.replace(' m²', '', regex=False)

In [112]:
df['property_type'] = df['property_type'].str.replace('Aluguel ', '', regex=False)

In [113]:
df.head()

Unnamed: 0,title,subtitle,rent_unit,rent,rent_per_m2_unit,rent_per_m2,type_size,bedrooms,suite,parking,description,size_m2,property_type
0,"Quadra 107 Rua E, NORTE, AGUAS CLARAS",,R$,2.55,m² R$,35.0,Aluguel Apartamento 72 m²,3 Quartos,1 Suíte,2 Vagas,AP13545 - Apartamento para alugar com 3 quarto...,72,Apartamento
1,"Rua 22, SUL, AGUAS CLARAS",,R$,2.4,m² R$,31.0,Aluguel Apartamento 76 m²,3 Quartos,1 Suíte,1 Vaga,Sala com varanda; 03 quartos com armários (01 ...,76,Apartamento
2,"Rua 08, PARQUE ESPLANADA II, VALPARAISO DE GOIAS",,R$,750.0,m² R$,15.0,Aluguel Apartamento 48 m²,2 Quartos,1 Suíte,1 Vaga,APARTAMENTO 02 QUARTOS COM 1 SUÍTE - BELLO SOL...,48,Apartamento
3,"Rua COPAIBA, NORTE, AGUAS CLARAS",,R$,2.2,m² R$,50.0,Aluguel Apartamento 44 m²,1 Quarto,1 Suíte,1 Vaga,AP13667 - Apartamento para alugar com 1 quarto...,44,Apartamento
4,"Avenida das Castanheiras, NORTE, AGUAS CLARAS",,R$,1.4,m² R$,42.0,Aluguel Apartamento 32 m²,1 Quarto,1 Suíte,1 Vaga,BRASÍLIA IMÓVEIS VENDE: Apartamento no Residen...,32,Apartamento


In [114]:
df.property_type.value_counts(dropna=False)

Apartamento     3042
Kitnet           683
Name: property_type, dtype: int64

Dropping column that won't be needed.

In [115]:
df = df.drop(['type_size'], axis=1)
df = df.drop(['rent_unit'], axis=1)
df = df.drop(['rent_per_m2_unit'], axis=1)

In [116]:
df.head()

Unnamed: 0,title,subtitle,rent,rent_per_m2,bedrooms,suite,parking,description,size_m2,property_type
0,"Quadra 107 Rua E, NORTE, AGUAS CLARAS",,2.55,35.0,3 Quartos,1 Suíte,2 Vagas,AP13545 - Apartamento para alugar com 3 quarto...,72,Apartamento
1,"Rua 22, SUL, AGUAS CLARAS",,2.4,31.0,3 Quartos,1 Suíte,1 Vaga,Sala com varanda; 03 quartos com armários (01 ...,76,Apartamento
2,"Rua 08, PARQUE ESPLANADA II, VALPARAISO DE GOIAS",,750.0,15.0,2 Quartos,1 Suíte,1 Vaga,APARTAMENTO 02 QUARTOS COM 1 SUÍTE - BELLO SOL...,48,Apartamento
3,"Rua COPAIBA, NORTE, AGUAS CLARAS",,2.2,50.0,1 Quarto,1 Suíte,1 Vaga,AP13667 - Apartamento para alugar com 1 quarto...,44,Apartamento
4,"Avenida das Castanheiras, NORTE, AGUAS CLARAS",,1.4,42.0,1 Quarto,1 Suíte,1 Vaga,BRASÍLIA IMÓVEIS VENDE: Apartamento no Residen...,32,Apartamento


In [121]:
columns = df.columns.tolist()

In [122]:
columns

['title',
 'subtitle',
 'rent',
 'rent_per_m2',
 'bedrooms',
 'suite',
 'parking',
 'description',
 'size_m2',
 'property_type']

Reordering columns, for easier visualization.

In [123]:
columns = ['rent', 'size_m2', 'rent_per_m2', 'property_type', 'bedrooms', 'suite', 'parking', 'title', 'subtitle', 'description']

In [124]:
df = df[columns]

In [126]:
df.head()

Unnamed: 0,rent,size_m2,rent_per_m2,property_type,bedrooms,suite,parking,title,subtitle,description
0,2.55,72,35.0,Apartamento,3 Quartos,1 Suíte,2 Vagas,"Quadra 107 Rua E, NORTE, AGUAS CLARAS",,AP13545 - Apartamento para alugar com 3 quarto...
1,2.4,76,31.0,Apartamento,3 Quartos,1 Suíte,1 Vaga,"Rua 22, SUL, AGUAS CLARAS",,Sala com varanda; 03 quartos com armários (01 ...
2,750.0,48,15.0,Apartamento,2 Quartos,1 Suíte,1 Vaga,"Rua 08, PARQUE ESPLANADA II, VALPARAISO DE GOIAS",,APARTAMENTO 02 QUARTOS COM 1 SUÍTE - BELLO SOL...
3,2.2,44,50.0,Apartamento,1 Quarto,1 Suíte,1 Vaga,"Rua COPAIBA, NORTE, AGUAS CLARAS",,AP13667 - Apartamento para alugar com 1 quarto...
4,1.4,32,42.0,Apartamento,1 Quarto,1 Suíte,1 Vaga,"Avenida das Castanheiras, NORTE, AGUAS CLARAS",,BRASÍLIA IMÓVEIS VENDE: Apartamento no Residen...


Extracting number of bedrooms, suites, and parking slots.

In [127]:
df['bedrooms'] = df['bedrooms'].str.extract(r'(\d+)', expand=False)

In [128]:
df['suite'] = df['suite'].str.extract(r'(\d+)', expand=False)

In [129]:
df['parking'] = df['parking'].str.extract(r'(\d+)', expand=False)

In [130]:
df.head()

Unnamed: 0,rent,size_m2,rent_per_m2,property_type,bedrooms,suite,parking,title,subtitle,description
0,2.55,72,35.0,Apartamento,3,1,2,"Quadra 107 Rua E, NORTE, AGUAS CLARAS",,AP13545 - Apartamento para alugar com 3 quarto...
1,2.4,76,31.0,Apartamento,3,1,1,"Rua 22, SUL, AGUAS CLARAS",,Sala com varanda; 03 quartos com armários (01 ...
2,750.0,48,15.0,Apartamento,2,1,1,"Rua 08, PARQUE ESPLANADA II, VALPARAISO DE GOIAS",,APARTAMENTO 02 QUARTOS COM 1 SUÍTE - BELLO SOL...
3,2.2,44,50.0,Apartamento,1,1,1,"Rua COPAIBA, NORTE, AGUAS CLARAS",,AP13667 - Apartamento para alugar com 1 quarto...
4,1.4,32,42.0,Apartamento,1,1,1,"Avenida das Castanheiras, NORTE, AGUAS CLARAS",,BRASÍLIA IMÓVEIS VENDE: Apartamento no Residen...


In [132]:
df.sample(5)

Unnamed: 0,rent,size_m2,rent_per_m2,property_type,bedrooms,suite,parking,title,subtitle,description
188,5.25,90,58.0,Apartamento,3,1,2.0,"SQNW 111 Bloco J, NOROESTE, BRASILIA",,"Apartamento 3 quartos, sendo 1 suíte, sala par..."
2557,1.4,48,29.0,Apartamento,2,1,,"QC 2, JARDINS MANGUEIRAL, BRASILIA",,Lindo Apartamento de 02 Quartos (2º andar) no ...
592,1.1,83,13.0,Apartamento,3,1,,"QNL 13, TAGUATINGA NORTE, TAGUATINGA",,"Apartamento composto por 3 quartos,1 sala para..."
532,5.2,120,43.0,Apartamento,4,1,1.0,"SQN 203, ASA NORTE, BRASILIA",,Alugo Apartamento na SQN 203 com: 4 quartos se...
2560,8.0,128,62.0,Apartamento,4,1,2.0,"SQN 208 Bloco J, ASA NORTE, BRASILIA",,Viva com tranquilidade e tenha qualidade de vi...


Removing city name from the title column.

In [133]:
df['neighborhood'] = df['title'].str.replace(', BRASILIA', '', regex=False)

In [134]:
df.sample(5)

Unnamed: 0,rent,size_m2,rent_per_m2,property_type,bedrooms,suite,parking,title,subtitle,description,neighborhood
2199,950.0,30,31.0,Apartamento,1,,,"Rua 18, GUARA II, GUARA",,"AP5592 - Apartamento para alugar 1 quarto, 36m...","Rua 18, GUARA II, GUARA"
2437,6.0,147,40.0,Apartamento,3,3.0,2.0,"Rua 33, SUL, AGUAS CLARAS",", Residencial Noblesse",RUA 33 SUL - ÁGUAS CLARAS/DF. LOCAÇÃO. Belíssi...,"Rua 33, SUL, AGUAS CLARAS"
2265,1.6,34,47.0,Apartamento,1,1.0,,"Rua 17, SUL, AGUAS CLARAS",OURO BRANCO IV,SALA AMPLA VARANDA VISTA LIVRE NASCENTE ARMÁRI...,"Rua 17, SUL, AGUAS CLARAS"
3298,1.8,58,31.0,Apartamento,2,1.0,,"Avenida Parque Águas Claras, NORTE, AGUAS CLARAS",,"Excelente apartamento no Ed. Portal do Parque,...","Avenida Parque Águas Claras, NORTE, AGUAS CLARAS"
2294,3.9,120,32.0,Apartamento,3,1.0,,"SQN 108 Bloco F, ASA NORTE, BRASILIA",,IMÓVEL EM PROCESSO DE DESOCUPAÇÃO PREVISÃO PAR...,"SQN 108 Bloco F, ASA NORTE"


Extracting the neighborhood name.

In [137]:
df['neighborhood'] = df['neighborhood'].str.extract(r'([^,]*)$', expand=False)

In [139]:
df.sample(5)

Unnamed: 0,rent,size_m2,rent_per_m2,property_type,bedrooms,suite,parking,title,subtitle,description,neighborhood
3086,2.3,62,37.0,Apartamento,2,,,"QRSW 6 Bloco B 3, SUDOESTE, BRASILIA",,IMÓVEL EM PROCESSO DE DESOCUPAÇÃO PREVISÃO PAR...,SUDOESTE
1883,1.59,45,35.0,Apartamento,1,,,"AOS 01, OCTOGONAL, BRASILIA",,"OCTOGONAL - Apartamento com 1/4 com 45,00 m², ...",OCTOGONAL
1766,800.0,60,13.0,Apartamento,2,1.0,,"CNB 1, TAGUATINGA NORTE, TAGUATINGA",,"Apartamento para alugar, composto por 02 quart...",TAGUATINGA
545,600.0,30,20.0,Apartamento,1,,,"QSE 16, TAGUATINGA SUL, TAGUATINGA",,Este apartamento esta com o primeiro mês de al...,TAGUATINGA
2105,4.5,51,88.0,Apartamento,1,1.0,,"SHTN, ASA NORTE, BRASILIA",,HOTEL BRASÍLIA ALVORADA GOLDEN TULIP - Flat de...,ASA NORTE


Dropping columns that won't be needed.

In [140]:
df = df.drop(['title'], axis=1)

In [141]:
df = df.drop(['subtitle'], axis=1)

In [142]:
df = df.drop(['description'], axis=1)

In [144]:
df = df.drop(['rent_per_m2'], axis=1)

In [145]:
df.sample(5)

Unnamed: 0,rent,size_m2,property_type,bedrooms,suite,parking,neighborhood
37,1.6,72,Apartamento,3,1.0,1.0,GAMA
3280,1.05,30,Apartamento,1,1.0,1.0,ASA NORTE
2592,1.0,35,Kitnet,1,,,ASA NORTE
1692,6.0,127,Apartamento,3,1.0,2.0,NOROESTE
2249,900.0,50,Apartamento,2,1.0,,TAGUATINGA


Checking unique neighborhood names.

In [146]:
df.neighborhood.value_counts(dropna=False)

 ASA NORTE               685
 AGUAS CLARAS            662
 ASA SUL                 395
 SUDOESTE                341
 GUARA                   292
 TAGUATINGA              240
 NOROESTE                172
 LAGO NORTE              152
 SAMAMBAIA               107
 NUCLEO BANDEIRANTE       88
 PARK SUL                 81
 CEILANDIA                67
 RIACHO FUNDO             60
 SOBRADINHO               53
 CRUZEIRO                 49
 VICENTE PIRES            41
 JARDINS MANGUEIRAL       39
 GAMA                     35
 OCTOGONAL                31
 VALPARAISO DE GOIAS      30
 PLANALTINA               18
 SANTA MARIA              17
 RECANTO DAS EMAS         14
 SAO SEBASTIAO            14
 JARDIM BOTANICO           8
 SETOR INDUSTRIAL          6
 LAGO SUL                  4
 PARK WAY                  4
 PARANOA                   4
 VILA PLANALTO             3
 VARJAO                    3
 SIG                       2
 CANDANGOLANDIA            2
 VILA ESTRUTURAL           2
 BRAZLANDIA   

Checking null values.

In [147]:
df.isnull().sum(axis=0)

rent                0
size_m2             0
property_type       0
bedrooms            5
suite            1208
parking          2390
neighborhood        0
dtype: int64

In [148]:
df.shape

(3725, 7)

Exporting to a CSV file.

In [149]:
df.to_csv( 'property-rent-calculator-clean-data.csv' )