O objetivo desse projeto é consolidar meus conhecimentos em visualização/análise de dados utilizando as bibliotecas do Python para Data Science.

Este notebook contém o primeiro processo de data cleaning que realizei sozinha, por iniciativa própria.

Trabalhei com o dataset houses_to_rent.csv, que contém dados sobre casas para alugar no Brasil e foi obtido no Kaggle.
(https://www.kaggle.com/rubenssjr/brasilian-houses-to-rent#houses_to_rent.csv)

Conteúdo do dataset: 6079 casas para alugar com 13 classes diferentes:

city : Cidade onde o imóvel está localizada
area : Area do imovel
rooms : Numero de quartos
bathroom : Numero de banheiros
parking spaces : Numero de vagas
floor : Andar
animal : Aceita animais?
furniture : Mobilhada?
hoa : Valor do condominio
rent amount : Valor do Aluguel
total : Valor total
property tax : IPTU
fire insurance : Seguro Incendio

In [1]:
# preamble #

import pandas as pd

In [2]:
# acessando o conjunto de dados em csv como um dataframe
df = pd.read_csv('houses_to_rent.csv', index_col=0)

In [3]:
df.head()

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa,rent amount,property tax,fire insurance,total
0,1,240,3,3,4,-,acept,furnished,R$0,"R$8,000","R$1,000",R$121,"R$9,121"
1,0,64,2,1,1,10,acept,not furnished,R$540,R$820,R$122,R$11,"R$1,493"
2,1,443,5,5,4,3,acept,furnished,"R$4,172","R$7,000","R$1,417",R$89,"R$12,680"
3,1,73,2,2,1,12,acept,not furnished,R$700,"R$1,250",R$150,R$16,"R$2,116"
4,1,19,1,1,0,-,not acept,not furnished,R$0,"R$1,200",R$41,R$16,"R$1,257"


In [4]:
## LIMPANDO OS DADOS ##

# as colunas contendo valores em dinheiro precisam ser convertidas para valores numéricos
# para isso, preciso retirar 'R$' e ',' dessas colunas

#farei modificações de teste em um dataframe copiado do original
df1 = df

df1['total'] = df1['total'].replace({'R\$': '',',':''}, regex=True)
df1['hoa'] = df1['hoa'].replace({'R\$': '',',':''}, regex=True)
df1['rent amount'] = df1['rent amount'].replace({'R\$': '',',':''}, regex=True)
df1['property tax'] = df1['property tax'].replace({'R\$': '',',':''}, regex=True)
df1['fire insurance'] = df1['fire insurance'].replace({'R\$': '',',':''}, regex=True)

In [5]:
# criando variáveis booleanas para colunas de interesse

df1['animal_bool'] = df1['animal'] == 'acept'
df1['furniture_bool'] = df1['furniture'] == 'furnished'

In [6]:
df1['floor'] = df1['floor'].replace({'\-':0}, regex=True)

In [7]:
df1['floor'] = df1['floor'].astype(int)

In [8]:
df1['ap_bool'] = df1['floor'] != 0

In [9]:
df1.head()

Unnamed: 0,city,area,rooms,bathroom,parking spaces,floor,animal,furniture,hoa,rent amount,property tax,fire insurance,total,animal_bool,furniture_bool,ap_bool
0,1,240,3,3,4,0,acept,furnished,0,8000,1000,121,9121,True,True,False
1,0,64,2,1,1,10,acept,not furnished,540,820,122,11,1493,True,False,True
2,1,443,5,5,4,3,acept,furnished,4172,7000,1417,89,12680,True,True,True
3,1,73,2,2,1,12,acept,not furnished,700,1250,150,16,2116,True,False,True
4,1,19,1,1,0,0,not acept,not furnished,0,1200,41,16,1257,False,False,False


In [10]:
# transformando os valores numéricos para tipo int

df1['rent amount'] = df1['rent amount'].astype(int)

In [11]:
# df1['property tax'] = df1['property tax'].astype(int) não funciona porque tem 'incluso' -> mudar pra 0
# df1['hoa'] = df1['hoa'].astype(int) não funciona porque tem 'Sem info'
df1['fire insurance'] = df1['fire insurance'].astype(int)

In [12]:
df1['total'] = df1['total'].astype(int)

In [13]:
# investigando a coluna 'hoa'

hoa_sem_info = df1['hoa'] == 'Sem info'

# deve existir uma forma direta de contar sem fazer o loop: encontrar
count = 0
for info in hoa_sem_info:
    if info == True:
        count = count + 1
print('Tem',count,'casas sem informação de hoa')

Tem 119 casas sem informação de hoa


In [15]:
# investigando a coluna 'property tax'

tax_bool = df1['property tax'] == 'Incluso'

count1 = 0
for tax in tax_bool:
    if tax == True:
        count1 = count1 + 1
print('Tem',count1,'casas com taxa inclusa')

Tem 27 casas com taxa inclusa


In [16]:
# toda casa que tiver property_tax 'incluso', o valor será substituído para 0

row_tax = 0

while row_tax < len(df1):
    if df1.loc[row_tax,'property tax'] == 'Incluso':
        print('valor na linha',row_tax,'mudado para 0')
        df1.loc[row_tax,'property tax'] = 0
    row_tax = row_tax + 1

valor na linha 409 mudado para 0
valor na linha 991 mudado para 0
valor na linha 1355 mudado para 0
valor na linha 1648 mudado para 0
valor na linha 1726 mudado para 0
valor na linha 1908 mudado para 0
valor na linha 2043 mudado para 0
valor na linha 2737 mudado para 0
valor na linha 2816 mudado para 0
valor na linha 3016 mudado para 0
valor na linha 3123 mudado para 0
valor na linha 3634 mudado para 0
valor na linha 3716 mudado para 0
valor na linha 3946 mudado para 0
valor na linha 4023 mudado para 0
valor na linha 4040 mudado para 0
valor na linha 4041 mudado para 0
valor na linha 4243 mudado para 0
valor na linha 4653 mudado para 0
valor na linha 4682 mudado para 0
valor na linha 4821 mudado para 0
valor na linha 4882 mudado para 0
valor na linha 5326 mudado para 0
valor na linha 5458 mudado para 0
valor na linha 5488 mudado para 0
valor na linha 5643 mudado para 0
valor na linha 5956 mudado para 0


In [17]:
# testando novamente a mudança para int:
df1['property tax'] = df1['property tax'].astype(int)
print('tudo ok!')

tudo ok!


In [18]:
print(df1['property tax'].head())

0    1000
1     122
2    1417
3     150
4      41
Name: property tax, dtype: int32


In [19]:
# verificando as casas que não possuem valor de 'hoa'.
# O objetivo dessa rotina é investigar se o valor de 'hoa' está embutido no valor total
# para as casas com o valor de 'hoa' identificado como 'sem info.

# se o valor total for igual a soma de todos os valores declarados, posso considerar o valor de 'hoa' como zero.

# caso o valor total seja diferente do esperado na soma de todos os valores declarados,
# o programa armazena quais linhas correspondem a essas casas para investigação posterior.

row = 0
list_bad_rows = []

while row < len(df1):
    if df1.loc[row,'hoa'] == 'Sem info':
        x = df1.loc[row,'rent amount']
        y = df1.loc[row,'property tax']
        z = df1.loc[row,'fire insurance']
        t = df1.loc[row,'total']
        if (x + y + z == t):
            print('deu bom! Posso zerar hoa na linha', row)
            df1.loc[row,'hoa'] = 0
        else:
            print('deu ruim na linha', row)
            list_bad_rows.append(row)
    row = row + 1

deu bom! Posso zerar hoa na linha 35
deu bom! Posso zerar hoa na linha 38
deu ruim na linha 157
deu ruim na linha 163
deu bom! Posso zerar hoa na linha 214
deu bom! Posso zerar hoa na linha 239
deu bom! Posso zerar hoa na linha 278
deu bom! Posso zerar hoa na linha 297
deu bom! Posso zerar hoa na linha 346
deu bom! Posso zerar hoa na linha 352
deu bom! Posso zerar hoa na linha 384
deu bom! Posso zerar hoa na linha 429
deu bom! Posso zerar hoa na linha 430
deu bom! Posso zerar hoa na linha 483
deu ruim na linha 571
deu bom! Posso zerar hoa na linha 710
deu bom! Posso zerar hoa na linha 711
deu bom! Posso zerar hoa na linha 763
deu bom! Posso zerar hoa na linha 899
deu bom! Posso zerar hoa na linha 918
deu bom! Posso zerar hoa na linha 1041
deu bom! Posso zerar hoa na linha 1087
deu ruim na linha 1096
deu bom! Posso zerar hoa na linha 1141
deu bom! Posso zerar hoa na linha 1244
deu bom! Posso zerar hoa na linha 1288
deu ruim na linha 1408
deu ruim na linha 1575
deu bom! Posso zerar hoa n

In [20]:
print(list_bad_rows)

[157, 163, 571, 1096, 1408, 1575, 2015, 2286, 2568, 2743, 3403, 3462, 4089, 5080, 5320, 5564, 5864, 5892]


In [21]:
# verificando a diferença entre os valores total declarado e a soma de todos os valores para as casas selecionadas

for linha in list_bad_rows:
    x = df1.loc[linha,'rent amount']
    y = df1.loc[linha,'property tax']
    z = df1.loc[linha,'fire insurance']
    t = df1.loc[linha,'total']
    print(x+y+z, t)

15476 15480
11951 11950
15378 15380
11338 11340
10958 10960
12548 12550
12153 12150
10047 10050
10368 10370
11106 11110
20254 20250
10421 10420
11151 11150
10803 10800
12858 12860
10998 11000
14289 14290
14146 14150


In [22]:
# os valores de 'total' diferentes da soma de todas as taxas são muito próximos, indicando que o total foi 'arredondado'
# para ter análises mais precisas, decidi mudar o valor da coluna 'total' para a soma dos outros valores informados
# além disso, como a diferença é compatível com arredondamento, considerero os valores de 'hoa' iguais a zero nesses casos

for linha in list_bad_rows:
    df1.loc[linha,'total'] = df1.loc[linha,'rent amount'] + df1.loc[linha,'property tax'] + df1.loc[linha,'fire insurance']
    df1.loc[linha,'hoa'] = 0

In [23]:
# verificando se o resultado final ficou conforme o esperado

for linha in list_bad_rows:
    print(df1.loc[linha,'total'], df1.loc[linha,'hoa'])

15476 0
11951 0
15378 0
11338 0
10958 0
12548 0
12153 0
10047 0
10368 0
11106 0
20254 0
10421 0
11151 0
10803 0
12858 0
10998 0
14289 0
14146 0


In [24]:
# verifiquei que ainda não é possível transformar a coluna 'hoa' em int
# motivo: existem valores citados como 'Incluso'.
# Transformar esses valores em 0

row_tax = 0

while row_tax < len(df1):
    if df1.loc[row_tax,'hoa'] == 'Incluso':
        print('valor na linha',row_tax,'mudado para 0')
        df1.loc[row_tax,'hoa'] = 0
    row_tax = row_tax + 1

valor na linha 60 mudado para 0
valor na linha 138 mudado para 0
valor na linha 172 mudado para 0
valor na linha 226 mudado para 0
valor na linha 461 mudado para 0
valor na linha 506 mudado para 0
valor na linha 545 mudado para 0
valor na linha 572 mudado para 0
valor na linha 598 mudado para 0
valor na linha 765 mudado para 0
valor na linha 786 mudado para 0
valor na linha 813 mudado para 0
valor na linha 864 mudado para 0
valor na linha 942 mudado para 0
valor na linha 971 mudado para 0
valor na linha 1036 mudado para 0
valor na linha 1181 mudado para 0
valor na linha 1187 mudado para 0
valor na linha 1326 mudado para 0
valor na linha 1394 mudado para 0
valor na linha 1448 mudado para 0
valor na linha 1623 mudado para 0
valor na linha 1640 mudado para 0
valor na linha 1641 mudado para 0
valor na linha 1648 mudado para 0
valor na linha 1720 mudado para 0
valor na linha 1807 mudado para 0
valor na linha 1995 mudado para 0
valor na linha 2001 mudado para 0
valor na linha 2315 mudado par

In [26]:
# testando novamente a mudança de 'hoa' para inteiro:
df1['property tax'] = df1['property tax'].astype(int)
print('tudo ok!')

tudo ok!


In [27]:
# por fim, verificando se há mais linhas no dataset cujo total seja diferente da soma de todas as taxas
row = 0
new_list_bad_rows = []

while row < len(df1):
    if df1.loc[row,'hoa'] == 'Sem info':
        x = df1.loc[row,'rent amount']
        y = df1.loc[row,'property tax']
        z = df1.loc[row,'fire insurance']
        h = df1.loc[row,'hoa']
        t = df1.loc[row,'total']
        if (x + y + z + h != t):
            print('deu ruim na linha', row)
            new_list_bad_rows.append(row)
    row = row + 1
print('tudo ok!')

tudo ok!


In [28]:
# selecionando colunas de interesse após data cleaning

df_work = df1[['area','rooms','bathroom','parking spaces','floor',
               'animal_bool','furniture_bool','ap_bool','hoa','rent amount',
               'property tax','fire insurance','total']]

df_work.head()

Unnamed: 0,area,rooms,bathroom,parking spaces,floor,animal_bool,furniture_bool,ap_bool,hoa,rent amount,property tax,fire insurance,total
0,240,3,3,4,0,True,True,False,0,8000,1000,121,9121
1,64,2,1,1,10,True,False,True,540,820,122,11,1493
2,443,5,5,4,3,True,True,True,4172,7000,1417,89,12680
3,73,2,2,1,12,True,False,True,700,1250,150,16,2116
4,19,1,1,0,0,False,False,False,0,1200,41,16,1257


In [29]:
# salvando o dataframe limpo 'df_work' como csv

df_work.to_csv('houses_to_rent_CLEAN.csv')

In [31]:
# chamando o novo csv e vendo se as colunas estão no tipo esperado

df_clean = pd.read_csv('houses_to_rent_CLEAN.csv', index_col=0)
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6080 entries, 0 to 6079
Data columns (total 13 columns):
area              6080 non-null int64
rooms             6080 non-null int64
bathroom          6080 non-null int64
parking spaces    6080 non-null int64
floor             6080 non-null int64
animal_bool       6080 non-null bool
furniture_bool    6080 non-null bool
ap_bool           6080 non-null bool
hoa               6080 non-null int64
rent amount       6080 non-null int64
property tax      6080 non-null int64
fire insurance    6080 non-null int64
total             6080 non-null int64
dtypes: bool(3), int64(10)
memory usage: 540.3 KB
