# Limpeza dos dados



In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_json(open("informacao_casas.json", "r", encoding="utf8"), lines=True)

In [3]:
df.head()

Unnamed: 0,Quartos,Banheiros,Vagas de Garagem,Área Total,Valor Venda,Bairro,Endereço,Referência,Suítes,Área Construída,Aceita Permuta,Área Privativa,Área Útil,Ano de Construção,Condomínio,IPTU
0,3.0,2.0,2.0,164 m2,R$ 430.000,Uvaranas,"Rua Casemiro de Abreu, 839",132860-4,,,,,,,,
1,3.0,2.0,3.0,,R$ 350.000,Jardim Carvalho,Av. Rocha Pombo,148460-4,1.0,,,,,,,
2,3.0,1.0,1.0,,R$ 300.000,Oficinas,,154166-4,1.0,,,,,,,
3,2.0,1.0,1.0,,R$ 190.000,,RUA JOSÉ MACHADO DE OLIVEIRA,134986-4,,,,,,,,
4,2.0,1.0,1.0,70 m2,R$ 190.000,,Rua José Machado de Oliveira,134520-4,,,,,,,,


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3963 entries, 0 to 3962
Data columns (total 16 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Quartos            3558 non-null   float64
 1   Banheiros          3319 non-null   float64
 2   Vagas de Garagem   2630 non-null   float64
 3   Área Total         2973 non-null   object 
 4   Valor Venda        3959 non-null   object 
 5   Bairro             3582 non-null   object 
 6   Endereço           3843 non-null   object 
 7   Referência         3963 non-null   object 
 8   Suítes             1861 non-null   float64
 9   Área Construída    47 non-null     object 
 10  Aceita Permuta     2 non-null      object 
 11  Área Privativa     2 non-null      object 
 12  Área Útil          18 non-null     object 
 13  Ano de Construção  7 non-null      float64
 14  Condomínio         175 non-null    object 
 15  IPTU               2 non-null      object 
dtypes: float64(5), object(11

# Limpando algumas colunas que possuem muitos missing values

In [5]:
df.drop(columns='Área Construída', inplace=True)
df.drop(columns='Aceita Permuta', inplace=True)
df.drop(columns='Área Privativa', inplace=True)
df.drop(columns='Área Útil', inplace=True)
df.drop(columns='Ano de Construção', inplace=True)
df.drop(columns='IPTU', inplace=True)
df.drop(columns='Condomínio', inplace=True)
df.drop(columns='Endereço', inplace=True)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3963 entries, 0 to 3962
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Quartos           3558 non-null   float64
 1   Banheiros         3319 non-null   float64
 2   Vagas de Garagem  2630 non-null   float64
 3   Área Total        2973 non-null   object 
 4   Valor Venda       3959 non-null   object 
 5   Bairro            3582 non-null   object 
 6   Referência        3963 non-null   object 
 7   Suítes            1861 non-null   float64
dtypes: float64(4), object(4)
memory usage: 247.8+ KB


# Limpezas específicas para cada coluna:

### - Área Total:

In [7]:
def transforma_area_total(x):
    if pd.isnull(x):
        return np.NaN
    k = x.split()
    return int(k[0].replace('.',''))

In [8]:
df['Área Total'] = df['Área Total'].apply(transforma_area_total)

### - Valor de Venda:

In [9]:
def transforma_valor_de_venda(x):
    if pd.isnull(x):
        return np.NaN
    k = x.split()
    return float(k[-1].replace('.',''))

In [10]:
df['Valor Venda'] = df['Valor Venda'].apply(transforma_valor_de_venda)

### - Suítes:

In [11]:
df['Suítes'] = df['Suítes'].fillna(0)

# Limpeza de dados absurdos

In [12]:
df.describe()

Unnamed: 0,Quartos,Banheiros,Vagas de Garagem,Área Total,Valor Venda,Suítes
count,3558.0,3319.0,2630.0,2973.0,3959.0,3963.0
mean,2.969365,2.112383,2.175285,646.059536,572046.3,0.710825
std,0.803363,1.28222,1.215188,15125.417444,609874.0,0.982765
min,1.0,1.0,1.0,13.0,600.0,0.0
25%,2.0,1.0,1.0,90.0,190000.0,0.0
50%,3.0,2.0,2.0,164.0,350000.0,0.0
75%,3.0,3.0,3.0,300.0,700000.0,1.0
max,9.0,8.0,10.0,590000.0,5200000.0,7.0


Vamos analisar os dados das casas com mais de 5000 m² e averiguar no site se houve algum erro

In [13]:
df[df['Área Total']>5000]

Unnamed: 0,Quartos,Banheiros,Vagas de Garagem,Área Total,Valor Venda,Bairro,Referência,Suítes
1936,1.0,1.0,5.0,66766.0,140000.0,Jardim Carvalho,150836-4,0.0
2370,3.0,2.0,2.0,572850.0,2500000.0,,128647-4,3.0
2392,,,,10000.0,2000000.0,Centro,20908-4,0.0
2396,4.0,3.0,4.0,8900.0,2000000.0,,148034-4,2.0
3093,4.0,3.0,2.0,590000.0,590000.0,Uvaranas,105100-4,1.0


As casas com index 2392 e 2396 estão corretas  
As outras estão com erro de digitação no site (serão exclúidas do dataset)

In [14]:
df.drop(index=1936, inplace=True)
df.drop(index=2370, inplace=True)
df.drop(index=3093, inplace=True)

In [15]:
df[df['Valor Venda']<30000]

Unnamed: 0,Quartos,Banheiros,Vagas de Garagem,Área Total,Valor Venda,Bairro,Referência,Suítes
2314,3.0,5.0,2.0,,4000.0,Centro,154601-4,3.0
2315,3.0,2.0,2.0,153.0,680.0,Oficinas,106119-4,1.0
3038,3.0,3.0,2.0,,600.0,Uvaranas,18681-4,1.0


In [16]:
df.drop(index=2314, inplace=True)
df.drop(index=2315, inplace=True)
df.drop(index=3038, inplace=True)

In [17]:
df[df['Área Total']<20]

Unnamed: 0,Quartos,Banheiros,Vagas de Garagem,Área Total,Valor Venda,Bairro,Referência,Suítes
3285,,,,13.0,360000.0,Orfãs,130865-4,0.0


In [18]:
df.drop(index=3285, inplace=True)

In [19]:
df.reset_index(drop=True, inplace=True)

# Limpando dados faltantes

In [20]:
df.isnull().sum()

Quartos              404
Banheiros            643
Vagas de Garagem    1332
Área Total           988
Valor Venda            4
Bairro               380
Referência             0
Suítes                 0
dtype: int64

In [21]:
df.dropna(subset=['Bairro'],inplace=True)

In [172]:
quartos_media = df.groupby('Bairro')['Quartos'].mean().reset_index().round()
banheiros_media = df.groupby('Bairro')['Banheiros'].mean().reset_index().round()
vagas_garagem_media = df.groupby('Bairro')['Vagas de Garagem'].mean().reset_index().round()
area_total_media = df.groupby('Bairro')['Área Total'].mean().reset_index()

In [173]:
quartos_media.head()

Unnamed: 0,Bairro,Quartos
0,Boa Vista,3.0
1,Cará-cará,2.0
2,Centro,3.0
3,Chapada,3.0
4,Colônia Dona Luiza,3.0


In [174]:
for indice, linha in df.iterrows():
    if pd.isnull(df.at[indice, 'Quartos']):
        df.at[indice, 'Quartos'] = quartos_media.loc[(quartos_media['Bairro']==linha['Bairro'])]['Quartos']
        
    if pd.isnull(df.at[indice, 'Banheiros']):    
        df.at[indice, 'Banheiros'] = banheiros_media.loc[(banheiros_media['Bairro']==linha['Bairro'])]['Banheiros']
    
    if pd.isnull(df.at[indice, 'Vagas de Garagem']): 
        df.at[indice, 'Vagas de Garagem'] = vagas_garagem_media.loc[(vagas_garagem_media['Bairro']==linha['Bairro'])]['Vagas de Garagem']
    
    if pd.isnull(df.at[indice, 'Área Total']): 
        df.at[indice, 'Área Total'] = area_total_media.loc[(area_total_media['Bairro']==linha['Bairro'])]['Área Total']

In [175]:
df.isnull().sum()

Quartos             1
Banheiros           1
Vagas de Garagem    1
Área Total          1
Valor Venda         3
Bairro              0
Referência          0
Suítes              0
dtype: int64

In [176]:
df.dropna(subset=['Valor Venda'],inplace=True)
df.dropna(subset=['Quartos'],inplace=True)

In [177]:
df.reset_index(drop=True, inplace=True)

In [178]:
df.isnull().sum()

Quartos             0
Banheiros           0
Vagas de Garagem    0
Área Total          0
Valor Venda         0
Bairro              0
Referência          0
Suítes              0
dtype: int64

# Alterando tipos

In [179]:
df['Quartos'] = df['Quartos'].astype(int)
df['Banheiros'] = df['Banheiros'].astype(int)
df['Vagas de Garagem'] = df['Vagas de Garagem'].astype(int)
df['Suítes'] = df['Suítes'].astype(int)

df['Área Total'] = df['Área Total'].round()
df['Área Total'] = df['Área Total'].astype(int)

df['Valor Venda'] = df['Valor Venda'].round()
df['Valor Venda'] = df['Valor Venda'].astype(int)

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3576 entries, 0 to 3955
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Quartos           3214 non-null   float64
 1   Banheiros         2994 non-null   float64
 2   Vagas de Garagem  2329 non-null   float64
 3   Área Total        2756 non-null   float64
 4   Valor Venda       3573 non-null   float64
 5   Bairro            3576 non-null   object 
 6   Referência        3576 non-null   object 
 7   Suítes            3576 non-null   float64
dtypes: float64(6), object(2)
memory usage: 251.4+ KB


# Arrumando strings

In [181]:
df['Bairro'][123]

' Jardim Carvalho'

In [207]:
def tira_espaco(x):
    return x.lstrip()

In [None]:
df['Bairro'] = df['Bairro'].apply(tira_espaco)
df['Referência'] = df['Referência'].apply(tira_espaco)

# Organizando as Colunas

In [23]:
columnsTitles = ['Referência', 'Quartos', 'Banheiros', 'Suítes', 'Vagas de Garagem', 'Bairro','Área Total', 'Valor Venda']

In [24]:
df = df.reindex(columns=columnsTitles)

In [25]:
df.head()

Unnamed: 0,Referência,Quartos,Banheiros,Suítes,Vagas de Garagem,Bairro,Área Total,Valor Venda
0,132860-4,3.0,2.0,0.0,2.0,Uvaranas,164.0,430000.0
1,148460-4,3.0,2.0,1.0,3.0,Jardim Carvalho,,350000.0
2,154166-4,3.0,1.0,1.0,1.0,Oficinas,,300000.0
6,146507-4,3.0,2.0,1.0,2.0,Uvaranas,80.0,169900.0
7,154050-4,2.0,1.0,0.0,1.0,Uvaranas,,165000.0


# Passando dataset para .csv

In [26]:
df.to_csv('casas_ponta_grossa.csv', index=False)

In [27]:
gg = pd.read_csv('casas_ponta_grossa.csv')

In [29]:
gg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3576 entries, 0 to 3575
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Referência        3576 non-null   object 
 1   Quartos           3214 non-null   float64
 2   Banheiros         2994 non-null   float64
 3   Suítes            3576 non-null   float64
 4   Vagas de Garagem  2329 non-null   float64
 5   Bairro            3576 non-null   object 
 6   Área Total        2756 non-null   float64
 7   Valor Venda       3573 non-null   float64
dtypes: float64(6), object(2)
memory usage: 223.6+ KB
