# Data cleaning dos dados coletados na Loft

Este notebook é parte das tarefas do curso de Data Science da [Awari](https://awari.com.br/). **O objetivo deste projeto é fazer é limpar o data set construído com os dados de apartamentos em São Paulo coletados no site da Loft**.

O data set original contém 16380 apartamentos detalhados por 6 atributos: preço, endereço, área, quartos, vagas e bairro.

Primeiro, vamos verficar se há linhas duplicadas e remove-las caso existam. Verificamos que há 281 linhas duplicadas. Em seguida, convertemos os dados das colunas preço, área, quartos e vagas para números.

In [1]:
import pandas as pd

In [2]:
dados = pd.read_csv(r'/Users/leuzinger/Dropbox/Data Science/Awari/Web Scraping/Loft/Dados_ap.csv')

In [3]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16380 entries, 0 to 16379
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   preço     16380 non-null  object
 1   endereço  16380 non-null  object
 2   área      16380 non-null  object
 3   quartos   16380 non-null  object
 4   vagas     16380 non-null  object
 5   bairro    16380 non-null  object
dtypes: object(6)
memory usage: 767.9+ KB


In [4]:
dados.head()

Unnamed: 0,preço,endereço,área,quartos,vagas,bairro
0,R$ 1.295.000,Rua Paula Ney,94 m²,3 quartos,2 vagas,Aclimação
1,R$ 1.410.000,Rua Castro Alves,195 m²,4 quartos,3 vagas,Aclimação
2,R$ 899.000,Rua Urano,118 m²,3 quartos,2 vagas,Aclimação
3,R$ 540.000,Rua Álvaro Guimarães,29 m²,Studio,1 vaga,Aclimação
4,R$ 1.175.000,Rua Bartolomeu de Gusmão,135 m²,4 quartos,2 vagas,Aclimação


In [5]:
dados.columns

Index(['preço', 'endereço', 'área', 'quartos', 'vagas', 'bairro'], dtype='object')

In [6]:
dados[dados.duplicated(subset=['preço', 'endereço', 'área', 'quartos', 'vagas', 'bairro'])]

Unnamed: 0,preço,endereço,área,quartos,vagas,bairro
271,R$ 520.000,Rua Doutor Nicolau de Sousa Queirós,75 m²,2 quartos,Sem vaga,Aclimação
308,R$ 460.000,Rua Vergueiro,54 m²,2 quartos,Sem vaga,Aclimação
320,R$ 580.000,Rua João Teixeira da Silva,76 m²,3 quartos,2 vagas,Água Rasa
481,R$ 850.000,Rua Doutor Goulart Penteado,130 m²,3 quartos,3 vagas,Água Rasa
551,R$ 550.000,Avenida Diógenes Ribeiro de Lima,54 m²,2 quartos,1 vaga,Alto De Pinheiros
...,...,...,...,...,...,...
16220,R$ 1.700.000,Rua Manoel Antônio Pinto,420 m²,4 quartos,4 vagas,Vila Sônia
16346,R$ 450.000,Rua Lessia Ukrainka,58 m²,2 quartos,1 vaga,Vila Sônia
16377,R$ 830.000,Rua Doutor Seng 28,98 m²,2 quartos,1 vaga,Bela Vista
16378,R$ 490.000,Rua Benedito Faber 29,67 m²,3 quartos,1 vaga,Vila Andrade


In [7]:
dados = dados.drop_duplicates(subset=['preço', 'endereço', 'área', 'quartos', 'vagas', 'bairro'],keep="first")

In [8]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16099 entries, 0 to 16376
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   preço     16099 non-null  object
 1   endereço  16099 non-null  object
 2   área      16099 non-null  object
 3   quartos   16099 non-null  object
 4   vagas     16099 non-null  object
 5   bairro    16099 non-null  object
dtypes: object(6)
memory usage: 880.4+ KB


In [9]:
dados['preço'] = dados['preço'].str.split(" ").str[1].str.replace(".", "").str.replace(",", ".").astype(float)

  dados['preço'] = dados['preço'].str.split(" ").str[1].str.replace(".", "").str.replace(",", ".").astype(float)


In [10]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16099 entries, 0 to 16376
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   preço     16099 non-null  float64
 1   endereço  16099 non-null  object 
 2   área      16099 non-null  object 
 3   quartos   16099 non-null  object 
 4   vagas     16099 non-null  object 
 5   bairro    16099 non-null  object 
dtypes: float64(1), object(5)
memory usage: 880.4+ KB


In [11]:
dados['área'] = dados['área'].str.split(" ").str[0].astype(int)

In [12]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16099 entries, 0 to 16376
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   preço     16099 non-null  float64
 1   endereço  16099 non-null  object 
 2   área      16099 non-null  int64  
 3   quartos   16099 non-null  object 
 4   vagas     16099 non-null  object 
 5   bairro    16099 non-null  object 
dtypes: float64(1), int64(1), object(4)
memory usage: 880.4+ KB


In [13]:
dados.columns = ['preço (R$)', 'endereço', 'área (m2)', 'quartos', 'vagas', 'bairro']

In [14]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16099 entries, 0 to 16376
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   preço (R$)  16099 non-null  float64
 1   endereço    16099 non-null  object 
 2   área (m2)   16099 non-null  int64  
 3   quartos     16099 non-null  object 
 4   vagas       16099 non-null  object 
 5   bairro      16099 non-null  object 
dtypes: float64(1), int64(1), object(4)
memory usage: 880.4+ KB


In [15]:
dados['quartos'].unique()

array(['3 quartos', '4 quartos', 'Studio', '2 quartos', '1 quarto',
       '6 quartos', '5 quartos', '7 quartos'], dtype=object)

In [16]:
dados['quartos'] = dados['quartos'].str.replace("Studio", "0 quartos").str.split(" ").str[0].astype(int)

In [17]:
dados['quartos'].unique()

array([3, 4, 0, 2, 1, 6, 5, 7])

In [18]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16099 entries, 0 to 16376
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   preço (R$)  16099 non-null  float64
 1   endereço    16099 non-null  object 
 2   área (m2)   16099 non-null  int64  
 3   quartos     16099 non-null  int64  
 4   vagas       16099 non-null  object 
 5   bairro      16099 non-null  object 
dtypes: float64(1), int64(2), object(3)
memory usage: 880.4+ KB


In [19]:
dados['vagas'].unique()

array(['2 vagas', '3 vagas', '1 vaga', 'Sem vaga', '6 vagas', '4 vagas',
       '5 vagas', '7 vagas'], dtype=object)

In [20]:
dados['vagas'] = dados['vagas'].str.replace("Sem vaga", "0 vagas").str.split(" ").str[0].astype(int)

In [21]:
dados['vagas'].unique()

array([2, 3, 1, 0, 6, 4, 5, 7])

In [22]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16099 entries, 0 to 16376
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   preço (R$)  16099 non-null  float64
 1   endereço    16099 non-null  object 
 2   área (m2)   16099 non-null  int64  
 3   quartos     16099 non-null  int64  
 4   vagas       16099 non-null  int64  
 5   bairro      16099 non-null  object 
dtypes: float64(1), int64(3), object(2)
memory usage: 880.4+ KB


In [23]:
dados.head()

Unnamed: 0,preço (R$),endereço,área (m2),quartos,vagas,bairro
0,1295000.0,Rua Paula Ney,94,3,2,Aclimação
1,1410000.0,Rua Castro Alves,195,4,3,Aclimação
2,899000.0,Rua Urano,118,3,2,Aclimação
3,540000.0,Rua Álvaro Guimarães,29,0,1,Aclimação
4,1175000.0,Rua Bartolomeu de Gusmão,135,4,2,Aclimação


In [24]:
dados['endereço'] = dados['endereço'].str.lstrip().str.lower().str.normalize('NFKD').str.encode('ascii',errors='ignore').str.decode('utf8')
dados['endereço'].head(20)

0                rua paula ney
1             rua castro alves
2                    rua urano
3         rua alvaro guimaraes
4     rua bartolomeu de gusmao
5          rua rodrigo claudio
6          rua rodrigo claudio
7         rua machado de assis
8         rua machado de assis
9                rua paula ney
10            rua dona brigida
11         rua gaspar lourenco
12         rua gregorio serrao
13               rua paula ney
14            rua carlos petit
15               rua paula ney
16         rua rodrigo claudio
17          rua almeida torres
18            rua carlos petit
19                    rua nilo
Name: endereço, dtype: object

In [25]:
dados['bairro'] = dados['bairro'].str.lstrip().str.lower().str.normalize('NFKD').str.encode('ascii',errors='ignore').str.decode('utf8')
dados['bairro'].unique()

array(['aclimacao', 'bom retiro', 'agua rasa', 'alto da lapa',
       'alto de pinheiros', 'aricanduva', 'artur alvim', 'barra funda',
       'bela vista', 'belem', 'bras', 'brasilandia', 'brooklin',
       'butanta', 'cachoeirinha', 'cambuci', 'campo belo', 'campo grande',
       'campo limpo', 'cangaiba', 'capao redondo', 'carrao', 'casa verde',
       'chacara klabin', 'cidade ademar', 'cidade dutra', 'cidade lider',
       'cursino', 'vila andrade', 'higienopolis', 'ermelino matarazzo',
       'freguesia do o', 'guaianases', 'ipiranga', 'itaim bibi',
       'itaim nobre', 'jabaquara', 'jacana', 'jaguara', 'jaguare',
       'jaragua', 'jardim america', 'jardim angela', 'jardim europa',
       'jardim helena', 'jardim paulista', 'jardim paulistano',
       'jardim sao luis', 'jose bonifacio', 'lajeado', 'lapa',
       'liberdade', 'limao', 'mandaqui', 'moema indios', 'moema passaros',
       'mooca', 'morumbi', 'paraiso', 'pari', 'parque do carmo',
       'pedreira', 'penha', 'perdiz

In [26]:
dados['bairro'].unique()

array(['aclimacao', 'bom retiro', 'agua rasa', 'alto da lapa',
       'alto de pinheiros', 'aricanduva', 'artur alvim', 'barra funda',
       'bela vista', 'belem', 'bras', 'brasilandia', 'brooklin',
       'butanta', 'cachoeirinha', 'cambuci', 'campo belo', 'campo grande',
       'campo limpo', 'cangaiba', 'capao redondo', 'carrao', 'casa verde',
       'chacara klabin', 'cidade ademar', 'cidade dutra', 'cidade lider',
       'cursino', 'vila andrade', 'higienopolis', 'ermelino matarazzo',
       'freguesia do o', 'guaianases', 'ipiranga', 'itaim bibi',
       'itaim nobre', 'jabaquara', 'jacana', 'jaguara', 'jaguare',
       'jaragua', 'jardim america', 'jardim angela', 'jardim europa',
       'jardim helena', 'jardim paulista', 'jardim paulistano',
       'jardim sao luis', 'jose bonifacio', 'lajeado', 'lapa',
       'liberdade', 'limao', 'mandaqui', 'moema indios', 'moema passaros',
       'mooca', 'morumbi', 'paraiso', 'pari', 'parque do carmo',
       'pedreira', 'penha', 'perdiz

In [27]:
dados['bairro'] = dados['bairro'].str.lstrip().str.lower().str.normalize('NFKD').str.encode('ascii',errors='ignore').str.decode('utf8')
dados['bairro'].unique()

array(['aclimacao', 'bom retiro', 'agua rasa', 'alto da lapa',
       'alto de pinheiros', 'aricanduva', 'artur alvim', 'barra funda',
       'bela vista', 'belem', 'bras', 'brasilandia', 'brooklin',
       'butanta', 'cachoeirinha', 'cambuci', 'campo belo', 'campo grande',
       'campo limpo', 'cangaiba', 'capao redondo', 'carrao', 'casa verde',
       'chacara klabin', 'cidade ademar', 'cidade dutra', 'cidade lider',
       'cursino', 'vila andrade', 'higienopolis', 'ermelino matarazzo',
       'freguesia do o', 'guaianases', 'ipiranga', 'itaim bibi',
       'itaim nobre', 'jabaquara', 'jacana', 'jaguara', 'jaguare',
       'jaragua', 'jardim america', 'jardim angela', 'jardim europa',
       'jardim helena', 'jardim paulista', 'jardim paulistano',
       'jardim sao luis', 'jose bonifacio', 'lajeado', 'lapa',
       'liberdade', 'limao', 'mandaqui', 'moema indios', 'moema passaros',
       'mooca', 'morumbi', 'paraiso', 'pari', 'parque do carmo',
       'pedreira', 'penha', 'perdiz

In [28]:
dados = dados.reset_index(drop=True)
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16099 entries, 0 to 16098
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   preço (R$)  16099 non-null  float64
 1   endereço    16099 non-null  object 
 2   área (m2)   16099 non-null  int64  
 3   quartos     16099 non-null  int64  
 4   vagas       16099 non-null  int64  
 5   bairro      16099 non-null  object 
dtypes: float64(1), int64(3), object(2)
memory usage: 754.8+ KB


In [29]:
dados.to_csv(r'/Users/leuzinger/Dropbox/Data Science/Awari/Web Scraping/Loft/Dados_ap_clean.csv',index=False)

In [32]:
#dados.loc[(dados['bairro'] == 'vila madalena') & (dados['quartos'] == 2),'preço (R$)'].mean()