# Tratando os dados.

In [1]:
#  Importando as bibliotecas
import pandas as pd
import numpy as np
import re

In [2]:
url = 'https://raw.githubusercontent.com/robertferro/calculadora-aluguel-ml/main/1%20-%20web-scraping/dados_aluguels_imoveis_ml_sao_paulo.csv'
df = pd.read_csv(url ,thousands = '.', encoding = 'utf-8')

In [3]:
df.shape

(1680, 4)

In [4]:
list(df.area_quartos)[0:10]

['60 m² construídos2 quartos',
 '30 m² construídos1 quarto',
 '51 m² construídos2 quartos',
 '126 m² construídos3 quartos',
 '55 m² construídos1 quarto',
 '58 m² construídos2 quartos',
 '77 m² construídos3 quartos',
 '96 m² construídos2 quartos',
 '52 m² construídos2 quartos',
 '33 m² construídos1 quarto']

In [5]:
df.head()

Unnamed: 0,zona,area_quartos,enderecos_lista,aluguel
0,zona-norte,60 m² construídos2 quartos,"Av Maestro Villa Lobos, Vila Gustavo, São Paul...",1600
1,zona-norte,30 m² construídos1 quarto,"R Das Tâmaras, Vila Paulista, São Paulo Zona N...",900
2,zona-norte,51 m² construídos2 quartos,"Rua José Timotheo Da Silva, Jardim Peri, São P...",950
3,zona-norte,126 m² construídos3 quartos,"Rua Plinio Colás, Lauzane Paulista, São Paulo ...",2500
4,zona-norte,55 m² construídos1 quarto,"Rua Doutor Gabriel Covelli, Parque Peruche, Sã...",900


## Pegando a área dos quartos

In [6]:
# Criei esse subset com algumas das situacoes que encontramos
area_quartos_subset = ['1,360 m² totais',
                       '2 quartos',
                       '53 m² construídos2 quartos',
                        '280 m² construídos',
                        '2,600 m² construídos']

In [7]:
entrada = '1,360 m² totais'

In [8]:
def pegar_area(entrada):
    if ' m²' in entrada:
      area = entrada.split(' m²')[0]
      area = area.replace(',', '')
    else:
      area = np.nan
    return area

In [9]:
df['area'] = df['area_quartos'].apply(pegar_area)

In [10]:
df.head()

Unnamed: 0,zona,area_quartos,enderecos_lista,aluguel,area
0,zona-norte,60 m² construídos2 quartos,"Av Maestro Villa Lobos, Vila Gustavo, São Paul...",1600,60
1,zona-norte,30 m² construídos1 quarto,"R Das Tâmaras, Vila Paulista, São Paulo Zona N...",900,30
2,zona-norte,51 m² construídos2 quartos,"Rua José Timotheo Da Silva, Jardim Peri, São P...",950,51
3,zona-norte,126 m² construídos3 quartos,"Rua Plinio Colás, Lauzane Paulista, São Paulo ...",2500,126
4,zona-norte,55 m² construídos1 quarto,"Rua Doutor Gabriel Covelli, Parque Peruche, Sã...",900,55


## Pegando a quantidade de quartos

In [11]:
entrada = '2 quartos'

In [12]:
re.findall('(.?) quarto', entrada)[0]

'2'

In [13]:
area_quartos_subset = ['1,360 m² totais',
                       '2 quartos',
                       '53 m² construídos2 quartos',
                        '280 m² construídos',
                        '2,600 m² construídos']

In [14]:
def extrair_quartos(entrada):
    if 'quarto' in entrada:
        n_quartos = re.findall('(\d*) quarto', entrada)[0]
    else:
        n_quartos = np.nan
    return n_quartos

In [15]:
area_quartos_subset = ['1,360 m² totais',
                       '2 quartos',
                       '53 m² construídos2 quartos',
                        '280 m² construídos',
                        '2,600 m² construídos']

In [16]:
for aq in area_quartos_subset:
  print(extrair_quartos(aq))

nan
2
2
nan
nan


In [17]:
df['quartos'] = df['area_quartos'].apply(extrair_quartos)

In [18]:
df.head()

Unnamed: 0,zona,area_quartos,enderecos_lista,aluguel,area,quartos
0,zona-norte,60 m² construídos2 quartos,"Av Maestro Villa Lobos, Vila Gustavo, São Paul...",1600,60,2
1,zona-norte,30 m² construídos1 quarto,"R Das Tâmaras, Vila Paulista, São Paulo Zona N...",900,30,1
2,zona-norte,51 m² construídos2 quartos,"Rua José Timotheo Da Silva, Jardim Peri, São P...",950,51,2
3,zona-norte,126 m² construídos3 quartos,"Rua Plinio Colás, Lauzane Paulista, São Paulo ...",2500,126,3
4,zona-norte,55 m² construídos1 quarto,"Rua Doutor Gabriel Covelli, Parque Peruche, Sã...",900,55,1


In [19]:
df = df.drop('area_quartos', axis = 1)

In [20]:
df.head()

Unnamed: 0,zona,enderecos_lista,aluguel,area,quartos
0,zona-norte,"Av Maestro Villa Lobos, Vila Gustavo, São Paul...",1600,60,2
1,zona-norte,"R Das Tâmaras, Vila Paulista, São Paulo Zona N...",900,30,1
2,zona-norte,"Rua José Timotheo Da Silva, Jardim Peri, São P...",950,51,2
3,zona-norte,"Rua Plinio Colás, Lauzane Paulista, São Paulo ...",2500,126,3
4,zona-norte,"Rua Doutor Gabriel Covelli, Parque Peruche, Sã...",900,55,1


In [21]:
df.shape

(1680, 5)

## Pegando a rua

In [22]:
dados = df.copy()

In [23]:
informacoes = dados['enderecos_lista'].str.split(",", n = 2, expand = True)
informacoes

Unnamed: 0,0,1,2
0,Av Maestro Villa Lobos,Vila Gustavo,"São Paulo Zona Norte, São Paulo"
1,R Das Tâmaras,Vila Paulista,"São Paulo Zona Norte, São Paulo"
2,Rua José Timotheo Da Silva,Jardim Peri,"São Paulo Zona Norte, São Paulo"
3,Rua Plinio Colás,Lauzane Paulista,"São Paulo Zona Norte, São Paulo"
4,Rua Doutor Gabriel Covelli,Parque Peruche,"São Paulo Zona Norte, São Paulo"
...,...,...,...
1675,Rua Frei Caneca,Consolação,"São Paulo Centro, São Paulo"
1676,Rua Da Consolação,Cerqueira César,"São Paulo Centro, São Paulo"
1677,Rua Jaguaribe,Vila Buarque,"São Paulo Centro, São Paulo"
1678,Avenida São João,Santa Cecília,"São Paulo Centro, São Paulo"


In [24]:
dados['rua_av'] = informacoes[0]
dados['bairro'] = informacoes[1]
dados.head()

Unnamed: 0,zona,enderecos_lista,aluguel,area,quartos,rua_av,bairro
0,zona-norte,"Av Maestro Villa Lobos, Vila Gustavo, São Paul...",1600,60,2,Av Maestro Villa Lobos,Vila Gustavo
1,zona-norte,"R Das Tâmaras, Vila Paulista, São Paulo Zona N...",900,30,1,R Das Tâmaras,Vila Paulista
2,zona-norte,"Rua José Timotheo Da Silva, Jardim Peri, São P...",950,51,2,Rua José Timotheo Da Silva,Jardim Peri
3,zona-norte,"Rua Plinio Colás, Lauzane Paulista, São Paulo ...",2500,126,3,Rua Plinio Colás,Lauzane Paulista
4,zona-norte,"Rua Doutor Gabriel Covelli, Parque Peruche, Sã...",900,55,1,Rua Doutor Gabriel Covelli,Parque Peruche


 - Criando a coluna rua ou avenida

In [25]:
rua_avenida = dados['rua_av'].str.split(' ', n=1 , expand=True)

In [26]:
rua_avenida[0].value_counts()

Rua            1337
Avenida         239
Alameda          31
Praça            14
Largo             8
Av.               6
Travessa          4
R.                3
R                 3
Av                2
Viaduto           2
Conceição         1
Super             1
Tatuapé           1
Ataliba           1
Rodovia           1
Artur             1
Lucerna           1
Epaminondas       1
Capitão           1
Sebastião         1
Enrico            1
Estrada           1
Parada            1
Antônio           1
Vila              1
Guaicurus         1
Nicolina          1
Fazenda           1
Pinheiros         1
Sylvio            1
Cardoso           1
Soldado           1
Voluntários       1
Alto              1
Oliveira          1
Jorge             1
Pç                1
Willy             1
Água              1
Brandão           1
Narita            1
Name: 0, dtype: int64

In [27]:
dados['rua_av'] = rua_avenida[0]
dados['nome'] = rua_avenida[1]

In [28]:
dados.rua_av.value_counts()

Rua            1337
Avenida         239
Alameda          31
Praça            14
Largo             8
Av.               6
Travessa          4
R.                3
R                 3
Av                2
Viaduto           2
Conceição         1
Super             1
Tatuapé           1
Ataliba           1
Rodovia           1
Artur             1
Lucerna           1
Epaminondas       1
Capitão           1
Sebastião         1
Enrico            1
Estrada           1
Parada            1
Antônio           1
Vila              1
Guaicurus         1
Nicolina          1
Fazenda           1
Pinheiros         1
Sylvio            1
Cardoso           1
Soldado           1
Voluntários       1
Alto              1
Oliveira          1
Jorge             1
Pç                1
Willy             1
Água              1
Brandão           1
Narita            1
Name: rua_av, dtype: int64

Excluindo dados inconsistentes referentes a coluna rua_av.

In [29]:
dados.rua_av.value_counts().head(11)

Rua         1337
Avenida      239
Alameda       31
Praça         14
Largo          8
Av.            6
Travessa       4
R.             3
R              3
Av             2
Viaduto        2
Name: rua_av, dtype: int64

In [30]:
dic = dict(dados.rua_av.value_counts().head(11))

In [31]:
selecao_lista = list(dic.keys())

In [32]:
dados = dados.set_index('rua_av')
dados = dados.loc[selecao_lista]
dados = dados.reset_index()

In [33]:
dados.rua_av.value_counts()

Rua         1337
Avenida      239
Alameda       31
Praça         14
Largo          8
Av.            6
Travessa       4
R.             3
R              3
Viaduto        2
Av             2
Name: rua_av, dtype: int64

In [34]:
dados = dados.query('rua_av != "Largo"')

In [35]:
dados.rua_av.value_counts()

Rua         1337
Avenida      239
Alameda       31
Praça         14
Av.            6
Travessa       4
R.             3
R              3
Viaduto        2
Av             2
Name: rua_av, dtype: int64

In [36]:
dic_logradouro = {'Rua' : 'rua', 'Avenida':'avenida', 'Alameda': 'alameda',
                 'Praça': 'praca', 'Av.':'avenida','Av':'avenida',
                  'R.':'rua','R':'rua', 'Travessa':'travessa'}

In [37]:
dados['rua_av'] = dados['rua_av'].map(dic_logradouro)

In [38]:
dados.rua_av.value_counts()

rua         1343
avenida      247
alameda       31
praca         14
travessa       4
Name: rua_av, dtype: int64

 - Renomeando colunas e reordenando.

In [39]:
dados.columns

Index(['rua_av', 'zona', 'enderecos_lista', 'aluguel', 'area', 'quartos',
       'bairro', 'nome'],
      dtype='object')

In [40]:
dados.columns=['logradouro', 'zona', 'enderecos_lista', 'aluguel', 'area', 'quartos',
       'bairro', 'nome_logradouro']

In [41]:
dados = dados[['logradouro','nome_logradouro','bairro','zona', 'enderecos_lista', 'area', 'quartos','aluguel']]

In [42]:
dados = dados.drop('enderecos_lista', axis=1)

In [43]:
dados.head()

Unnamed: 0,logradouro,nome_logradouro,bairro,zona,area,quartos,aluguel
0,rua,José Timotheo Da Silva,Jardim Peri,zona-norte,51,2,950
1,rua,Plinio Colás,Lauzane Paulista,zona-norte,126,3,2500
2,rua,Doutor Gabriel Covelli,Parque Peruche,zona-norte,55,1,900
3,rua,Dos Camarés 150,Carandiru,zona-norte,58,2,1490
4,rua,Francisco Da Lira,Jardim Leonor Mendes De Barros,zona-norte,96,2,1211


In [44]:
zona = dados['zona'].str.split('-', n=1, expand=True)

In [45]:
zona

Unnamed: 0,0,1
0,zona,norte
1,zona,norte
2,zona,norte
3,zona,norte
4,zona,norte
...,...,...
1644,centro,
1645,zona,norte
1646,zona,norte
1647,centro,


In [46]:
dados['zona'] = zona[1]

In [47]:
dados.zona.value_counts()

sul      335
leste    331
norte    324
oeste    323
Name: zona, dtype: int64

In [48]:
dados.zona.isna().sum()

328

In [51]:
dados['zona'] = dados.zona.fillna('centro')

In [52]:
dados.zona.value_counts()

sul       335
leste     331
centro    328
norte     324
oeste     323
Name: zona, dtype: int64

In [53]:
dados.isna().sum()

logradouro         2
nome_logradouro    0
bairro             0
zona               0
area               0
quartos            9
aluguel            0
dtype: int64

In [57]:
dados =dados.dropna()

In [58]:
dados.head()

Unnamed: 0,logradouro,nome_logradouro,bairro,zona,area,quartos,aluguel
0,rua,José Timotheo Da Silva,Jardim Peri,norte,51,2,950
1,rua,Plinio Colás,Lauzane Paulista,norte,126,3,2500
2,rua,Doutor Gabriel Covelli,Parque Peruche,norte,55,1,900
3,rua,Dos Camarés 150,Carandiru,norte,58,2,1490
4,rua,Francisco Da Lira,Jardim Leonor Mendes De Barros,norte,96,2,1211


In [61]:
dados.to_csv('dados_aluguel_manipulados.csv', index =False , encoding = 'utf-8')

In [62]:
pd.read_csv('dados_aluguel_manipulados.csv', encoding = 'utf-8')

Unnamed: 0,logradouro,nome_logradouro,bairro,zona,area,quartos,aluguel
0,rua,José Timotheo Da Silva,Jardim Peri,norte,51,2,950
1,rua,Plinio Colás,Lauzane Paulista,norte,126,3,2500
2,rua,Doutor Gabriel Covelli,Parque Peruche,norte,55,1,900
3,rua,Dos Camarés 150,Carandiru,norte,58,2,1490
4,rua,Francisco Da Lira,Jardim Leonor Mendes De Barros,norte,96,2,1211
...,...,...,...,...,...,...,...
1625,rua,Álvaro De Carvalho,Centro,centro,48,1,2200
1626,rua,Das Tâmaras,Vila Paulista,norte,30,1,900
1627,rua,Sílvio De Moura,Vila Dom Pedro Ii,norte,87,3,2700
1628,rua,Major Quedinho,Centro,centro,27,1,1000
