# Coleta de dados para a calculadora de imóveis

In [None]:
from time import sleep
import pandas as pd
from bs4 import BeautifulSoup
import requests

In [None]:
zonas = ['sul', 'norte', 'leste', 'oeste']
paginas = ['', '_Desde_49', '_Desde_97', '_Desde_145', '_Desde_193', '_Desde_241']

In [None]:
def coleta_dados(url, zona):
  # acessar a url, coletar as informacoes e ir salvando nas listas e depois juntar as listas em uma tabela
  res = requests.get(url).content
  sopa = BeautifulSoup(res)
  
  rs_precos = sopa.find_all('span', {'class': 'price-tag-fraction'})
  rs_areas_quartos = sopa.find_all('ul', {'class': 'ui-search-card-attributes ui-search-item__group__element'})

  lista_precos = []
  lista_areas_quartos = []
  lista_zonas = []
    
  for preco, area_quarto in zip(rs_precos, rs_areas_quartos):
    lista_precos.append(preco.text)
    lista_areas_quartos.append(area_quarto.text)
    lista_zonas.append(zona)
    
  dados = {'aluguel': lista_precos,
  'area_quarto': lista_areas_quartos,
  'zona': lista_zonas}
    
  df = pd.DataFrame(dados)

  return df

In [None]:
lista_dfs = []

for zona in zonas:
  # print('Zona:', zona)
  for pagina in paginas:
    # print('Pagina:', pagina)
    url = f'https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-{zona}/{pagina}'
    print('Coletando dados de', url)
    df = coleta_dados(url, zona) # retorna o df 
    lista_dfs.append(df)
    sleep(2)

Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/_Desde_49
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/_Desde_97
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/_Desde_145
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/_Desde_193
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/_Desde_241
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-norte/
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-norte/_Desde_49
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-p

In [None]:
df_ml = pd.concat(lista_dfs, axis=0)

In [None]:
df_ml.head()

Unnamed: 0,aluguel,area_quarto,zona
0,690.0,25 m² construídos1 quarto,sul
1,550.0,40 m² construídos1 quarto,sul
2,1.2,44 m² construídos1 quarto,sul
3,1.75,96 m² construídos2 quartos,sul
4,1.35,45 m² construídos2 quartos,sul


In [None]:
df_ml.shape 

(1152, 3)

In [None]:
type(df_ml['aluguel'])

pandas.core.series.Series

In [None]:
type(df_ml['aluguel'].values)

numpy.ndarray

In [None]:
type(df_ml['aluguel'].values[0])

str

In [None]:
df_ml.to_csv('dados_mercado_livre.csv', index=False)

In [None]:
pd.read_csv('dados_mercado_livre.csv', thousands='.')

Unnamed: 0,aluguel,area_quarto,zona
0,690,25 m² construídos1 quarto,sul
1,550,40 m² construídos1 quarto,sul
2,1200,44 m² construídos1 quarto,sul
3,1750,96 m² construídos2 quartos,sul
4,1350,45 m² construídos2 quartos,sul
...,...,...,...
1147,4152,35 m² construídos1 quarto,oeste
1148,3600,82 m² construídos2 quartos,oeste
1149,5263,35 m² construídos1 quarto,oeste
1150,2600,87 m² construídos3 quartos,oeste


# Manipulaçao de dados

In [91]:
import pandas as pd
import numpy as np

In [42]:
url = 'https://raw.githubusercontent.com/cassiasamp/calculadora-de-imoveis-mar-21/main/coleta_de_dados/dados_mercado_livre.csv'
df_ml = pd.read_csv(url, thousands='.')

In [43]:
df_ml.head()

Unnamed: 0,aluguel,area_quarto,zona
0,1000,48 m² construídos2 quartos,sul
1,1200,67 m² construídos3 quartos,sul
2,1300,65 m² construídos2 quartos,sul
3,1280,65 m² construídos2 quartos,sul
4,1100,50 m² construídos2 quartos,sul


In [44]:
df_ml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1152 entries, 0 to 1151
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   aluguel      1152 non-null   int64 
 1   area_quarto  1152 non-null   object
 2   zona         1152 non-null   object
dtypes: int64(1), object(2)
memory usage: 27.1+ KB


In [5]:
df_ml.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
aluguel,1152.0,2497.282986,1743.603188,500.0,1471.0,2000.0,2900.0,15000.0


In [6]:
df_ml.isna().sum()

aluguel        0
area_quarto    0
zona           0
dtype: int64

In [46]:
df_ml.isnull().sum()

aluguel        0
area_quarto    0
zona           0
dtype: int64

In [50]:
df_ml['aluguel'] = df_ml['aluguel'].astype(float)

In [52]:
df_ml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1152 entries, 0 to 1151
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   aluguel      1152 non-null   float64
 1   area_quarto  1152 non-null   object 
 2   zona         1152 non-null   object 
dtypes: float64(1), object(2)
memory usage: 27.1+ KB


In [55]:
linha0 = df_ml['area_quarto'][0]

In [62]:
linha0.split(sep=' m²')[0]

'48'

In [75]:
linha_inventada = ' 2 quartos'

In [74]:
if 'm²' in linha0:
  print(linha0.split(sep=' m²')[0])
else:
  print(np.nan)

48


In [76]:
if 'm²' in linha_inventada:
  print(linha_inventada.split(sep=' m²')[0])
else:
  print(np.nan)

nan


In [72]:
# type(np.nan)

In [77]:
def extrair_area(entrada):
  if 'm²' in entrada:
    area = entrada.split(sep=' m²')[0]
  else:
    area = np.nan
  return area

In [85]:
# df_ml()

In [89]:
df_ml['area'] = df_ml['area_quarto'].apply(extrair_area).astype(float)

In [90]:
df_ml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1152 entries, 0 to 1151
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   aluguel      1152 non-null   float64
 1   area_quarto  1152 non-null   object 
 2   zona         1152 non-null   object 
 3   area         1152 non-null   float64
dtypes: float64(2), object(2)
memory usage: 36.1+ KB


In [93]:
linha0

'48 m² construídos2 quartos'

In [111]:
padrao = '(\d+)' # é uma expressão regular, um padrão - regex

In [99]:
import re

In [113]:
re.findall(padrao, linha0)[1]

'2'

In [114]:
def extrair_quarto(entrada):
  padrao = '(\d+)' 

  if 'quarto' in entrada:
    quarto = re.findall(padrao, entrada)[1]
  else:
    quarto = np.nan
  return quarto

In [119]:
df_ml['quarto'] = df_ml['area_quarto'].apply(extrair_quarto).astype(float)

In [120]:
df_ml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1152 entries, 0 to 1151
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   aluguel      1152 non-null   float64
 1   area_quarto  1152 non-null   object 
 2   zona         1152 non-null   object 
 3   area         1152 non-null   float64
 4   quarto       1152 non-null   float64
dtypes: float64(3), object(2)
memory usage: 45.1+ KB


In [123]:
df_ml = df_ml.drop('area_quarto', axis=1)

In [124]:
df_ml.head()

Unnamed: 0,aluguel,zona,area,quarto
0,1000.0,sul,48.0,2.0
1,1200.0,sul,67.0,3.0
2,1300.0,sul,65.0,2.0
3,1280.0,sul,65.0,2.0
4,1100.0,sul,50.0,2.0


In [125]:
df_ml.to_csv('dados_tratados_ml.csv', index=False)

In [126]:
pd.read_csv('dados_tratados_ml.csv')

Unnamed: 0,aluguel,zona,area,quarto
0,1000.0,sul,48.0,2.0
1,1200.0,sul,67.0,3.0
2,1300.0,sul,65.0,2.0
3,1280.0,sul,65.0,2.0
4,1100.0,sul,50.0,2.0
...,...,...,...,...
1147,3000.0,oeste,47.0,1.0
1148,1700.0,oeste,199.0,4.0
1149,1800.0,oeste,85.0,1.0
1150,3400.0,oeste,97.0,3.0
