In [1]:
from time import sleep
import pandas as pd
from bs4 import BeautifulSoup
import requests

In [2]:
zonas = ['sul', 'norte', 'leste', 'oeste']
paginas = ['', '_Desde_49', '_Desde_97', '_Desde_145', '_Desde_193', '_Desde_241']

In [3]:
def coleta_dados(url, zona):
  # acessar a url, coletar as informacoes e ir salvando nas listas e depois juntar as listas em uma tabela
  res = requests.get(url).content
  sopa = BeautifulSoup(res)
  
  rs_precos = sopa.find_all('span', {'class': 'price-tag-fraction'})
  rs_areas_quartos = sopa.find_all('ul', {'class': 'ui-search-card-attributes ui-search-item__group__element'})

  lista_precos = []
  lista_areas_quartos = []
  lista_zonas = []
    
  for preco, area_quarto in zip(rs_precos, rs_areas_quartos):
    lista_precos.append(preco.text)
    lista_areas_quartos.append(area_quarto.text)
    lista_zonas.append(zona)
    
  dados = {'aluguel': lista_precos,
  'area_quarto': lista_areas_quartos,
  'zona': lista_zonas}
    
  df = pd.DataFrame(dados)

  return df

In [4]:
lista_dfs = []

for zona in zonas:
  # print('Zona:', zona)
  for pagina in paginas:
    # print('Pagina:', pagina)
    url = f'https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-{zona}/{pagina}'
    print('Coletando dados de', url)
    df = coleta_dados(url, zona) # retorna o df 
    lista_dfs.append(df)
    sleep(2)

Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/_Desde_49
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/_Desde_97
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/_Desde_145
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/_Desde_193
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-sul/_Desde_241
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-norte/
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-paulo-zona-norte/_Desde_49
Coletando dados de https://imoveis.mercadolivre.com.br/apartamentos/aluguel/sao-paulo/sao-p

In [5]:
df_ml = pd.concat(lista_dfs, axis=0)

In [6]:
df_ml.head()

Unnamed: 0,aluguel,area_quarto,zona
0,21.0,265 m² construídos3 quartos,sul
1,2.0,45 m² construídos1 quarto,sul
2,1.499,45 m² construídos1 quarto,sul
3,4.5,112 m² construídos3 quartos,sul
4,4.5,125 m² construídos3 quartos,sul


In [7]:
df_ml.shape

(1132, 3)

In [8]:
type(df_ml['aluguel'])

pandas.core.series.Series

In [9]:
type(df_ml['aluguel'].values)

numpy.ndarray

In [10]:
type(df_ml['aluguel'].values[0])

str

In [15]:
df_ml.to_csv('../coleta_de_dados/dados_mercado_livre.csv', index=False)

In [16]:
pd.read_csv('dados_mercado_livre.csv', thousands='.')

Unnamed: 0,aluguel,area_quarto,zona
0,21000,265 m² construídos3 quartos,sul
1,2000,45 m² construídos1 quarto,sul
2,1499,45 m² construídos1 quarto,sul
3,4500,112 m² construídos3 quartos,sul
4,4500,125 m² construídos3 quartos,sul
...,...,...,...
1127,1500,40 m² construídos1 quarto,oeste
1128,9300,186 m² construídos3 quartos,oeste
1129,2000,70 m² construídos2 quartos,oeste
1130,1600,50 m² construídos2 quartos,oeste


# Manipulaçao de dados

In [1]:
import pandas as pd
import numpy as np

In [2]:
url = '../coleta_de_dados/dados_mercado_livre.csv'
df_ml = pd.read_csv(url, thousands='.')

In [3]:
df_ml.head()

Unnamed: 0,aluguel,area_quarto,zona
0,21000,265 m² construídos3 quartos,sul
1,2000,45 m² construídos1 quarto,sul
2,1499,45 m² construídos1 quarto,sul
3,4500,112 m² construídos3 quartos,sul
4,4500,125 m² construídos3 quartos,sul


In [4]:
df_ml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1132 entries, 0 to 1131
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   aluguel      1132 non-null   int64 
 1   area_quarto  1132 non-null   object
 2   zona         1132 non-null   object
dtypes: int64(1), object(2)
memory usage: 26.7+ KB


In [5]:
df_ml.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
aluguel,1132.0,2530.519435,5557.360467,500.0,1359.75,1900.0,2800.0,179999.0


In [6]:
df_ml.isna().sum()

aluguel        0
area_quarto    0
zona           0
dtype: int64

In [7]:
df_ml.isnull().sum()

aluguel        0
area_quarto    0
zona           0
dtype: int64

In [8]:
df_ml['aluguel'] = df_ml['aluguel'].astype(float)

In [9]:
df_ml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1132 entries, 0 to 1131
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   aluguel      1132 non-null   float64
 1   area_quarto  1132 non-null   object 
 2   zona         1132 non-null   object 
dtypes: float64(1), object(2)
memory usage: 26.7+ KB


In [10]:
linha0 = df_ml['area_quarto'][0]

In [11]:
linha0.split(sep=' m²')[0]

'265'

In [12]:
linha_inventada = ' 2 quartos'

In [13]:
if 'm²' in linha0:
  print(linha0.split(sep=' m²')[0])
else:
  print(np.nan)

265


In [14]:
if 'm²' in linha_inventada:
  print(linha_inventada.split(sep=' m²')[0])
else:
  print(np.nan)

nan


In [15]:
def extrair_area(entrada):
  if 'm²' in entrada:
    area = entrada.split(sep=' m²')[0]
  else:
    area = np.nan
  return area

In [16]:
df_ml['area'] = df_ml['area_quarto'].apply(extrair_area).astype(float)

In [17]:
df_ml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1132 entries, 0 to 1131
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   aluguel      1132 non-null   float64
 1   area_quarto  1132 non-null   object 
 2   zona         1132 non-null   object 
 3   area         1132 non-null   float64
dtypes: float64(2), object(2)
memory usage: 35.5+ KB


In [18]:
linha0

'265 m² construídos3 quartos'

In [19]:
padrao = '(\d+)' # é uma expressão regular, um padrão - regex

In [20]:
import re

In [21]:
re.findall(padrao, linha0)[1]

'3'

In [22]:
def extrair_quarto(entrada):
  padrao = '(\d+)' 

  if 'quarto' in entrada:
    quarto = re.findall(padrao, entrada)[1]
  else:
    quarto = np.nan
  return quarto

In [23]:
df_ml['quarto'] = df_ml['area_quarto'].apply(extrair_quarto).astype(float)

In [24]:
df_ml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1132 entries, 0 to 1131
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   aluguel      1132 non-null   float64
 1   area_quarto  1132 non-null   object 
 2   zona         1132 non-null   object 
 3   area         1132 non-null   float64
 4   quarto       1132 non-null   float64
dtypes: float64(3), object(2)
memory usage: 44.3+ KB


In [25]:
df_ml = df_ml.drop('area_quarto', axis=1)

In [26]:
df_ml.head()

Unnamed: 0,aluguel,zona,area,quarto
0,21000.0,sul,265.0,3.0
1,2000.0,sul,45.0,1.0
2,1499.0,sul,45.0,1.0
3,4500.0,sul,112.0,3.0
4,4500.0,sul,125.0,3.0


In [27]:
df_ml.to_csv('../manipulacao-de-dados/dados_tratados_ml.csv', index=False)

In [28]:
pd.read_csv('../manipulacao-de-dados/dados_tratados_ml.csv')

Unnamed: 0,aluguel,zona,area,quarto
0,21000.0,sul,265.0,3.0
1,2000.0,sul,45.0,1.0
2,1499.0,sul,45.0,1.0
3,4500.0,sul,112.0,3.0
4,4500.0,sul,125.0,3.0
...,...,...,...,...
1127,1500.0,oeste,40.0,1.0
1128,9300.0,oeste,186.0,3.0
1129,2000.0,oeste,70.0,2.0
1130,1600.0,oeste,50.0,2.0
