In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ec
from selenium.common.exceptions import TimeoutException
import pandas as pd
import datetime
import time
from itertools import zip_longest
import gspread
from oauth2client.service_account import ServiceAccountCredentials
from gspread_dataframe import set_with_dataframe 
import seaborn as sns
import googlemaps
import requests

In [2]:
navegador = webdriver.Chrome()  ## iniciando o webdriver do navegador

todos_os_dados = []  ## criando lista vazia para armazenar os dados de diferentes pa´ginas

pagina = 1  ## contador de páginas sendo atribuído para 1
while True:
    url = f"https://www.olx.com.br/imoveis/estado-rj/serra-angra-dos-reis-e-regiao/petropolis?o={pagina}"  ## esse valor entre páginas serve para identificar em qual página o WebDriver está lendo e por ser um contador, a cada loop uma nova página é lida
    print(f"\nAcessando página {pagina}: {url}")
    navegador.get(url)

    try:
        WebDriverWait(navegador, 12).until(ec.presence_of_all_elements_located((
            By.CSS_SELECTOR, 'h3.olx-text.olx-text--body-large.olx-text--block.olx-text--semibold.olx-adcard__price'
        )))  ## Adicionando comando de espera para garantir que todos os elementos da página foram devidamente carregados

        elementos_valores = navegador.find_elements(By.CSS_SELECTOR, 'h3.olx-text.olx-text--body-large.olx-text--block.olx-text--semibold.olx-adcard__price')   ## localizando os elementos de preco
        elementos_localizacoes = navegador.find_elements(By.CSS_SELECTOR, 'p.olx-adcard__location')   ## localizando os elementos de localização
        elementos_quartos = navegador.find_elements(By.CSS_SELECTOR, 'h3.olx-text.olx-text--body-large.olx-text--block.olx-text--semibold.olx-adcard__price')   ## localizando os elementos de preco
        elementos_localizacoes = navegador.find_elements(By.CSS_SELECTOR, 'p.olx-adcard__location')   ## localizando os elementos de localização
        detalhes = navegador.find_elements(By.CLASS_NAME, 'olx-adcard__detail')

        lista_valores = [valor.text.strip() for valor in elementos_valores]  ## gerando a lista com os valores dos imóveis de uma página
        lista_localizacoes = [loc.text.strip() for loc in elementos_localizacoes] ## gerando a lista com as localizações dos imóveis de uma página
        lista_quartos = [loc.text.strip() for loc in elementos_localizacoes] ## gerando a lista com as localizações dos imóveis de uma página
        lista_areas = []
        for detalhe in detalhes:
            texto = detalhe.text.strip()
            if 'm²' in texto:
                lista_areas.append(texto)
        

        if not lista_valores:  ## se não há valores na página, não ocorre raspagem
            print("Sem valores nesta página. Fim da raspagem.")
            break

        df_valores = pd.DataFrame(
            list(zip_longest(lista_valores, lista_localizacoes, lista_areas, fillvalue="")), ## garantindo que os espaços vazios nas lista sejam preenchidos com ""
            columns=["valor", "localizacao", "m²"])
        df_valores["data"] = datetime.date.today()  ## gerando coluna com a data de extração dos registros

        todos_os_dados.append(df_valores)  ## juntando todos os dados extraídos
        print(f"Total extraído nesta página: {len(df_valores)}")

        pagina += 1  ## a cada loop, o contador de página assume +1 e a url é alterada, fazendo com que uma nova página seja lida
        time.sleep(2) ## aguarda 2 segundos para começar o novo loop

    except TimeoutException:
        print("Nenhum anúncio encontrado ou página demorou a carregar. Encerrando.")
        break   ## se ocorrer o erro Timeouexcpetion, o loop é encerrado

df_final = pd.concat(todos_os_dados, ignore_index=True)  ## juntando todos os dados obtidos de todas as páginas lidas
print(f"\nTotal geral de valores extraídos: {len(df_final)}")
print(df_final)

navegador.quit()



Acessando página 1: https://www.olx.com.br/imoveis/estado-rj/serra-angra-dos-reis-e-regiao/petropolis?o=1
Total extraído nesta página: 53

Acessando página 2: https://www.olx.com.br/imoveis/estado-rj/serra-angra-dos-reis-e-regiao/petropolis?o=2
Total extraído nesta página: 54

Acessando página 3: https://www.olx.com.br/imoveis/estado-rj/serra-angra-dos-reis-e-regiao/petropolis?o=3
Total extraído nesta página: 51

Acessando página 4: https://www.olx.com.br/imoveis/estado-rj/serra-angra-dos-reis-e-regiao/petropolis?o=4
Total extraído nesta página: 52

Acessando página 5: https://www.olx.com.br/imoveis/estado-rj/serra-angra-dos-reis-e-regiao/petropolis?o=5
Total extraído nesta página: 50

Acessando página 6: https://www.olx.com.br/imoveis/estado-rj/serra-angra-dos-reis-e-regiao/petropolis?o=6
Total extraído nesta página: 51

Acessando página 7: https://www.olx.com.br/imoveis/estado-rj/serra-angra-dos-reis-e-regiao/petropolis?o=7
Total extraído nesta página: 52

Acessando página 8: https:

In [1]:
lista_areas

NameError: name 'lista_areas' is not defined

In [4]:
df_final[['cidade','bairro']] = df_final['localizacao'].str.split(", ", n=1, expand=True)
df_final = df_final.drop(columns='localizacao')

In [5]:
df_final.isnull().sum()

valor     0
m²        0
data      0
cidade    0
bairro    7
dtype: int64

In [6]:
df_final.dropna(subset='bairro', inplace=True)

In [7]:
index_drop = df_final.loc[df_final['m²'] == ""].index
df_final = df_final.drop(index_drop)

In [9]:
def geocode_location(bairro, cidade):
    endereco = f"{bairro}, {cidade}"
    url = f"https://maps.googleapis.com/maps/api/geocode/json?address={endereco}&key={'AIzaSyCObQx_QgG2zOOjbWEQutFEM9mZtTX0tBo'}"
    response = requests.get(url)
    data = response.json()
    
    if data['status'] == 'OK':
        location = data['results'][0]['geometry']['location']
        return location['lat'], location['lng']
    else:
        return None, None

df_final[['latitude', 'longitude']] = df_final.apply(
    lambda row: pd.Series(geocode_location(row['bairro'], row['cidade'])),
    axis=1
)

In [10]:
df_final

Unnamed: 0,valor,m²,data,cidade,bairro,latitude,longitude
0,R$ 800.000,118m²,2025-05-31,Petrópolis,Fazenda Inglesa,-22.452140,-43.212238
1,R$ 1.750.000,2280m²,2025-05-31,Petrópolis,Itaipava,-22.381968,-43.132158
2,R$ 310.000,52m²,2025-05-31,Petrópolis,Duarte Silveira,-22.504562,-43.226756
3,R$ 895.000,150m²,2025-05-31,Petrópolis,Duarte Silveira,-22.504562,-43.226756
4,R$ 750.000,130m²,2025-05-31,Petrópolis,Centro,-22.504754,-43.172294
...,...,...,...,...,...,...,...
5010,R$ 1.100.000,250m²,2025-05-31,Petrópolis,Retiro,-22.476107,-43.175927
5011,R$ 850.000,50m²,2025-05-31,Petrópolis,Morin,-22.527061,-43.162606
5012,R$ 1.300,18m²,2025-05-31,Petrópolis,Corrêas,-22.455586,-43.111713
5013,R$ 6.500,490m²,2025-05-31,Petrópolis,Independência,-22.549148,-43.211028
