Código de teste inicial

In [None]:
import pandas as pd
import time
import random
from pathlib import Path
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.webdriver import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Define o diretório base (ajustado para rodar em notebook em notebooks/exploratory/)
BASE_DIR = Path().resolve().parent.parent

# Caminho para o ChromeDriver
CHROMEDRIVER_PATH = BASE_DIR / "Páginas HTML" / "Chrome Driver" / "chromedriver-win64" / "chromedriver-win64" / "chromedriver.exe"

# Caminho de saída do CSV
OUTPUT_PATH = BASE_DIR / "data" / "raw" / "dados_listagem_aosfatos.csv"

# Configura o Chrome
options = Options()
options.add_argument("--start-maximized")
# options.add_argument("--headless")  # descomente para rodar em background

# Inicia o ChromeDriver
service = Service(str(CHROMEDRIVER_PATH))
driver = webdriver.Chrome(service=service, options=options)

# Lista para armazenar os dados coletados
dados_coletados = []

# Loop pelas páginas
for pagina in range(1, 373):
    print(f"Processando página {pagina} de 372...")

    url = f"https://www.aosfatos.org/noticias/?formato=checagem&page={pagina}"
    driver.get(url)

    try:
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "div.group.relative.size-max"))
        )
    except:
        print(f"Página {pagina}: Conteúdo não carregou.")
        continue

    cards = driver.find_elements(By.CSS_SELECTOR, "div.group.relative.size-max")

    for card in cards:
        try:
            href = card.find_element(By.CSS_SELECTOR, "a").get_attribute("href")
            titulo = card.find_element(By.CSS_SELECTOR, "p.block").text

            try:
                veredito = card.find_element(By.CSS_SELECTOR, "span.rounded-full").text
            except:
                veredito = "indisponível"

            tags = [tag.text for tag in card.find_elements(By.CSS_SELECTOR, "div.flex a")]

            dados_coletados.append({
                'link': href,
                'titulo': titulo,
                'veredito': veredito,
                'tags': tags
            })

        except Exception as e:
            print(f"Erro ao extrair card na página {pagina}: {e}")

    time.sleep(random.uniform(1, 3))

driver.quit()

# Converte e salva o DataFrame
df = pd.DataFrame(dados_coletados)
df.to_csv(OUTPUT_PATH, index=False, encoding="utf-8-sig")

print("Coleta finalizada com sucesso!")


Processando página 1 de 372...
Processando página 2 de 372...
Processando página 3 de 372...
Processando página 4 de 372...
Processando página 5 de 372...
Processando página 6 de 372...
Processando página 7 de 372...
Processando página 8 de 372...
Processando página 9 de 372...
Processando página 10 de 372...
Processando página 11 de 372...
Processando página 12 de 372...
Processando página 13 de 372...
Processando página 14 de 372...
Processando página 15 de 372...
Processando página 16 de 372...
Processando página 17 de 372...
Processando página 18 de 372...
Processando página 19 de 372...
Processando página 20 de 372...
Processando página 21 de 372...
Processando página 22 de 372...
Processando página 23 de 372...
Processando página 24 de 372...
Processando página 25 de 372...
Processando página 26 de 372...
Processando página 27 de 372...
Processando página 28 de 372...
Processando página 29 de 372...
Processando página 30 de 372...
Processando página 31 de 372...
Processando págin