In [1]:
import requests
from bs4 import BeautifulSoup
import json
import os
from datetime import datetime

# função responsável por extrair os dados de uma página de notícias
def extrair_dados_noticia(url):
    # fazendo a requisição http para obter o conteúdo da página
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')  # parseando o html com beautifulsoup

    noticias = []  # lista que armazenará as notícias extraídas

    # itera sobre cada bloco de notícia encontrado na página
    for noticia in soup.find_all('div', class_='tdb_module_loop'):
        try:
            # extraindo o link da notícia
            link = noticia.find('a', href=True)['href']

            # extraindo o título da notícia
            titulo = noticia.find('a', title=True)['title']

            # extraindo e formatando a data no padrão iso 8601
            data_elemento = noticia.find('time', class_='entry-date')['datetime']
            data = datetime.strptime(data_elemento, "%Y-%m-%dT%H:%M:%S%z").isoformat()

            # extraindo a categoria e criando uma descrição detalhada
            categoria = noticia.find('a', class_='td-post-category').text.strip()
            descricao = f"{categoria} - {titulo}"

            # coletando tags (usando a categoria como referência)
            tags = [categoria]

            # estrutura de dados da notícia
            noticia_dados = {
                "url": link,
                "titulo": titulo,
                "descricao": descricao,
                "tags": tags,
                "texto": "Texto completo pode ser capturado com request adicional se necessario",
                "data": data
            }

            # adicionando a notícia à lista
            noticias.append(noticia_dados)

        # tratamento de erro caso algum dado não seja encontrado
        except Exception as e:
            print(f"Erro ao processar uma noticia: {e}")

    return noticias  # retorna a lista de notícias extraídas


# função principal do script
def main():
    # url base que será formatada com o número da página
    base_url = "https://www.acidadeon.com/ribeiraopreto/economia/pagina/{}/"

    dados_extraidos = []  # lista para armazenar todas as notícias extraídas

    # loop para percorrer as páginas (da 1 até a 50)
    for pagina in range(1, 51):
        print(f"Extraindo dados da página {pagina}")  # log de progresso
        url = base_url.format(pagina)  # formata a url com o número da página
        dados_pagina = extrair_dados_noticia(url)  # extrai os dados da página atual
        dados_extraidos.extend(dados_pagina)  # adiciona os dados à lista principal

    # verifica se o diretório 'data' existe, caso contrário, cria-o
    if not os.path.exists("data"):
        os.makedirs("data")

    # salva os dados extraídos em um arquivo json dentro do diretório 'data'
    with open("data/noticias.json", "w", encoding="utf-8") as f:
        json.dump(dados_extraidos, f, ensure_ascii=False, indent=4)

    print("Dados extraídos e salvos em 'data/noticias.json'")  # confirmação ao usuário


# ponto de entrada do script
if __name__ == "__main__":
    main()


Extraindo dados da página 1
Extraindo dados da página 2
Extraindo dados da página 3
Extraindo dados da página 4
Extraindo dados da página 5
Extraindo dados da página 6
Extraindo dados da página 7
Extraindo dados da página 8
Extraindo dados da página 9
Extraindo dados da página 10
Extraindo dados da página 11
Extraindo dados da página 12
Extraindo dados da página 13
Extraindo dados da página 14
Extraindo dados da página 15
Extraindo dados da página 16
Extraindo dados da página 17
Extraindo dados da página 18
Extraindo dados da página 19
Extraindo dados da página 20
Extraindo dados da página 21
Extraindo dados da página 22
Extraindo dados da página 23
Extraindo dados da página 24
Extraindo dados da página 25
Extraindo dados da página 26
Extraindo dados da página 27
Extraindo dados da página 28
Extraindo dados da página 29
Extraindo dados da página 30
Extraindo dados da página 31
Extraindo dados da página 32
Extraindo dados da página 33
Extraindo dados da página 34
Extraindo dados da pági