In [3]:
import requests
from bs4 import BeautifulSoup

class SiteNoticias:
    def __init__(self, site, header_tags, class_names):
        """
        site: Nome descritivo do site (por exemplo, 'globo', 'uol')
        header_tags: Lista de possíveis tags de cabeçalho que encapsulam os títulos (ex: ['h2', 'h3'])
        class_names: Lista de possíveis nomes de classes que identificam títulos de notícias
        """
        self.site = site
        self.header_tags = header_tags
        self.class_names = class_names
        self.news = []

    def update_news(self, url):
        browsers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        page = requests.get(url, headers=browsers)
        if page.status_code != 200:
            raise Exception(f"Failed to load page from {url}")
        
        resposta = page.text
        soup = BeautifulSoup(resposta, 'html.parser')
        noticias = soup.find_all('a')

        # Coletar notícias com base em diferentes tags e classes
        news_dict = {}
        for noticia in noticias:
            for tag in self.header_tags:
                header = noticia.find(tag)
                if header and any(cls in header.get('class', []) for cls in self.class_names):
                    # Armazenar título com link
                    news_dict[header.text] = noticia.get('href')
        self.news = news_dict

In [5]:
# Uso da classe SiteNoticias
globo_site = SiteNoticias(
    site='globo',
    header_tags=['h2', 'h3'],
    class_names=['post__title', 'post-multicontent__link--title__text', 'md:font-bolder']
)

globo_url = 'https://www.globo.com/'
globo_site.update_news(globo_url)

# Exibir notícias coletadas
for title, link in globo_site.news.items():
    print(f"Title: {title}\nLink: {link}\n")

Title: Justiça espanhola altera sentença por estupro e absolve Daniel Alves
Link: https://g1.globo.com/mundo/noticia/2025/03/28/daniel-alves-e-absolvido-pela-justica-da-espanha.ghtml

Title: Advogada de jovem diz que vai recorrer: 'Muito decepcionada e triste'
Link: https://ge.globo.com/futebol/futebol-internacional/noticia/2025/03/28/caso-daniel-alves-advogada-de-jovem-diz-que-vai-recorrer-contra-revogacao-de-sentenca-e-absolvicao.ghtml

Title: De 'lamentável' a 'temos que respeitar': imprensa reage
Link: https://ge.globo.com/futebol/futebol-internacional/noticia/2025/03/28/totalmente-lamentavel-imprensa-internacional-reage-a-absolvicao-de-daniel-alves.ghtml

Title: Organizações feministas e famosas se manifestam
Link: https://revistamarieclaire.globo.com/noticias/noticia/2025/03/organizacoes-feministas-e-famosas-repudiam-anulacao-de-sentenca-de-daniel-alves.ghtml

Title: Mc Kako fez sua estreia no 1º dia do Lolla; veja o festival
Link: https://globoplay.globo.com/lollapalooza-brasil-

In [6]:
# Uso da classe SiteNoticias
r7_site = SiteNoticias(
    site='r7',
    header_tags=['h2', 'h3', 'h4', 'h5', 'h6'],
    class_names=[
        'r7-flex-title-h4__link',
        'r7-flex-title-h5__link',
        'r7-flex-title-h6__link',
        ]
)

r7_url = 'https://www.r7.com/'
r7_site.update_news(r7_url)

# Exibir notícias coletadas
for title, link in r7_site.news.items():
    print(f"Title: {title}\nLink: {link}\n")