In [None]:
import feedparser
import requests
import time
import urllib3



RSS_FEEDS = [
    # Tier 1: Tribunais (Fatos Oficiais)
    "https://res.stj.jus.br/hrestp-c-portalp/RSS.xml",
    
    # Tier 2: M√≠dia Jur√≠dica (An√°lise/Buzz)
    "https://www.conjur.com.br/rss.xml",
    "https://www.migalhas.com.br/rss/rss.xml",
    
    # Tier 3: Legislativo
    "https://www.camara.leg.br/noticias/rss/ultimas-noticias"
]



def test_feed(url):
    print(f"üì° Testando: {url} ...", end=" ")
    
    try:

        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }
        
        response = requests.get(
            url,
            timeout=10,
            headers=headers
        )
        
        if response.status_code != 200:
            print(f"‚ùå FALHA DE HTTP: {response.status_code}")
            return

        # 2. Teste de Parsing XML
        feed = feedparser.parse(response.content)
        
        if feed.bozo:
            print(f"‚ö†Ô∏è XML SUJO (Bozo: {feed.bozo_exception})", end=" ")
            
        if len(feed.entries) > 0:
            return feed.entries
        else:
            print(f"‚ö†Ô∏è VAZIO (0 not√≠cias encontradas)")

    except Exception as e:
        print(f"‚ùå ERRO CR√çTICO: {str(e)}")



In [10]:
print("--- INICIANDO DIAGN√ìSTICO DE RSS ---")
for url in RSS_FEEDS:
    print("==" * 50)
    feed = test_feed(url)
    print(feed)
    print("==" * 50)
    time.sleep(1) # Respeito ao servidor

--- INICIANDO DIAGN√ìSTICO DE RSS ---
üì° Testando: https://res.stj.jus.br/hrestp-c-portalp/RSS.xml ... [{'id': 'https://www.stj.jus.br/sites/portalp/Paginas/Comunicacao/Noticias/2025/05122025-Terceira-Turma-transfere-sessao-ordinaria-de-2-de-dezembro-para-o-proximo-dia-9--as-10h.aspx', 'guidislink': True, 'link': 'https://www.stj.jus.br/sites/portalp/Paginas/Comunicacao/Noticias/2025/05122025-Terceira-Turma-transfere-sessao-ordinaria-de-2-de-dezembro-para-o-proximo-dia-9--as-10h.aspx', 'title': 'Terceira Turma transfere sess√£o ordin√°ria de 2 de dezembro para o pr√≥ximo dia 9, √†s 10h', 'title_detail': {'type': 'text/plain', 'language': None, 'base': '', 'value': 'Terceira Turma transfere sess√£o ordin√°ria de 2 de dezembro para o pr√≥ximo dia 9, √†s 10h'}, 'links': [{'rel': 'alternate', 'type': 'text/html', 'href': 'https://www.stj.jus.br/sites/portalp/Paginas/Comunicacao/Noticias/2025/05122025-Terceira-Turma-transfere-sessao-ordinaria-de-2-de-dezembro-para-o-proximo-dia-9--as-10h.

In [None]:

RSS_FEEDS = [
    # Tier 1: Tribunais (Fatos Oficiais)
    "https://res.stj.jus.br/hrestp-c-portalp/RSS.xml",
    
    # Tier 2: M√≠dia Jur√≠dica (An√°lise/Buzz)
    "https://www.conjur.com.br/rss.xml",
    "https://www.migalhas.com.br/rss/rss.xml",
    
    # Tier 3: Legislativo
    "https://www.camara.leg.br/noticias/rss/ultimas-noticias"
]



def fetch_feed_safe(url):
    try:
        # verify=False resolve o problema do STF
        # timeout=10 evita que o rob√¥ fique travado se o site cair
        response = requests.get(
            url, 
            verify=False, 
            timeout=10,
            headers={'User-Agent': 'Mozilla/5.0 bot'}
        )
        
        # Parseia o conte√∫do
        feed = feedparser.parse(response.content)
        return feed.entries
        
    except Exception as e:
        print(f"Erro ao ler {url}: {e}")
        return []

## Teste Assincrono

In [11]:
import asyncio
import aiohttp
import feedparser
import ssl
from typing import List, Dict

In [12]:
async def fetch_feed(session: aiohttp.ClientSession, url: str) -> List[Dict]:
    """
    Faz o download do XML de forma ass√≠ncrona e extrai os dados.
    """
    print(f"üöÄ Disparando request para: {url}")
    
    try:
        # O timeout evita que o processo trave se um site demorar
        async with session.get(url, timeout=10) as response:
            if response.status != 200:
                print(f"‚ùå Erro {response.status} em {url}")
                return []
            
            # Pegamos o conte√∫do bruto (XML text)
            xml_content = await response.text()
            
            # O feedparser processa o texto bruto.
            # Nota: feedparser √© s√≠ncrono, mas √© muito r√°pido para XMLs pequenos.
            feed = feedparser.parse(xml_content)
            
            parsed_items = []
            for entry in feed.entries:
                # Normaliza√ß√£o de dados (alguns feeds usam 'summary', outros 'description')
                summary = entry.get('summary', entry.get('description', ''))
                
                item = {
                    "source": feed.feed.get('title', url), # Tenta pegar o nome do site
                    "title": entry.title,
                    "url": entry.link,
                    "summary": summary
                }
                parsed_items.append(item)
                
            return parsed_items

    except Exception as e:
        print(f"‚ö†Ô∏è Falha ao processar {url}: {str(e)}")
        return []

async def get_all_feeds(urls: List[str]):
    """
    Orquestrador que gerencia todas as conex√µes simult√¢neas.
    """
    # Configura√ß√£o SSL para ignorar erros (Caso STF)
    ssl_context = ssl.create_default_context()
    ssl_context.check_hostname = False
    ssl_context.verify_mode = ssl.CERT_NONE

    # O TCPConnector √© quem gerencia o pool de conex√µes
    connector = aiohttp.TCPConnector(ssl=ssl_context)

    async with aiohttp.ClientSession(connector=connector) as session:
        tasks = []
        for url in urls:
            # Cria a tarefa mas n√£o espera ela terminar ainda
            task = fetch_feed(session, url)
            tasks.append(task)
        
        # gather roda tudo em paralelo e espera todos terminarem
        results = await asyncio.gather(*tasks)
        
        # 'results' ser√° uma lista de listas [[noticias_stf], [noticias_stj]...]
        # Vamos "achatar" (flatten) para uma lista √∫nica
        flat_results = [item for sublist in results for item in sublist]
        
        return flat_results

In [14]:
import time

# --- BLOCO DE TESTE CORRIGIDO PARA JUPYTER ---

start = time.time() # Usando time padr√£o para simplificar

# No Jupyter, basta chamar 'await' direto:
all_news = await get_all_feeds(RSS_FEEDS)

end = time.time()

print(f"\n{'='*60}")
print(f"üèÅ FINALIZADO EM {end - start:.2f} SEGUNDOS")
print(f"üì¶ Total de not√≠cias coletadas: {len(all_news)}")
print(f"{'='*60}\n")

# Mostra as 5 primeiras para confer√™ncia
for news in all_news[:5]:
    print(f"üì∞ [{news['source']}] {news['title']}")
    print(f"üîó {news['url']}")
    print(f"üìù {news['summary'][:300]}\n")

üöÄ Disparando request para: https://res.stj.jus.br/hrestp-c-portalp/RSS.xml
üöÄ Disparando request para: https://www.conjur.com.br/rss.xml
üöÄ Disparando request para: https://www.migalhas.com.br/rss/rss.xml
üöÄ Disparando request para: https://www.camara.leg.br/noticias/rss/ultimas-noticias

üèÅ FINALIZADO EM 1.12 SEGUNDOS
üì¶ Total de not√≠cias coletadas: 164

üì∞ [Noticias do STJ] Terceira Turma transfere sess√£o ordin√°ria de 2 de dezembro para o pr√≥ximo dia 9, √†s 10h
üîó https://www.stj.jus.br/sites/portalp/Paginas/Comunicacao/Noticias/2025/05122025-Terceira-Turma-transfere-sessao-ordinaria-de-2-de-dezembro-para-o-proximo-dia-9--as-10h.aspx
üìù Terceira Turma transfere sess√£o ordin√°ria de 2 de dezembro para o pr√≥ximo dia 9, √†s 10h

üì∞ [Noticias do STJ] Informativo destaca data-base para benef√≠cios na execu√ß√£o penal e nulidade de inquiri√ß√£o e interrogat√≥rio
üîó https://www.stj.jus.br/sites/portalp/Paginas/Comunicacao/Noticias/2025/05122025-Informativo-desta