In [1]:
rss_link = {'xp': ['https://www.google.com.br/alerts/feeds/09404460482838700245/5822277793724032524',
                   'https://www.google.com.br/alerts/feeds/09404460482838700245/13683415329780998272',
                   'https://www.google.com.br/alerts/feeds/09404460482838700245/10269129280916203083',
                   'https://www.google.com.br/alerts/feeds/09404460482838700245/9550017878123396804'],
            'vinci': ['https://www.google.com.br/alerts/feeds/09404460482838700245/5394093770400447553',
                      'https://www.google.com.br/alerts/feeds/09404460482838700245/7598054495566054039',
                      'https://www.google.com.br/alerts/feeds/09404460482838700245/13734905907790337986'],
            'tivio': ['https://www.google.com.br/alerts/feeds/09404460482838700245/15089636150786167689',
                      'https://www.google.com.br/alerts/feeds/09404460482838700245/14878059582149958709',
                      'https://www.google.com.br/alerts/feeds/09404460482838700245/10293027038187432395'],
            'tarpon': ['https://www.google.com.br/alerts/feeds/09404460482838700245/11130384113973110931',
                       'https://www.google.com.br/alerts/feeds/09404460482838700245/13474059744439098265',
                       'https://www.google.com.br/alerts/feeds/09404460482838700245/7060813333020958445'],
            'bnp': ['https://www.google.com.br/alerts/feeds/09404460482838700245/15848728452539530082',
                    'https://www.google.com.br/alerts/feeds/09404460482838700245/14146215433246553046',
                    'https://www.google.com.br/alerts/feeds/09404460482838700245/14146215433246553144'],
            'oceana': ['https://www.google.com.br/alerts/feeds/09404460482838700245/4978498206918616829',
                       'https://www.google.com.br/alerts/feeds/09404460482838700245/15423088151033479411',
                       'https://www.google.com.br/alerts/feeds/09404460482838700245/10556121544099713022'],
        
                }

In [2]:
import os
import time
import pandas as pd
import feedparser
from newspaper import Article, Config
import google.generativeai as genai
from json import dumps
from httplib2 import Http
import gspread
from google.oauth2.service_account import Credentials

# ==================== CONFIGURAÇÕES ====================
GOOGLE_SHEETS_CREDENTIALS = 'gen-lang-client-0013517676-0794cba51509.json'
NOME_PLANILHA = 'historico-noticias'
NOME_ABA = 'historico'


def configurar_newspaper():
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36'
    config = Config()
    config.browser_user_agent = user_agent
    config.request_timeout = 10
    return config


def configurar_modelo():
    genai.configure(api_key="AIzaSyAodyBl0O3ufE0x1-9nubUljeu6sOKQfjk")
    system_instruction = """
        Você é um especialista em compliance e riscos legais.
        A empresa contrata serviços de diversas gestoras, que gerenciam nossos fundos de investimentos.
        Sua tarefa é avaliar notícias e informar se uma gestora específica é alvo de algum processo/investigaçõa ou se é um risco legal ou à imagem da empresa.
        As respostas devem ser **apenas uma das seguintes opções, exatamente como escrito**:
        - 'risco' (Se está sob investigação/processo ou é um risco estar estar associado a imagem da gestora)
        - 'possivel risco' (Se pode ser investigada/processada ou associado a imagem da gestora pode levantar duvidas)
        - 'nao representa risco' (Não tem nenhum problema de imagem ou na justiça)
        Não forneça explicações ou textos adicionais, apenas a palavra-chave.
    """
    return genai.GenerativeModel(model_name="gemini-2.0-flash", system_instruction=system_instruction)


# ==================== GOOGLE PLANILHAS ====================
def conectar_planilha():
    scopes = [
    "https://www.googleapis.com/auth/spreadsheets",
    "https://www.googleapis.com/auth/drive"]
    creds = Credentials.from_service_account_file(GOOGLE_SHEETS_CREDENTIALS, scopes=scopes)
    cliente = gspread.authorize(creds)
    planilha = cliente.open(NOME_PLANILHA)
    aba = planilha.worksheet(NOME_ABA)
    return aba



def carregar_historico_planilha(aba):
    colunas_esperadas = ['link_limpo', 'gestora', 'date', 'title', 'risco', 'tokens_utilizados', 'texto']
    try:
        dados = aba.get_all_records()
        if not dados:
            print("[!] Planilha vazia. Inserindo cabeçalho padrão.")
            aba.insert_row(colunas_esperadas, index=1)
            return pd.DataFrame(columns=colunas_esperadas)

        df = pd.DataFrame(dados)
        print("Colunas atuais da planilha:", df.columns.tolist())  # DEBUG

        for col in ['link_limpo']:
            if col not in df.columns:
                print(f"[!] Coluna obrigatória '{col}' não encontrada. Reinicializando cabeçalho.")
                aba.clear()
                aba.insert_row(colunas_esperadas, index=1)
                return pd.DataFrame(columns=colunas_esperadas)

        return df

    except Exception as e:
        print("[!] Erro ao carregar planilha. Detalhe:", e)
        return pd.DataFrame(columns=colunas_esperadas)


def atualizar_planilha(aba, novos_df):
    dados = novos_df[['link_limpo', 'gestora', 'date', 'title', 'risco', 'tokens_utilizados', 'texto']].values.tolist()
    aba.append_rows(dados, value_input_option='USER_ENTERED')



def filtrar_novas(news_df, historico_df):
    if 'link_limpo' not in news_df.columns:
        print("[!] DataFrame de notícias não tem 'link_limpo'. Retornando vazio.")
        return pd.DataFrame(columns=news_df.columns)
    return news_df[~news_df['link_limpo'].isin(historico_df['link_limpo'])]

# ==================== ALERTA GOOGLE CHAT ====================
def sauron(gestora, titulo, link, risco):
    url = "https://chat.googleapis.com/v1/spaces/AAQAQI3Do4M/messages?key=AIzaSyDdI0hCZtE6vySjMm-WEfRq3CPzqKqqsHI&token=poG3A2pJAA9k1JOaVqICuCJyBuvpA_xaZReT-Ej40xE"
    app_message = {
        "text": f'A {gestora} foi noticiada e representa um {risco} : \n\n{titulo}  \n\n{link}'
    }
    message_headers = {"Content-Type": "application/json; charset=UTF-8"}
    http_obj = Http()
    http_obj.request(
        uri=url,
        method="POST",
        headers=message_headers,
        body=dumps(app_message),
    )


# ==================== EXTRAÇÃO DE NOTÍCIAS ====================
def extrair_url_real(google_rss_url):
    from urllib.parse import urlparse, parse_qs
    
    # Faz o parse da URL
    parsed_url = urlparse(google_rss_url)
    
    # Extrai os parâmetros da query
    params = parse_qs(parsed_url.query)
    
    # Pega o valor do parâmetro 'url'
    url_real = params.get('url', [None])[0]
    
    return url_real

def extrair_noticias(rss_link, config):
    noticias = []

    for gestora, urls in rss_link.items():
        for url in urls:
            feed = feedparser.parse(url)

            for entry in feed.entries:
                link_original = entry.link
                link_limpo = extrair_url_real(link_original)

                try:
                    article = Article(link_limpo, config=config, language='pt')
                    article.download()
                    article.parse()

                    if not article.text or article.text.strip() == "":
                        print(f"[!] Conteúdo vazio: {link_limpo}")
                        continue

                    noticias.append({
                        'gestora': gestora,
                        'titulo': entry.title,
                        'link': link_original,
                        'link_limpo': link_limpo,
                        'date': entry.published,
                        'texto': article.text
                    })

                except Exception as e:
                    print(f"[x] Erro ao baixar notícia: {link_limpo}\nMotivo: {e}\n")
                    continue

    return pd.DataFrame(noticias).drop_duplicates('link_limpo')


# ==================== AVALIAÇÃO DE COMPLIANCE ====================
def avaliar_risco(news_df, model):
    resultados = []
    total_tokens = 0

    for ind in news_df.index:
        url = news_df['link_limpo'][ind]
        date = news_df['date'][ind]
        gestora = news_df['gestora'][ind]
        titulo = news_df['titulo'][ind]
        texto = news_df['texto'][ind]

        try:
            prompt = f'A diretoria confiou a tarefa de ler e avaliar a seguinte notícia da {gestora}: {texto}'
            response = model.generate_content(prompt,
                                              generation_config={"temperature": 0.3})

            tokens_prompt = len(prompt.split())
            tokens_response = len(response.text.split())
            total_tokens += tokens_prompt + tokens_response

            risco = response.text.strip()
            resultados.append({
                'gestora': gestora,
                'url': url,
                'link_limpo': url,
                'date': date,
                'title': titulo,
                'risco': risco,
                'tokens_utilizados': tokens_prompt + tokens_response
            })

            if risco in ['risco', 'possivel risco']:
                sauron(gestora, titulo, url, risco)

            time.sleep(4)

        except Exception as e:
            print(f"[x] Erro no processamento de URL: {url}\nMotivo: {e}\n")

            if "429" in str(e):
                print("[!] Limite excedido. Aguardando 60s...\n")
                time.sleep(60)

            resultados.append({
                'gestora': gestora,
                'url': url,
                'link_limpo': url,
                'date': date,
                'title': titulo,
                'risco': 'sem_info',
                'tokens_utilizados': 0
            })

    print(f"Total estimado de tokens utilizados: {total_tokens}")
    return pd.DataFrame(resultados)


# ==================== PONTO DE ENTRADA ====================
def main():
    config = configurar_newspaper()
    model = configurar_modelo()
    aba = conectar_planilha()

    historico_df = carregar_historico_planilha(aba)
    news_df = extrair_noticias(rss_link, config)
    novas_noticias_df = filtrar_novas(news_df, historico_df)

    if novas_noticias_df.empty:
        print("Nenhuma nova notícia encontrada. Nada a processar.")
        return

    novos_resultados_df = avaliar_risco(novas_noticias_df, model)

    novos_resultados_df = novos_resultados_df.merge(
        novas_noticias_df[['link_limpo', 'texto']], on='link_limpo', how='left'
    )

    atualizar_planilha(aba, novos_resultados_df)

    #print(novos_resultados_df)


if __name__ == "__main__":
    main()

  from .autonotebook import tqdm as notebook_tqdm


Colunas atuais da planilha: ['link_limpo', 'gestora', 'date', 'title', 'risco', 'tokens_utilizados', 'texto']
[!] Conteúdo vazio: https://www.radiorock.com.br/noticias/10-melhores-podcasts-para-amantes-das-financas
[!] Conteúdo vazio: https://www.youtube.com/watch?v=bTrAtUYHPnw
[x] Erro ao baixar notícia: https://fusoesaquisicoes.com/acontece-no-setor/rbr-vende-toda-a-carteira-de-logistica-para-a-xp/
Motivo: Article `download()` failed with 403 Client Error: Forbidden for url: https://fusoesaquisicoes.com/acontece-no-setor/rbr-vende-toda-a-carteira-de-logistica-para-a-xp/ on URL https://fusoesaquisicoes.com/acontece-no-setor/rbr-vende-toda-a-carteira-de-logistica-para-a-xp/

[x] Erro ao baixar notícia: https://www.rockstargames.com/br/newswire/article/o327292o933k29/strange-tales-of-the-west-emerge-in-red-dead-online
Motivo: Article `download()` failed with HTTPSConnectionPool(host='www.rockstargames.com', port=443): Max retries exceeded with url: /br/newswire/article/o327292o933k29/st