In [1]:
# Ambiente
import os

# Webscraper
from utils import extract_article_text, find_relevant_links

# Vector Database
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

# AI
from langchain.chat_models import init_chat_model
from langchain.prompts import PromptTemplate

# Monitoramento
from langfuse.langchain import CallbackHandler

# Pipeline de Dados e Parsing
from sqlalchemy import create_engine
import datetime as dt
import pandas as pd
import re
import unicodedata

In [2]:
# LangChain setup
summarizer = init_chat_model("gpt-4o-mini", model_provider="openai")

template = PromptTemplate(
    input_variables=["text", "source"],
    template=(
        "Resuma a notícia a seguir de forma sucinta:\n\n"
        "{text}\n\n"
        "Resumo:"
    )
)

# CallbackHandler do LangFuse (parâmetros no Env)
langfuse_handler = CallbackHandler()

# Instância da IA
llm = init_chat_model("gpt-4o-mini", model_provider="openai")

In [3]:
# Sites do webscraper
news_sites = [
    "https://valor.globo.com/",
    "https://www.folha.uol.com.br/",
    "https://exame.com/",
    "https://oglobo.globo.com/"
]

In [None]:
# Carregando a vector database com o documento de ITR
path_chroma = "./02. Databases/chroma_db"

embeddings = OpenAIEmbeddings()
vectorstore = Chroma(persist_directory=path_chroma, embedding_function=embeddings, collection_name="MyColletion")

# 01. Extract

- Implementação do WebScraper das notícias
- Resumo simples feito pela IA

In [None]:
# Lista de resumos
summaries = list()

for site in news_sites:
    print(f"\n🔍 Procurando notícias em: {site}")
    links = find_relevant_links(site)

    for link in links:
        print(f"📰 Lendo: {link}", end=" ...")
        article, title = extract_article_text(link)

        if article and len(article.split()) > 100:
            print("Criando Resumo")
            summary = summarizer.invoke(template.invoke({"text": article[:10000], "source": link}), config={"callbacks": [langfuse_handler]}).content
            summaries.append((link, summary, title))
        else: print()

print("\n📊 RESUMOS RELEVANTES PARA O MERCADO:\n")
for i, (link, summary, title) in enumerate(summaries, 1):
    print(f"{i}. {link}\n{summary}\n{'-'*80}")

# Armazenar output em Data Frame
df_summaries = pd.DataFrame(data=summaries, columns=["url", "summary", "Titulo"])

# 02. Transform

- Classificação de impacto e relevância com RAG

### RAG e Pós-RAG

1. Primeira extração de Chunks do documento da Petrobrás
2. Remoção de ruído e filtro de chunks relevantes com LLM

In [6]:
query = """
<Instrução>
Você esta ajudando a analisar se o resumo da notícia é relevante para a estratégia da empresa ou não
<Instrução>

<Resumo da Notícia>
{summary}
<Resumo da Notícia>

Abaixo são chunks de documentos internos da empresa.

<Chunks>
{chunks}
<Chunks>

Reordene os chunks do mais útil ao menos útil para determinar a relevância para a estratégia da empresa. Responda somente com os mais úteis.
"""

pos_rag_template = PromptTemplate(
    input_variables=["summary", "chunks"],
    template=query
)

def CleanRetrievals(resumo, chunks_):
    docs = "\n\n".join([x.page_content for i, x in enumerate(chunks_)])

    response = llm.invoke(
        pos_rag_template.invoke({"summary":resumo, "chunks":docs}), 
        config={"callbacks": [langfuse_handler]}
    ).content

    return response

### Classificação das notícias com LLM

Chain-of-Thought + RAG

In [7]:
query = """
<Instrução>
Você é um especialista financeiro especializado na Petrobrás. Leia o resumo da notícia e, com base no contexto fornecido, avalie se ela é relevante ou não para a Petrobrás. Apresente seu raciocínio passo a passo com base em elementos do contexto e da notícia. Em seguida, forneça os seguintes critérios:
Relevância: ["Relevante" ou "Não Relevante"]
Impacto: ["Positivo", "Negativo" ou "Neutro"]
Nível: ["Alto", "Médio" ou "Baixo"]
Key-Takeaways: [Pontos chave do seu raciocínio]
<Instrução>

<Variáveis>
Contexto: Contém trechos do Formulário de Referência da Petrobrás, que contém informações sobre riscos e sobre a estratégia da empresa.
Notícia: Resumo de uma notícia.
<Variáveis>

<Contexto>
{context}
<Contexto>

<Formato da Resposta>
**Análise e Raciocínio**: [Explique passo a passo como a notícia se conecta (ou não) com o contexto da Petrobrás, mencionando possíveis impactos financeiros, estratégicos, regulatórios ou reputacionais.]

Relevância: "Relevante" ou "Não Relevante"
Impacto: "Positivo", "Negativo" ou "Neutro"
Nível: "Alto", "Médio" ou "Baixo"
Key-Takeaways: 
- Primeiro takeaway do seu racicínio, em poucas palavras. Adicione um ou mais, se for relevante.
- Segundo takeaway do seu racicínio, em poucas palavras. Se for relevante
- Tericeiro takeaway do seu racicínio, em poucas palavras. Se for relevante
<Formato da Resposta>

<Notícia>
{summary}
<Notícia>
"""

prompt_template = PromptTemplate(
    input_variables=["context", "summary"],
    template=query
)

In [8]:
for i, summary in df_summaries.iterrows():
    print(f"{i+1} / {len(df_summaries)}", end=" ...")

    # Retrieval + Pós-Retrieval
    docs = vectorstore.similarity_search(summary["summary"], k=20)
    filtered = [doc for doc in docs if doc.metadata.get("category") in ["Empresa e estrutura", "Operações e mercado", "Riscos e conformidade", "ESG e sustentabilidade"]]
    context = CleanRetrievals(summary["summary"], filtered)

    # Classificação da notícia
    response = llm.invoke(
        prompt_template.invoke({"summary":summary["summary"], "context":context}), 
        config={"callbacks": [langfuse_handler]}
    ).content

    # Output Parsing
    for variavel in ["Relevância", "Impacto", "Nível"]:
        parsed = re.findall(fr'{variavel}:\s*\"([^\n]+)\"', response.replace("*", ""))[0]

        nfkd_form = unicodedata.normalize('NFKD', variavel).lower()
        col = "".join([c for c in nfkd_form if not unicodedata.combining(c)])
        df_summaries.loc[i, col] = parsed

    takeaways = response.split("Key-Takeaways:")[-1]
    df_summaries.loc[i, "Takeaways"] = takeaways
    df_summaries.loc[i, "Pensamento"] = response
    
    print(f"{df_summaries.loc[i, "nivel"]} {df_summaries.loc[i, "impacto"]}" if df_summaries.loc[i, "relevancia"] == "Relevante" else df_summaries.loc[i, "relevancia"])

1 / 13 ...Médio Positivo
2 / 13 ...Médio Neutro
3 / 13 ...Alto Negativo
4 / 13 ...Não Relevante
5 / 13 ...Não Relevante
6 / 13 ...Não Relevante
7 / 13 ...Não Relevante
8 / 13 ...Alto Negativo
9 / 13 ...Não Relevante
10 / 13 ...Não Relevante
11 / 13 ...Alto Positivo
12 / 13 ...Alto Negativo
13 / 13 ...Não Relevante


# 03. Load

In [9]:
path_summaries_database = "./02. Databases/Summaries/"
hoje = dt.datetime.now().strftime(format="%Y-%m-%d")

df_summaries["Date"] = hoje

if not os.path.exists(path_summaries_database):
    os.makedirs(path_summaries_database)
df_summaries.to_csv(path_summaries_database + f"{hoje}.csv")

In [27]:
df_summaries.columns = list(map(lambda x: x.lower(), df_summaries.columns))
df_summaries = df_summaries.rename(columns={"titulo": "title", "pensamento": "ideia", "nivel": "relevancia", "relevancia": "flag", "flag": "relevancia"})

db_url = f'postgresql+psycopg2://{os.environ["POSTGRES_USER"]}:{os.environ["POSTGRES_PASSWORD"]}@localhost:5432/{os.environ["POSTGRES_DATABASE"]}'

# Create SQLAlchemy engine
engine = create_engine(db_url)

# Append data to the existing table
df_summaries.to_sql(name="summaries", schema="ai", con=engine, if_exists='append', index=False)

13