In [1]:
# Ambiente
import os

# Webscraper
from utils import extract_article_text, find_relevant_links

# Vector Database
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

# AI
from langchain.chat_models import init_chat_model
from langchain.prompts import PromptTemplate

# Monitoramento
from langfuse.langchain import CallbackHandler

# Pipeline de Dados e Parsing
from sqlalchemy import create_engine
import datetime as dt
import pandas as pd
import re
import unicodedata

In [2]:
# LangChain setup
summarizer = init_chat_model("gpt-4o-mini", model_provider="openai")

template = PromptTemplate(
    input_variables=["text", "source"],
    template=(
        "Resuma a not√≠cia a seguir de forma sucinta:\n\n"
        "{text}\n\n"
        "Resumo:"
    )
)

# CallbackHandler do LangFuse (par√¢metros no Env)
langfuse_handler = CallbackHandler()

# Inst√¢ncia da IA
llm = init_chat_model("gpt-4o-mini", model_provider="openai")

In [3]:
# Sites do webscraper
news_sites = [
    "https://valor.globo.com/",
    "https://www.folha.uol.com.br/",
    "https://exame.com/",
    "https://oglobo.globo.com/"
]

In [None]:
# Carregando a vector database com o documento de ITR
path_chroma = "./02. Databases/chroma_db"

embeddings = OpenAIEmbeddings()
vectorstore = Chroma(persist_directory=path_chroma, embedding_function=embeddings, collection_name="MyColletion")

# 01. Extract

- Implementa√ß√£o do WebScraper das not√≠cias
- Resumo simples feito pela IA

In [None]:
# Lista de resumos
summaries = list()

for site in news_sites:
    print(f"\nüîç Procurando not√≠cias em: {site}")
    links = find_relevant_links(site)

    for link in links:
        print(f"üì∞ Lendo: {link}", end=" ...")
        article, title = extract_article_text(link)

        if article and len(article.split()) > 100:
            print("Criando Resumo")
            summary = summarizer.invoke(template.invoke({"text": article[:10000], "source": link}), config={"callbacks": [langfuse_handler]}).content
            summaries.append((link, summary, title))
        else: print()

print("\nüìä RESUMOS RELEVANTES PARA O MERCADO:\n")
for i, (link, summary, title) in enumerate(summaries, 1):
    print(f"{i}. {link}\n{summary}\n{'-'*80}")

# Armazenar output em Data Frame
df_summaries = pd.DataFrame(data=summaries, columns=["url", "summary", "Titulo"])

# 02. Transform

- Classifica√ß√£o de impacto e relev√¢ncia com RAG

### RAG e P√≥s-RAG

1. Primeira extra√ß√£o de Chunks do documento da Petrobr√°s
2. Remo√ß√£o de ru√≠do e filtro de chunks relevantes com LLM

In [6]:
query = """
<Instru√ß√£o>
Voc√™ esta ajudando a analisar se o resumo da not√≠cia √© relevante para a estrat√©gia da empresa ou n√£o
<Instru√ß√£o>

<Resumo da Not√≠cia>
{summary}
<Resumo da Not√≠cia>

Abaixo s√£o chunks de documentos internos da empresa.

<Chunks>
{chunks}
<Chunks>

Reordene os chunks do mais √∫til ao menos √∫til para determinar a relev√¢ncia para a estrat√©gia da empresa. Responda somente com os mais √∫teis.
"""

pos_rag_template = PromptTemplate(
    input_variables=["summary", "chunks"],
    template=query
)

def CleanRetrievals(resumo, chunks_):
    docs = "\n\n".join([x.page_content for i, x in enumerate(chunks_)])

    response = llm.invoke(
        pos_rag_template.invoke({"summary":resumo, "chunks":docs}), 
        config={"callbacks": [langfuse_handler]}
    ).content

    return response

### Classifica√ß√£o das not√≠cias com LLM

Chain-of-Thought + RAG

In [7]:
query = """
<Instru√ß√£o>
Voc√™ √© um especialista financeiro especializado na Petrobr√°s. Leia o resumo da not√≠cia e, com base no contexto fornecido, avalie se ela √© relevante ou n√£o para a Petrobr√°s. Apresente seu racioc√≠nio passo a passo com base em elementos do contexto e da not√≠cia. Em seguida, forne√ßa os seguintes crit√©rios:
Relev√¢ncia: ["Relevante" ou "N√£o Relevante"]
Impacto: ["Positivo", "Negativo" ou "Neutro"]
N√≠vel: ["Alto", "M√©dio" ou "Baixo"]
Key-Takeaways: [Pontos chave do seu racioc√≠nio]
<Instru√ß√£o>

<Vari√°veis>
Contexto: Cont√©m trechos do Formul√°rio de Refer√™ncia da Petrobr√°s, que cont√©m informa√ß√µes sobre riscos e sobre a estrat√©gia da empresa.
Not√≠cia: Resumo de uma not√≠cia.
<Vari√°veis>

<Contexto>
{context}
<Contexto>

<Formato da Resposta>
**An√°lise e Racioc√≠nio**: [Explique passo a passo como a not√≠cia se conecta (ou n√£o) com o contexto da Petrobr√°s, mencionando poss√≠veis impactos financeiros, estrat√©gicos, regulat√≥rios ou reputacionais.]

Relev√¢ncia: "Relevante" ou "N√£o Relevante"
Impacto: "Positivo", "Negativo" ou "Neutro"
N√≠vel: "Alto", "M√©dio" ou "Baixo"
Key-Takeaways: 
- Primeiro takeaway do seu racic√≠nio, em poucas palavras. Adicione um ou mais, se for relevante.
- Segundo takeaway do seu racic√≠nio, em poucas palavras. Se for relevante
- Tericeiro takeaway do seu racic√≠nio, em poucas palavras. Se for relevante
<Formato da Resposta>

<Not√≠cia>
{summary}
<Not√≠cia>
"""

prompt_template = PromptTemplate(
    input_variables=["context", "summary"],
    template=query
)

In [8]:
for i, summary in df_summaries.iterrows():
    print(f"{i+1} / {len(df_summaries)}", end=" ...")

    # Retrieval + P√≥s-Retrieval
    docs = vectorstore.similarity_search(summary["summary"], k=20)
    filtered = [doc for doc in docs if doc.metadata.get("category") in ["Empresa e estrutura", "Opera√ß√µes e mercado", "Riscos e conformidade", "ESG e sustentabilidade"]]
    context = CleanRetrievals(summary["summary"], filtered)

    # Classifica√ß√£o da not√≠cia
    response = llm.invoke(
        prompt_template.invoke({"summary":summary["summary"], "context":context}), 
        config={"callbacks": [langfuse_handler]}
    ).content

    # Output Parsing
    for variavel in ["Relev√¢ncia", "Impacto", "N√≠vel"]:
        parsed = re.findall(fr'{variavel}:\s*\"([^\n]+)\"', response.replace("*", ""))[0]

        nfkd_form = unicodedata.normalize('NFKD', variavel).lower()
        col = "".join([c for c in nfkd_form if not unicodedata.combining(c)])
        df_summaries.loc[i, col] = parsed

    takeaways = response.split("Key-Takeaways:")[-1]
    df_summaries.loc[i, "Takeaways"] = takeaways
    df_summaries.loc[i, "Pensamento"] = response
    
    print(f"{df_summaries.loc[i, "nivel"]} {df_summaries.loc[i, "impacto"]}" if df_summaries.loc[i, "relevancia"] == "Relevante" else df_summaries.loc[i, "relevancia"])

1 / 13 ...M√©dio Positivo
2 / 13 ...M√©dio Neutro
3 / 13 ...Alto Negativo
4 / 13 ...N√£o Relevante
5 / 13 ...N√£o Relevante
6 / 13 ...N√£o Relevante
7 / 13 ...N√£o Relevante
8 / 13 ...Alto Negativo
9 / 13 ...N√£o Relevante
10 / 13 ...N√£o Relevante
11 / 13 ...Alto Positivo
12 / 13 ...Alto Negativo
13 / 13 ...N√£o Relevante


# 03. Load

In [9]:
path_summaries_database = "./02. Databases/Summaries/"
hoje = dt.datetime.now().strftime(format="%Y-%m-%d")

df_summaries["Date"] = hoje

if not os.path.exists(path_summaries_database):
    os.makedirs(path_summaries_database)
df_summaries.to_csv(path_summaries_database + f"{hoje}.csv")

In [27]:
df_summaries.columns = list(map(lambda x: x.lower(), df_summaries.columns))
df_summaries = df_summaries.rename(columns={"titulo": "title", "pensamento": "ideia", "nivel": "relevancia", "relevancia": "flag", "flag": "relevancia"})

db_url = f'postgresql+psycopg2://{os.environ["POSTGRES_USER"]}:{os.environ["POSTGRES_PASSWORD"]}@localhost:5432/{os.environ["POSTGRES_DATABASE"]}'

# Create SQLAlchemy engine
engine = create_engine(db_url)

# Append data to the existing table
df_summaries.to_sql(name="summaries", schema="ai", con=engine, if_exists='append', index=False)

13