## 1. Informa√ß√µes

Este notebook implementa um sistema de RAG (Retrieval-Augmented Generation) utilizando o modelo Google Gemini 2.5 Flash para responder perguntas baseadas em uma base de conhecimento espec√≠fica do ONS (Operador Nacional do Sistema El√©trico).

## 2. Importa√ß√£o de Bibliotecas

In [1]:
import warnings
from pathlib import Path
from typing import List, Dict

# Google Gemini
import google.generativeai as genai

# Processamento de PDFs
from PyPDF2 import PdfReader

# LangChain
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_core.documents import Document

warnings.filterwarnings('ignore')

print("‚úì Bibliotecas importadas com sucesso!")

  from .autonotebook import tqdm as notebook_tqdm



‚úì Bibliotecas importadas com sucesso!
‚úì Bibliotecas importadas com sucesso!


## 3. Configura√ß√£o do Gemini API

In [None]:
# Configurar API Key do Gemini
# Obtenha sua chave gratuita em: https://makersuite.google.com/app/apikey
GEMINI_API_KEY = " "  # Substitua pela sua chave

# Configurar Gemini
genai.configure(api_key=GEMINI_API_KEY)

# Usar modelo gratuito gemini-1.5-flash
model = genai.GenerativeModel('gemini-2.5-flash')

## 4. Carregamento e Processamento dos PDFs

### 4.1 Fun√ß√£o para Extrair Texto dos PDFs

In [3]:
def extract_text_from_pdf(pdf_path: str) -> str:
    """
    Extrai texto de um arquivo PDF
    
    Args:
        pdf_path: Caminho para o arquivo PDF
    
    Returns:
        Texto extra√≠do do PDF
    """
    try:
        reader = PdfReader(pdf_path)
        text = ""
        
        for page in reader.pages:
            text += page.extract_text() + "\n"
        
        return text.strip()
    
    except Exception as e:
        print(f"Erro ao processar {pdf_path}: {e}")
        return ""

### 4.2 Carregar Todos os PDFs

In [4]:
# Diret√≥rio dos PDFs
PDF_DIR = "./db/rag_context"

# Listar todos os PDFs
pdf_files = list(Path(PDF_DIR).glob("*.pdf"))

print("="*80)
print("PROCEDIMENTOS DE REDE DO ONS ENCONTRADOS")
print("="*80)
print(f"Total de arquivos PDF: {len(pdf_files)}\n")

for pdf_file in sorted(pdf_files):
    print(f"  ‚Ä¢ {pdf_file.name}")

# Carregar documentos
documents = []

print("\n" + "="*80)
print("PROCESSANDO PDFs...")
print("="*80)

for pdf_file in pdf_files:
    print(f"Processando: {pdf_file.name}...", end=" ")
    
    text = extract_text_from_pdf(str(pdf_file))
    
    if text:
        # Criar documento com metadados
        doc = Document(
            page_content=text,
            metadata={
                "source": pdf_file.name,
                "path": str(pdf_file)
            }
        )
        documents.append(doc)
        print(f"‚úì ({len(text):,} caracteres)")
    else:
        print("‚úó Falhou")

print(f"\n‚úì {len(documents)} documentos carregados com sucesso!")

PROCEDIMENTOS DE REDE DO ONS ENCONTRADOS
Total de arquivos PDF: 16

  ‚Ä¢ submodulo_4.1_op.pdf
  ‚Ä¢ submodulo_4.1_resp.pdf
  ‚Ä¢ submodulo_4.2_proc.pdf
  ‚Ä¢ submodulo_4.2_resp.pdf
  ‚Ä¢ submodulo_4.3_proc.pdf
  ‚Ä¢ submodulo_4.3_resp.pdf
  ‚Ä¢ submodulo_4.4_op.pdf
  ‚Ä¢ submodulo_4.4_resp.pdf
  ‚Ä¢ submodulo_4.5_PDO_op.pdf
  ‚Ä¢ submodulo_4.5_PDO_resp.pdf
  ‚Ä¢ submodulo_4.6_proc.pdf
  ‚Ä¢ submodulo_4.6_resp.pdf
  ‚Ä¢ submodulo_4.7_op.pdf
  ‚Ä¢ submodulo_4.7_resp.pdf
  ‚Ä¢ submodulo_4.8_op.pdf
  ‚Ä¢ submodulo_4.8_resp.pdf

PROCESSANDO PDFs...
Processando: submodulo_4.1_op.pdf... ‚úì (15,365 caracteres)
Processando: submodulo_4.1_resp.pdf... ‚úì (10,697 caracteres)
Processando: submodulo_4.2_proc.pdf... ‚úì (10,697 caracteres)
Processando: submodulo_4.2_proc.pdf... ‚úì (42,870 caracteres)
Processando: submodulo_4.2_resp.pdf... ‚úì (42,870 caracteres)
Processando: submodulo_4.2_resp.pdf... ‚úì (28,182 caracteres)
Processando: submodulo_4.3_proc.pdf... ‚úì (28,182 caracteres)
Processand

## 5. Cria√ß√£o do Vector Store (Chunking e Embeddings)

### 5.1 Dividir Documentos em Chunks

In [5]:
# Configurar text splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,        # Tamanho de cada chunk
    chunk_overlap=200,      # Sobreposi√ß√£o entre chunks
    length_function=len,
    separators=["\n\n", "\n", ".", " ", ""]
)

print("="*80)
print("DIVIDINDO DOCUMENTOS EM CHUNKS")
print("="*80)
print(f"Chunk size: 1000 caracteres")
print(f"Chunk overlap: 200 caracteres\n")

# Dividir documentos
chunks = text_splitter.split_documents(documents)

print(f"‚úì {len(chunks)} chunks criados")
print(f"\nEstat√≠sticas:")
print(f"  ‚Ä¢ Documentos originais: {len(documents)}")
print(f"  ‚Ä¢ Chunks totais: {len(chunks)}")
print(f"  ‚Ä¢ M√©dia de chunks por documento: {len(chunks)/len(documents):.1f}")

DIVIDINDO DOCUMENTOS EM CHUNKS
Chunk size: 1000 caracteres
Chunk overlap: 200 caracteres

‚úì 349 chunks criados

Estat√≠sticas:
  ‚Ä¢ Documentos originais: 16
  ‚Ä¢ Chunks totais: 349
  ‚Ä¢ M√©dia de chunks por documento: 21.8


### 5.2 Criar Embeddings e Vector Store

In [6]:
print("="*80)
print("CRIANDO EMBEDDINGS E VECTOR STORE")
print("="*80)
print("Modelo de embeddings: all-MiniLM-L6-v2 (multilingual)")
print("Vector store: ChromaDB\n")

# Configura√ß√£o de embeddings (modelo gratuito e multil√≠ngue)
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2",
    model_kwargs={'device': 'cpu'}
)

print("Gerando embeddings e criando √≠ndice... (pode levar alguns minutos)")

# Criar vector store
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./db/chroma_db"
)

print("\n‚úì Vector store criado com sucesso!")
print(f"‚úì √çndice persistido em: ./db/chroma_db")

CRIANDO EMBEDDINGS E VECTOR STORE
Modelo de embeddings: all-MiniLM-L6-v2 (multilingual)
Vector store: ChromaDB

Gerando embeddings e criando √≠ndice... (pode levar alguns minutos)
Gerando embeddings e criando √≠ndice... (pode levar alguns minutos)

‚úì Vector store criado com sucesso!
‚úì √çndice persistido em: ./db/chroma_db

‚úì Vector store criado com sucesso!
‚úì √çndice persistido em: ./db/chroma_db


## 6. Sistema RAG - Retrieval e Generation

### 6.1 Fun√ß√£o de Busca Sem√¢ntica

In [7]:
def retrieve_relevant_docs(query: str, k: int = 5) -> List[Document]:
    """
    Recupera documentos relevantes do vector store
    
    Args:
        query: Pergunta do usu√°rio
        k: N√∫mero de documentos a retornar
    
    Returns:
        Lista de documentos relevantes
    """
    # Buscar documentos similares
    docs = vectorstore.similarity_search(query, k=k)
    
    return docs


### 6.2 Fun√ß√£o RAG Completa

In [12]:
def rag_query(question: str, k: int = 5, verbose: bool = True) -> Dict:
    """
    Sistema RAG completo: Retrieval + Generation
    
    Args:
        question: Pergunta do usu√°rio
        k: N√∫mero de documentos a recuperar
        verbose: Mostrar documentos recuperados
    
    Returns:
        Dicion√°rio com resposta e metadados
    """
    
    if verbose:
        print("="*80)
        print("SISTEMA RAG - PROCESSANDO CONSULTA")
        print("="*80)
        print(f"Pergunta: {question}\n")
    
    # 1. RETRIEVAL: Buscar documentos relevantes
    if verbose:
        print(f"[1/3] Buscando {k} documentos relevantes...")
    
    relevant_docs = retrieve_relevant_docs(question, k=k)
    
    if verbose:
        print(f"‚úì {len(relevant_docs)} documentos recuperados\n")
        print("Documentos recuperados:")
        for i, doc in enumerate(relevant_docs, 1):
            print(f"  {i}. {doc.metadata['source']} ({len(doc.page_content)} chars)")
    
    # 2. CONTEXTO: Concatenar documentos
    if verbose:
        print(f"\n[2/3] Preparando contexto...")
    
    context = "\n\n".join([
        f"[Documento: {doc.metadata['source']}]\n{doc.page_content}"
        for doc in relevant_docs
    ])
    
    if verbose:
        print(f"‚úì Contexto preparado ({len(context):,} caracteres)")
    
    # 3. GENERATION: Gerar resposta com Gemini
    if verbose:
        print(f"\n[3/3] Gerando resposta com Gemini...")
    
    # Criar prompt para o Gemini
    prompt = f"""Voc√™ √© um assistente especializado em Procedimentos de Rede do ONS (Operador Nacional do Sistema El√©trico).

Use APENAS as informa√ß√µes do contexto abaixo para responder √† pergunta. Se a informa√ß√£o n√£o estiver no contexto, diga que n√£o encontrou a informa√ß√£o nos documentos fornecidos.

CONTEXTO:
{context}

PERGUNTA: {question}

INSTRU√á√ïES:
1. Responda em portugu√™s do Brasil
2. Seja claro e objetivo
3. Cite o documento fonte quando relevante (exemplo: "Segundo o subm√≥dulo 4.1...")
4. Se houver m√∫ltiplas informa√ß√µes relevantes, organize em t√≥picos
5. N√£o invente informa√ß√µes que n√£o est√£o no contexto

RESPOSTA:"""
    
    # Gerar resposta
    response = model.generate_content(prompt)
    
    if verbose:
        print("‚úì Resposta gerada\n")
        print("="*80)
        print("RESPOSTA")
        print("="*80)
        print(response.text)
    
    # Retornar resultado
    result = {
        "question": question,
        "answer": response.text,
        "sources": [doc.metadata['source'] for doc in relevant_docs],
        "num_docs": len(relevant_docs)
    }
    
    return result


## 7. Exemplos de Uso

In [14]:
# Fazer uma pergunta sobre os procedimentos
result = rag_query(
    question="O que √© feito na Programa√ß√£o Di√°ria da Opera√ß√£o (PDO)?",
    k=3,
    verbose=True
)

SISTEMA RAG - PROCESSANDO CONSULTA
Pergunta: O que √© feito na Programa√ß√£o Di√°ria da Opera√ß√£o (PDO)?

[1/3] Buscando 3 documentos relevantes...
‚úì 3 documentos recuperados

Documentos recuperados:
  1. submodulo_4.5_PDO_resp.pdf (970 chars)
  2. submodulo_4.5_PDO_resp.pdf (970 chars)
  3. submodulo_4.5_PDO_op.pdf (982 chars)

[2/3] Preparando contexto...
‚úì Contexto preparado (3,044 caracteres)

[3/3] Gerando resposta com Gemini...
‚úì Resposta gerada

RESPOSTA
Na Programa√ß√£o Di√°ria da Opera√ß√£o (PDO) s√£o realizadas as seguintes atividades e apresentadas as seguintes informa√ß√µes:

*   **Consolida√ß√£o e Fornecimento de Diretrizes:**
    *   Consolida as propostas de gera√ß√£o hidr√°ulica, t√©rmica, e√≥lica e solar como a programa√ß√£o di√°ria eletroenerg√©tica.
    *   Fornece aos centros de opera√ß√£o do ONS e aos agentes de opera√ß√£o as diretrizes eletroenerg√©ticas espec√≠ficas, necess√°rias √† execu√ß√£o da opera√ß√£o. (Segundo o documento submodulo_4.5_PDO_resp.pdf,

In [15]:
# Pergunta mais t√©cnica
result = rag_query(
    question="Quais s√£o as responsabilidades dos agentes no planejamento da opera√ß√£o?",
    k=5,
    verbose=True
)

SISTEMA RAG - PROCESSANDO CONSULTA
Pergunta: Quais s√£o as responsabilidades dos agentes no planejamento da opera√ß√£o?

[1/3] Buscando 5 documentos relevantes...
‚úì 5 documentos recuperados

Documentos recuperados:
  1. submodulo_4.1_resp.pdf (943 chars)
  2. submodulo_4.1_resp.pdf (943 chars)
  3. submodulo_4.5_PDO_op.pdf (938 chars)
  4. submodulo_4.5_PDO_op.pdf (938 chars)
  5. submodulo_4.1_op.pdf (986 chars)

[2/3] Preparando contexto...
‚úì Contexto preparado (4,938 caracteres)

[3/3] Gerando resposta com Gemini...
‚úì Resposta gerada

RESPOSTA
Com base nos documentos fornecidos, as responsabilidades dos agentes no planejamento da opera√ß√£o s√£o:

*   **Informar dados:** Os agentes de opera√ß√£o informam dados que s√£o posteriormente verificados pelo ONS para eventuais inconsist√™ncias (subm√≥dulo 4.1_resp.pdf).
*   **Solicitar inclus√£o de an√°lises no escopo:** Os agentes de opera√ß√£o podem solicitar a inclus√£o, no escopo dos estudos para o horizonte mensal, de an√°lises q

In [17]:
# Pergunta mais t√©cnica
result = rag_query(
    question="Quais s√£o as responsabilidades do ONS na Programa√ß√£o Di√°ria da Opera√ß√£o?",
    k=5,
    verbose=True
)

SISTEMA RAG - PROCESSANDO CONSULTA
Pergunta: Quais s√£o as responsabilidades do ONS na Programa√ß√£o Di√°ria da Opera√ß√£o?

[1/3] Buscando 5 documentos relevantes...
‚úì 5 documentos recuperados

Documentos recuperados:
  1. submodulo_4.5_PDO_op.pdf (938 chars)
  2. submodulo_4.5_PDO_op.pdf (938 chars)
  3. submodulo_4.2_resp.pdf (978 chars)
  4. submodulo_4.2_resp.pdf (978 chars)
  5. submodulo_4.2_resp.pdf (985 chars)

[2/3] Preparando contexto...
‚úì Contexto preparado (5,009 caracteres)

[3/3] Gerando resposta com Gemini...
‚úì Resposta gerada

RESPOSTA
Segundo o Subm√≥dulo 4.5 ‚Äì PDO Op., as responsabilidades do ONS na Programa√ß√£o Di√°ria da Opera√ß√£o s√£o:

*   **Assegurar Transpar√™ncia e Interatividade:** O processo de programa√ß√£o di√°ria da opera√ß√£o eletroenerg√©tica √© participativo e interativo, com reprodutibilidade de resultados e transpar√™ncia entre o ONS e os agentes com responsabilidades definidas neste subm√≥dulo (item 1.4).
*   **Utilizar Crit√©rios Definido

In [16]:
# Pergunta sobre procedimento espec√≠fico
result = rag_query(
    question="Como funciona o processo de programa√ß√£o da opera√ß√£o el√©trica?",
    k=4,
    verbose=True
)

SISTEMA RAG - PROCESSANDO CONSULTA
Pergunta: Como funciona o processo de programa√ß√£o da opera√ß√£o el√©trica?

[1/3] Buscando 4 documentos relevantes...
‚úì 4 documentos recuperados

Documentos recuperados:
  1. submodulo_4.5_PDO_op.pdf (938 chars)
  2. submodulo_4.5_PDO_op.pdf (938 chars)
  3. submodulo_4.2_resp.pdf (985 chars)
  4. submodulo_4.2_resp.pdf (985 chars)

[2/3] Preparando contexto...
‚úì Contexto preparado (4,000 caracteres)

[3/3] Gerando resposta com Gemini...
‚úì Resposta gerada

RESPOSTA
De acordo com os documentos fornecidos, o processo de programa√ß√£o da opera√ß√£o el√©trica, especificamente a programa√ß√£o di√°ria da opera√ß√£o eletroenerg√©tica, funciona da seguinte forma:

*   **Natureza do Processo:** √â um processo participativo e interativo, que garante a reprodutibilidade de resultados e a transpar√™ncia entre o ONS e os agentes com responsabilidades definidas no subm√≥dulo, os quais devem estar capacitados em todas as suas etapas (submodulo_4.5_PDO_op.pdf

## 8. An√°lise e Estat√≠sticas

### 8.1 Estat√≠sticas do Vector Store

In [21]:
print("="*80)
print("ESTAT√çSTICAS DO SISTEMA RAG")
print("="*80)

print(f"\nüìÅ Documentos:")
print(f"  ‚Ä¢ PDFs processados: {len(pdf_files)}")
print(f"  ‚Ä¢ Documentos carregados: {len(documents)}")
print(f"  ‚Ä¢ Chunks criados: {len(chunks)}")

print(f"\nüîç Vector Store:")
print(f"  ‚Ä¢ Modelo de embeddings: all-MiniLM-L6-v2")
print(f"  ‚Ä¢ Dimens√£o dos vetores: 384")
print(f"  ‚Ä¢ Database: ChromaDB")

print(f"\nü§ñ Modelo LLM:")
print(f"  ‚Ä¢ Modelo: Gemini 2.5 Flash")
print(f"  ‚Ä¢ Tier: Free")
print(f"  ‚Ä¢ Provider: Google")

# Listar todos os documentos
print(f"\nüìÑ Documentos dispon√≠veis:")
for i, pdf_file in enumerate(sorted(pdf_files), 1):
    print(f"  {i}. {pdf_file.name}")

ESTAT√çSTICAS DO SISTEMA RAG

üìÅ Documentos:
  ‚Ä¢ PDFs processados: 16
  ‚Ä¢ Documentos carregados: 16
  ‚Ä¢ Chunks criados: 349

üîç Vector Store:
  ‚Ä¢ Modelo de embeddings: all-MiniLM-L6-v2
  ‚Ä¢ Dimens√£o dos vetores: 384
  ‚Ä¢ Database: ChromaDB

ü§ñ Modelo LLM:
  ‚Ä¢ Modelo: Gemini 2.5 Flash
  ‚Ä¢ Tier: Free
  ‚Ä¢ Provider: Google

üìÑ Documentos dispon√≠veis:
  1. submodulo_4.1_op.pdf
  2. submodulo_4.1_resp.pdf
  3. submodulo_4.2_proc.pdf
  4. submodulo_4.2_resp.pdf
  5. submodulo_4.3_proc.pdf
  6. submodulo_4.3_resp.pdf
  7. submodulo_4.4_op.pdf
  8. submodulo_4.4_resp.pdf
  9. submodulo_4.5_PDO_op.pdf
  10. submodulo_4.5_PDO_resp.pdf
  11. submodulo_4.6_proc.pdf
  12. submodulo_4.6_resp.pdf
  13. submodulo_4.7_op.pdf
  14. submodulo_4.7_resp.pdf
  15. submodulo_4.8_op.pdf
  16. submodulo_4.8_resp.pdf


### 8.2 Teste de Busca Sem√¢ntica

In [22]:
# Testar busca sem√¢ntica direta
test_query = "planejamento da opera√ß√£o"

print("="*80)
print(f"TESTE DE BUSCA SEM√ÇNTICA")
print("="*80)
print(f"Query: '{test_query}'\n")

results = retrieve_relevant_docs(test_query, k=5)

print(f"Top {len(results)} documentos mais relevantes:\n")

for i, doc in enumerate(results, 1):
    print(f"{i}. {doc.metadata['source']}")
    print(f"   Preview: {doc.page_content[:150].replace(chr(10), ' ')}...")
    print()

TESTE DE BUSCA SEM√ÇNTICA
Query: 'planejamento da opera√ß√£o'

Top 5 documentos mais relevantes:

1. submodulo_4.1_resp.pdf
   Preview: Planejamento da opera√ß√£o el√©trica com horizonte mensal para a configura√ß√£o da Rede de Opera√ß√£o. 2. PRODUTO 2.1. Diretrizes para Opera√ß√£o El√©trica com ...

2. submodulo_4.1_resp.pdf
   Preview: Planejamento da opera√ß√£o el√©trica com horizonte mensal para a configura√ß√£o da Rede de Opera√ß√£o. 2. PRODUTO 2.1. Diretrizes para Opera√ß√£o El√©trica com ...

3. submodulo_4.1_op.pdf
   Preview: planejamento da opera√ß√£o el√©trica de m√©dio prazo e o relat√≥rio de Diretrizes para Opera√ß√£o El√©trica  com Horizonte Quadrimestral para abordar, por exe...

4. submodulo_4.1_op.pdf
   Preview: planejamento da opera√ß√£o el√©trica de m√©dio prazo e o relat√≥rio de Diretrizes para Opera√ß√£o El√©trica  com Horizonte Quadrimestral para abordar, por exe...

5. submodulo_4.2_proc.pdf
   Preview: apenas interven√ß√µes com desligamento de equipamentos princ

## 9. Conclus√µes

### **Sistema RAG Implementado:**

1. **Processamento de Documentos**:
   - Extra√ß√£o de texto de 16 PDFs de procedimentos do ONS
   - Divis√£o em chunks de 1000 caracteres com overlap de 200
   - Total de chunks indexados no vector store

2. **Retrieval (Busca)**:
   - Embeddings com modelo multil√≠ngue all-MiniLM-L6-v2
   - Vector store ChromaDB para busca sem√¢ntica eficiente
   - Recupera√ß√£o dos top-k documentos mais relevantes

3. **Generation (Gera√ß√£o)**:
   - Integra√ß√£o com Google Gemini 1.5 Flash (free tier)
   - Prompts otimizados para respostas precisas e contextualizadas
   - Cita√ß√£o autom√°tica de fontes