<a href="https://colab.research.google.com/github/MarinaZRocha/Mod_Ling_Robotica/blob/main/E03_ModLing_RAG_179741.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìö Sistema RAG (Retrieval-Augmented Generation) para Manual t√©cnico

## üéØ O que √© RAG?

**RAG** √© uma t√©cnica que combina **recupera√ß√£o de informa√ß√£o** com **gera√ß√£o de texto** por IA. Em vez de depender apenas do conhecimento interno de um modelo de linguagem, o RAG:

1. **Busca** informa√ß√µes relevantes em uma base de dados (nossos documentos)
2. **Usa essas informa√ß√µes** como contexto para gerar respostas mais precisas e fundamentadas

## üîÑ Pipeline do nosso Sistema RAG

Nosso sistema funciona em 7 etapas principais:

```
üìñ Documento ‚Üí ‚úÇÔ∏è Chunking ‚Üí üßÆ Embeddings ‚Üí üîç Busca ‚Üí üéØ Re-ranking ‚Üí üìù Resposta
```

1. **Carregamento**: Lemos o documento de texto
2. **Chunking**: Dividimos em peda√ßos menores e gerenci√°veis
3. **Embeddings**: Convertemos cada peda√ßo em vetores num√©ricos que capturam o significado
4. **Expans√£o de Consulta**: Criamos varia√ß√µes da pergunta para melhorar a busca
5. **Busca**: Encontramos os peda√ßos mais relevantes usando similaridade vetorial
6. **Re-ranking**: Refinamos os resultados com um modelo mais preciso
7. **Gera√ß√£o**: Usamos os melhores trechos como contexto para gerar a resposta final

## üìñ Dataset: Datasheet ESP32-S3

Ser√° o utilizado como dataset o Manual t√©cnico do ESP32-S3.

---


## üõ†Ô∏è Instala√ß√£o de Depend√™ncias

Primeiro, vamos instalar todas as bibliotecas que precisamos:

- **torch**: Para opera√ß√µes com tensores e deep learning
- **sentence-transformers**: Para criar embeddings sem√¢nticos
- **transformers**: Para tokeniza√ß√£o e modelos de linguagem
- **numpy**: Para opera√ß√µes num√©ricas
- **requests**: Para fazer chamadas √† API
- **gdown**: Para baixar arquivos do Google Drive

In [1]:
# Instala√ß√£o das depend√™ncias
!pip install torch sentence-transformers transformers numpy requests gdown -q
!pip install -q pdfplumber pypdf

print("‚úÖ Todas as depend√™ncias foram instaladas com sucesso!")

[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m43.6/43.6 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m67.8/67.8 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m60.0/60.0 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m5.6/5.6 MB[0m [31m66.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m329.6/329.6 kB[0m [31m24.5 MB/s[0m eta [36m0:00:00[0m
[2K

## üì• Download dos Dados - Literatura Brasileira

Agora vamos baixar nossa base de conhecimento: uma cole√ß√£o de cl√°ssicos da literatura brasileira.

Este arquivo cont√©m obras como:
- Dom Casmurro (Machado de Assis)
- O Corti√ßo (Alu√≠sio Azevedo)
- E outros cl√°ssicos brasileiros

In [14]:
import os
import requests

url = "https://raw.githubusercontent.com/MarinaZRocha/Mod_Ling_Robotica/main/esp32-s3_technical_reference_manual_en.pdf"
pdf_path = os.path.abspath("esp32-s3_technical_reference_manual_en.pdf")

print("üì• Downloading PDF from GitHub...")

response = requests.get(url, stream=True, timeout=30)
response.raise_for_status()

with open(pdf_path, "wb") as f:
    for chunk in response.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)

# ‚úÖ Validate PDF header
with open(pdf_path, "rb") as f:
    header = f.read(5)

if header != b"%PDF-":
    raise RuntimeError("‚ùå Downloaded file is not a valid PDF")

print("‚úÖ PDF ready:", pdf_path)


üì• Downloading PDF from GitHub...
‚úÖ PDF ready: /content/esp32-s3_technical_reference_manual_en.pdf


## ‚öôÔ∏è Configura√ß√£o Inicial

### üîë API Keys

Para funcionar completamente, nosso sistema precisa de:
- **OpenRouter API Key**: Para acessar modelos de linguagem avan√ßados
- **Hugging Face Token**: Para baixar modelos (alguns s√£o privados)

‚ö†Ô∏è **Importante**: Substitua as chaves abaixo pelas suas pr√≥prias chaves reais!

In [27]:
# üîë Configura√ß√£o das chaves de API
# ‚ö†Ô∏è IMPORTANTE: Substitua pelas suas chaves reais!

# Voc√™ pode definir as chaves aqui diretamente ou usar vari√°veis de ambiente
# OPENROUTER_API_KEY = "google/gemma-3n-e2b-it:free"  # Obtenha em https://openrouter.ai/
# HUGGINGFACE_TOKEN = "seu_huggingface_token_aqui"    # Obtenha em https://huggingface.co/

# Alternativa: usar vari√°veis de ambiente (mais seguro)
from google.colab import userdata
OPENROUTER_API_KEY = userdata.get('UFN')
HUGGINGFACE_TOKEN = userdata.get('HF_TOKEN')

print("‚úÖ Chaves de API configuradas!")
print(f"üî∏ OpenRouter: {'‚úÖ Configurada' if OPENROUTER_API_KEY and OPENROUTER_API_KEY != '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' else '‚ùå N√£o configurada'}")
print(f"üî∏ Hugging Face: {'‚úÖ Configurada' if HUGGINGFACE_TOKEN and HUGGINGFACE_TOKEN != 'seu_huggingface_token_aqui' else '‚ùå N√£o configurada'}")

‚úÖ Chaves de API configuradas!
üî∏ OpenRouter: ‚úÖ Configurada
üî∏ Hugging Face: ‚úÖ Configurada


In [15]:
with open(pdf_path, "rb") as f:
    header = f.read(5)
    print("üîé PDF header:", header)

if header != b"%PDF-":
    raise RuntimeError("‚ùå File is not a valid PDF")

üîé PDF header: b'%PDF-'


In [None]:
head esp32-s3_technical_reference_manual_en.pdf


### üß≠ Par√¢metros do Sistema

Vamos definir os par√¢metros que controlam como nosso sistema RAG funciona:

- **CHUNK_SIZE**: Tamanho de cada peda√ßo de texto (em tokens)
- **CHUNK_OVERLAP_PERCENT**: Sobreposi√ß√£o entre peda√ßos para n√£o perder contexto
- **TOP_K_RETRIEVAL**: Quantos peda√ßos buscar inicialmente
- **TOP_K_RERANK**: Quantos peda√ßos manter ap√≥s o re-ranking
- **CROSS_ENCODER_THRESHOLD**: Limiar de relev√¢ncia m√≠nima

In [16]:
# üéõÔ∏è Par√¢metros do Sistema RAG

# üìÑ Configura√ß√µes de Chunking (divis√£o do texto)
CHUNK_SIZE = 400  # tokens por chunk (aproximadamente 300 palavras)
CHUNK_OVERLAP_PERCENT = 20  # 20% de sobreposi√ß√£o entre chunks

# üîç Configura√ß√µes de Busca
TOP_K_RETRIEVAL = 80  # Quantos chunks recuperar inicialmente
TOP_K_RERANK = 16     # Quantos chunks manter ap√≥s re-ranking
CROSS_ENCODER_THRESHOLD = 0.2  # Limiar m√≠nimo de relev√¢ncia

# ü§ñ Modelos utilizados
EMBEDDING_MODEL = 'intfloat/e5-large-v2'  # Modelo para criar embeddings
CROSS_ENCODER_MODEL = 'cross-encoder/ms-marco-MiniLM-L-6-v2'  # Para re-ranking
LLM_GENERATION_MODEL = 'openai/gpt-4o'  # Modelo para gera√ß√£o de texto

# üìñ Arquivo de exemplo
FILE_PATH = pdf_path

print("‚öôÔ∏è Configura√ß√µes do Sistema RAG:")
print(f"üìè Tamanho do chunk: {CHUNK_SIZE} tokens")
print(f"üîÑ Sobreposi√ß√£o: {CHUNK_OVERLAP_PERCENT}%")
print(f"üîç Busca inicial: {TOP_K_RETRIEVAL} chunks")
print(f"üéØ Re-ranking final: {TOP_K_RERANK} chunks")
print(f"üìö Dataset: Manual t√©cnico ESP32-S3")

‚öôÔ∏è Configura√ß√µes do Sistema RAG:
üìè Tamanho do chunk: 400 tokens
üîÑ Sobreposi√ß√£o: 20%
üîç Busca inicial: 80 chunks
üéØ Re-ranking final: 16 chunks
üìö Dataset: Manual t√©cnico ESP32-S3


## üìö Imports e Inicializa√ß√£o

Agora vamos importar todas as bibliotecas que precisamos para implementar nosso sistema RAG.

In [5]:
# üì¶ Imports necess√°rios
import os
import re
import requests
import numpy as np
import torch
from transformers import AutoTokenizer
from sentence_transformers import SentenceTransformer, CrossEncoder
import time
from typing import List, Tuple
from pprint import *
import pdfplumber
import pypdf


pprint("üì¶ Todas as bibliotecas importadas com sucesso!")
pprint(f"üñ•Ô∏è Device dispon√≠vel: {'GPU (CUDA)' if torch.cuda.is_available() else 'CPU'}")

'üì¶ Todas as bibliotecas importadas com sucesso!'
'üñ•Ô∏è Device dispon√≠vel: GPU (CUDA)'


## üìñ Etapa 1: Carregamento do Documento

A primeira etapa √© carregar nosso documento de texto. Vamos ler "Dom Casmurro" de Machado de Assis e ver algumas estat√≠sticas b√°sicas sobre o texto.

**Por que essa etapa √© importante?**
- Precisamos ter o texto completo em mem√≥ria para process√°-lo
- √â importante verificar a codifica√ß√£o do arquivo (UTF-8, Latin-1, etc.)
- Queremos entender o tamanho e caracter√≠sticas do documento

In [17]:
def carregar_documento(caminho_arquivo: str) -> str:
    """
    Carrega o conte√∫do de um arquivo PDF, tentando pdfplumber e, em caso de falha,
    tentando pypdf como alternativa.
    """
    pprint(f"üìñ Carregando documento: {os.path.basename(caminho_arquivo)}")

    full_text = ""

    try:
        # Tentar com pdfplumber
        with pdfplumber.open(caminho_arquivo) as pdf:
            pprint(f"üìÑ N√∫mero de p√°ginas (pdfplumber): {len(pdf.pages)}")
            for i, page in enumerate(pdf.pages):
                text = page.extract_text()
                if text:
                    full_text += text + "\n"
                else:
                    pprint(f"‚ö†Ô∏è P√°gina {i+1} sem texto extra√≠vel (pdfplumber)")
        pprint("‚úÖ Documento carregado com sucesso usando pdfplumber.")

    except Exception as e:
        pprint(f"‚ùå pdfplumber falhou: {e}. Tentando com pypdf...")
        full_text = ""
        try:
            # Fallback para pypdf
            with open(caminho_arquivo, 'rb') as f:
                reader = pypdf.PdfReader(f)
                num_pages = len(reader.pages)
                pprint(f"üìÑ N√∫mero de p√°ginas (pypdf): {num_pages}")
                for i in range(num_pages):
                    page = reader.pages[i]
                    text = page.extract_text()
                    if text:
                        full_text += text + "\n"
                    else:
                        pprint(f"‚ö†Ô∏è P√°gina {i+1} sem texto extra√≠vel (pypdf)")
            pprint("‚úÖ Documento carregado com sucesso usando pypdf.")

        except Exception as pypdf_e:
            raise Exception(f"‚ùå Falha ao carregar documento com pdfplumber e pypdf: {pypdf_e}")

    if not full_text.strip():
        raise Exception("‚ùå O documento foi carregado, mas nenhum texto p√¥de ser extra√≠do.")

    return full_text

# Carregar o documento
try:
    texto_completo = carregar_documento(FILE_PATH)

    # Estat√≠sticas do documento
    num_caracteres = len(texto_completo)
    num_palavras = len(texto_completo.split())
    num_linhas = len(texto_completo.split('\n'))

    pprint(f"\nüìä Estat√≠sticas do Documento:")
    pprint(f"üìè Caracteres: {num_caracteres:,}")
    pprint(f"üìù Palavras: {num_palavras:,}")
    pprint(f"üìÑ Linhas: {num_linhas:,}")

    # Mostrar uma pr√©via do in√≠cio do texto
    pprint(f"\nüìñ Pr√©via do in√≠cio do documento:")
    pprint("-" * 50)
    pprint(texto_completo[:1000])  # primeiros 1000 chars
    pprint("-" * 50)

except Exception as e:
    pprint(f"‚ùå Erro ao carregar documento: {e}")
    pprint("\nüí° Verifique se o arquivo existe e √© um PDF v√°lido.")

'üìñ Carregando documento: esp32-s3_technical_reference_manual_en.pdf'
'üìÑ N√∫mero de p√°ginas (pdfplumber): 1530'
'‚úÖ Documento carregado com sucesso usando pdfplumber.'
'\nüìä Estat√≠sticas do Documento:'
'üìè Caracteres: 2,154,482'
'üìù Palavras: 237,101'
'üìÑ Linhas: 72,812'
'\nüìñ Pr√©via do in√≠cio do documento:'
'--------------------------------------------------'
('ESP32-S3\n'
 'Technical Reference Manual\n'
 'Version 1.7\n'
 'www.espressif.com\n'
 'About This Document\n'
 'TheESP32-S3TechnicalReferenceManualistargetedatdevelopersworkingonlowlevelsoftwareprojects\n'
 'thatusetheESP32-S3SoC.ItdescribesthehardwaremoduleslistedbelowfortheESP32-S3SoCandother\n'
 'productsinESP32-S3series. '
 'Themodulesdetailedinthisdocumentprovideanoverview,listoffeatures,\n'
 'hardwarearchitecturedetails,anynecessaryprogrammingprocedures,aswellasregisterdescriptions.\n'
 'Navigation in This Document\n'
 'Herearesometipsonnavigationthroughthisextensivedocument:\n'
 '‚Ä¢ '
 'ReleaseStatusa

In [18]:
import os

if os.path.exists(FILE_PATH):
    print(f"Verificando tipo do arquivo: {FILE_PATH}")
    !file "{FILE_PATH}"
else:
    print(f"Arquivo {FILE_PATH} n√£o encontrado.")

Verificando tipo do arquivo: /content/esp32-s3_technical_reference_manual_en.pdf
/content/esp32-s3_technical_reference_manual_en.pdf: PDF document, version 1.5 (zip deflate encoded)


After checking the file type, if it's not a PDF, there might be an issue with the download URL or the file itself. If it is a PDF and `pdfplumber` still can't open it, we might need to try a different PDF parsing library or investigate the PDF's internal structure.

## ‚úÇÔ∏è Etapa 2: Chunking (Divis√£o em Peda√ßos)

**Por que dividir o texto em chunks?**

1. **Limita√ß√µes dos modelos**: Modelos t√™m limite de tokens que podem processar
2. **Precis√£o da busca**: Peda√ßos menores permitem busca mais precisa
3. **Contexto relevante**: Evitamos incluir informa√ß√µes desnecess√°rias na resposta

**Como funciona o chunking com sobreposi√ß√£o?**

```
Texto original: "ABCDEFGHIJKLMNOP"
Chunk 1: "ABCDEF"     (tokens 0-5)
Chunk 2: "EFGHIJ"     (tokens 4-9)  ‚Üê 2 tokens de sobreposi√ß√£o
Chunk 3: "IJKLMN"     (tokens 8-13) ‚Üê 2 tokens de sobreposi√ß√£o
```

A sobreposi√ß√£o garante que n√£o perdemos contexto nas "fronteiras" entre chunks.

In [19]:
def dividir_em_chunks(texto: str, tokenizer, tamanho_chunk: int, sobreposicao_percent: int) -> List[str]:
    """
    Divide o texto em chunks baseados em contagem de tokens.

    Args:
        texto: O conte√∫do do documento
        tokenizer: Tokenizer para contar tokens
        tamanho_chunk: N√∫mero m√°ximo de tokens por chunk
        sobreposicao_percent: Percentual de sobreposi√ß√£o entre chunks

    Returns:
        Lista de strings, cada uma sendo um chunk
    """
    pprint(f"‚úÇÔ∏è Dividindo texto em chunks de {tamanho_chunk} tokens...")

    # Tokenizar o texto completo
    tokens = tokenizer.encode(texto)
    total_tokens = len(tokens)
    pprint(f"üìè Total de tokens no documento: {total_tokens:,}")

    # Calcular a sobreposi√ß√£o
    sobreposicao_tokens = int(tamanho_chunk * (sobreposicao_percent / 100))
    passo = tamanho_chunk - sobreposicao_tokens

    pprint(f"üîÑ Tokens de sobreposi√ß√£o: {sobreposicao_tokens}")
    pprint(f"üë£ Passo entre chunks: {passo}")

    chunks_de_texto = []

    # Dividir em chunks
    for i in range(0, len(tokens), passo):
        chunk_tokens = tokens[i:i + tamanho_chunk]
        if not chunk_tokens:
            continue

        # Decodificar de volta para texto
        chunk_texto = tokenizer.decode(chunk_tokens, skip_special_tokens=True)
        chunks_de_texto.append(chunk_texto)

    pprint(f"‚úÖ Documento dividido em {len(chunks_de_texto)} chunks")

    return chunks_de_texto

# Inicializar o tokenizer
pprint("üî§ Inicializando tokenizer...")
tokenizer = AutoTokenizer.from_pretrained(EMBEDDING_MODEL)

# Dividir o texto em chunks
chunks = dividir_em_chunks(texto_completo, tokenizer, CHUNK_SIZE, CHUNK_OVERLAP_PERCENT)

# Mostrar estat√≠sticas dos chunks
pprint(f"\nüìä Estat√≠sticas dos Chunks:")
pprint(f"üì¶ N√∫mero total de chunks: {len(chunks)}")

# An√°lise do tamanho dos chunks
tamanhos = [len(tokenizer.encode(chunk)) for chunk in chunks[:10]]  # Analisa os primeiros 10
pprint(f"üìè Tamanho m√©dio dos primeiros 10 chunks: {np.mean(tamanhos):.1f} tokens")

# Mostrar alguns chunks de exemplo
pprint(f"\nüìñ Exemplos de Chunks:")
for i in [0, len(chunks)//2, len(chunks)-1]:  # Primeiro, meio e √∫ltimo
    pprint(f"\n--- Chunk {i+1} ({len(tokenizer.encode(chunks[i]))} tokens) ---")
    pprint(chunks[i][:200] + "..." if len(chunks[i]) > 200 else chunks[i])

'üî§ Inicializando tokenizer...'


tokenizer_config.json:   0%|          | 0.00/314 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

'‚úÇÔ∏è Dividindo texto em chunks de 400 tokens...'


Token indices sequence length is longer than the specified maximum sequence length for this model (908714 > 512). Running this sequence through the model will result in indexing errors


'üìè Total de tokens no documento: 908,714'
'üîÑ Tokens de sobreposi√ß√£o: 80'
'üë£ Passo entre chunks: 320'
'‚úÖ Documento dividido em 2840 chunks'
'\nüìä Estat√≠sticas dos Chunks:'
'üì¶ N√∫mero total de chunks: 2840'
'üìè Tamanho m√©dio dos primeiros 10 chunks: 402.7 tokens'
'\nüìñ Exemplos de Chunks:'
'\n--- Chunk 1 (401 tokens) ---'
('esp32 - s3 technical reference manual version 1. 7 www. espressif. com about '
 'this document theesp32 - '
 's3technicalreferencemanualistargetedatdevelopersworkingonlowlevelsoftwareprojects '
 'thatusetheesp32 ...')
'\n--- Chunk 1421 (404 tokens) ---'
('##world ( world1 ), thusprotectingresourcefromunauthorizedaccess ( '
 'readorwrite ), andfrom maliciousattackssuchasmalware, hardware - '
 'basedmonitoring, hardware - levelintervention, andsoon. cpus canswit...')
'\n--- Chunk 2840 (238 tokens) ---'
('##rovidedtothisdocumentforitsmerchantability, non - infringement, '
 'fitnessforanyparticular purpose, '
 'nordoesanywarrantyotherwisearisingout

## üßÆ Etapa 3: Vetoriza√ß√£o (Embeddings)

**O que s√£o embeddings?**

Embeddings s√£o representa√ß√µes num√©ricas (vetores) que capturam o **significado sem√¢ntico** do texto. Textos com significados similares t√™m embeddings similares.

**Exemplo conceitual:**
```
"gato" ‚Üí [0.2, -0.1, 0.8, 0.3, ...] (768 dimens√µes)
"felino" ‚Üí [0.3, -0.2, 0.7, 0.4, ...] (muito similar ao "gato")
"carro" ‚Üí [-0.5, 0.9, -0.2, 0.1, ...] (bem diferente)
```

**Por que usar o modelo E5?**
- Treinado especificamente para tarefas de busca
- Suporta prefixos "query:" e "passage:" para otimizar a busca
- Boa performance em portugu√™s

In [20]:
# üßÆ Inicializando o modelo de embeddings
pprint("üöÄ Carregando modelo de embeddings E5-large-v2...")
pprint("‚è≥ Isso pode levar alguns minutos na primeira execu√ß√£o...")

# Carregar o modelo de embeddings
embedding_model = SentenceTransformer(EMBEDDING_MODEL)

# Verificar se GPU est√° dispon√≠vel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
pprint(f"üñ•Ô∏è Modelo carregado no dispositivo: {device}")

# Mover modelo para GPU se dispon√≠vel
if device == 'cuda':
    embedding_model = embedding_model.to(device)

pprint("‚úÖ Modelo de embeddings pronto!")

'üöÄ Carregando modelo de embeddings E5-large-v2...'
'‚è≥ Isso pode levar alguns minutos na primeira execu√ß√£o...'


modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/616 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

config.json:   0%|          | 0.00/201 [00:00<?, ?B/s]

'üñ•Ô∏è Modelo carregado no dispositivo: cuda'
'‚úÖ Modelo de embeddings pronto!'


In [21]:
# üéØ Vetorizando todos os chunks do documento
pprint(f"üßÆ Convertendo {len(chunks)} chunks em vetores num√©ricos...")
pprint("‚è≥ Este processo pode levar alguns minutos...")

# Adicionar o prefixo "passage:" para otimizar a busca com E5
passages_prefixed = [f"passage: {chunk}" for chunk in chunks]

# Criar embeddings para todos os chunks
start_time = time.time()
passage_embeddings = embedding_model.encode(
    passages_prefixed,
    convert_to_tensor=True,
    show_progress_bar=True,
    batch_size=32  # Processar em lotes para efici√™ncia
)

# Mover para o dispositivo apropriado
passage_embeddings = passage_embeddings.to(device)
end_time = time.time()

pprint(f"‚úÖ Vetoriza√ß√£o conclu√≠da em {end_time - start_time:.1f} segundos")
pprint(f"üìä Dimens√µes dos embeddings: {passage_embeddings.shape}")
pprint(f"üíæ Tamanho em mem√≥ria: ~{passage_embeddings.numel() * 4 / 1024 / 1024:.1f} MB")

# Exemplo: mostrar a similaridade entre alguns chunks
pprint(f"\nüîç Testando similaridade entre chunks:")
if len(chunks) >= 3:
    # Calcular similaridade entre os primeiros 3 chunks
    similarities = torch.mm(passage_embeddings[:3], passage_embeddings[:3].T)
    pprint("Matriz de similaridade (primeiros 3 chunks):")
    for i in range(3):
        for j in range(3):
            print(f"{similarities[i,j]:.3f}", end="  ")
        print()

'üßÆ Convertendo 2840 chunks em vetores num√©ricos...'
'‚è≥ Este processo pode levar alguns minutos...'


Batches:   0%|          | 0/89 [00:00<?, ?it/s]

'‚úÖ Vetoriza√ß√£o conclu√≠da em 216.4 segundos'
'üìä Dimens√µes dos embeddings: torch.Size([2840, 1024])'
'üíæ Tamanho em mem√≥ria: ~11.1 MB'
'\nüîç Testando similaridade entre chunks:'
'Matriz de similaridade (primeiros 3 chunks):'
1.000  0.886  0.838  
0.886  1.000  0.888  
0.838  0.888  1.000  


## üöÄ Etapa 4: Fun√ß√£o para Chamadas √† API do LLM

**Por que precisamos de um LLM externo?**

Vamos usar modelos de linguagem via API para duas tarefas importantes:
1. **Expans√£o de consulta**: Gerar varia√ß√µes da pergunta
2. **Gera√ß√£o da resposta final**: Criar uma resposta baseada no contexto recuperado

**OpenRouter**: √â um servi√ßo que nos d√° acesso a v√°rios modelos (GPT-4, Claude, etc.) atrav√©s de uma √∫nica API.

In [28]:
def call_llm_api(prompt: str, system_prompt: str, model: str, max_retries: int = 3) -> str:
    """
    Faz uma chamada para a API do OpenRouter para obter resposta de um LLM.

    Args:
        prompt: O prompt do usu√°rio
        system_prompt: Instru√ß√£o de sistema para guiar o modelo
        model: Nome do modelo no OpenRouter
        max_retries: N√∫mero m√°ximo de tentativas

    Returns:
        Resposta do modelo como string
    """

    for attempt in range(max_retries):
        try:
            response = requests.post(
                url="https://openrouter.ai/api/v1/chat/completions",
                headers={
                    "Authorization": f"Bearer {OPENROUTER_API_KEY}",
                    "Content-Type": "application/json"
                },
                json={
                    "model": model,
                    "messages": [
                        {"role": "system", "content": system_prompt},
                        {"role": "user", "content": prompt}
                    ],
                    "temperature": 0.7,
                    "max_tokens": 500
                }
            )

            response.raise_for_status()
            result = response.json()['choices'][0]['message']['content']
            return result.strip()

        except requests.exceptions.RequestException as e:
            pprint(f"‚ö†Ô∏è Tentativa {attempt + 1} falhou: {e}")
            if hasattr(e, 'response') and e.response is not None:
                pprint(f"   Status: {e.response.status_code}")
                pprint(f"   Resposta: {e.response.text[:200]}")

            if attempt == max_retries - 1:
                pprint(f"‚ùå Todas as {max_retries} tentativas falharam")
                return ""

            time.sleep(2 ** attempt)  # Backoff exponencial

    return ""

# Testar a conex√£o com a API (se as chaves estiverem configuradas)
if OPENROUTER_API_KEY and OPENROUTER_API_KEY != "sua_openrouter_api_key_aqui":
    pprint("üß™ Testando conex√£o com API...")
    test_response = call_llm_api(
        "Diga apenas 'Conex√£o funcionando'",
        "Voc√™ √© um assistente √∫til.",
        "openai/gpt-3.5-turbo"
    )
    if test_response:
        pprint(f"‚úÖ API funcionando: {test_response}")
    else:
        pprint("‚ùå Problema na conex√£o com API")
else:
    pprint("‚ö†Ô∏è Chave da API n√£o configurada - fun√ß√µes de LLM n√£o funcionar√£o")
    pprint("üí° Configure OPENROUTER_API_KEY para usar recursos completos")

'üß™ Testando conex√£o com API...'
('‚ö†Ô∏è Tentativa 1 falhou: 401 Client Error: Unauthorized for url: '
 'https://openrouter.ai/api/v1/chat/completions')
'   Status: 401'
('   Resposta: {"error":{"message":"No cookie auth credentials '
 'found","code":401}}')
('‚ö†Ô∏è Tentativa 2 falhou: 401 Client Error: Unauthorized for url: '
 'https://openrouter.ai/api/v1/chat/completions')
'   Status: 401'
('   Resposta: {"error":{"message":"No cookie auth credentials '
 'found","code":401}}')
('‚ö†Ô∏è Tentativa 3 falhou: 401 Client Error: Unauthorized for url: '
 'https://openrouter.ai/api/v1/chat/completions')
'   Status: 401'
('   Resposta: {"error":{"message":"No cookie auth credentials '
 'found","code":401}}')
'‚ùå Todas as 3 tentativas falharam'
'‚ùå Problema na conex√£o com API'


## üîç Etapa 5a: Expans√£o de Consulta - Multi-Query

**Por que expandir a consulta?**

Uma √∫nica pergunta pode ser formulada de v√°rias maneiras. Ao criar varia√ß√µes, aumentamos a chance de encontrar informa√ß√µes relevantes.

**Exemplo:**
- Pergunta original: *"Qual a cor dos olhos de Capitu?"*
- Varia√ß√µes poss√≠veis:
  - *"Como eram os olhos de Capitu?"*
  - *"Descreva os olhos da personagem Capitu"*
  - *"Que caracter√≠sticas tinham os olhos de Capitu?"*

Cada varia√ß√£o pode ativar chunks diferentes e complementares.

In [26]:
def gerar_expansao_multi_query(query: str) -> List[str]:
    """
    Usa um LLM para gerar m√∫ltiplas par√°frases da consulta original.

    Args:
        query: A pergunta original do usu√°rio

    Returns:
        Lista de perguntas reformuladas
    """
    pprint("üîÑ Gerando varia√ß√µes da pergunta (Multi-Query)...")

    system_prompt = """
Voc√™ √© um assistente especializado em reformular perguntas.
Sua tarefa √© gerar 4 reformula√ß√µes diferentes de uma pergunta para melhorar a busca em documentos.
As reformula√ß√µes devem:
- Manter o mesmo significado da pergunta original
- Usar sin√¥nimos e estruturas diferentes
- Ser claras e diretas
- Cobrir diferentes formas de expressar a mesma ideia

Retorne apenas as 4 perguntas, uma por linha, sem numera√ß√£o ou marcadores.
"""

    response = call_llm_api(query, system_prompt, "openai/gpt-3.5-turbo")

    if response:
        # Extrair as perguntas da resposta
        queries = [q.strip() for q in response.split('\n') if q.strip()]
        queries = [q for q in queries if len(q) > 5]  # Filtrar respostas muito curtas

        pprint(f"‚úÖ {len(queries)} varia√ß√µes geradas:")
        for i, q in enumerate(queries, 1):
            pprint(f"   {i}. {q}")

        return queries

    pprint("‚ùå N√£o foi poss√≠vel gerar varia√ß√µes")
    return []

# Exemplo de uso - vamos testar com uma pergunta sobre Dom Casmurro
query_exemplo = "Quais s√£o os pinos de conex√£o I2C?"
pprint(f"üéØ Pergunta original: '{query_exemplo}'\n")

if OPENROUTER_API_KEY and OPENROUTER_API_KEY != "sua_openrouter_api_key_aqui":
    multi_queries_exemplo = gerar_expansao_multi_query(query_exemplo)
else:
    pprint("‚ö†Ô∏è Simulando varia√ß√µes (API n√£o configurada):")
    multi_queries_exemplo = [
        "Quais s√£o os GPIO para I2C?",
        "Como √© descrita a conex√£o I2C?",
        "Quais pinos tem identifica√ß√£o de I2C?",
        "A conex√£o I2C √© mencionada?"
    ]
    for i, q in enumerate(multi_queries_exemplo, 1):
        pprint(f"   {i}. {q}")

"üéØ Pergunta original: 'Quais s√£o os pinos de conex√£o I2C?'\n"
'üîÑ Gerando varia√ß√µes da pergunta (Multi-Query)...'
('‚ö†Ô∏è Tentativa 1 falhou: 401 Client Error: Unauthorized for url: '
 'https://openrouter.ai/api/v1/chat/completions')
'   Status: 401'
('   Resposta: {"error":{"message":"No cookie auth credentials '
 'found","code":401}}')
('‚ö†Ô∏è Tentativa 2 falhou: 401 Client Error: Unauthorized for url: '
 'https://openrouter.ai/api/v1/chat/completions')
'   Status: 401'
('   Resposta: {"error":{"message":"No cookie auth credentials '
 'found","code":401}}')
('‚ö†Ô∏è Tentativa 3 falhou: 401 Client Error: Unauthorized for url: '
 'https://openrouter.ai/api/v1/chat/completions')
'   Status: 401'
('   Resposta: {"error":{"message":"No cookie auth credentials '
 'found","code":401}}')
'‚ùå Todas as 3 tentativas falharam'
'‚ùå N√£o foi poss√≠vel gerar varia√ß√µes'


## üîç Etapa 5b: Expans√£o de Consulta - HyDE

**O que √© HyDE (Hypothetical Document Embeddings)?**

HyDE √© uma t√©cnica onde pedimos para um LLM **imaginar uma resposta** para nossa pergunta. Depois, usamos essa resposta hipot√©tica como uma consulta adicional.

**Por que isso funciona?**
- A resposta hipot√©tica geralmente tem vocabul√°rio e estrutura similar ao texto real que procuramos
- Isso melhora a similaridade vetorial na busca

**Exemplo:**
- Pergunta: *"Os olhos de Capitu eram claros ou escuros?"*
- Resposta hipot√©tica: *"Os olhos de Capitu eram descritos como escuros, de uma cor intensa que chamava a aten√ß√£o de Bentinho..."*

Esta resposta hipot√©tica pode ser mais similar aos trechos reais do livro do que a pergunta original.

In [None]:
def gerar_resposta_hipotetica(query: str) -> str:
    """
    Usa um LLM para gerar uma resposta hipot√©tica para a consulta (HyDE).

    Args:
        query: A pergunta do usu√°rio

    Returns:
        Uma resposta hipot√©tica que pode melhorar a busca
    """
    pprint("üí≠ Gerando resposta hipot√©tica (HyDE)...")

    system_prompt = """
Voc√™ √© um assistente especializado em Manuais t√©cnicos de microcontroladores.
Gere uma resposta hipot√©tica para a pergunta do usu√°rio, como se fosse uma informa√ß√£o de um manual t√©cnico.

A resposta deve:
- Ser plaus√≠vel e bem estruturada
- Ter entre 2-4 frases
- Usar vocabul√°rio t√≠pico de an√°lise liter√°ria
- N√£o afirmar certezas absolutas (use "parece", "sugere", "indica", etc.)

N√£o mencione que √© uma resposta hipot√©tica.
"""

    response = call_llm_api(query, system_prompt, "openai/gpt-3.5-turbo")

    if response:
        pprint(f"‚úÖ Resposta hipot√©tica gerada:")
        pprint(f"   üìù '{response}'")
        return response

    pprint("‚ùå N√£o foi poss√≠vel gerar resposta hipot√©tica")
    return ""

# Exemplo de uso com a mesma pergunta
pprint(f"üéØ Pergunta: '{query_exemplo}'\n")

if OPENROUTER_API_KEY and OPENROUTER_API_KEY != "sua_openrouter_api_key_aqui":
    hyde_exemplo = gerar_resposta_hipotetica(query_exemplo)
else:
    pprint("‚ö†Ô∏è Simulando resposta hipot√©tica (API n√£o configurada):")
    hyde_exemplo = "The ESP32-S3 integrates a complex structure, including a QACC Accumulator Register ..."
    pprint(f"   üìù '{hyde_exemplo}'")

"üéØ Pergunta: 'Os olhos de Capitu eram claros ou escuros?'\n"
'üí≠ Gerando resposta hipot√©tica (HyDE)...'
'‚úÖ Resposta hipot√©tica gerada:'
('   üìù \'A ambiguidade em torno da cor dos olhos de Capitu em "Dom Casmurro" '
 'de Machado de Assis √© um dos elementos mais discutidos da obra. A narrativa '
 'sugere tanto a luminosidade de olhos claros quanto a profundidade de olhos '
 'escuros, deixando espa√ßo para interpreta√ß√µes diversas por parte dos '
 "leitores.'")


## üéØ Etapa 6: Busca H√≠brida (Retrieval)

**Como funciona a busca h√≠brida?**

1. **Vetorizar consultas**: Convertemos todas as consultas (original + varia√ß√µes + HyDE) em embeddings
2. **Calcular similaridades**: Comparamos cada consulta com todos os chunks do documento
3. **Combina√ß√£o inteligente**: Para cada chunk, pegamos o **maior score** entre todas as consultas
4. **Ranking**: Selecionamos os chunks com maiores scores

**Por que "h√≠brida"?**
- Combinamos m√∫ltiplas estrat√©gias (multi-query + HyDE)
- Diferentes consultas podem ativar chunks complementares
- Aumentamos a robustez da busca

In [None]:
def busca_hibrida(query_original: str, multi_queries: List[str], hyde_doc: str,
                  passage_embeddings: torch.Tensor, embedding_model,
                  top_k: int = 80) -> Tuple[List[str], List[int], List[float]]:
    """
    Realiza busca h√≠brida usando consulta original, varia√ß√µes e documento hipot√©tico.

    Args:
        query_original: Pergunta original
        multi_queries: Lista de varia√ß√µes da pergunta
        hyde_doc: Documento hipot√©tico gerado
        passage_embeddings: Embeddings dos chunks do documento
        embedding_model: Modelo para gerar embeddings das consultas
        top_k: N√∫mero de chunks a retornar

    Returns:
        Tupla com (chunks_recuperados, indices, scores)
    """
    pprint(f"üîç Iniciando busca h√≠brida (top-{top_k})...")

    # Preparar todas as consultas
    all_queries = [query_original] + multi_queries
    if hyde_doc:
        all_queries.append(hyde_doc)

    pprint(f"üìã Usando {len(all_queries)} consultas para busca")

    # Adicionar prefixo "query:" para E5
    queries_prefixed = [f"query: {q}" for q in all_queries]

    # Vetorizar todas as consultas
    pprint(f"üßÆ Vetorizando {len(queries_prefixed)} consultas...")
    query_embeddings = embedding_model.encode(
        queries_prefixed,
        convert_to_tensor=True,
        show_progress_bar=True
    )
    query_embeddings = query_embeddings.to(passage_embeddings.device)

    # Calcular similaridade entre todas as consultas e todos os passages
    pprint(f"‚ö° Calculando similaridades...")
    similarities = torch.mm(query_embeddings, passage_embeddings.T)

    # Para cada passage, pegar o score m√°ximo entre todas as consultas
    max_scores, best_query_idx = torch.max(similarities, dim=0)

    # Pegar os top-k resultados
    top_scores, top_indices = torch.topk(max_scores, k=min(top_k, len(chunks)))

    # Converter para listas Python
    top_indices = top_indices.cpu().tolist()
    top_scores = top_scores.cpu().tolist()

    # Recuperar os chunks correspondentes
    retrieved_chunks = [chunks[i] for i in top_indices]

    pprint(f"‚úÖ {len(retrieved_chunks)} chunks recuperados")
    pprint(f"üìä Scores: {top_scores[0]:.3f} (melhor) ‚Üí {top_scores[-1]:.3f} (pior)")

    return retrieved_chunks, top_indices, top_scores

# Demonstra√ß√£o da busca h√≠brida
pprint(f"üéØ Realizando busca para: '{query_exemplo}'\n")

# Usar as consultas que j√° geramos (ou simuladas)
retrieved_chunks, retrieved_indices, retrieval_scores = busca_hibrida(
    query_exemplo,
    multi_queries_exemplo,
    hyde_exemplo,
    passage_embeddings,
    embedding_model,
    TOP_K_RETRIEVAL
)

# Mostrar alguns exemplos dos chunks recuperados
pprint(f"\nüìñ Exemplos dos chunks com melhor score:")
for i in range(min(3, len(retrieved_chunks))):
    chunk_idx = retrieved_indices[i]
    score = retrieval_scores[i]
    chunk_preview = retrieved_chunks[i][:300] + "..." if len(retrieved_chunks[i]) > 300 else retrieved_chunks[i]

    pprint(f"\n--- Chunk {chunk_idx} (Score: {score:.3f}) ---")
    pprint(chunk_preview)

"üéØ Realizando busca para: 'Os olhos de Capitu eram claros ou escuros?'\n"
'üîç Iniciando busca h√≠brida (top-80)...'
'üìã Usando 6 consultas para busca'
'üßÆ Vetorizando 6 consultas...'


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

'‚ö° Calculando similaridades...'
'‚úÖ 80 chunks recuperados'
'üìä Scores: 0.848 (melhor) ‚Üí 0.822 (pior)'
'\nüìñ Exemplos dos chunks com melhor score:'
'\n--- Chunk 107 (Score: 0.848) ---'
('##imo ; hoje mesmo ele ha de falar. - - voce jura? - - juro! deixe ver os '
 'olhos, capitu. tinha - me lembrado a definico que jose dias dera deles, " '
 'olhos de cigana obliqua e dissimulada. " eu nao sabia o que era obliqua, mas '
 'dissimulada sabia, e queria ver se podiam chamar assim. capitu deixou - se '
 '...')
'\n--- Chunk 112 (Score: 0.848) ---'
('ate que exclamei : - - pronto! - - estara bom? - - veja no espelho. em vez '
 'de ir ao espelho, que pensais que fez capitu? nao vos esquecais que estava '
 'sentada, de costas para mim. capitu derreou a cabeca, a tal ponto que me foi '
 'preciso acudir com as maos e ampara - la ; o espaldar da cadeira era baix...')
'\n--- Chunk 213 (Score: 0.846) ---'
('os olhos, aperta - los bem, esquecer tudo para dormir, mas nao dormia. esse '
 'mesmo t

## üéØ Etapa 7: Re-ranking com Cross-Encoder

**Por que fazer re-ranking?**

A busca vetorial (embeddings) √© **r√°pida** mas √†s vezes **imprecisa**. O Cross-Encoder √© mais **lento** mas muito mais **preciso** para avaliar relev√¢ncia.

**Estrat√©gia de 2 est√°gios:**
1. **Busca vetorial**: Encontra 80 candidatos rapidamente
2. **Re-ranking**: Reavalia os 80 candidatos com precis√£o e seleciona os 16 melhores

**Como funciona o Cross-Encoder?**
- Recebe a pergunta + chunk juntos como entrada
- Analisa a relev√¢ncia diretamente (n√£o atrav√©s de similaridade vetorial)
- Retorna um score de 0-1 indicando relev√¢ncia

In [None]:
# üéØ Inicializar o modelo Cross-Encoder para re-ranking
pprint("üöÄ Carregando modelo Cross-Encoder para re-ranking...")
pprint("‚è≥ Primeira execu√ß√£o pode demorar alguns minutos...")

cross_encoder = CrossEncoder(CROSS_ENCODER_MODEL)
pprint("‚úÖ Cross-Encoder carregado!")

'üöÄ Carregando modelo Cross-Encoder para re-ranking...'
'‚è≥ Primeira execu√ß√£o pode demorar alguns minutos...'


config.json:   0%|          | 0.00/794 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

'‚úÖ Cross-Encoder carregado!'


In [None]:
def fazer_reranking(query: str, chunks_recuperados: List[str], indices_recuperados: List[int],
                   cross_encoder, top_k_final: int = 16, threshold: float = 0.2) -> Tuple[List[int], List[float]]:
    """
    Re-rankeia os chunks recuperados usando Cross-Encoder.

    Args:
        query: Pergunta original
        chunks_recuperados: Lista de chunks da busca inicial
        indices_recuperados: √çndices originais dos chunks
        cross_encoder: Modelo Cross-Encoder
        top_k_final: N√∫mero final de chunks a manter
        threshold: Score m√≠nimo para considerar relevante

    Returns:
        Tupla com (indices_finais, scores_finais)
    """
    pprint(f"üéØ Re-rankeando {len(chunks_recuperados)} chunks com Cross-Encoder...")

    # Preparar pares [query, chunk] para o Cross-Encoder
    cross_encoder_input = [[query, chunk] for chunk in chunks_recuperados]

    # Calcular scores de relev√¢ncia
    pprint(f"‚ö° Calculando scores de relev√¢ncia...")
    cross_scores = cross_encoder.predict(cross_encoder_input, show_progress_bar=True)

    # Combinar scores com √≠ndices
    scored_results = list(zip(cross_scores, indices_recuperados))

    # Ordenar por score (decrescente)
    scored_results.sort(key=lambda x: x[0], reverse=True)

    # Aplicar threshold e pegar top-k
    filtered_results = [(score, idx) for score, idx in scored_results if score >= threshold]
    final_results = filtered_results[:top_k_final]

    if not final_results:
        pprint(f"‚ö†Ô∏è Nenhum chunk passou do threshold {threshold}")
        # Se nenhum passou do threshold, pegar os melhores mesmo assim
        final_results = scored_results[:min(3, len(scored_results))]
        pprint(f"üìã Usando {len(final_results)} melhores chunks mesmo abaixo do threshold")

    final_scores = [score for score, idx in final_results]
    final_indices = [idx for score, idx in final_results]

    pprint(f"‚úÖ {len(final_results)} chunks finais selecionados")
    pprint(f"üìä Scores finais: {final_scores[0]:.3f} (melhor) ‚Üí {final_scores[-1]:.3f} (pior)")

    return final_indices, final_scores

# Aplicar re-ranking aos chunks recuperados
pprint(f"üéØ Aplicando re-ranking aos chunks recuperados...\n")

final_indices, final_scores = fazer_reranking(
    query_exemplo,
    retrieved_chunks,
    retrieved_indices,
    cross_encoder,
    TOP_K_RERANK,
    CROSS_ENCODER_THRESHOLD
)

# Mostrar os chunks com melhor score ap√≥s re-ranking
pprint(f"\nüìñ Top chunks ap√≥s re-ranking:")
for i, (chunk_idx, score) in enumerate(zip(final_indices[:3], final_scores[:3])):
    chunk_text = chunks[chunk_idx]
    chunk_preview = chunk_text[:400] + "..." if len(chunk_text) > 400 else chunk_text

    pprint(f"\n--- Posi√ß√£o {i+1}: Chunk {chunk_idx} (Score: {score:.3f}) ---")
    pprint(chunk_preview)

    # Highlighting: tentar encontrar men√ß√µes relevantes
    keywords = ["olhos", "Capitu", "olhar", "vista", "cor"]
    found_keywords = [kw for kw in keywords if kw.lower() in chunk_text.lower()]
    if found_keywords:
        pprint(f"üîë Palavras-chave encontradas: {', '.join(found_keywords)}")

'üéØ Aplicando re-ranking aos chunks recuperados...\n'
'üéØ Re-rankeando 80 chunks com Cross-Encoder...'
'‚ö° Calculando scores de relev√¢ncia...'


Batches:   0%|          | 0/3 [00:00<?, ?it/s]

'‚úÖ 16 chunks finais selecionados'
'üìä Scores finais: 5.049 (melhor) ‚Üí 3.167 (pior)'
'\nüìñ Top chunks ap√≥s re-ranking:'
'\n--- Posi√ß√£o 1: Chunk 46 (Score: 5.049) ---'
('##iatura serafica. os olhos continuaram a dizer coisas infinitas, as '
 'palavras de boca e que nem tentavam sair, tornavam ao coraco caladas como '
 'vinham... capitulo xv outra voz repentina outra voz repentina, mas desta vez '
 'uma voz de homem : - - voces estao jogando o siso? era o pai de capitu, que '
 'estava a porta dos fundos, ao pe da mulher. soltamos as maos depressa, e '
 'ficamos atrapalhados. capitu fo...')
'üîë Palavras-chave encontradas: olhos, Capitu, cor'
'\n--- Posi√ß√£o 2: Chunk 112 (Score: 4.759) ---'
('ate que exclamei : - - pronto! - - estara bom? - - veja no espelho. em vez '
 'de ir ao espelho, que pensais que fez capitu? nao vos esquecais que estava '
 'sentada, de costas para mim. capitu derreou a cabeca, a tal ponto que me foi '
 'preciso acudir com as maos e ampara - la ; o espal

## üìù Etapa 8: Gera√ß√£o da Resposta Final

**√öltima etapa: sintetizar a resposta**

Agora que temos os chunks mais relevantes, vamos:
1. **Combinar** os chunks em um contexto estruturado
2. **Enviar** para um LLM junto com a pergunta original
3. **Gerar** uma resposta fundamentada apenas no contexto fornecido

**Prompting estrat√©gico:**
- Instru√≠mos o modelo a citar as fontes
- Pedimos para usar apenas informa√ß√µes do contexto
- Solicitamos resposta concisa e direta

In [None]:
def gerar_resposta_final(query: str, chunk_indices: List[int], chunk_scores: List[float],
                        chunks: List[str], call_llm_api, model: str) -> str:
    """
    Gera a resposta final usando os chunks mais relevantes como contexto.

    Args:
        query: Pergunta original
        chunk_indices: √çndices dos chunks selecionados
        chunk_scores: Scores de relev√¢ncia dos chunks
        chunks: Lista completa de chunks
        call_llm_api: Fun√ß√£o para chamar API do LLM
        model: Modelo a usar para gera√ß√£o

    Returns:
        Resposta final gerada
    """
    pprint(f"üìù Gerando resposta final usando {len(chunk_indices)} chunks como contexto...")

    # Construir o contexto com os chunks selecionados
    context_parts = []
    for i, (chunk_idx, score) in enumerate(zip(chunk_indices, chunk_scores)):
        context_parts.append(f"Fonte {i+1} (Chunk {chunk_idx}, Relev√¢ncia: {score:.2f}):")
        context_parts.append(f'"""\n{chunks[chunk_idx]}\n"""')
        context_parts.append("")  # Linha em branco

    context = "\n".join(context_parts)

    # System prompt para guiar a gera√ß√£o
    system_prompt = """
Voc√™ √© um assistente especializado em an√°lise liter√°ria.

Sua tarefa √© responder √† pergunta do usu√°rio baseando-se EXCLUSIVAMENTE nos trechos
de texto fornecidos como contexto.

Instru√ß√µes importantes:
1. Use APENAS as informa√ß√µes presentes no contexto fornecido
2. Se a informa√ß√£o estiver expl√≠cita, cite a fonte: [Fonte X]
3. Se precisar sintetizar informa√ß√µes de m√∫ltiplas fontes, cite todas: [Fontes X, Y]
4. Se n√£o encontrar informa√ß√£o suficiente, diga que n√£o foi poss√≠vel responder com base no contexto
5. Seja conciso e direto
6. N√£o adicione conhecimento externo ao documento

Responda de forma clara e bem fundamentada.
"""

    # Prompt final
    final_prompt = f"""
CONTEXTO:
{context}

PERGUNTA: {query}

RESPOSTA:
"""

    pprint(f"ü§ñ Enviando para LLM (contexto: {len(context)} caracteres)...")

    # Gerar resposta
    response = call_llm_api(final_prompt, system_prompt, model)

    if response:
        pprint(f"‚úÖ Resposta gerada com sucesso!")
        return response
    else:
        return "‚ùå N√£o foi poss√≠vel gerar uma resposta. Verifique a configura√ß√£o da API."

# Gerar a resposta final
pprint(f"üéØ Pergunta: '{query_exemplo}'\n")

if OPENROUTER_API_KEY and OPENROUTER_API_KEY != "sua_openrouter_api_key_aqui":
    resposta_final = gerar_resposta_final(
        query_exemplo,
        final_indices,
        final_scores,
        chunks,
        call_llm_api,
        LLM_GENERATION_MODEL
    )
else:
    pprint("‚ö†Ô∏è Simulando resposta (API n√£o configurada)...")
    resposta_final = "GPIO43 and GPIO44 are the pins available for I2C connections. [Fontes: matual t√©cnico]"

pprint("\n" + "="*60)
pprint("üéâ RESPOSTA FINAL DO SISTEMA RAG")
pprint("="*60)
pprint(f"‚ùì Pergunta: {query_exemplo}")
pprint(f"\nüí° Resposta: {resposta_final}")
pprint("="*60)

"üéØ Pergunta: 'Os olhos de Capitu eram claros ou escuros?'\n"
'üìù Gerando resposta final usando 16 chunks como contexto...'
'ü§ñ Enviando para LLM (contexto: 18000 caracteres)...'
'‚úÖ Resposta gerada com sucesso!'
'üéâ RESPOSTA FINAL DO SISTEMA RAG'
'‚ùì Pergunta: Os olhos de Capitu eram claros ou escuros?'
('\n'
 'üí° Resposta: N√£o foi poss√≠vel determinar se os olhos de Capitu eram claros ou '
 'escuros com base no contexto fornecido. As fontes mencionam caracter√≠sticas '
 'dos olhos de Capitu, como sendo "de ressaca" e "olhos de cigana obliqua e '
 'dissimulada" [Fontes 5, 8], mas n√£o especificam claramente a cor dos olhos.')


## üìñ An√°lise dos Chunks Utilizados

Vamos examinar em detalhes os trechos que foram utilizados para gerar a resposta. Isso nos ajuda a entender:
- **Quais partes** do documento foram consideradas mais relevantes
- **Por que** o sistema escolheu esses trechos espec√≠ficos
- **Como** a resposta foi constru√≠da a partir do contexto

In [None]:
# üìñ An√°lise detalhada dos chunks utilizados
pprint("üìö AN√ÅLISE DOS TRECHOS UTILIZADOS")
pprint("="*50)

for i, (chunk_idx, score) in enumerate(zip(final_indices, final_scores)):
    chunk_text = chunks[chunk_idx]

    pprint(f"\nüìÑ FONTE {i+1} - Chunk {chunk_idx}")
    pprint(f"üéØ Score de Relev√¢ncia: {score:.3f}")
    pprint(f"üìè Tamanho: {len(chunk_text)} caracteres")
    pprint("-" * 40)
    pprint(chunk_text)
    pprint("-" * 40)

    # An√°lise de palavras-chave
    keywords_analise = ["pins", "GPIO", "I2C", "connection", "identification", "ID", "description"]
    palavras_encontradas = []

    for keyword in keywords_analise:
        count = chunk_text.lower().count(keyword.lower())
        if count > 0:
            palavras_encontradas.append(f"{keyword} ({count}x)")

    if palavras_encontradas:
        pprint(f"üîç Palavras-chave encontradas: {', '.join(palavras_encontradas)}")

    pprint("\n" + "="*50)

pprint(f"\nüìä RESUMO DA AN√ÅLISE:")
pprint(f"üìã Total de chunks analisados no re-ranking: {len(retrieved_chunks)}")
pprint(f"üéØ Chunks finais selecionados: {len(final_indices)}")
pprint(f"üìà Score mais alto: {max(final_scores):.3f}")
pprint(f"üìâ Score mais baixo: {min(final_scores):.3f}")
pprint(f"‚öñÔ∏è Score m√©dio: {np.mean(final_scores):.3f}")


'üìö AN√ÅLISE DOS TRECHOS UTILIZADOS'
'\nüìÑ FONTE 1 - Chunk 46'
'üéØ Score de Relev√¢ncia: 5.049'
'üìè Tamanho: 1049 caracteres'
'----------------------------------------'
('##iatura serafica. os olhos continuaram a dizer coisas infinitas, as '
 'palavras de boca e que nem tentavam sair, tornavam ao coraco caladas como '
 'vinham... capitulo xv outra voz repentina outra voz repentina, mas desta vez '
 'uma voz de homem : - - voces estao jogando o siso? era o pai de capitu, que '
 'estava a porta dos fundos, ao pe da mulher. soltamos as maos depressa, e '
 'ficamos atrapalhados. capitu foi ao muro, e, com o prego, disfarcadamente, '
 'apagou os nossos nomes escritos. - - capitu! - - papai! - - nao me estragues '
 'o reboco do muro. capitu riscava sobre o riscado, para apagar bem o escrito. '
 'padua saiu ao quintal, a ver o que era, mas ja a filha tinha comecado outra '
 'coisa, um perfil, que disse ser o retrato dele, e tanto podia ser dele como '
 'da mae ; fe - lo rir, era o ess

## üîß Sistema RAG Completo - Fun√ß√£o Interativa

Agora vamos criar uma fun√ß√£o que integra todo o pipeline RAG, permitindo fazer perguntas interativas sobre o documento.

Esta fun√ß√£o executa todo o processo:
1. ‚úÇÔ∏è Expans√£o da consulta
2. üîç Busca h√≠brida
3. üéØ Re-ranking
4. üìù Gera√ß√£o da resposta

In [None]:
def sistema_rag_completo(pergunta: str, verbose: bool = True) -> dict:
    """
    Sistema RAG completo que processa uma pergunta e retorna uma resposta fundamentada.

    Args:
        pergunta: A pergunta do usu√°rio
        verbose: Se deve imprimir informa√ß√µes detalhadas do processo

    Returns:
        Dicion√°rio com a resposta e metadados do processo
    """
    if verbose:
        pprint(f"üöÄ Iniciando Sistema RAG para: '{pergunta}'")
        pprint("="*60)

    resultado = {
        "pergunta": pergunta,
        "resposta": "",
        "chunks_utilizados": [],
        "scores": [],
        "sucesso": False
    }

    try:
        # Etapa 1: Expans√£o da consulta
        if verbose:
            pprint("\nüîÑ Etapa 1: Expans√£o da consulta")

        if OPENROUTER_API_KEY and OPENROUTER_API_KEY != "sua_openrouter_api_key_aqui":
            multi_queries = gerar_expansao_multi_query(pergunta)
            hyde_doc = gerar_resposta_hipotetica(pergunta)
        else:
            if verbose:
                pprint("‚ö†Ô∏è API n√£o configurada - usando consulta original apenas")
            multi_queries = []
            hyde_doc = ""

        # Etapa 2: Busca h√≠brida
        if verbose:
            pprint("\nüîç Etapa 2: Busca h√≠brida")

        retrieved_chunks_local, retrieved_indices_local, retrieval_scores_local = busca_hibrida(
            pergunta, multi_queries, hyde_doc, passage_embeddings, embedding_model, TOP_K_RETRIEVAL
        )

        # Etapa 3: Re-ranking
        if verbose:
            pprint("\nüéØ Etapa 3: Re-ranking")

        final_indices_local, final_scores_local = fazer_reranking(
            pergunta, retrieved_chunks_local, retrieved_indices_local,
            cross_encoder, TOP_K_RERANK, CROSS_ENCODER_THRESHOLD
        )

        # Etapa 4: Gera√ß√£o da resposta
        if verbose:
            pprint("\nüìù Etapa 4: Gera√ß√£o da resposta")

        if not final_indices_local:
            resposta = "Desculpe, n√£o encontrei informa√ß√µes relevantes para responder √† sua pergunta no documento."
        else:
            if OPENROUTER_API_KEY and OPENROUTER_API_KEY != "sua_openrouter_api_key_aqui":
                resposta = gerar_resposta_final(
                    pergunta, final_indices_local, final_scores_local,
                    chunks, call_llm_api, LLM_GENERATION_MODEL
                )
            else:
                # Fallback quando API n√£o est√° configurada
                resposta = f"Encontrei {len(final_indices_local)} trechos relevantes, mas preciso da API configurada para gerar uma resposta elaborada. Configure OPENROUTER_API_KEY para funcionalidade completa."

        # Preencher resultado
        resultado["resposta"] = resposta
        resultado["chunks_utilizados"] = final_indices_local
        resultado["scores"] = final_scores_local
        resultado["sucesso"] = True

        if verbose:
            pprint("\n" + "="*60)
            pprint("‚úÖ PROCESSO CONCLU√çDO COM SUCESSO!")
            pprint("="*60)
            pprint(f"‚ùì Pergunta: {pergunta}")
            pprint(f"\nüí° Resposta: {resposta}")
            pprint("="*60)

    except Exception as e:
        if verbose:
            print(f"‚ùå Erro durante o processamento: {e}")
        resultado["resposta"] = f"Erro: {e}"

    return resultado

pprint("üéâ Sistema RAG completo definido!")
pprint("\nüí° Agora voc√™ pode fazer perguntas usando: sistema_rag_completo('sua pergunta aqui')")

'üéâ Sistema RAG completo definido!'
('\n'
 "üí° Agora voc√™ pode fazer perguntas usando: sistema_rag_completo('sua pergunta "
 "aqui')")


## üéÆ Teste Interativo - Fa√ßa suas Perguntas!

Agora voc√™ pode testar o sistema com diferentes perguntas sobre Dom Casmurro.

**Exemplos de perguntas que voc√™ pode fazer:**
- "Qual a profiss√£o de Bentinho?"
- "Como Capitu e Bentinho se conheceram?"
- "Quem √© Jos√© Dias?"
- "O que acontece no final da hist√≥ria?"
- "Qual √© o tema principal do livro?"

In [None]:
# üéÆ Teste do sistema com diferentes perguntas

perguntas_teste = [
    "W",
    "Como Bentinho e Capitu se conheceram?"
]

pprint("üß™ Testando o sistema RAG com perguntas de exemplo:\n")

for i, pergunta in enumerate(perguntas_teste, 1):
    pprint(f"\nüìù TESTE {i}/4")
    pprint("="*50)

    resultado = sistema_rag_completo(pergunta, verbose=False)

    pprint(f"‚ùì Pergunta: {pergunta}")
    pprint(f"üí° Resposta: {resultado['resposta']}")

    if resultado['chunks_utilizados']:
        pprint(f"üìä Chunks utilizados: {len(resultado['chunks_utilizados'])}")
        pprint(f"üéØ Melhor score: {max(resultado['scores']):.3f}")

    pprint("-" * 50)

pprint("\n‚úÖ Testes conclu√≠dos!")

'üß™ Testando o sistema RAG com perguntas de exemplo:\n'
'\nüìù TESTE 1/4'
'üîÑ Gerando varia√ß√µes da pergunta (Multi-Query)...'
'‚úÖ 4 varia√ß√µes geradas:'
'   1. Qual √© o papel de Jos√© Dias na obra liter√°ria?'
'   2. Qual personagem √© Jos√© Dias no livro?'
'   3. Quem representa Jos√© Dias na trama?'
'   4. Qual a import√¢ncia de Jos√© Dias na hist√≥ria?'
'üí≠ Gerando resposta hipot√©tica (HyDE)...'
'‚úÖ Resposta hipot√©tica gerada:'
('   üìù \'Jos√© Dias, personagem de "Dom Casmurro" de Machado de Assis, parece '
 'ser um confidente astuto e perspicaz, que desempenha um papel significativo '
 'na trama ao aconselhar Bentinho e influenciar suas decis√µes. Sua presen√ßa '
 'parece indicar a complexidade das rela√ß√µes interpessoais e o jogo de '
 "interesses presentes na narrativa machadiana.'")
'üîç Iniciando busca h√≠brida (top-80)...'
'üìã Usando 6 consultas para busca'
'üßÆ Vetorizando 6 consultas...'


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

'‚ö° Calculando similaridades...'
'‚úÖ 80 chunks recuperados'
'üìä Scores: 0.848 (melhor) ‚Üí 0.806 (pior)'
'üéØ Re-rankeando 80 chunks com Cross-Encoder...'
'‚ö° Calculando scores de relev√¢ncia...'


Batches:   0%|          | 0/3 [00:00<?, ?it/s]

'‚úÖ 16 chunks finais selecionados'
'üìä Scores finais: 4.053 (melhor) ‚Üí 1.479 (pior)'
'üìù Gerando resposta final usando 16 chunks como contexto...'
'ü§ñ Enviando para LLM (contexto: 18042 caracteres)...'
'‚úÖ Resposta gerada com sucesso!'
'‚ùì Pergunta: Quem √© Jos√© Dias no livro?'
('üí° Resposta: Jos√© Dias √© um personagem que aparece em v√°rias situa√ß√µes no '
 'livro. Ele √© descrito como algu√©m que est√° pr√≥ximo √† fam√≠lia do '
 'protagonista, exercendo influ√™ncia e demonstrando afei√ß√£o. Em v√°rias '
 'ocasi√µes, ele √© mencionado em contextos ligados √† fam√≠lia do narrador e suas '
 'decis√µes de vida. Por exemplo, Jos√© Dias √© quem comunica ao protagonista '
 'sobre a saudade que sua m√£e sente dele, pintando a tristeza dela com '
 'admira√ß√£o [Fonte 4]. Ele tamb√©m √© respons√°vel por discutir o futuro do '
 'narrador em rela√ß√£o √† sua forma√ß√£o religiosa, demonstrando ser uma pessoa '
 'pr√≥xima e de confian√ßa, a ponto de ser encarregado de assuntos impo

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

'‚ö° Calculando similaridades...'
'‚úÖ 80 chunks recuperados'
'üìä Scores: 0.852 (melhor) ‚Üí 0.828 (pior)'
'üéØ Re-rankeando 80 chunks com Cross-Encoder...'
'‚ö° Calculando scores de relev√¢ncia...'


Batches:   0%|          | 0/3 [00:00<?, ?it/s]

'‚úÖ 16 chunks finais selecionados'
'üìä Scores finais: 4.222 (melhor) ‚Üí 2.582 (pior)'
'üìù Gerando resposta final usando 16 chunks como contexto...'
'ü§ñ Enviando para LLM (contexto: 17924 caracteres)...'
'‚úÖ Resposta gerada com sucesso!'
'‚ùì Pergunta: Como Bentinho e Capitu se conheceram?'
'üí° Resposta: N√£o foi poss√≠vel responder com base no contexto fornecido.'
'üìä Chunks utilizados: 16'
'üéØ Melhor score: 4.222'
'--------------------------------------------------'
'\n‚úÖ Testes conclu√≠dos!'


In [None]:
# üéØ Espa√ßo para suas pr√≥prias perguntas!
# Modifique a pergunta abaixo e execute a c√©lula para testar

sua_pergunta = "A obra menciona alguma comida ou prato t√≠pico?"

pprint("üîç Processando sua pergunta...\n")
resultado_personalizado = sistema_rag_completo(sua_pergunta, verbose=True)

'üîç Processando sua pergunta...\n'
"üöÄ Iniciando Sistema RAG para: 'A obra menciona alguma comida ou prato t√≠pico?'"
'\nüîÑ Etapa 1: Expans√£o da consulta'
'üîÑ Gerando varia√ß√µes da pergunta (Multi-Query)...'
'‚úÖ 4 varia√ß√µes geradas:'
'   1. - Na obra √© citada alguma alimenta√ß√£o ou prato caracter√≠stico?'
'   2. - H√° men√ß√£o de alguma comida ou prato tradicional na obra?'
'   3. - Algum alimento ou prato t√≠pico √© mencionado no texto?'
'   4. - Existe alguma refer√™ncia a comida ou prato t√≠pico na obra?'
'üí≠ Gerando resposta hipot√©tica (HyDE)...'
'‚úÖ Resposta hipot√©tica gerada:'
("   üìù 'Em determinados trechos da obra, √© poss√≠vel identificar refer√™ncias "
 'sutis a comidas que remetem √† cultura brasileira. A presen√ßa de pratos '
 't√≠picos parece sugerir uma conex√£o simb√≥lica entre a alimenta√ß√£o e as '
 'quest√µes identit√°rias exploradas pelo autor, enriquecendo a narrativa com '
 "elementos da culin√°ria nacional.'")
'\nüîç Etapa 2: Busca h√≠brida

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

'‚ö° Calculando similaridades...'
'‚úÖ 80 chunks recuperados'
'üìä Scores: 0.829 (melhor) ‚Üí 0.809 (pior)'
'\nüéØ Etapa 3: Re-ranking'
'üéØ Re-rankeando 80 chunks com Cross-Encoder...'
'‚ö° Calculando scores de relev√¢ncia...'


Batches:   0%|          | 0/3 [00:00<?, ?it/s]

'‚ö†Ô∏è Nenhum chunk passou do threshold 0.2'
'üìã Usando 3 melhores chunks mesmo abaixo do threshold'
'‚úÖ 3 chunks finais selecionados'
'üìä Scores finais: -4.317 (melhor) ‚Üí -5.254 (pior)'
'\nüìù Etapa 4: Gera√ß√£o da resposta'
'üìù Gerando resposta final usando 3 chunks como contexto...'
'ü§ñ Enviando para LLM (contexto: 3412 caracteres)...'
'‚úÖ Resposta gerada com sucesso!'
'‚úÖ PROCESSO CONCLU√çDO COM SUCESSO!'
'‚ùì Pergunta: A obra menciona alguma comida ou prato t√≠pico?'
'\nüí° Resposta: N√£o foi poss√≠vel responder com base no contexto fornecido.'
