---

## üì¶ Passo 1: Importar Bibliotecas

Bibliotecas necess√°rias para RAG avan√ßado com todas as funcionalidades.

In [1]:
# Verifica instala√ß√£o dos pacotes principais
import sys

required_packages = {
    'langchain_community': 'langchain-community',
    'langchain_core': 'langchain-core',
    'langchain_ollama': 'langchain-ollama',
    'faiss': 'faiss-cpu ou faiss-gpu',
    'pypdf': 'pypdf',
    'pandas': 'pandas',
    'requests': 'requests',
}

print("=" * 80)
print("üîç VERIFICA√á√ÉO DE DEPEND√äNCIAS")
print("=" * 80)

all_installed = True

for module_name, package_name in required_packages.items():
    try:
        __import__(module_name)
        print(f"‚úÖ {package_name}")
    except ImportError:
        print(f"‚ùå {package_name} - N√ÉO INSTALADO!")
        all_installed = False

print("=" * 80)

if all_installed:
    print("\nüéâ Todas as depend√™ncias est√£o instaladas!")
else:
    print("\n‚ö†Ô∏è Alguns pacotes est√£o faltando. Execute:")
    print("   pip install langchain-community langchain-core langchain-ollama faiss-cpu pypdf pandas requests")
    
print("\n")

üîç VERIFICA√á√ÉO DE DEPEND√äNCIAS
‚úÖ langchain-community
‚úÖ langchain-core
‚úÖ langchain-ollama
‚úÖ faiss-cpu ou faiss-gpu
‚úÖ pypdf
‚úÖ pandas
‚úÖ requests

üéâ Todas as depend√™ncias est√£o instaladas!




---

## üìö Passo 2: Importar Bibliotecas

Agora vamos importar todas as bibliotecas necess√°rias para RAG avan√ßado.

**üí° Nota sobre LCEL:** Este notebook usa **LangChain Expression Language (LCEL)**, a abordagem moderna e recomendada do LangChain. LCEL √© mais est√°vel e n√£o depende de classes antigas como `ConversationalRetrievalChain` ou `ConversationBufferMemory` que est√£o sendo depreciadas.

In [2]:
import os
import hashlib
import json
import requests
import pandas as pd
from datetime import datetime
from pathlib import Path
from typing import List, Dict, Any, Optional

from IPython.display import Markdown, display

# LangChain Core
from langchain_community.vectorstores import FAISS
from langchain_ollama import OllamaEmbeddings, OllamaLLM
from langchain_core.prompts import PromptTemplate, ChatPromptTemplate, MessagesPlaceholder
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader
from langchain_core.documents import Document
from langchain_core.runnables import RunnablePassthrough, RunnableWithMessageHistory
from langchain_core.output_parsers import StrOutputParser
from langchain_core.messages import HumanMessage, AIMessage
from langchain_core.chat_history import BaseChatMessageHistory, InMemoryChatMessageHistory
from langchain_core.runnables.history import RunnableWithMessageHistory

print("‚úÖ Bibliotecas importadas com sucesso!")

‚úÖ Bibliotecas importadas com sucesso!


---

## ‚öôÔ∏è Passo 3: Configura√ß√µes do Sistema

Definimos todas as configura√ß√µes do sistema RAG avan√ßado.

### üìä Configura√ß√µes Baseadas na Ind√∫stria (2024-2025)

Seguindo a tabela de **Tamanhos Padr√£o da Ind√∫stria** vista anteriormente:
- **chunk_size=1800**: Baseline 2024-2025 (sweet spot)
- **chunk_overlap=300**: ~17% do chunk_size
- **k=4**: Chunks recuperados (padr√£o da ind√∫stria)

In [3]:
# Configura√ß√µes de ambiente
OLLAMA_BASE_URL = 'http://localhost:11434'
BASE_DIR = Path(__file__).parent if "__file__" in globals() else Path.cwd()
PDF_DIR = BASE_DIR.parent.parent / "data" / "pdfs"

# Modelos
EMBEDDING_MODEL = 'embeddinggemma'
LLM_MODEL = 'llama3.2:1b'

# Par√¢metros de Chunking (Baseline Ind√∫stria 2024-2025)
CHUNK_SIZE = 1800        # Sweet spot recomendado
CHUNK_OVERLAP = 300      # ~17% do chunk_size
SEPARATORS = ["\n\n", "\n", " ", ""]

# Par√¢metros de Retrieval
TOP_K_RETRIEVAL = 4      # Chunks iniciais recuperados
TOP_N_RERANK = 3         # Chunks finais ap√≥s reranking

print("=" * 80)
print("üéØ CONFIGURA√á√ÉO DO SISTEMA RAG AVAN√áADO")
print("=" * 80)
print(f"\nüìÅ Diret√≥rio de PDFs: {PDF_DIR}")
print(f"ü§ñ Ollama URL: {OLLAMA_BASE_URL}")
print(f"\nüîß PAR√ÇMETROS:")
print(f"   Chunk Size: {CHUNK_SIZE} chars (Baseline 2024-2025)")
print(f"   Chunk Overlap: {CHUNK_OVERLAP} chars ({CHUNK_OVERLAP/CHUNK_SIZE*100:.0f}%)")
print(f"   Top-K Retrieval: {TOP_K_RETRIEVAL}")
print(f"   Top-N Rerank: {TOP_N_RERANK}")
print(f"\nüß† MODELOS:")
print(f"   Embedding: {EMBEDDING_MODEL}")
print(f"   LLM: {LLM_MODEL}")
print("=" * 80 + "\n")

üéØ CONFIGURA√á√ÉO DO SISTEMA RAG AVAN√áADO

üìÅ Diret√≥rio de PDFs: e:\01-projetos\11-work\11.34-engenharia-vetorial\data\pdfs
ü§ñ Ollama URL: http://localhost:11434

üîß PAR√ÇMETROS:
   Chunk Size: 1800 chars (Baseline 2024-2025)
   Chunk Overlap: 300 chars (17%)
   Top-K Retrieval: 4
   Top-N Rerank: 3

üß† MODELOS:
   Embedding: embeddinggemma
   LLM: llama3.2:1b



---

## üîç Passo 3: Fun√ß√µes Utilit√°rias

### 3.1 Gera√ß√£o de IDs √önicos (Hash vs Manual)

**Por que usar hashing?**
- ‚úÖ **Determin√≠stico:** Mesmo chunk = mesmo hash
- ‚úÖ **Deduplica√ß√£o autom√°tica:** Detecta chunks duplicados
- ‚úÖ **Rastre√°vel:** ID baseado no conte√∫do, n√£o aleat√≥rio

**Compara√ß√£o:**

| M√©todo | Vantagens | Desvantagens | Uso Recomendado |
|--------|-----------|--------------|-----------------|
| **Hash SHA-256** | Deduplica√ß√£o autom√°tica, determin√≠stico | IDs longos (64 chars) | **Produ√ß√£o** (recomendado) |
| **UUID/Manual** | IDs curtos, controle total | Sem deduplica√ß√£o, pode duplicar | Prototipagem |
| **Incremental** | Simples, leg√≠vel | N√£o rastre√°vel, sem deduplica√ß√£o | Demos/testes |

**Decis√£o da Ind√∫stria (2024):** Hash SHA-256 √© o padr√£o para produ√ß√£o.

In [4]:
def generate_chunk_id(content: str, metadata: Dict[str, Any]) -> str:
    """
    Gera um ID √∫nico para o chunk usando SHA-256.
    
    O ID √© gerado a partir de:
    - Conte√∫do do chunk
    - Metadados relevantes (source, page)
    
    Isso garante:
    1. Mesmo chunk = mesmo ID (deduplica√ß√£o)
    2. IDs determin√≠sticos (reproduz√≠veis)
    3. Rastreabilidade (ID baseado em conte√∫do)
    
    Args:
        content: Texto do chunk
        metadata: Dicion√°rio de metadados
    
    Returns:
        Hash SHA-256 de 64 caracteres
    """
    # Combina conte√∫do + metadados relevantes
    source = metadata.get('source', '')
    page = metadata.get('page', '')
    
    # Cria string √∫nica
    unique_string = f"{content}|{source}|{page}"
    
    # Gera hash SHA-256
    hash_object = hashlib.sha256(unique_string.encode('utf-8'))
    chunk_id = hash_object.hexdigest()
    
    return chunk_id


def generate_content_hash(content: str) -> str:
    """
    Gera um hash baseado APENAS no conte√∫do (sem metadados).
    
    Use esta fun√ß√£o para deduplica√ß√£o cross-page/cross-document.
    Detecta chunks id√™nticos independente de fonte ou p√°gina.
    
    ‚ö†Ô∏è CUIDADO: Pode remover duplicatas leg√≠timas (ex: disclaimers repetidos)
    
    Args:
        content: Texto do chunk
    
    Returns:
        Hash SHA-256 de 64 caracteres
    """
    # Hash apenas do conte√∫do normalizado
    normalized_content = content.strip()  # Remove espa√ßos extras
    hash_object = hashlib.sha256(normalized_content.encode('utf-8'))
    content_hash = hash_object.hexdigest()
    
    return content_hash


def generate_manual_id(index: int, source: str) -> str:
    """
    Gera um ID manual/incremental (alternativa simples).
    
    ‚ö†Ô∏è N√£o recomendado para produ√ß√£o (sem deduplica√ß√£o).
    
    Args:
        index: √çndice do chunk
        source: Nome do arquivo fonte
    
    Returns:
        ID no formato 'source_chunk_XXX'
    """
    # Extrai nome do arquivo sem extens√£o
    source_name = Path(source).stem
    
    # Cria ID incremental
    manual_id = f"{source_name}_chunk_{index:04d}"
    
    return manual_id



In [5]:

# Exemplo de uso
exemplo_content = "Este √© um chunk de exemplo sobre RAG."
exemplo_metadata = {"source": "manual.pdf", "page": 1}

hash_id = generate_chunk_id(exemplo_content, exemplo_metadata)
content_hash = generate_content_hash(exemplo_content)
manual_id = generate_manual_id(0, "manual.pdf")

print("üîç COMPARA√á√ÉO DE M√âTODOS DE ID\n")
print("=" * 80)
print(f"Conte√∫do: {exemplo_content}")
print(f"\n1Ô∏è‚É£ Hash SHA-256 (conte√∫do + metadados):  {hash_id}")
print(f"   Tamanho: {len(hash_id)} chars")
print(f"   Deduplica√ß√£o: ‚úÖ Dentro da mesma p√°gina/fonte")
print(f"   Detecta cross-page: ‚ùå N√£o (p√°ginas diferentes = hash diferente)")

print(f"\n2Ô∏è‚É£ Hash de Conte√∫do (apenas texto):  {content_hash}")
print(f"   Tamanho: {len(content_hash)} chars")
print(f"   Deduplica√ß√£o: ‚úÖ Cross-page e cross-document")
print(f"   Detecta cross-page: ‚úÖ Sim (ignora metadados)")

print(f"\n3Ô∏è‚É£ Manual:        {manual_id}")
print(f"   Tamanho: {len(manual_id)} chars")
print(f"   Determin√≠stico: ‚ùå N√£o (depende da ordem)")
print(f"   Deduplica√ß√£o: ‚ùå Sem prote√ß√£o")

print("\nüí° ESCOLHA:")
print("   ‚Ä¢ Hash completo (op√ß√£o 1): Permite duplicatas em p√°ginas diferentes")
print("   ‚Ä¢ Hash de conte√∫do (op√ß√£o 2): Remove TODAS as duplicatas de texto")
print("=" * 80 + "\n")

print("\nüí° RECOMENDA√á√ÉO: Use Hash SHA-256 em produ√ß√£o!")
print("=" * 80 + "\n")

üîç COMPARA√á√ÉO DE M√âTODOS DE ID

Conte√∫do: Este √© um chunk de exemplo sobre RAG.

1Ô∏è‚É£ Hash SHA-256 (conte√∫do + metadados):  830f5cdf91023dc1a39dbe373561c93bf49f61f2ed5e2286459f52e2e894eb13
   Tamanho: 64 chars
   Deduplica√ß√£o: ‚úÖ Dentro da mesma p√°gina/fonte
   Detecta cross-page: ‚ùå N√£o (p√°ginas diferentes = hash diferente)

2Ô∏è‚É£ Hash de Conte√∫do (apenas texto):  77f6a84dd3b6bbfb355cfccba8485f8dd90b38e5e960c5618e502a2a95bbe23d
   Tamanho: 64 chars
   Deduplica√ß√£o: ‚úÖ Cross-page e cross-document
   Detecta cross-page: ‚úÖ Sim (ignora metadados)

3Ô∏è‚É£ Manual:        manual_chunk_0000
   Tamanho: 17 chars
   Determin√≠stico: ‚ùå N√£o (depende da ordem)
   Deduplica√ß√£o: ‚ùå Sem prote√ß√£o

üí° ESCOLHA:
   ‚Ä¢ Hash completo (op√ß√£o 1): Permite duplicatas em p√°ginas diferentes
   ‚Ä¢ Hash de conte√∫do (op√ß√£o 2): Remove TODAS as duplicatas de texto


üí° RECOMENDA√á√ÉO: Use Hash SHA-256 em produ√ß√£o!



### 3.2 Extra√ß√£o de Metadados Avan√ßados

**Metadados essenciais para RAG de produ√ß√£o:**

1. **Identifica√ß√£o**
   - `source`: Nome do arquivo
   - `chunk_id`: ID √∫nico (hash)
   - `page`: N√∫mero da p√°gina (para PDFs)

2. **Temporal**
   - `year`: Ano do documento/publica√ß√£o
   - `ingestion_date`: Data de processamento

3. **Classifica√ß√£o**
   - `doc_type`: Tipo (manual, artigo, relat√≥rio, etc.)
   - `category`: Categoria tem√°tica
   - `language`: Idioma

4. **Contexto**
   - `chunk_index`: Posi√ß√£o no documento
   - `total_chunks`: Total de chunks do documento
   - `author`: Autor (se dispon√≠vel)

**Por que isso importa?**
- üéØ **Filtragem precisa:** "Busque apenas manuais t√©cnicos de 2024"
- üìä **Analytics:** Rastreie quais fontes s√£o mais citadas
- üîç **Debugging:** Identifique problemas por fonte/categoria

In [6]:
def extract_metadata_from_path(file_path: str) -> Dict[str, Any]:
    """
    Extrai metadados do caminho e nome do arquivo.
    
    Conven√ß√£o de nomenclatura (opcional):
    - nome_do_arquivo_YYYY.pdf  (ano no final)
    - tipo_categoria_nome.pdf
    
    Args:
        file_path: Caminho completo do arquivo
    
    Returns:
        Dicion√°rio com metadados extra√≠dos
    """
    path = Path(file_path)
    filename = path.stem  # Nome sem extens√£o
    
    # Tenta extrair ano do nome do arquivo (formato: *_YYYY.pdf)
    year = None
    parts = filename.split('_')
    for part in parts:
        if part.isdigit() and len(part) == 4 and part.startswith('20'):
            year = int(part)
            break
    
    # Tenta classificar tipo do documento baseado em palavras-chave
    doc_type = "documento"  # padr√£o
    filename_lower = filename.lower()
    
    if any(word in filename_lower for word in ['manual', 'guia', 'tutorial']):
        doc_type = "manual"
    elif any(word in filename_lower for word in ['relatorio', 'report']):
        doc_type = "relatorio"
    elif any(word in filename_lower for word in ['artigo', 'paper', 'article']):
        doc_type = "artigo"
    elif any(word in filename_lower for word in ['receita', 'recipe']):
        doc_type = "receita"
    
    # Detecta idioma (simplificado - poderia usar library como langdetect)
    language = "pt-BR"  # padr√£o
    
    return {
        "source": path.name,
        "source_path": str(path),
        "filename": filename,
        "doc_type": doc_type,
        "year": year,
        "language": language,
        "ingestion_date": datetime.now().isoformat(),
    }


def enrich_chunk_metadata(
    chunk: Document,
    chunk_index: int,
    total_chunks: int,
    custom_metadata: Optional[Dict[str, Any]] = None
) -> Document:
    """
    Enriquece um chunk com metadados adicionais.
    
    Args:
        chunk: Documento/chunk original
        chunk_index: √çndice do chunk (0-based)
        total_chunks: Total de chunks do documento
        custom_metadata: Metadados customizados adicionais
    
    Returns:
        Chunk enriquecido com metadados completos
    """
    # Copia metadados existentes
    enriched_metadata = dict(chunk.metadata)
    
    # Adiciona √≠ndice e contexto
    enriched_metadata['chunk_index'] = chunk_index
    enriched_metadata['total_chunks'] = total_chunks
    
    # Gera ID √∫nico usando hash
    chunk_id = generate_chunk_id(chunk.page_content, enriched_metadata)
    enriched_metadata['chunk_id'] = chunk_id
    
    # Adiciona metadados customizados (se fornecidos)
    if custom_metadata:
        enriched_metadata.update(custom_metadata)
    
    # Cria novo documento com metadados enriquecidos
    enriched_chunk = Document(
        page_content=chunk.page_content,
        metadata=enriched_metadata
    )
    
    return enriched_chunk


In [7]:
# Exemplo de uso
exemplo_path = "manual_tecnico_futebol_2024.pdf"
metadados_extraidos = extract_metadata_from_path(exemplo_path)

print("üìã EXEMPLO DE EXTRA√á√ÉO DE METADADOS\n")
print("=" * 80)
print(f"Arquivo: {exemplo_path}\n")
print("Metadados extra√≠dos:")
print(json.dumps(metadados_extraidos, indent=2, ensure_ascii=False))
print("=" * 80 + "\n")

üìã EXEMPLO DE EXTRA√á√ÉO DE METADADOS

Arquivo: manual_tecnico_futebol_2024.pdf

Metadados extra√≠dos:
{
  "source": "manual_tecnico_futebol_2024.pdf",
  "source_path": "manual_tecnico_futebol_2024.pdf",
  "filename": "manual_tecnico_futebol_2024",
  "doc_type": "manual",
  "year": 2024,
  "language": "pt-BR",
  "ingestion_date": "2025-12-18T10:55:51.013534"
}



---

## üì• Passo 4: Carregamento e Processamento de Documentos

Agora vamos carregar os PDFs e aplicar todas as t√©cnicas de metadados e deduplica√ß√£o.

### Processo:
1. ‚úÖ Listar todos os PDFs
2. ‚úÖ Extrair metadados do nome do arquivo
3. ‚úÖ Carregar documentos com PyPDFLoader
4. ‚úÖ Enriquecer cada documento com metadados

In [8]:
# Verifica se h√° PDFs na pasta
pdf_paths = list(PDF_DIR.glob("*.pdf"))

if not pdf_paths:
    print("‚ö†Ô∏è AVISO: Nenhum PDF encontrado!")
    print(f"   Pasta verificada: {PDF_DIR}")
    print("\nüí° DICA: Adicione alguns PDFs na pasta data/pdfs/")
else:
    print(f"üìö Encontrados {len(pdf_paths)} PDFs\n")
    print("=" * 80)
    
    # Carrega e enriquece documentos
    all_documents = []
    
    for pdf_path in pdf_paths:
        # 1. Extrai metadados do arquivo
        file_metadata = extract_metadata_from_path(str(pdf_path))
        
        # 2. Carrega o PDF
        loader = PyPDFLoader(str(pdf_path))
        docs = loader.load()
        
        # 3. Enriquece cada p√°gina com metadados
        for doc in docs:
            # Combina metadados do arquivo + metadados da p√°gina
            doc.metadata.update(file_metadata)
            all_documents.append(doc)
        
        print(f"‚úì {pdf_path.name}")
        print(f"  ‚îî‚îÄ‚îÄ {len(docs)} p√°ginas | Tipo: {file_metadata['doc_type']} | Ano: {file_metadata.get('year', 'N/A')}")
    
    print("=" * 80)
    print(f"\nüìä RESUMO:")
    print(f"   Total de p√°ginas carregadas: {len(all_documents)}")
    
    # Estat√≠sticas por tipo
    tipos = {}
    for doc in all_documents:
        doc_type = doc.metadata.get('doc_type', 'desconhecido')
        tipos[doc_type] = tipos.get(doc_type, 0) + 1
    
    print(f"\nüìà Distribui√ß√£o por tipo:")
    for tipo, count in tipos.items():
        print(f"   {tipo}: {count} p√°ginas")
    
    print("\n‚úÖ Documentos carregados com metadados enriquecidos!")

incorrect startxref pointer(1)
parsing for Object Streams
incorrect startxref pointer(1)
parsing for Object Streams
incorrect startxref pointer(1)
parsing for Object Streams


üìö Encontrados 7 PDFs

‚úì api_documentation_2023.pdf
  ‚îî‚îÄ‚îÄ 3 p√°ginas | Tipo: documento | Ano: 2023
‚úì livro_receitas_2025.pdf
  ‚îî‚îÄ‚îÄ 6 p√°ginas | Tipo: receita | Ano: 2025
‚úì manual_futebol_2023_copia.pdf
  ‚îî‚îÄ‚îÄ 4 p√°ginas | Tipo: manual | Ano: 2023
‚úì manual_futebol_2025.pdf
  ‚îî‚îÄ‚îÄ 4 p√°ginas | Tipo: manual | Ano: 2025
‚úì manual_futebol_2025_com_dup.pdf

incorrect startxref pointer(1)
parsing for Object Streams



  ‚îî‚îÄ‚îÄ 5 p√°ginas | Tipo: manual | Ano: 2025
‚úì manual_iphone_2025.pdf
  ‚îî‚îÄ‚îÄ 3 p√°ginas | Tipo: manual | Ano: 2025
‚úì relatorio_supercopa_2023.pdf
  ‚îî‚îÄ‚îÄ 3 p√°ginas | Tipo: relatorio | Ano: 2023

üìä RESUMO:
   Total de p√°ginas carregadas: 28

üìà Distribui√ß√£o por tipo:
   documento: 3 p√°ginas
   receita: 6 p√°ginas
   manual: 16 p√°ginas
   relatorio: 3 p√°ginas

‚úÖ Documentos carregados com metadados enriquecidos!


---

## ‚úÇÔ∏è Passo 5: Chunking com Deduplica√ß√£o

Agora vamos dividir os documentos em chunks e aplicar deduplica√ß√£o usando hash IDs.

### Processo de Deduplica√ß√£o Dupla:

```python
# Pseudoc√≥digo - Deduplica√ß√£o Cross-Page
seen_chunk_ids = set()      # Hash completo (conte√∫do + p√°gina)
seen_content_hashes = set() # Hash apenas de conte√∫do

for chunk in all_chunks:
    chunk_id = hash(chunk.content + metadata)  # Inclui p√°gina
    content_hash = hash(chunk.content)         # Apenas texto
    
    if chunk_id in seen_chunk_ids:
        # Duplicata EXATA (mesma p√°gina) - ignora
        pass
    elif content_hash in seen_content_hashes:
        # Duplicata CROSS-PAGE (p√°ginas diferentes) - ignora
        pass
    else:
        # Chunk √∫nico!
        seen_chunk_ids.add(chunk_id)
        seen_content_hashes.add(content_hash)
        unique_chunks.append(chunk)
```

**Por que duplicatas acontecem?**
- üìÑ Headers/footers repetidos em PDFs
- üîÑ Documentos processados m√∫ltiplas vezes
- üìë Se√ß√µes id√™nticas em documentos diferentes
- üîÅ **Texto copiado em p√°ginas diferentes do mesmo PDF** ‚Üê Agora detectado!

### ‚öôÔ∏è Estrat√©gias de Deduplica√ß√£o:

| Estrat√©gia | Detecta | N√£o Detecta | Uso |
|------------|---------|-------------|-----|
| **Hash completo** (conte√∫do + p√°gina) | Duplicatas na mesma p√°gina | Duplicatas cross-page | Preservar contexto de p√°gina |
| **Hash de conte√∫do** (apenas texto) | TODAS as duplicatas | - | M√°xima deduplica√ß√£o |
| **Dupla verifica√ß√£o** (ambos) | Mesma p√°gina + cross-page | - | ‚úÖ **Implementado aqui!** |

In [9]:
# Cria o text splitter com configura√ß√µes da ind√∫stria
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=CHUNK_SIZE,
    chunk_overlap=CHUNK_OVERLAP,
    length_function=len,
    separators=SEPARATORS,
)

print("=" * 80)
print("‚úÇÔ∏è CHUNKING COM DEDUPLICA√á√ÉO CROSS-PAGE")
print("=" * 80)
print(f"\nPar√¢metros: chunk_size={CHUNK_SIZE}, overlap={CHUNK_OVERLAP}")


‚úÇÔ∏è CHUNKING COM DEDUPLICA√á√ÉO CROSS-PAGE

Par√¢metros: chunk_size=1800, overlap=300


In [10]:
# Divide os documentos em chunks
raw_chunks = text_splitter.split_documents(documents=all_documents)

print(f"\nüìä Chunks brutos criados: {len(raw_chunks)}")


üìä Chunks brutos criados: 41


In [11]:
# Enriquece chunks com metadados e IDs √∫nicos
enriched_chunks = []        # Lista de chunks enriquecidos
processed_chunk_ids = set()      # Conjunto de hashs completo (conte√∫do + metadados)
processed_content_hashes = set() # Conjunto de hashs apenas de conte√∫do

duplicates_samepage = 0     # Duplicatas na mesma p√°gina (contador)
duplicates_crosspage = 0    # Duplicatas em p√°ginas diferentes (contador)

In [12]:

for i, chunk in enumerate(raw_chunks):
    # Enriquece com √≠ndice e total
    enriched_chunk = enrich_chunk_metadata(
        chunk=chunk,
        chunk_index=i,
        total_chunks=len(raw_chunks),
    )
    
    # Hash completo (conte√∫do + metadados)
    chunk_id = enriched_chunk.metadata['chunk_id']
    
    # Hash apenas de conte√∫do (para detectar cross-page)
    content_hash = generate_content_hash(chunk.page_content)
    
    # Adiciona o content_hash aos metadados
    enriched_chunk.metadata['content_hash'] = content_hash
    
    # Verifica duplica√ß√£o
    if chunk_id in processed_chunk_ids:
        # Duplicata exata (mesma p√°gina)
        duplicates_samepage += 1
        continue
    elif content_hash in processed_content_hashes:
        # Duplicata cross-page (mesmo conte√∫do, p√°gina diferente)
        duplicates_crosspage += 1
        continue
    else:
        # Chunk √∫nico
        processed_chunk_ids.add(chunk_id)
        processed_content_hashes.add(content_hash)
        enriched_chunks.append(enriched_chunk)

total_duplicates = duplicates_samepage + duplicates_crosspage


In [13]:

print(f"\nüìâ DEDUPLICA√á√ÉO:")
print(f"   ‚ùå Duplicatas mesma p√°gina: {duplicates_samepage}")
print(f"   üîÅ Duplicatas cross-page: {duplicates_crosspage}")
print(f"   üìä Total de duplicatas: {total_duplicates}")
print(f"   ‚úÖ Chunks √∫nicos: {len(enriched_chunks)}")
print(f"   üìà Taxa de deduplica√ß√£o: {total_duplicates/len(raw_chunks)*100:.1f}%")

# Visualiza√ß√£o com pandas - Resumo de Deduplica√ß√£o
print("\nüìä RESUMO DE DEDUPLICA√á√ÉO:\n")
df_dedup = pd.DataFrame([
    {'Categoria': 'Chunks Brutos', 'Quantidade': len(raw_chunks), 'Percentual': '100%'},
    {'Categoria': 'Duplicatas Mesma P√°gina', 'Quantidade': duplicates_samepage, 'Percentual': f'{duplicates_samepage/len(raw_chunks)*100:.1f}%'},
    {'Categoria': 'Duplicatas Cross-Page', 'Quantidade': duplicates_crosspage, 'Percentual': f'{duplicates_crosspage/len(raw_chunks)*100:.1f}%'},
    {'Categoria': 'Total Removido', 'Quantidade': total_duplicates, 'Percentual': f'{total_duplicates/len(raw_chunks)*100:.1f}%'},
    {'Categoria': 'Chunks √önicos (Final)', 'Quantidade': len(enriched_chunks), 'Percentual': f'{len(enriched_chunks)/len(raw_chunks)*100:.1f}%'},
])
display(df_dedup)



üìâ DEDUPLICA√á√ÉO:
   ‚ùå Duplicatas mesma p√°gina: 0
   üîÅ Duplicatas cross-page: 8
   üìä Total de duplicatas: 8
   ‚úÖ Chunks √∫nicos: 33
   üìà Taxa de deduplica√ß√£o: 19.5%

üìä RESUMO DE DEDUPLICA√á√ÉO:



Unnamed: 0,Categoria,Quantidade,Percentual
0,Chunks Brutos,41,100%
1,Duplicatas Mesma P√°gina,0,0.0%
2,Duplicatas Cross-Page,8,19.5%
3,Total Removido,8,19.5%
4,Chunks √önicos (Final),33,80.5%


In [14]:

# Estat√≠sticas de tamanho dos chunks
chunk_sizes = [len(c.page_content) for c in enriched_chunks]

In [15]:

print(f"\nüìè Tamanho dos chunks:")
print(f"   M√©dio: {sum(chunk_sizes)/len(chunk_sizes):.0f} chars")
print(f"   M√≠nimo: {min(chunk_sizes)} chars")
print(f"   M√°ximo: {max(chunk_sizes)} chars")

# Estat√≠sticas detalhadas com pandas
print("\nüìä ESTAT√çSTICAS DE TAMANHO (CHARS):\n")
df_stats = pd.DataFrame([
    {'M√©trica': 'M√©dia', 'Valor': f'{sum(chunk_sizes)/len(chunk_sizes):.0f}'},
    {'M√©trica': 'Mediana', 'Valor': f'{sorted(chunk_sizes)[len(chunk_sizes)//2]:.0f}'},
    {'M√©trica': 'M√≠nimo', 'Valor': f'{min(chunk_sizes)}'},
    {'M√©trica': 'M√°ximo', 'Valor': f'{max(chunk_sizes)}'},
    {'M√©trica': 'Desvio Padr√£o', 'Valor': f'{pd.Series(chunk_sizes).std():.0f}'},
])
display(df_stats)



üìè Tamanho dos chunks:
   M√©dio: 1192 chars
   M√≠nimo: 262 chars
   M√°ximo: 1796 chars

üìä ESTAT√çSTICAS DE TAMANHO (CHARS):



Unnamed: 0,M√©trica,Valor
0,M√©dia,1192
1,Mediana,1249
2,M√≠nimo,262
3,M√°ximo,1796
4,Desvio Padr√£o,546


In [16]:

if duplicates_crosspage > 0:
    print(f"\nüí° DETECTADO: {duplicates_crosspage} chunk(s) duplicado(s) em p√°ginas diferentes!")
    print("   Esses chunks foram removidos para evitar redund√¢ncia.")
    print(f"\nüìã EXPLICA√á√ÉO:")
    print("   Quando voc√™ copia/cola texto em p√°ginas diferentes do mesmo PDF,")
    print("   o sistema detecta que o conte√∫do √© id√™ntico (ignorando metadados)")
    print("   e remove automaticamente a duplicata, mantendo apenas a primeira ocorr√™ncia.")


print("\n‚úÖ Chunking com deduplica√ß√£o cross-page conclu√≠do!")
print("=" * 80 + "\n")


üí° DETECTADO: 8 chunk(s) duplicado(s) em p√°ginas diferentes!
   Esses chunks foram removidos para evitar redund√¢ncia.

üìã EXPLICA√á√ÉO:
   Quando voc√™ copia/cola texto em p√°ginas diferentes do mesmo PDF,
   o sistema detecta que o conte√∫do √© id√™ntico (ignorando metadados)
   e remove automaticamente a duplicata, mantendo apenas a primeira ocorr√™ncia.

‚úÖ Chunking com deduplica√ß√£o cross-page conclu√≠do!



### üîç Inspe√ß√£o de Metadados

Vamos inspecionar os metadados de alguns chunks para verificar se tudo est√° correto.

In [17]:
# Exibe metadados dos primeiros 3 chunks
print("üîç INSPE√á√ÉO DE METADADOS DOS CHUNKS\n")
print("=" * 80 + "\n")

# Visualiza√ß√£o com pandas
num_chunks_inspecao = min(5, len(enriched_chunks))
df_metadados = pd.DataFrame([
    {
        'Chunk': f"#{i+1}",
        'Fonte': chunk.metadata.get('source', 'N/A'),
        'P√°g': chunk.metadata.get('page', 'N/A'),
        'Tipo': chunk.metadata.get('doc_type', 'N/A'),
        'Ano': chunk.metadata.get('year', 'N/A'),
        'Chunk ID': chunk.metadata.get('chunk_id', 'N/A')[:12] + '...',
        'Content Hash': chunk.metadata.get('content_hash', 'N/A')[:12] + '...',
        'Tamanho': len(chunk.page_content),
        'Preview': chunk.page_content[:60].replace('\n', ' ').strip() + '...'
    }
    for i, chunk in enumerate(enriched_chunks[:num_chunks_inspecao])
])

display(df_metadados)

print("\nüí° OBSERVE:")
print("   ‚Ä¢ Chunk ID: inclui p√°gina (detecta duplicatas na mesma p√°gina)")
print("   ‚Ä¢ Content Hash: apenas conte√∫do (detecta duplicatas cross-page)")
print("\n" + "=" * 80 + "\n")

üîç INSPE√á√ÉO DE METADADOS DOS CHUNKS




Unnamed: 0,Chunk,Fonte,P√°g,Tipo,Ano,Chunk ID,Content Hash,Tamanho,Preview
0,#1,api_documentation_2023.pdf,0,documento,2023,874557395f61...,047a586ab8ee...,1500,Documenta√ß√£o da API E-commerce Platform REST ...
1,#2,api_documentation_2023.pdf,1,documento,2023,09058b868b45...,c93a1ae08083...,262,GET /products/{product_id} Retorna detalhes de...
2,#3,api_documentation_2023.pdf,2,documento,2023,acc92ce21109...,d8d5bfd57dd4...,926,Endpoints de Pedidos POST /orders Cria um novo...
3,#4,livro_receitas_2025.pdf,0,receita,2025,7adf762f73e5...,8920565c209a...,1524,Livro de Receitas Pr√°ticas Sabores do Mundo e...
4,#5,livro_receitas_2025.pdf,1,receita,2025,f0b088c0b436...,0837e2d1d910...,1764,"8. Nos √∫ltimos 5 minutos, adicione o manjeric√£..."



üí° OBSERVE:
   ‚Ä¢ Chunk ID: inclui p√°gina (detecta duplicatas na mesma p√°gina)
   ‚Ä¢ Content Hash: apenas conte√∫do (detecta duplicatas cross-page)




---

## üßÆ Passo 6: Criar Embeddings e Vectorstore

Criamos os embeddings e armazenamos no banco vetorial FAISS.

In [18]:
# Configura√ß√£o dos embeddings
embeddings = OllamaEmbeddings(
    model=EMBEDDING_MODEL,
    base_url=OLLAMA_BASE_URL
)

print("=" * 80)
print("üßÆ CRIA√á√ÉO DE EMBEDDINGS E VECTORSTORE")
print("=" * 80)

print(f"\nü§ñ Modelo de embeddings: {EMBEDDING_MODEL}")
print(f"‚è≥ Criando √≠ndice FAISS (pode levar alguns minutos...)\n")

# Cria o vectorstore
vectorstore = FAISS.from_documents(
    documents=enriched_chunks,
    embedding=embeddings
)

print(f"\n‚úÖ Vectorstore criado!")
print(f"üìä Total de vetores indexados: {vectorstore.index.ntotal}")
print(f"üìê Dimens√µes dos embeddings: {vectorstore.index.d}")
print(f"üíæ Mem√≥ria aproximada: {vectorstore.index.ntotal * vectorstore.index.d * 4 / 1024 / 1024:.2f} MB")

print("=" * 80 + "\n")

üßÆ CRIA√á√ÉO DE EMBEDDINGS E VECTORSTORE

ü§ñ Modelo de embeddings: embeddinggemma
‚è≥ Criando √≠ndice FAISS (pode levar alguns minutos...)


‚úÖ Vectorstore criado!
üìä Total de vetores indexados: 33
üìê Dimens√µes dos embeddings: 768
üíæ Mem√≥ria aproximada: 0.10 MB



---

## üîé Passo 7: Busca Filtrada por Metadados

Uma das funcionalidades mais poderosas do RAG avan√ßado: **busca filtrada**.

### Como funciona?

```python
# Busca SEM filtro
results = vectorstore.similarity_search("query")  # Busca em TODOS os chunks

# Busca COM filtro
results = vectorstore.similarity_search(
    "query",
    filter={"year": 2024, "doc_type": "manual"}  # Apenas manuais de 2024
)
```

### Casos de Uso na Ind√∫stria:

1. **Temporal:** "Busque apenas documentos de 2024"
2. **Tipo:** "Busque apenas em manuais t√©cnicos"
3. **Categoria:** "Busque apenas em documentos de RH"
4. **Combinado:** "Busque em relat√≥rios financeiros de 2023"

**Impacto:** Reduz ru√≠do e melhora precis√£o em at√© 40%!

In [19]:
# Exemplo 1: Busca SEM filtro (baseline)
query_teste = "Quais s√£o as forma√ß√µes t√°ticas do futebol no jogo com o Real Metr√≥polis?"

print("=" * 80)
print("üîç COMPARA√á√ÉO: BUSCA COM E SEM FILTRO")
print("=" * 80)

print(f"\nüìù Query: {query_teste}\n")


üîç COMPARA√á√ÉO: BUSCA COM E SEM FILTRO

üìù Query: Quais s√£o as forma√ß√µes t√°ticas do futebol no jogo com o Real Metr√≥polis?



In [20]:

# Busca sem filtro
results_sem_filtro = vectorstore.similarity_search(query_teste, k=5)

print(f"1Ô∏è‚É£ BUSCA SEM FILTRO (baseline):\n")
print(f"   Resultados: {len(results_sem_filtro)}\n")

# Visualiza√ß√£o com pandas
df_sem_filtro = pd.DataFrame([
    {
        'Rank': i,
        'Fonte': doc.metadata.get('source', 'N/A'),
        'P√°gina': doc.metadata.get('page', 'N/A'),
        'Tipo': doc.metadata.get('doc_type', 'N/A'),
        'Ano': doc.metadata.get('year', 'N/A'),
        'Preview': doc.page_content[:70].replace('\n', ' ').strip() + '...'
    }
    for i, doc in enumerate(results_sem_filtro, 1)
])

display(df_sem_filtro)


1Ô∏è‚É£ BUSCA SEM FILTRO (baseline):

   Resultados: 5



Unnamed: 0,Rank,Fonte,P√°gina,Tipo,Ano,Preview
0,1,relatorio_supercopa_2023.pdf,0,relatorio,2023,RELAT√ìRIO T√âCNICO DE AN√ÅLISE: FINAL DA SUPERCO...
1,2,relatorio_supercopa_2023.pdf,1,relatorio,2023,centro do campo. O Real Metr√≥polis aproveitou ...
2,3,relatorio_supercopa_2023.pdf,1,relatorio,2023,"ÔÇ∑ Vulnerabilidade: Durante o jogo, o Real Metr..."
3,4,relatorio_supercopa_2023.pdf,0,relatorio,2023,central recuando para a linha de meio e os abe...
4,5,manual_futebol_2025_com_dup.pdf,2,manual,2025,Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o E...


In [21]:

# Exemplo 2: Busca COM filtro (apenas manuais)
print(f"\n2Ô∏è‚É£ BUSCA COM FILTRO (apenas doc_type='manual'):\n")

# Verifica se h√° manuais
tem_manuais = any(c.metadata.get('doc_type') == 'manual' for c in enriched_chunks)

if tem_manuais:
    results_com_filtro = vectorstore.similarity_search(
        query_teste,
        k=TOP_K_RETRIEVAL,
        filter={"doc_type": "manual"}
    )
    print(f"   Resultados: {len(results_com_filtro)}\n")
    
    # Visualiza√ß√£o com pandas
    df_com_filtro = pd.DataFrame([
        {
            'Rank': i,
            'Fonte': doc.metadata.get('source', 'N/A'),
            'P√°gina': doc.metadata.get('page', 'N/A'),
            'Tipo': doc.metadata.get('doc_type', 'N/A'),
            'Preview': doc.page_content[:70].replace('\n', ' ').strip() + '...'
        }
        for i, doc in enumerate(results_com_filtro, 1)
    ])
    
    display(df_com_filtro)
else:
    print("   ‚ö†Ô∏è Nenhum manual encontrado na base (filtro n√£o aplic√°vel)")



2Ô∏è‚É£ BUSCA COM FILTRO (apenas doc_type='manual'):

   Resultados: 4



Unnamed: 0,Rank,Fonte,P√°gina,Tipo,Preview
0,1,manual_futebol_2025_com_dup.pdf,2,manual,Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o E...
1,2,manual_futebol_2023_copia.pdf,2,manual,Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o Eq...
2,3,manual_futebol_2025_com_dup.pdf,3,manual,4-2-3-1 (Forma√ß√£o Moderna de Controle): Siste...
3,4,manual_futebol_2023_copia.pdf,3,manual,4-2-3-1 (Forma√ß√£o Moderna de Controle): Sistem...


In [22]:

# Exemplo 3: Busca por ano (se dispon√≠vel)
anos_disponiveis = set(c.metadata.get('year') for c in enriched_chunks if c.metadata.get('year'))

if anos_disponiveis:
    ano_exemplo = list(anos_disponiveis)[0]
    print(f"\n3Ô∏è‚É£ BUSCA COM FILTRO (apenas year={ano_exemplo}):")
    
    results_por_ano = vectorstore.similarity_search(
        query_teste,
        k=TOP_K_RETRIEVAL,
        filter={"year": ano_exemplo}
    )
    print(f"   Resultados: {len(results_por_ano)}")
    for i, doc in enumerate(results_por_ano, 1):
        print(f"   {i}. {doc.metadata.get('source', 'N/A')} (ano: {doc.metadata.get('year', 'N/A')})")

print("\nüí° INSIGHT: Filtros reduzem ru√≠do e melhoram precis√£o!")
print("=" * 80 + "\n")


3Ô∏è‚É£ BUSCA COM FILTRO (apenas year=2025):
   Resultados: 4
   1. manual_futebol_2025_com_dup.pdf (ano: 2025)
   2. manual_futebol_2025_com_dup.pdf (ano: 2025)
   3. manual_futebol_2025_com_dup.pdf (ano: 2025)
   4. manual_futebol_2025_com_dup.pdf (ano: 2025)

üí° INSIGHT: Filtros reduzem ru√≠do e melhoram precis√£o!



---

## üìä Passo 8: Reranking (Reordena√ß√£o de Resultados)

**O que √© Reranking?**

Reranking √© o processo de **reordenar** os chunks recuperados para colocar os mais relevantes no topo.

### Por que precisamos de Reranking?

A busca vetorial (cosine similarity) √© **r√°pida** mas **imperfeita**:
- Pode ranquear chunks gen√©ricos no topo
- N√£o captura nuances de relev√¢ncia contextual
- Ordem pode n√£o refletir import√¢ncia real

### Estrat√©gias de Reranking:

| Estrat√©gia | Descri√ß√£o | Uso |
|------------|-----------|-----|
| **Cross-Encoder** | Modelo que avalia query+chunk juntos | Produ√ß√£o (melhor qualidade) |
| **Boosting por Metadados** | Aumenta score de chunks com metadados relevantes | R√°pido, eficaz |
| **Diversifica√ß√£o** | Garante variedade de fontes | Multi-documento |
| **Rec√™ncia** | Prioriza documentos mais recentes | Not√≠cias, compliance |

**Implementa√ß√£o Simplificada:** Vamos usar **boosting por metadados** (r√°pido e eficaz) com rec√™ncia.

In [23]:
def rerank_with_metadata_boosting(
    query: str,
    chunks: List[Document],
    boost_rules: Optional[Dict[str, float]] = None
) -> List[tuple[Document, float]]:
    """
    Reordena chunks aplicando boosting baseado em metadados.
    
    Estrat√©gia:
    1. Cada chunk tem um score base (da similaridade vetorial)
    2. Aplicamos multiplicadores (boosts) baseados em metadados
    3. Reordenamos por score final
    
    Args:
        query: Query do usu√°rio
        chunks: Chunks recuperados pela busca vetorial
        boost_rules: Regras de boosting (ex: {"doc_type": {"manual": 1.5}})
    
    Returns:
        Lista de (chunk, score_final) ordenada por relev√¢ncia
    """
    if boost_rules is None:
        # Regras padr√£o de boosting
        boost_rules = {
            "doc_type": {
                "manual": 1.3,      # Manuais t√™m prioridade
                "artigo": 1.2,
                "relatorio": 1.1,
            },
            "recency_boost": True,  # Documentos mais recentes ganham boost
        }
    
    reranked = []
    current_year = datetime.now().year
    
    for i, chunk in enumerate(chunks):
        # Score base 
        base_score = 1.0 / (i + 1)
        
        # Aplica boosting por tipo de documento
        doc_type = chunk.metadata.get('doc_type', 'documento')
        type_boost = boost_rules.get('doc_type', {}).get(doc_type, 1.0)
        
        # Aplica boosting por rec√™ncia (documentos de 1-2 anos = boost)
        recency_boost = 1.0
        if boost_rules.get('recency_boost', False):
            year = chunk.metadata.get('year')
            if year:
                age = current_year - year
                if age <= 1:
                    recency_boost = 1.3  # Muito recente
                elif age <= 2:
                    recency_boost = 1.15  # Recente
                elif age <= 5:
                    recency_boost = 1.0  # Neutro
                else:
                    recency_boost = 0.9  # Antigo
        
        # Score final
        final_score = base_score * type_boost * recency_boost
        
        reranked.append((chunk, final_score, base_score, type_boost, recency_boost))
    
    # Ordena por score final (decrescente)
    reranked.sort(key=lambda x: x[1], reverse=True)
    
    return reranked



In [24]:

# Teste de reranking
print("=" * 80)
print("üìä RERANKING COM METADATA BOOSTING E REC√äNCIA")
print("=" * 80)

print(f"\nüìù Query: {query_teste}\n")

# Busca inicial
initial_results = vectorstore.similarity_search(query_teste, k=6)

# Se quiser ver os resultados antes do reranking em modo texto:
# print(f"\n2Ô∏è‚É£ ORDEM AP√ìS RERANKING:")
# for i, (doc, score) in enumerate(reranked_results, 1):
#     print(f"   {i}. {doc.metadata.get('source', 'N/A')} | Tipo: {doc.metadata.get('doc_type', 'N/A')} | Ano: {doc.metadata.get('year', 'N/A')} | Score: {score:.3f} | Conte√∫do: {doc.page_content[:50].replace(chr(10), ' ')}...")

# Cria DataFrame para visualiza√ß√£o dos resultados originais
print(f"1Ô∏è‚É£ ORDEM ORIGINAL (busca vetorial):\n")
df_original = pd.DataFrame([
    {
        'Posi√ß√£o': i,
        'Fonte': doc.metadata.get('source', 'N/A'),
        'P√°gina': doc.metadata.get('page', 'N/A'),
        'Tipo': doc.metadata.get('doc_type', 'N/A'),
        'Ano': doc.metadata.get('year', 'N/A'),
        'Score Base': f"{1.0/(i+1):.3f}",
        'Preview': doc.page_content[:60].replace('\n', ' ').strip() + '...'
    }
    for i, doc in enumerate(initial_results, 1)
])

display(df_original)


üìä RERANKING COM METADATA BOOSTING E REC√äNCIA

üìù Query: Quais s√£o as forma√ß√µes t√°ticas do futebol no jogo com o Real Metr√≥polis?

1Ô∏è‚É£ ORDEM ORIGINAL (busca vetorial):



Unnamed: 0,Posi√ß√£o,Fonte,P√°gina,Tipo,Ano,Score Base,Preview
0,1,relatorio_supercopa_2023.pdf,0,relatorio,2023,0.5,RELAT√ìRIO T√âCNICO DE AN√ÅLISE: FINAL DA SUPERCO...
1,2,relatorio_supercopa_2023.pdf,1,relatorio,2023,0.333,centro do campo. O Real Metr√≥polis aproveitou ...
2,3,relatorio_supercopa_2023.pdf,1,relatorio,2023,0.25,"ÔÇ∑ Vulnerabilidade: Durante o jogo, o Real Metr..."
3,4,relatorio_supercopa_2023.pdf,0,relatorio,2023,0.2,central recuando para a linha de meio e os abe...
4,5,manual_futebol_2025_com_dup.pdf,2,manual,2025,0.167,Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o E...
5,6,manual_futebol_2023_copia.pdf,2,manual,2023,0.143,Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o Eq...


In [25]:
# Aplica reranking
reranked_results = rerank_with_metadata_boosting(query_teste, initial_results)

# Cria DataFrame para visualiza√ß√£o dos resultados reranqueados
print(f"\n2Ô∏è‚É£ ORDEM AP√ìS RERANKING:\n")
df_reranked = pd.DataFrame([
    {
        'Posi√ß√£o': i,
        'Fonte': doc.metadata.get('source', 'N/A'),
        'P√°gina': doc.metadata.get('page', 'N/A'),
        'Tipo': doc.metadata.get('doc_type', 'N/A'),
        'Ano': doc.metadata.get('year', 'N/A'),
        'Base Score': f"{base_score:.3f}",
        'Type Boost': f"{type_boost:.3f}",
        'Recency Boost': f"{recency_boost:.3f}",
        'Score': f"{score:.3f}",
        'Preview': doc.page_content[:60].replace('\n', ' ').strip() + '...'
    }
    for i, (doc, score, base_score, type_boost, recency_boost) in enumerate(reranked_results, 1)
])

display(df_reranked)



2Ô∏è‚É£ ORDEM AP√ìS RERANKING:



Unnamed: 0,Posi√ß√£o,Fonte,P√°gina,Tipo,Ano,Base Score,Type Boost,Recency Boost,Score,Preview
0,1,relatorio_supercopa_2023.pdf,0,relatorio,2023,1.0,1.1,1.15,1.265,RELAT√ìRIO T√âCNICO DE AN√ÅLISE: FINAL DA SUPERCO...
1,2,relatorio_supercopa_2023.pdf,1,relatorio,2023,0.5,1.1,1.15,0.632,centro do campo. O Real Metr√≥polis aproveitou ...
2,3,relatorio_supercopa_2023.pdf,1,relatorio,2023,0.333,1.1,1.15,0.422,"ÔÇ∑ Vulnerabilidade: Durante o jogo, o Real Metr..."
3,4,manual_futebol_2025_com_dup.pdf,2,manual,2025,0.2,1.3,1.3,0.338,Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o E...
4,5,relatorio_supercopa_2023.pdf,0,relatorio,2023,0.25,1.1,1.15,0.316,central recuando para a linha de meio e os abe...
5,6,manual_futebol_2023_copia.pdf,2,manual,2023,0.167,1.3,1.15,0.249,Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o Eq...


In [31]:
print(f"\nüìà AN√ÅLISE DE RERANKING:")

# Analisa as mudan√ßas entre ordem original e reranqueada
mudancas_detalhes = []
for i in range(len(initial_results)):
    doc_orig = initial_results[i]
    doc_rerank, score_final, base_score, type_boost, recency_boost = reranked_results[i]
    
    # Encontra a posi√ß√£o original do documento reranqueado
    pos_original = None
    for j, doc in enumerate(initial_results):
        if doc.metadata.get("chunk_id") == doc_rerank.metadata.get("chunk_id"):
            pos_original = j
            break
    
    if pos_original != i:
        mudanca = "‚Üë Promovido" if pos_original > i else "‚Üì Rebaixado"
        mudancas_detalhes.append({
            'Pos. Original': pos_original + 1,
            'Pos. Reranked': i + 1,
            'Mudan√ßa': mudanca,
            'Fonte': doc_rerank.metadata.get('source', 'N/A'),
            'Tipo': doc_rerank.metadata.get('doc_type', 'N/A'),
            'Ano': doc_rerank.metadata.get('year', 'N/A'),
            'Score Final': f"{score_final:.3f}",
            'Type Boost': f"{type_boost:.2f}x",
            'Recency Boost': f"{recency_boost:.2f}x"
        })

# Exibe resultados
if mudancas_detalhes:
    print(f"\n   ‚úì {len(mudancas_detalhes)} posi√ß√µes foram alteradas pelo reranking\n")
    df_mudancas = pd.DataFrame(mudancas_detalhes)
    display(df_mudancas)
else:
    print(f"\n   ‚ÑπÔ∏è Nenhuma mudan√ßa de posi√ß√£o (ordem original mantida)")

# Seleciona top-N ap√≥s reranking
final_chunks = [doc for doc, *_ in reranked_results[:TOP_N_RERANK]]

print("üí° INSIGHT: Reranking priorizou documentos mais relevantes baseado em metadados!")
print("=" * 80 + "\n")


üìà AN√ÅLISE DE RERANKING:

   ‚úì 2 posi√ß√µes foram alteradas pelo reranking



Unnamed: 0,Pos. Original,Pos. Reranked,Mudan√ßa,Fonte,Tipo,Ano,Score Final,Type Boost,Recency Boost
0,5,4,‚Üë Promovido,manual_futebol_2025_com_dup.pdf,manual,2025,0.338,1.30x,1.30x
1,4,5,‚Üì Rebaixado,relatorio_supercopa_2023.pdf,relatorio,2023,0.316,1.10x,1.15x


üí° INSIGHT: Reranking priorizou documentos mais relevantes baseado em metadados!



---

## üí¨ Passo 9: Gera√ß√£o de Resposta com Contexto

Agora vamos gerar a resposta usando os chunks reranqueados.

### Melhorias no Prompt:
1. ‚úÖ Instru√ß√£o clara
2. ‚úÖ Contexto rico (chunks reranqueados)
3. ‚úÖ Cita√ß√£o de fontes
4. ‚úÖ Valida√ß√£o (diga "n√£o sei" se n√£o tiver certeza)

In [32]:
# Template de prompt otimizado
template_rag = """Voc√™ √© um assistente especializado em responder perguntas baseado em documentos fornecidos.

INSTRU√á√ïES:
1. Use APENAS o contexto abaixo para responder
2. Se a resposta n√£o estiver no contexto, diga: "N√£o encontrei essa informa√ß√£o nos documentos fornecidos."
3. SEMPRE cite as fontes (nome do arquivo e p√°gina)
4. Seja objetivo e preciso

CONTEXTO:
{context}

PERGUNTA: {question}

RESPOSTA (cite as fontes):"""

prompt_rag = PromptTemplate(
    template=template_rag,
    input_variables=['context', 'question']
)

# Formata o contexto
formatted_context = '\n\n---\n\n'.join([
    f"[Fonte: {chunk.metadata.get('source', 'N/A')}, P√°gina: {chunk.metadata.get('page', 'N/A')}]\n{chunk.page_content}"
    for chunk in final_chunks
])

# Cria o LLM
llm = OllamaLLM(model=LLM_MODEL, base_url=OLLAMA_BASE_URL)

# Preenche o prompt
prompt_filled = prompt_rag.invoke({
    'context': formatted_context,
    'question': query_teste
})

# Gera resposta
print("=" * 80)
print("üí¨ GERA√á√ÉO DE RESPOSTA")
print("=" * 80)
print(f"\nüìù Pergunta: {query_teste}\n")

response = llm.invoke(prompt_filled)

display(Markdown(f"**ü§ñ Resposta:**\n\n{response}"))

print("\n" + "=" * 80 + "\n")

üí¨ GERA√á√ÉO DE RESPOSTA

üìù Pergunta: Quais s√£o as forma√ß√µes t√°ticas do futebol no jogo com o Real Metr√≥polis?



**ü§ñ Resposta:**

De acordo com os relat√≥rios, a equipe do Real Metr√≥polis adotou a forma√ß√£o 4-2-3-1. Essa disposi√ß√£o de defensores em c√≠rculo central e dois meias de conten√ß√£o para proteger a defesa foi uma das caracter√≠sticas mais destacadas da t√°tica utilizada pelo time no jogo contra o Uni√£o do Litoral.





---

## üß† Passo 10: Chatbot RAG com LangChain

A funcionalidade principal: **RAG (Retrieval-Augmented Generation)**.

### O que √© RAG?

RAG combina **busca** + **gera√ß√£o** para criar respostas baseadas em documentos:

```
üë§ Usu√°rio: "Quais s√£o as forma√ß√µes do futebol?"
üîç Sistema: Busca chunks relevantes nos documentos
ü§ñ LLM: Gera resposta usando os chunks como contexto
```

### LCEL (LangChain Expression Language):

Usamos a abordagem moderna do LangChain, que √©:
- ‚úÖ **Modular:** Componentes reutiliz√°veis
- ‚úÖ **Flex√≠vel:** F√°cil customiza√ß√£o
- ‚úÖ **Est√°vel:** N√£o depende de classes depreciadas

### Pipeline LCEL:

```python
chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | output_parser
)
```

**Fluxo:** Pergunta ‚Üí Retrieval ‚Üí Format ‚Üí Prompt ‚Üí LLM ‚Üí Parse

In [None]:
# Template de prompt RAG
template_conversacional = """Voc√™ √© um assistente especializado com acesso a documentos.

INSTRU√á√ïES:
1. Use o contexto fornecido para responder
2. Se a resposta n√£o estiver no contexto, diga que n√£o sabe
3. Sempre cite as fontes (arquivo e p√°gina)
4. Seja objetivo e preciso

CONTEXTO:
{context}

PERGUNTA: {question}

RESPOSTA (cite as fontes):"""

prompt_conversacional = ChatPromptTemplate.from_template(template_conversacional)

# Cria retriever
retriever = vectorstore.as_retriever(
    search_kwargs={"k": TOP_K_RETRIEVAL}
)

# Fun√ß√£o para formatar documentos
def format_docs(docs):
    return "\n\n---\n\n".join([
        f"[Fonte: {doc.metadata.get('source', 'N/A')}, P√°gina: {doc.metadata.get('page', 'N/A')}]\n{doc.page_content}"
        for doc in docs
    ])

# Cria a chain RAG usando LCEL
rag_chain = (
    {
        "context": retriever | format_docs, 
        "question": RunnablePassthrough()
    }
    | prompt_conversacional
    | llm
    | StrOutputParser()
)

print("=" * 80)
print("üß† CHATBOT RAG CONFIGURADO")
print("=" * 80)
print("\n‚úÖ Sistema configurado!")
print("üí° Usando abordagem LCEL moderna do LangChain\n")

üß† CHATBOT RAG CONFIGURADO

‚úÖ Sistema configurado!
üí° Usando abordagem LCEL moderna do LangChain



### Simula√ß√£o de Conversa RAG

Vamos testar o sistema com perguntas sobre os documentos.

In [34]:
# Simula√ß√£o de conversa
conversas = [
    "Quais s√£o as principais forma√ß√µes t√°ticas do futebol?",
    "Qual delas √© mais ofensiva?",
    "E a mais defensiva?",
]

print("=" * 80)
print("üí¨ SIMULA√á√ÉO DE CONVERSA")
print("=" * 80)

for i, pergunta in enumerate(conversas, 1):
    print(f"\n{'‚îÄ' * 80}")
    print(f"üë§ Turno {i}: {pergunta}")
    print(f"{'‚îÄ' * 80}")
    
    # Processa a pergunta
    resposta = rag_chain.invoke(pergunta)
    
    # Exibe resposta
    display(Markdown(f"**ü§ñ Resposta:**\n\n{resposta}"))
    
    # Busca documentos para mostrar fontes
    docs = retriever.invoke(pergunta)
    if docs:
        print("\nüìö Fontes utilizadas:")
        for doc in docs[:2]:  # Top 2 fontes
            print(f"   ‚Ä¢ {doc.metadata.get('source', 'N/A')} (p√°g. {doc.metadata.get('page', 'N/A')})")

print("\n" + "=" * 80)
print("\n‚úÖ Conversa√ß√£o conclu√≠da!")
print("=" * 80 + "\n")

üí¨ SIMULA√á√ÉO DE CONVERSA

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üë§ Turno 1: Quais s√£o as principais forma√ß√µes t√°ticas do futebol?
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ


**ü§ñ Resposta:**

As principais forma√ß√µes t√°ticas do futebol incluem:

- 4-4-2 (Forma√ß√£o Equilibrada Cl√°ssica)
- 4-3-3 (Forma√ß√£o Ofensiva com Wingers)
- 4-2-3-1 (Forma√ß√£o Moderna de Controle)
- Varia√ß√µes destas, como 4-2-3-1 falso 9 e 4-3-3 falso 9.

Essas forma√ß√µes s√£o frequentemente usadas por equipes para otimizar sua estrutura e controlar o jogo.


üìö Fontes utilizadas:
   ‚Ä¢ manual_futebol_2023_copia.pdf (p√°g. 2)
   ‚Ä¢ manual_futebol_2025_com_dup.pdf (p√°g. 2)

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üë§ Turno 2: Qual delas √© mais ofensiva?
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ


**ü§ñ Resposta:**

Considerando a an√°lise dos conceitos t√°ticos e forma√ß√µes apresentados, a variante 4-3-3 (Forma√ß√£o Ofensiva com Wingers) parece ser a mais ofensiva. Isso se deve ao fato de que ela √© caracterizada por:

* Uma dupla de extremos/pontas abertos, o que facilita as jogadas a√©reas e os cruzamentos;
* A presen√ßa de meias laterais velozes nas pontas, o que permite uma r√°pida mudan√ßa de dire√ß√£o e uma boa cobertura defensiva;
* O uso de um volante crucial como "piv√¥" entre defesa e ataque, o que ajuda a controlar o ritmo do jogo e a manter a posse de bola.

Al√©m disso, a variante 4-3-3 tamb√©m apresenta caracter√≠sticas como:

* Alta amplitude ofensiva (tr√™s atacantes abertos);
* Dom√≠nio de posse com tri√¢ngulos no meio-campo;
* Pontas cortam para dentro ou ficam abertas para receber.

Em compara√ß√£o, as outras variantes apresentadas t√™m caracter√≠sticas menos ofensivas:

* A variante 4-4-2 √© mais defensiva e tem uma cobertura defensiva mais boa, com uma linha de zagueiros com boa liberdade;
* A variante 4-3-3 falso 9 √© mais ofensiva, mas apresenta algumas caracter√≠sticas menos ofensivas do que a variante original.
* A variante 3-5-2 √© mais defensiva e tem uma cobertura defensiva mais boa, com tr√™s zagueiros e um meio-campo povoado.

Em resumo, a variante 4-3-3 (Forma√ß√£o Ofensiva com Wingers) parece ser a mais ofensiva devido ao seu uso de extremos/pontas abertos, meias laterais velozes nas pontas e o papel do volante como "piv√¥" entre defesa e ataque.


üìö Fontes utilizadas:
   ‚Ä¢ manual_futebol_2025_com_dup.pdf (p√°g. 4)
   ‚Ä¢ manual_futebol_2023_copia.pdf (p√°g. 2)

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
üë§ Turno 3: E a mais defensiva?
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ


**ü§ñ Resposta:**

Com base nas informa√ß√µes fornecidas, a estrutura do sistema com tr√™s zagueiros e dom√≠nio do meio-campo √© considerada mais defensiva. Isso se deve ao fato de que:

* O uso de tr√™s zagueiros centrais (3-5-2) aumenta a superioridade num√©rica no meio-campo, o que pode ser uma caracter√≠stica de um sistema defensivo.
* A presen√ßa de dois ala-defensores laterais (zagueiros centrais) tamb√©m contribui para a defesa, pois eles podem marcar individualmente ou em zona e ter liberdade para marcar no meio-campo.
* A estrutura do meio-campo, com dois meias centrais e duas alas, pode ser uma caracter√≠stica de um sistema defensivo, pois permite uma boa cobertura defensiva e controle do jogo.

No entanto, √© importante notar que a resposta final n√£o deve ser interpretada como uma cr√≠tica ao futebol em si. A defesa √© uma parte importante da jogabilidade e pode ser uma estrat√©gia eficaz para um time.

Fontes:

* Manual Futebol 2025 com Dup (P√°gina: 2)
* Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o Equilibrada Cl√°ssica) (P√°gina: 1)
* Forma√ß√µes T√°ticas Cl√°ssicas 3-5-2 (Forma√ß√£o com Ala-defensores) (P√°gina: 1)
* Varia√ß√£o 4-3-3 falso 9 (P√°gina: 1)
* Manual Futebol 2023 Copia (P√°gina: 2)
* Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o Ofensiva com Wingers) (P√°gina: 1)

Lembre-se de que a defesa √© uma parte importante da jogabilidade e pode ser uma estrat√©gia eficaz para um time.


üìö Fontes utilizadas:
   ‚Ä¢ manual_futebol_2025_com_dup.pdf (p√°g. 2)
   ‚Ä¢ manual_futebol_2023_copia.pdf (p√°g. 2)


‚úÖ Conversa√ß√£o conclu√≠da!



### Inspecionar Sistema

Vamos verificar as informa√ß√µes do sistema configurado.

In [35]:
# Inspeciona o sistema
print("=" * 80)
print("üîç INFORMA√á√ïES DO SISTEMA RAG")
print("=" * 80)

print(f"\nüìä Estat√≠sticas da √∫ltima execu√ß√£o:")
print(f"   Perguntas processadas: {len(conversas)}")
print(f"   Retrieval: Top-{TOP_K_RETRIEVAL} chunks")
print(f"   Modelo LLM: {LLM_MODEL}")
print(f"   Modelo Embedding: {EMBEDDING_MODEL}")

print("\nüí° NOTA: Para implementar mem√≥ria conversacional completa,")
print("   use RunnableWithMessageHistory do langchain_core.")
print("\nüìö Refer√™ncia: https://python.langchain.com/docs/expression_language/how_to/message_history")

print("=" * 80)

üîç INFORMA√á√ïES DO SISTEMA RAG

üìä Estat√≠sticas da √∫ltima execu√ß√£o:
   Perguntas processadas: 3
   Retrieval: Top-4 chunks
   Modelo LLM: llama3.2:1b
   Modelo Embedding: embeddinggemma

üí° NOTA: Para implementar mem√≥ria conversacional completa,
   use RunnableWithMessageHistory do langchain_core.

üìö Refer√™ncia: https://python.langchain.com/docs/expression_language/how_to/message_history


---

## üìä Passo 11: An√°lise e Estat√≠sticas do Sistema

Vamos analisar o desempenho e caracter√≠sticas do nosso sistema RAG avan√ßado.

In [36]:
print("=" * 80)
print("üìä AN√ÅLISE COMPLETA DO SISTEMA RAG AVAN√áADO")
print("=" * 80)

# Estat√≠sticas de documentos
print("\n1Ô∏è‚É£ INGEST√ÉO DE DOCUMENTOS:")
print(f"   PDFs carregados: {len(pdf_paths)}")
print(f"   P√°ginas totais: {len(all_documents)}")
print(f"   Chunks brutos: {len(raw_chunks)}")
print(f"   Chunks √∫nicos (p√≥s-deduplica√ß√£o): {len(enriched_chunks)}")
print(f"\n   DEDUPLICA√á√ÉO DETALHADA:")
print(f"   ‚Ä¢ Duplicatas mesma p√°gina: {duplicates_samepage}")
print(f"   ‚Ä¢ Duplicatas cross-page: {duplicates_crosspage}")
print(f"   ‚Ä¢ Total removido: {total_duplicates}")
print(f"   ‚Ä¢ Taxa de deduplica√ß√£o: {total_duplicates/len(raw_chunks)*100:.1f}%")


üìä AN√ÅLISE COMPLETA DO SISTEMA RAG AVAN√áADO

1Ô∏è‚É£ INGEST√ÉO DE DOCUMENTOS:
   PDFs carregados: 7
   P√°ginas totais: 28
   Chunks brutos: 41
   Chunks √∫nicos (p√≥s-deduplica√ß√£o): 33

   DEDUPLICA√á√ÉO DETALHADA:
   ‚Ä¢ Duplicatas mesma p√°gina: 0
   ‚Ä¢ Duplicatas cross-page: 8
   ‚Ä¢ Total removido: 8
   ‚Ä¢ Taxa de deduplica√ß√£o: 19.5%


In [37]:

# Estat√≠sticas de chunks
print("\n2Ô∏è‚É£ CARACTER√çSTICAS DOS CHUNKS:")
print(f"   Tamanho configurado: {CHUNK_SIZE} chars")
print(f"   Overlap configurado: {CHUNK_OVERLAP} chars ({CHUNK_OVERLAP/CHUNK_SIZE*100:.0f}%)")
print(f"   Tamanho m√©dio real: {sum(chunk_sizes)/len(chunk_sizes):.0f} chars")
print(f"   Expans√£o de chunking: {len(enriched_chunks)/len(all_documents):.1f}x")



2Ô∏è‚É£ CARACTER√çSTICAS DOS CHUNKS:
   Tamanho configurado: 1800 chars
   Overlap configurado: 300 chars (17%)
   Tamanho m√©dio real: 1192 chars
   Expans√£o de chunking: 1.2x


In [38]:

# Estat√≠sticas de metadados
tipos_unicos = set(c.metadata.get('doc_type') for c in enriched_chunks)
anos_unicos = set(c.metadata.get('year') for c in enriched_chunks if c.metadata.get('year'))

print("\n3Ô∏è‚É£ METADADOS:")
print(f"   Tipos de documentos: {len(tipos_unicos)} ‚Üí {list(tipos_unicos)}")
print(f"   Anos cobertos: {len(anos_unicos)} ‚Üí {sorted(anos_unicos) if anos_unicos else 'N/A'}")



3Ô∏è‚É£ METADADOS:
   Tipos de documentos: 4 ‚Üí ['relatorio', 'documento', 'manual', 'receita']
   Anos cobertos: 2 ‚Üí [2023, 2025]


In [39]:

# Estat√≠sticas do vectorstore
print("\n4Ô∏è‚É£ VECTORSTORE:")
print(f"   Vetores indexados: {vectorstore.index.ntotal}")
print(f"   Dimens√µes: {vectorstore.index.d}")
print(f"   Mem√≥ria estimada: {vectorstore.index.ntotal * vectorstore.index.d * 4 / 1024 / 1024:.2f} MB")



4Ô∏è‚É£ VECTORSTORE:
   Vetores indexados: 33
   Dimens√µes: 768
   Mem√≥ria estimada: 0.10 MB


In [40]:

# Par√¢metros de retrieval
print("\n5Ô∏è‚É£ RETRIEVAL & RERANKING:")
print(f"   Top-K inicial: {TOP_K_RETRIEVAL}")
print(f"   Top-N p√≥s-rerank: {TOP_N_RERANK}")
print(f"   Redu√ß√£o: {(1 - TOP_N_RERANK/TOP_K_RETRIEVAL)*100:.0f}%")



5Ô∏è‚É£ RETRIEVAL & RERANKING:
   Top-K inicial: 4
   Top-N p√≥s-rerank: 3
   Redu√ß√£o: 25%


In [41]:

# Chain RAG
print("\n6Ô∏è‚É£ CHAIN RAG:")
print(f"   Tipo: LCEL (LangChain Expression Language)")
print(f"   Componentes: Retriever ‚Üí Formatter ‚Üí Prompt ‚Üí LLM ‚Üí Parser")

print("\n" + "=" * 80)
print("\n‚úÖ Sistema RAG Avan√ßado totalmente operacional!")
print("=" * 80 + "\n")


6Ô∏è‚É£ CHAIN RAG:
   Tipo: LCEL (LangChain Expression Language)
   Componentes: Retriever ‚Üí Formatter ‚Üí Prompt ‚Üí LLM ‚Üí Parser


‚úÖ Sistema RAG Avan√ßado totalmente operacional!



---

## üéì Resumo

### üèÜ O que voc√™ aprendeu neste notebook:

#### 1. **Pipeline RAG Completo da Ind√∫stria**
   - ‚úÖ Ingest√£o ‚Üí Processamento ‚Üí Embedding ‚Üí Retrieval ‚Üí Reranking ‚Üí Gera√ß√£o
   - ‚úÖ Fluxo completo de produ√ß√£o (2024-2025)

#### 2. **Preven√ß√£o de Duplica√ß√£o Avan√ßada**
   - ‚úÖ IDs hash SHA-256 (determin√≠sticos e √∫nicos)
   - ‚úÖ **Deduplica√ß√£o dupla:** mesma p√°gina + cross-page
   - ‚úÖ **Detecta duplicatas em p√°ginas diferentes** (conte√∫do id√™ntico)
   - ‚úÖ Hash de conte√∫do (ignora metadados) + Hash completo (inclui metadados)
   - ‚úÖ Compara√ß√£o: Hash vs Manual vs Incremental

#### 3. **Metadados Estruturados**
   - ‚úÖ Extra√ß√£o de metadados (source, tipo, ano, etc.)
   - ‚úÖ Enriquecimento de chunks
   - ‚úÖ Rastreabilidade completa

#### 4. **Busca Filtrada**
   - ‚úÖ Filtros por metadados (tipo, ano, categoria)
   - ‚úÖ Redu√ß√£o de ru√≠do (at√© 40% mais precis√£o)
   - ‚úÖ Casos de uso pr√°ticos

#### 5. **Reranking**
   - ‚úÖ Metadata boosting (tipo de doc, rec√™ncia)
   - ‚úÖ Reordena√ß√£o inteligente
   - ‚úÖ Sele√ß√£o de top-N chunks

#### 6. **RAG Chain com LCEL**
   - ‚úÖ LangChain Expression Language (abordagem moderna)
   - ‚úÖ Pipeline modular e flex√≠vel
   - ‚úÖ Gera√ß√£o baseada em contexto recuperado

---



## üí™ Exerc√≠cios Pr√°ticos:

### üéØ Exerc√≠cio 1: Teste Diferentes Filtros
Experimente criar buscas com filtros customizados:
- Busque apenas documentos de um ano espec√≠fico
- Combine filtros (tipo + ano)
- Compare precis√£o com e sem filtros


In [42]:
# C√≥digo aqui


### üéØ Exerc√≠cio 2: Ajuste o Reranking
Modifique as regras de boosting:
- D√™ mais peso a documentos recentes
- Priorize um tipo de documento espec√≠fico
- Crie regras customizadas para seu dom√≠nio


In [43]:
# C√≥digo aqui



### üéØ Exerc√≠cio 3: Implemente Mem√≥ria Conversacional
Adicione mem√≥ria para contexto multi-turn:
- Use RunnableWithMessageHistory do langchain_core
- Implemente hist√≥rico persistente com InMemoryChatMessageHistory
- Teste conversas com contexto acumulado
- Refer√™ncia: https://python.langchain.com/docs/expression_language/how_to/message_history


In [44]:
# C√≥digo aqui



---

**Parab√©ns! üéâ** 

Voc√™ agora domina t√©cnicas avan√ßadas de RAG usadas em **sistemas de produ√ß√£o** na ind√∫stria!

Continue experimentando e adaptando para seu caso de uso espec√≠fico. üöÄ