# RAG - Retrieval-Augmented Generation

## Uma Explicação Completa sobre Geração Aumentada por Recuperação

## 1. Introdução

**RAG (Retrieval-Augmented Generation)** é uma arquitetura de inteligência artificial que combina dois componentes principais:

1. **Sistema de Recuperação (Retrieval)**: Busca e recupera informações relevantes de uma base de conhecimento externa
2. **Modelo de Geração (Generation)**: Utiliza as informações recuperadas para gerar respostas mais precisas e contextualizadas

Esta abordagem resolve uma das principais limitações dos Large Language Models (LLMs): a falta de acesso a informações atualizadas ou específicas do domínio que não estavam presentes durante o treinamento.

## 2. Como Funciona o RAG?

### 2.1 Fluxo de Funcionamento

O processo RAG segue os seguintes passos:

```
Pergunta do Usuário → Recuperação de Documentos → Geração da Resposta
```

**Detalhamento do processo:**

1. **Recebimento da Query**: O usuário faz uma pergunta ou solicita informação
2. **Busca Semântica**: O sistema busca documentos relevantes na base de conhecimento usando embeddings
3. **Recuperação**: Os documentos mais relevantes são selecionados
4. **Contextualização**: Os documentos recuperados são combinados com a pergunta original
5. **Geração**: O LLM gera uma resposta baseada tanto no seu conhecimento quanto nas informações recuperadas

### 2.2 Componentes Técnicos

- **Vector Store**: Banco de dados vetorial que armazena embeddings dos documentos
- **Embeddings Model**: Modelo que converte texto em representações vetoriais
- **Retriever**: Algoritmo que busca documentos similares (ex: cosine similarity)
- **LLM**: Modelo de linguagem que gera a resposta final

## 3. Vantagens do RAG

### 3.1 Principais Benefícios

**🎯 Precisão Aprimorada**
- Acesso a informações específicas e atualizadas
- Redução de alucinações dos LLMs
- Respostas baseadas em fontes confiáveis

**⚡ Flexibilidade**
- Atualização da base de conhecimento sem retreinamento do modelo
- Adição de documentos específicos do domínio
- Personalização para diferentes casos de uso

**💰 Eficiência de Custos**
- Não requer retreinamento de modelos grandes
- Uso de modelos menores com conhecimento externo
- Escalabilidade mais econômica

**🔍 Transparência**
- Rastreabilidade das fontes utilizadas
- Possibilidade de verificar informações
- Maior confiabilidade nas respostas

### 3.2 Comparação: RAG vs Fine-tuning

| Aspecto | RAG | Fine-tuning |
|---------|-----|-------------|
| **Atualização** | Dinâmica | Requer retreinamento |
| **Custo** | Baixo | Alto |
| **Precisão** | Alta para informações específicas | Alta para tarefas específicas |
| **Flexibilidade** | Alta | Baixa |
| **Transparência** | Alta | Baixa |

## 4. Tipos de RAG

### 4.1 RAG Básico (Naive RAG)
- Abordagem mais simples
- Busca direta por similaridade
- Uma única recuperação por query

### 4.2 RAG Avançado (Advanced RAG)
- **Pré-processamento aprimorado**: Chunking inteligente, limpeza de dados
- **Indexação otimizada**: Hierarquias, metadados, múltiplos índices
- **Recuperação sofisticada**: Re-ranking, fusão de resultados

### 4.3 RAG Modular (Modular RAG)
- **Componentes especializados**: Diferentes retrievers para diferentes tipos de dados
- **Pipelines flexíveis**: Combinação de múltiplas estratégias
- **Adaptabilidade**: Ajuste dinâmico baseado no tipo de query

### 4.4 Variações Especializadas

**Self-RAG**
- Auto-avaliação da qualidade da recuperação
- Decisão dinâmica sobre quando usar recuperação

**Corrective RAG (CRAG)**
- Correção automática de documentos irrelevantes
- Refinamento iterativo da busca

**Adaptive RAG**
- Seleção automática da estratégia de recuperação
- Otimização baseada no contexto da query

## 5. Casos de Uso e Aplicações

### 5.1 Aplicações Empresariais

**📚 Sistemas de Documentação**
- Base de conhecimento interna
- Manuais técnicos e procedimentos
- FAQs inteligentes

**🏥 Área da Saúde**
- Consulta a literatura médica
- Análise de históricos de pacientes
- Suporte a diagnósticos

**⚖️ Jurídico**
- Pesquisa em jurisprudência
- Análise de contratos
- Compliance e regulamentações

**🎓 Educação**
- Tutores inteligentes
- Sistemas de Q&A acadêmicos
- Personalização de conteúdo

### 5.2 Aplicações de Consumo

**🛒 E-commerce**
- Recomendações personalizadas
- Suporte ao cliente
- Comparação de produtos

**📰 Mídia e Jornalismo**
- Fact-checking automatizado
- Síntese de notícias
- Pesquisa investigativa

**🎮 Entretenimento**
- NPCs inteligentes em jogos
- Sistemas de recomendação
- Criação de conteúdo dinâmico

## 6. Desafios e Limitações

### 6.1 Desafios Técnicos

**🔍 Qualidade da Recuperação**
- Documentos irrelevantes ou imprecisos
- Necessidade de ajuste fino dos algoritmos de busca
- Balanceamento entre precisão e recall

**📊 Processamento de Dados**
- Chunking eficiente de documentos longos
- Manutenção da coerência semântica
- Tratamento de formatos diversos (PDF, HTML, imagens)

**⚡ Performance**
- Latência na recuperação de documentos
- Escalabilidade para grandes bases de dados
- Otimização de recursos computacionais

### 6.2 Desafios de Implementação

**🛠️ Complexidade Arquitetural**
- Integração de múltiplos componentes
- Monitoramento e debugging
- Versionamento de embeddings

**📈 Avaliação e Métricas**
- Definição de métricas de sucesso
- Avaliação da qualidade das respostas
- A/B testing em sistemas RAG

**🔒 Segurança e Privacidade**
- Controle de acesso a documentos sensíveis
- Prevenção de vazamento de informações
- Compliance com regulamentações (LGPD, GDPR)

### 6.3 Limitações Conhecidas

- **Dependência da qualidade dos dados**: Respostas limitadas pela qualidade da base de conhecimento
- **Viés nos documentos**: Propagação de vieses presentes nos dados de origem
- **Contexto limitado**: Dificuldade com queries que requerem raciocínio complexo
- **Atualização em tempo real**: Desafios para incorporar informações muito recentes

## 7. Ferramentas e Tecnologias

### 7.1 Frameworks e Bibliotecas

**🦜 LangChain**
- Framework mais popular para RAG
- Integrações com múltiplos LLMs e vector stores
- Pipelines pré-construídos

**🔗 LlamaIndex**
- Especializado em indexação e recuperação
- Otimizado para grandes volumes de dados
- Múltiplas estratégias de chunking

**🤗 Haystack**
- Framework end-to-end da Deepset
- Pipelines modulares e customizáveis
- Interface web para desenvolvimento

### 7.2 Vector Databases

**🌟 Principais Opções:**
- **Pinecone**: Serviço gerenciado, alta performance
- **Weaviate**: Open-source, busca semântica avançada
- **Chroma**: Leve, ideal para prototipagem
- **Qdrant**: Russo, focado em performance
- **Milvus**: Escalável, usado em produção

### 7.3 Modelos de Embeddings

**📝 Modelos Populares:**
- **OpenAI Ada-002**: Versátil, boa qualidade
- **Sentence-BERT**: Open-source, múltiplos idiomas
- **E5**: Microsoft, estado da arte
- **BGE**: BAAI, otimizado para chinês/inglês

### 7.4 LLMs para Geração

**🔬 Modelos Comerciais:**
- GPT-4, GPT-3.5 (OpenAI)
- Claude (Anthropic)
- Gemini (Google)

**🌍 Modelos Open-Source:**
- Llama 2/3 (Meta)
- Mistral (Mistral AI)
- Vicuna, Alpaca

## 8. Melhores Práticas e Otimizações

### 8.1 Preparação dos Dados

**📄 Estratégias de Chunking:**
- **Tamanho otimizado**: 200-800 tokens por chunk
- **Sobreposição**: 10-20% entre chunks consecutivos
- **Respeitar estrutura**: Não quebrar parágrafos ou seções
- **Metadados ricos**: Incluir título, autor, data, categoria

**🧹 Limpeza de Dados:**
- Remoção de ruído (headers, footers, navegação)
- Normalização de formatação
- Tratamento de caracteres especiais
- Deduplicação de conteúdo

### 8.2 Otimização da Recuperação

**🎯 Estratégias Avançadas:**
- **Hybrid Search**: Combinação de busca semântica e keyword
- **Re-ranking**: Reordenação dos resultados com modelos especializados
- **Query Expansion**: Enriquecimento da query original
- **Multi-vector retrieval**: Múltiplas representações do mesmo documento

**📊 Métricas de Avaliação:**
- **Retrieval**: Precision@K, Recall@K, NDCG
- **Geração**: BLEU, ROUGE, BERTScore
- **End-to-end**: Avaliação humana, satisfação do usuário

### 8.3 Otimização de Performance

**⚡ Estratégias de Cache:**
- Cache de embeddings computados
- Cache de resultados de busca frequentes
- Cache de respostas geradas

**🔧 Otimizações Técnicas:**
- Indexação incremental
- Paralelização de operações
- Batch processing para embeddings
- Compression de vetores

## 9. Tendências e Futuro do RAG

### 9.1 Inovações Emergentes

**🧠 RAG Multimodal**
- Integração de texto, imagens, áudio e vídeo
- Recuperação cross-modal
- Geração rica em múltiplas modalidades

**🔗 Graph RAG**
- Utilização de knowledge graphs
- Recuperação baseada em relacionamentos
- Raciocínio estruturado sobre entidades

**🤖 Agentes RAG**
- Sistemas autônomos com RAG
- Planejamento e execução de tarefas
- Interação com APIs e ferramentas externas

### 9.2 Desenvolvimentos Técnicos

**⚡ Eficiência Computacional**
- Quantização de embeddings
- Modelos de recuperação mais leves
- Arquiteturas híbridas

**🎯 Personalização Avançada**
- RAG adaptativo ao usuário
- Aprendizado contínuo
- Contextualização temporal

### 9.3 Impacto Futuro

- **Democratização do conhecimento**: Acesso facilitado a informações especializadas
- **Transformação empresarial**: Novos modelos de negócio baseados em conhecimento
- **Pesquisa científica**: Aceleração da descoberta através de síntese automática
- **Educação personalizada**: Tutores adaptativos para cada estudante

---

## 10. Conclusão

O **RAG representa uma evolução fundamental** na forma como os sistemas de IA acessam e utilizam conhecimento. Ao combinar a capacidade de recuperação de informações específicas com a flexibilidade dos modelos de linguagem, o RAG oferece:

✅ **Precisão aprimorada** através de informações contextuais
✅ **Flexibilidade** para atualizações dinâmicas de conhecimento  
✅ **Transparência** na origem das informações
✅ **Eficiência** sem necessidade de retreinamento constante

À medida que a tecnologia evolui, esperamos ver **RAG mais sofisticado, multimodal e integrado** em praticamente todas as aplicações que envolvem processamento de conhecimento.

O futuro da IA conversacional e dos sistemas de Q&A está intrinsecamente ligado aos avanços em RAG, tornando-o uma das tecnologias mais importantes para dominar no ecossistema atual de IA.

---

---

### 🎯 Vamos à Prática!

In [None]:
!pip install requests beautifulsoup4 -q
!pip install langchain langchain-text-splitters -q
!pip install PyPDF2 -q
!pip install pdfplumber -q
!pip install sentence-transformers transformers torch -q

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.8/42.8 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.5/48.5 kB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.0/60.0 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m60.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.8/2.8 MB[0m [31m85.8 MB/s[0m eta [36m0:00:00[0m
[?25h

# Obtendo dados!


## 📋 Implementação Prática - Leitura de PDFs


In [None]:
# Importações necessárias para processamento de PDFs
from pathlib import Path
from typing import List, Dict

# Para processamento de PDFs - instale com: pip install pdfplumber
try:
    import pdfplumber
    PDF_AVAILABLE = True
except ImportError:
    print("⚠️  Execute: pip install pdfplumber")
    PDF_AVAILABLE = False

In [None]:
class PDFReader:
    """Classe simples para ler PDFs de um diretório."""

    def __init__(self, data_dir: str = "data"):
        self.data_dir = Path(data_dir)
        self._create_directory()

    def _create_directory(self) -> None:
        """Cria o diretório se não existir."""
        if not self.data_dir.exists():
            self.data_dir.mkdir(parents=True, exist_ok=True)
            print(f"📁 Diretório '{self.data_dir}' criado.")

    def _find_pdfs(self) -> List[Path]:
        """Encontra todos os PDFs no diretório."""
        return list(self.data_dir.glob("*.pdf")) + list(self.data_dir.glob("*.PDF"))

    def _extract_text(self, pdf_path: Path) -> str:
        """Extrai texto de um PDF."""
        if not PDF_AVAILABLE:
            return ""

        text = ""
        try:
            with pdfplumber.open(pdf_path) as pdf:
                for page in pdf.pages:
                    page_text = page.extract_text()
                    if page_text:
                        text += page_text + "\n"
        except Exception as e:
            print(f"❌ Erro ao processar {pdf_path.name}: {e}")

        return text

    def read_all_pdfs(self) -> Dict[str, str]:
        """Lê todos os PDFs e retorna dicionário {nome: texto}."""
        pdf_files = self._find_pdfs()

        if not pdf_files:
            print(f"❌ Nenhum PDF encontrado em '{self.data_dir}'")
            return {}

        documents = {}
        print(f"🚀 Processando {len(pdf_files)} arquivo(s)...")

        for pdf_path in pdf_files:
            text = self._extract_text(pdf_path)
            if text.strip():
                documents[pdf_path.name] = text
                print(f"✅ {pdf_path.name}: {len(text):,} caracteres")

        return documents

In [None]:
pdf_reader = PDFReader()

documents = pdf_reader.read_all_pdfs()
print("Finalizado a leitura dos PDFs.")

📁 Diretório 'data' criado.
❌ Nenhum PDF encontrado em 'data'
Finalizado a leitura dos PDFs.


## 🌐 Leitura de Dados de Sites

In [None]:
import requests
from bs4 import BeautifulSoup

def get_web_content(url: str) -> str:
    """Extrai texto de uma página web."""
    try:
        print(f"🌐 Acessando: {url}")

        # Fazer requisição
        response = requests.get(url, timeout=10)
        response.raise_for_status()

        # Extrair texto
        soup = BeautifulSoup(response.text, 'html.parser')

        # Remover elementos desnecessários
        for element in soup(['script', 'style', 'nav', 'footer']):
            element.decompose()

        # Pegar texto limpo
        text = soup.get_text(separator='\n', strip=True)

        print(f"✅ Extraído: {len(text):,} caracteres")
        return text

    except Exception as e:
        print(f"❌ Erro: {e}")
        return ""

### 📋 Exemplo de Uso do Web Scraper

Vamos testar nossa classe para extrair conteúdo de sites:

In [None]:
url = "https://direitodesenhado.com.br/lindb-resumo-completo/"

web_content = get_web_content(url)
web_content[:500]  # Mostrar os primeiros 500 caracteres

🌐 Acessando: https://direitodesenhado.com.br/lindb-resumo-completo/
✅ Extraído: 30,974 caracteres


'LINDB: Resumo Completo (Atualizado em 2023)\nSaltar para o conteúdo\nInício\n»\nBlog\n»\nDireito Civil\n»\nLINDB: Resumo Completo\nIvo Fernando Pereira Martins\nDireito Civil\nMarço 3, 2020\nLINDB: Resumo Completo\nNavegue por tópicos\nToggle\nA\nLINDB\n(Lei de Introdução as Normas do Direito Brasileiro), antiga LIC (Lei de introdução ao Código Civil), ingressou no sistema jurídico em 1942 com o Decreto 4.657/42.\nImportante observar que, embora seja um decreto, a norma tem status de\nlei ordinária.\nTrata-se de um'

## 📚 Classe Unificada para Documentos

Agora vamos criar uma classe que combine PDFs e conteúdo web:

In [None]:
class DocumentLoader:
    """Classe unificada para carregar documentos de PDFs e URLs."""

    def __init__(self, data_dir: str = "data"):
        self.pdf_reader = PDFReader(data_dir)
        self.documents = {}

    def load_pdfs(self) -> Dict[str, str]:
        """Carrega todos os PDFs do diretório."""
        print("📄 Carregando PDFs...")
        pdf_docs = self.pdf_reader.read_all_pdfs()

        # Adicionar prefixo para identificar fonte
        for filename, content in pdf_docs.items():
            key = f"PDF_{filename}"
            self.documents[key] = content

        return pdf_docs

    def load_urls(self, urls: List[str]) -> Dict[str, str]:
        """Carrega conteúdo de múltiplas URLs."""
        print("🌐 Carregando URLs...")
        web_docs = {}

        for i, url in enumerate(urls):
            content = get_web_content(url)
            if content:
                # Criar nome simples para a URL
                key = f"WEB_{i+1:02d}_{url.split('/')[-1][:30]}"
                web_docs[key] = content
                self.documents[key] = content

        return web_docs

    def load_all(self, urls: List[str] = None) -> Dict[str, str]:
        """Carrega todos os documentos (PDFs + URLs)."""
        print("🚀 Carregando todos os documentos...")

        # Carregar PDFs
        self.load_pdfs()

        # Carregar URLs se fornecidas
        if urls:
            self.load_urls(urls)

        # Mostrar resumo
        total_chars = sum(len(content) for content in self.documents.values())
        print(f"\n📊 Resumo final:")
        print(f"   📚 Total de documentos: {len(self.documents)}")
        print(f"   📝 Total de caracteres: {total_chars:,}")

        return self.documents

    def get_documents(self) -> Dict[str, str]:
        """Retorna todos os documentos carregados."""
        return self.documents

    def get_summary(self) -> Dict:
        """Retorna resumo dos documentos."""
        pdf_count = sum(1 for key in self.documents.keys() if key.startswith('PDF_'))
        web_count = sum(1 for key in self.documents.keys() if key.startswith('WEB_'))

        return {
            'total_documents': len(self.documents),
            'pdf_documents': pdf_count,
            'web_documents': web_count,
            'total_characters': sum(len(content) for content in self.documents.values())
        }

### 🎯 Exemplo de Uso da Classe Unificada




In [None]:
# Instanciar o carregador de documentos
loader = DocumentLoader()

# Lista de URLs para carregar (exemplo)
urls = [
    "https://direitodesenhado.com.br/lindb-resumo-completo/",
    "https://direitodesenhado.com.br/teoria-geral-do-negocio-juridico/",
]

# Carregar todos os documentos (PDFs + URLs)
documents = loader.load_all(urls)


# Ver resumo
summary = loader.get_summary()
print(f"\n📈 Resumo dos documentos:")
for key, value in summary.items():
    print(f"   {key}: {value:,}" if isinstance(value, int) else f"   {key}: {value}")

🚀 Carregando todos os documentos...
📄 Carregando PDFs...
❌ Nenhum PDF encontrado em 'data'
🌐 Carregando URLs...
🌐 Acessando: https://direitodesenhado.com.br/lindb-resumo-completo/
✅ Extraído: 30,974 caracteres
🌐 Acessando: https://direitodesenhado.com.br/teoria-geral-do-negocio-juridico/
✅ Extraído: 15,656 caracteres

📊 Resumo final:
   📚 Total de documentos: 2
   📝 Total de caracteres: 46,630

📈 Resumo dos documentos:
   total_documents: 2
   pdf_documents: 0
   web_documents: 2
   total_characters: 46,630


## 🧹 Limpeza e Normalização de Texto


In [None]:
import re

def clean_text(text: str) -> str:
    """Limpa e normaliza texto de forma simples."""

    # Remover quebras de linha duplas/triplas
    text = re.sub(r'\n\s*\n+', '\n\n', text)

    # Remover espaços em excesso
    text = re.sub(r'[ \t]+', ' ', text)

    # Remover caracteres especiais indesejados (manter acentos)
    text = re.sub(r'[^\w\s\.\,\;\:\!\?\-\(\)\[\]\"\'\n\r]', ' ', text)

    # Remover linhas muito curtas (provavelmente ruído)
    lines = text.split('\n')
    clean_lines = [line.strip() for line in lines if len(line.strip()) > 2]

    # Juntar tudo
    text = '\n'.join(clean_lines)

    # Limpar espaços finais
    text = text.strip()

    return text

# Aplicar limpeza nos documentos carregados
if documents:
    print("🧹 Aplicando limpeza nos documentos...")

    cleaned_documents = {}

    for doc_name, content in documents.items():
        cleaned_content = clean_text(content)
        cleaned_documents[doc_name] = cleaned_content

        # Mostrar diferença
        original_size = len(content)
        cleaned_size = len(cleaned_content)
        reduction = ((original_size - cleaned_size) / original_size) * 100

        print(f"✅ {doc_name}")
        print(f"   Original: {original_size:,} → Limpo: {cleaned_size:,} (-{reduction:.1f}%)")

    print(f"\n📊 Limpeza concluída para {len(cleaned_documents)} documento(s)")

else:
    print("❌ Nenhum documento encontrado para limpar")
    print("💡 Execute as células anteriores para carregar documentos primeiro")

🧹 Aplicando limpeza nos documentos...
✅ WEB_01_
   Original: 30,974 → Limpo: 30,766 (-0.7%)
✅ WEB_02_
   Original: 15,656 → Limpo: 15,522 (-0.9%)

📊 Limpeza concluída para 2 documento(s)


Um LLM tem um limite de contexto (o número de tokens que ele pode processar de uma vez). Por isso, você não pode enviar documentos inteiros. Você precisa dividi-los em pedaços menores e significativos (chunks).

* **Estratégia de Chunking é Crucial:**
    * **Tamanho Fixo (Fixed-size):** Simples, mas pode quebrar frases ou ideias no meio. Ex: "dividir a cada 1000 caracteres".
    * **Recursivo (Recursive Character Text Splitter):** Uma abordagem mais inteligente. Tenta dividir por parágrafos, depois por frases e, por último, por palavras, para manter o contexto semântico. É o método mais recomendado para começar.
    * **Semântico (Semantic Chunking):** Uma técnica avançada que agrupa sentenças com base em sua similaridade de embedding, criando chunks que são tematicamente coesos.

**Dica de Excelência:** A sobreposição de chunks (chunk overlap) é importante. Fazer com que o final de um chunk seja o início do próximo (ex: 100-200 caracteres de sobreposição) ajuda a não perder o contexto entre os pedaços.

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

def create_chunks(documents: Dict[str, str]) -> Dict[str, List[str]]:
    """
    Aplica chunking usando o RecursiveCharacterTextSplitter do LangChain.
    Muito mais robusto que nossa implementação manual!
    """

    # Configurar o splitter do LangChain
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,           # Tamanho ideal para textos jurídicos
        chunk_overlap=200,         # 20% de sobreposição
        length_function=len,       # Função para medir tamanho
        separators=[              # Separadores otimizados para português
            "\n\n",               # Parágrafos
            "\n",                 # Quebras de linha
            ". ",                 # Fim de frases
            "! ",                 # Exclamações
            "? ",                 # Perguntas
            "; ",                 # Ponto e vírgula
            ", ",                 # Vírgulas
            " ",                  # Espaços
            ""                    # Caracteres (último recurso)
        ]
    )

    chunked_docs = {}

    print("🦜 Aplicando LangChain RecursiveCharacterTextSplitter...")
    print(f"   📏 Chunk size: {text_splitter._chunk_size}")
    print(f"   🔄 Overlap: {text_splitter._chunk_overlap}")
    print()

    total_chunks = 0

    for doc_name, content in documents.items():
        print("Executando chunking para o documento", doc_name)
        # Aplicar chunking
        chunks = text_splitter.split_text(content)
        chunked_docs[doc_name] = chunks

        # Estatísticas
        total_chars = len(content)
        chunk_count = len(chunks)
        avg_chunk_size = sum(len(chunk) for chunk in chunks) // max(chunk_count, 1)
        total_chunks += chunk_count

        print(f"📄 {doc_name}:")
        print(f"   📝 Original: {total_chars:,} caracteres")
        print(f"   🧩 Chunks: {chunk_count}")
        print(f"   📊 Tamanho médio: {avg_chunk_size} chars")

        # Mostrar preview do primeiro chunk
        if chunks:
            preview = chunks[0][:100].replace('\n', ' ').strip()
            print(f"   👀 Preview: {preview}...")
        print()

    print(f"✅ Total de chunks gerados: {total_chunks}")
    return chunked_docs

### 🎯 Exemplo de Uso do Chunking




In [None]:
documents['WEB_01_']

'LINDB: Resumo Completo (Atualizado em 2023)\nSaltar para o conteúdo\nInício\n»\nBlog\n»\nDireito Civil\n»\nLINDB: Resumo Completo\nIvo Fernando Pereira Martins\nDireito Civil\nMarço 3, 2020\nLINDB: Resumo Completo\nNavegue por tópicos\nToggle\nA\nLINDB\n(Lei de Introdução as Normas do Direito Brasileiro), antiga LIC (Lei de introdução ao Código Civil), ingressou no sistema jurídico em 1942 com o Decreto 4.657/42.\nImportante observar que, embora seja um decreto, a norma tem status de\nlei ordinária.\nTrata-se de um conjunto de normas que aplica-se a todo o Direito (e não apenas ao Direito Civil).\nEm verdade, é uma norma que\nnão regula comportamento, mas regula a própria lei\n(aplicação, interpretação, etc.).\nFala-se, no Direito, que a LINDB é uma\nnorma de sobredireito.\nPor isso, inclusive, não fazia sentido manter a nomenclatura “Lei de Introdução ao Código Civil”.\nA Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras específicas de\nsegurança jurídica\nno

In [None]:
if documents:
    print("🚀 Aplicando chunking com LangChain nos documentos carregados...\n")

    # Aplicar chunking
    chunks_langchain = create_chunks(documents)

else:
    print("❌ Execute as células anteriores para carregar documentos primeiro!")

🚀 Aplicando chunking com LangChain nos documentos carregados...

🦜 Aplicando LangChain RecursiveCharacterTextSplitter...
   📏 Chunk size: 1000
   🔄 Overlap: 200

Executando chunking para o documento WEB_01_
📄 WEB_01_:
   📝 Original: 30,974 caracteres
   🧩 Chunks: 39
   📊 Tamanho médio: 945 chars
   👀 Preview: LINDB: Resumo Completo (Atualizado em 2023) Saltar para o conteúdo Início » Blog » Direito Civil » L...

Executando chunking para o documento WEB_02_
📄 WEB_02_:
   📝 Original: 15,656 caracteres
   🧩 Chunks: 20
   📊 Tamanho médio: 935 chars
   👀 Preview: Teoria Geral do Negócio Jurídico (Direito Civil) - Resumo Completo Saltar para o conteúdo Início » B...

✅ Total de chunks gerados: 59


### Criação de Embeddings e Indexação**
* **Escolha do Modelo de Embedding:** Um modelo de embedding transforma seus chunks de texto em vetores numéricos que representam seu significado. A qualidade do seu RAG depende muito deste modelo.
    
* **Geração dos Embeddings:** Aplique o modelo escolhido a cada um dos seus chunks de texto para gerar os vetores.



## 🇧🇷 Melhores Modelos de Embeddings para Português Brasileiro

### 🏆 **TOP 3 Recomendados:**

#### 1. **`neuralmind/bert-base-portuguese-cased`**
- 🎯 **Especialidade**: Treinado especificamente em português brasileiro
- 📊 **Performance**: Excelente para textos jurídicos e formais
- 💾 **Tamanho**: ~500MB
- ⚡ **Velocidade**: Rápido
- 🏢 **Empresa**: NeuralMind (brasileira)

#### 2. **`sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2`**
- 🌍 **Especialidade**: Multilíngue com ótimo suporte a português
- 🔥 **Performance**: Estado da arte para busca semântica
- 💾 **Tamanho**: ~420MB
- ⚡ **Velocidade**: Muito rápido
- 🎯 **Ideal para**: RAG e retrieval

#### 3. **`rufimelo/Legal-BERTimbau-large`**
- ⚖️ **Especialidade**: **ESPECÍFICO PARA TEXTOS JURÍDICOS**
- 🇧🇷 **Língua**: Português brasileiro jurídico
- 📊 **Performance**: Otimizado para documentos legais
- 💾 **Tamanho**: ~1.2GB

### 📋 **Comparação Rápida:**

| Modelo | Português-BR | Textos Jurídicos | Tamanho | Velocidade |
|--------|--------------|------------------|---------|------------|
| `neuralmind/bert-base-portuguese-cased` | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | Médio | Rápido |
| `paraphrase-multilingual-MiniLM-L12-v2` | ⭐⭐⭐⭐ | ⭐⭐⭐ | Pequeno | Muito Rápido |
| `rufimelo/Legal-BERTimbau-large` | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | Grande | Médio |

In [None]:
import numpy as np
from sentence_transformers import SentenceTransformer
from typing import List, Dict, Tuple
import warnings

warnings.filterwarnings('ignore')

class BrazilianEmbeddings:
    """
    Classe para gerar embeddings usando modelos otimizados para português brasileiro.
    """

    def __init__(self, model_name: str = "rufimelo/Legal-BERTimbau-large"):
        """
        Args:
            model_name: Nome do modelo do Hugging Face
        """
        self.model_name = model_name
        self.model = None
        self._load_model()

    def _load_model(self):
        """Carrega o modelo de embeddings."""
        print(f"🤖 Carregando modelo: {self.model_name}")
        print("⏳ Isso pode demorar alguns minutos na primeira vez...")

        try:
            self.model = SentenceTransformer(self.model_name)
            print(f"✅ Modelo carregado com sucesso!")
            print(f"📏 Dimensão dos embeddings: {self.model.get_sentence_embedding_dimension()}")
        except Exception as e:
            print(f"❌ Erro ao carregar modelo: {e}")
            print("💡 Tentando modelo alternativo...")
            # Fallback para modelo multilíngue
            self.model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
            self.model = SentenceTransformer(self.model_name)
            print(f"✅ Modelo alternativo carregado: {self.model_name}")

    def encode_chunks(self, chunks: List[str], show_progress: bool = True) -> np.ndarray:
        """
        Converte lista de chunks em embeddings.

        Args:
            chunks: Lista de textos para converter em embeddings
            show_progress: Mostrar barra de progresso

        Returns:
            Array numpy com embeddings
        """
        if not chunks:
            return np.array([])

        print(f"🔄 Gerando embeddings para {len(chunks)} chunks...")

        embeddings = self.model.encode(
            chunks,
            show_progress_bar=show_progress,
            batch_size=32,  # Otimizado para não sobrecarregar a memória
            convert_to_numpy=True
        )

        print(f"✅ Embeddings gerados: {embeddings.shape}")
        return embeddings

    def encode_documents(self, chunked_docs: Dict[str, List[str]]) -> Dict[str, Dict]:
        """
        Gera embeddings para documentos já divididos em chunks.

        Args:
            chunked_docs: {doc_name: [chunk1, chunk2, ...]}

        Returns:
            {doc_name: {'chunks': [...], 'embeddings': array, 'metadata': {...}}}
        """
        processed_docs = {}

        print(f"🧠 Processando embeddings para {len(chunked_docs)} documento(s)...")
        print(f"🤖 Modelo: {self.model_name}")
        print()

        total_chunks = sum(len(chunks) for chunks in chunked_docs.values())
        processed_chunks = 0

        for doc_name, chunks in chunked_docs.items():
            print(f"📄 Processando: {doc_name}")
            print(f"   🧩 Chunks: {len(chunks)}")

            # Gerar embeddings
            embeddings = self.encode_chunks(chunks, show_progress=False)

            # Metadados
            metadata = {
                'doc_name': doc_name,
                'num_chunks': len(chunks),
                'embedding_dim': embeddings.shape[1] if len(embeddings) > 0 else 0,
                'avg_chunk_length': sum(len(chunk) for chunk in chunks) // len(chunks),
                'model_used': self.model_name
            }

            processed_docs[doc_name] = {
                'chunks': chunks,
                'embeddings': embeddings,
                'metadata': metadata
            }

            processed_chunks += len(chunks)
            print(f"   ✅ Concluído ({processed_chunks}/{total_chunks} chunks)")
            print()

        print(f"🎉 Processamento completo!")
        print(f"📊 Total de chunks processados: {processed_chunks}")

        return processed_docs

    def get_model_info(self) -> Dict:
        """Retorna informações sobre o modelo."""
        return {
            'model_name': self.model_name,
            'embedding_dimension': self.model.get_sentence_embedding_dimension(),
            'max_sequence_length': self.model.max_seq_length
        }

In [None]:
embedder = BrazilianEmbeddings("rufimelo/Legal-BERTimbau-large")

🤖 Carregando modelo: rufimelo/Legal-BERTimbau-large
⏳ Isso pode demorar alguns minutos na primeira vez...




config.json:   0%|          | 0.00/865 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

Some weights of BertModel were not initialized from the model checkpoint at rufimelo/Legal-BERTimbau-large and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


tokenizer_config.json:   0%|          | 0.00/568 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

✅ Modelo carregado com sucesso!
📏 Dimensão dos embeddings: 1024


In [None]:
model_info = embedder.get_model_info()
print(f"\n📊 Informações do Modelo:")
for key, value in model_info.items():
    print(f"   {key}: {value}")


📊 Informações do Modelo:
   model_name: rufimelo/Legal-BERTimbau-large
   embedding_dimension: 1024
   max_sequence_length: 512


### 🧠 **Conceito Fundamental:**

O `max_sequence_length` é o **número máximo de tokens** que o modelo pode processar de uma só vez.

### 🔤 **Token vs Caractere:**

- **Token** ≠ Caractere
- **1 token** ≈ 0.75 palavras em português
- **512 tokens** ≈ ~384 palavras ≈ ~2.500-3.000 caracteres


### 🎯 **Por que 512 é bom para RAG:**

1. **Contexto Suficiente**: 512 tokens capturam contexto semântico completo
2. **Performance**: Processar 512 tokens é rápido
3. **Qualidade**: Embeddings mais precisos com textos menores e focados
4. **Memoria**: Menor uso de GPU/RAM

In [None]:
sample_chunks = {}
for doc_name, doc_chunks in chunks_langchain.items():
    # Pegar apenas os primeiros 3 chunks de cada documento para teste
    sample_chunks[doc_name] = doc_chunks[:3]
    print(f"📄 {doc_name}: {len(sample_chunks[doc_name])} chunks de teste")

📄 WEB_01_: 3 chunks de teste
📄 WEB_02_: 3 chunks de teste


In [None]:
embedded_docs = embedder.encode_documents(sample_chunks)

🧠 Processando embeddings para 2 documento(s)...
🤖 Modelo: rufimelo/Legal-BERTimbau-large

📄 Processando: WEB_01_
   🧩 Chunks: 3
🔄 Gerando embeddings para 3 chunks...
✅ Embeddings gerados: (3, 1024)
   ✅ Concluído (3/6 chunks)

📄 Processando: WEB_02_
   🧩 Chunks: 3
🔄 Gerando embeddings para 3 chunks...
✅ Embeddings gerados: (3, 1024)
   ✅ Concluído (6/6 chunks)

🎉 Processamento completo!
📊 Total de chunks processados: 6


In [None]:
embedded_docs.keys()

dict_keys(['WEB_01_', 'WEB_02_'])

In [None]:
print(f"Qt de embeddings", len(embedded_docs['WEB_01_']['embeddings']))
embedded_docs['WEB_01_']['embeddings']

Qt de embeddings 3


array([[ 0.2584315 ,  0.05535078,  0.03189277, ...,  0.2783965 ,
        -0.57743484, -0.0456107 ],
       [ 0.13816385,  0.0944467 ,  0.03286987, ...,  0.04084489,
        -0.29083595, -0.23160882],
       [ 0.26266158,  0.04782164, -0.03774992, ...,  0.03904825,
        -0.49738538, -0.07781266]], dtype=float32)

In [None]:
emb_1 = embedded_docs['WEB_01_']['embeddings'][0]
emb_1.shape

(1024,)

## 🗄️ O que é um Banco Vetorial?

### 📚 **Definição Fundamental:**

Um **banco vetorial** (vector database) é um sistema de armazenamento **especializado** que:
- 🧠 Armazena **embeddings** (vetores de alta dimensionalidade)
- 🔍 Realiza **buscas por similaridade** ultrarrápidas
- 📊 Indexa vetores de forma **otimizada**
- ⚡ Retorna resultados **ordenados por relevância**

### 🆚 **Banco Tradicional vs Banco Vetorial:**

| Aspecto | Banco Tradicional | Banco Vetorial |
|---------|------------------|----------------|
| **Dados** | Texto, números, datas | Vetores (arrays de números) |
| **Busca** | Palavras-chave exatas | Similaridade semântica |
| **Consulta** | `WHERE nome = "João"` | `similarity(vetor_query, vetor_doc)` |
| **Resultado** | Correspondência exata | Ordenado por relevância |
| **Uso** | CRUD tradicional | IA, ML, RAG, recomendações |

### 🔍 **Como Funciona a Busca Vetorial:**

1. **📝 Query do usuário**: "O que é habeas corpus?"
2. **🧠 Conversão**: Query → embedding (vetor de 768 dimensões)
3. **📊 Comparação**: Calcula similaridade com todos os vetores armazenados
4. **📋 Ranking**: Ordena por maior similaridade (cosine similarity)
5. **✅ Retorno**: Top-k documentos mais relevantes

### 🏗️ **Arquitetura de um Banco Vetorial:**

```
Documento Original → Embedding Model → Vetor → Índice → Busca Rápida
    "Habeas corpus é..."     BERT      [0.2, -0.1, 0.8, ...]    HNSW     Millisegundos
```

### 🎯 **Principais Características:**

#### **1. 📏 Alta Dimensionalidade**
- Vetores com 384, 768, 1536+ dimensões
- Cada dimensão representa uma "característica semântica"
- Captura nuances sutis de significado

#### **2. ⚡ Busca por Similaridade**
- **Cosine Similarity**: Mede ângulo entre vetores
- **Dot Product**: Produto escalar para relevância
- **Euclidean Distance**: Distância geométrica

#### **3. 🚀 Algoritmos Otimizados**
- **HNSW**: Hierarchical Navigable Small World
- **IVF**: Inverted File Index
- **PQ**: Product Quantization (compressão)

### 🛠️ **Principais Bancos Vetoriais:**

#### **🌟 Soluções Populares:**

1. **🔧 FAISS** (Meta/Facebook)
   - 🆓 Gratuito e open-source
   - ⚡ Extremamente rápido
   - 🧠 Múltiplos algoritmos
   - 💻 CPU/GPU support

2. **🦄 Pinecone**
   - ☁️ Serviço gerenciado
   - 📈 Escalabilidade automática
   - 💰 Modelo de cobrança por uso
   - 🔧 APIs simples

3. **🔮 Chroma**
   - 🆓 Open-source
   - 🐍 Integração Python nativa
   - 📚 Ótimo para prototipagem
   - 🦜 Integração LangChain

4. **⚡ Qdrant**
   - 🦀 Escrito em Rust
   - 🔥 Performance extrema
   - 🌐 API REST completa
   - 🔧 Self-hosted ou cloud

5. **🕸️ Weaviate**
   - 🧠 GraphQL nativo
   - 🤖 ML pipelines integrados
   - 🌍 Busca multimodal
   - 📊 Schema flexível

### 🎯 **Casos de Uso Essenciais:**

#### **🔍 RAG (Retrieval-Augmented Generation)**
```python
query = "Como funciona habeas corpus?"
similar_docs = vector_db.similarity_search(query, k=5)
context = "\n".join(similar_docs)
response = llm.generate(query + context)
```

#### **🛒 Sistemas de Recomendação**
```python
user_preferences = [0.1, 0.8, -0.2, ...]  # Vetor do usuário
similar_products = vector_db.search(user_preferences)
```

#### **🔐 Detecção de Duplicatas**
```python
new_document_vector = model.encode(new_doc)
duplicates = vector_db.search(new_document_vector, threshold=0.95)
```

#### **🎨 Busca por Imagens**
```python
image_vector = vision_model.encode(image)
similar_images = vector_db.search(image_vector)
```

In [None]:
!pip install faiss-cpu langchain-community -q

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.4/31.4 MB[0m [31m21.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m28.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m64.7/64.7 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.9/50.9 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
google-colab 1.0.0 requires requests==2.32.4, but you have requests 2.32.5 which is incompatible.[0m[31m
[0m

In [None]:
import faiss
import numpy as np
from typing import List, Dict

class FAISSVectorStore:
    """Banco vetorial FAISS simplificado para RAG."""

    def __init__(self, embedding_dim: int = 1024):
        self.embedding_dim = embedding_dim
        self.index = faiss.IndexFlatIP(embedding_dim)  # Cosine similarity
        self.chunks = []  # Lista de textos dos chunks
        self.metadata = []  # Lista de metadados

        print(f"🚀 FAISS criado (dimensão: {embedding_dim})")

    def add_documents(self, embedded_docs: Dict[str, Dict]):
        """Adiciona documentos ao banco vetorial."""
        embeddings_list = []

        for doc_name, doc_data in embedded_docs.items():
            chunks = doc_data['chunks']
            embeddings = doc_data['embeddings']

            for i, (chunk, embedding) in enumerate(zip(chunks, embeddings)):
                embeddings_list.append(embedding)
                self.chunks.append(chunk)
                self.metadata.append({
                    'doc_name': doc_name,
                    'chunk_index': i,
                    'text_preview': chunk[:100] + "..."
                })

        # Normalizar e adicionar ao índice
        embeddings_array = np.array(embeddings_list, dtype=np.float32)
        faiss.normalize_L2(embeddings_array)
        self.index.add(embeddings_array)

        print(f"✅ {len(self.chunks)} chunks indexados!")

    def search(self, query_text: str, embedder, k: int = 3) -> List[Dict]:
        """Busca documentos similares."""
        # Converter query para embedding
        query_embedding = embedder.model.encode([query_text])[0]
        query_embedding = query_embedding.reshape(1, -1).astype(np.float32)
        faiss.normalize_L2(query_embedding)

        # Buscar
        scores, indices = self.index.search(query_embedding, k)

        # Retornar resultados
        results = []
        for score, idx in zip(scores[0], indices[0]):
            if idx >= 0:
                results.append({
                    'text': self.chunks[idx],
                    'score': float(score),
                    'metadata': self.metadata[idx]
                })

        return results

In [None]:
# Testar a versão simplificada do FAISS
if embedded_docs:
    print("🧪 Testando FAISSVectorStore...\n")

    # Criar banco vetorial simplificado
    vector_store = FAISSVectorStore(embedding_dim=1024)  # Legal-BERTimbau-large

    # Adicionar documentos
    vector_store.add_documents(embedded_docs)


🧪 Testando FAISSVectorStore...

🚀 FAISS criado (dimensão: 1024)
✅ 6 chunks indexados!


In [None]:
# Testar busca
test_queries = [
    "O que são direitos fundamentais?",
    "Como funciona habeas corpus?",
    "Princípios constitucionais"
]

for query in test_queries:
    print(f"\n🔍 Query: '{query}'")
    results = vector_store.search(query, embedder, k=2)

    for i, result in enumerate(results, 1):
        print(f"   {i}. Score: {result['score']:.3f}")
        print(f"      Doc: {result['metadata']['doc_name']}")
        print(f"      Preview: {result['text'][:150]}...")
        print()

    print("*"*100)


🔍 Query: 'O que são direitos fundamentais?'
   1. Score: 0.652
      Doc: WEB_01_
      Preview: A Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras específicas de
segurança jurídica
no âmbito do
Direito Público.
Acesse o ...

   2. Score: 0.637
      Doc: WEB_01_
      Preview: aplicação da lei;
direito internacional;
segurança jurídica;
Além disso, a LINDB garante a eficácia da ordem jurídica, na medida em que não se admite ...

****************************************************************************************************

🔍 Query: 'Como funciona habeas corpus?'
   1. Score: 0.619
      Doc: WEB_01_
      Preview: A Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras específicas de
segurança jurídica
no âmbito do
Direito Público.
Acesse o ...

   2. Score: 0.614
      Doc: WEB_02_
      Preview: interpretação do negócio jurídico
“.
Caso imponha-se uma única declaração de vontade para formação do negócio jurídico, tem-se um negóci

# Como montar o RAG?

## Vamos começar pelo Retrieval

In [None]:
class Retriever:
    """
      Classe simplificada para Recuperação de Contexto (Retrieval).
      Recebe vector_store e modelo já configurados.
    """

    def __init__(self, vector_store, embedder, model_name: str):
        """
        Args:
            vector_store: Instância do banco vetorial já configurado
            embedder: Instância do objeto que faz o embedding
            model_name: Nome do modelo para carregar o embedder
        """
        self.vector_store = vector_store
        self.model_name = model_name
        self.embedder = embedder


    def retrieve(self, query: str, k: int = 3) -> List[Dict]:
        """
        Recupera contexto relevante para uma consulta.

        Args:
            query: Pergunta do usuário
            k: Número de chunks a retornar

        Returns:
            Lista de chunks com scores e metadados
        """
        results = self.vector_store.search(query, self.embedder, k)

        # Formatar resultados
        formatted_results = []
        for i, result in enumerate(results, 1):
            formatted_results.append({
                'rank': i,
                'text': result['text'],
                'score': result['score'],
                'metadata': result['metadata']
            })

        return formatted_results

    def get_context(self, query: str, k: int = 3) -> str:
        """
        Retorna contexto formatado para LLMs.

        Args:
            query: Pergunta do usuário
            k: Número de chunks

        Returns:
            String com contexto formatado
        """
        results = self.retrieve(query, k)

        if not results:
            return "Nenhum contexto encontrado."

        # Formatar para LLM
        context_parts = []
        for result in results:
            doc_name = result['metadata']['doc_name']
            score = result['score']
            text = result['text']

            context_parts.append(f"[Fonte: {doc_name} | Score: {score:.3f}]\n{text}")

        return "\n\n---\n\n".join(context_parts)

    def search(self, query: str, k: int = 3, show_details: bool = True):
        """Interface amigável para busca."""
        print(f"🔍 Busca: '{query}'\n")

        results = self.retrieve(query, k)

        if not results:
            print("❌ Nenhum resultado encontrado.")
            return

        print(f"📋 {len(results)} resultado(s):\n")

        for result in results:
            print(f"#{result['rank']} | Score: {result['score']:.3f}")
            if show_details:
                print(f"Doc: {result['metadata']['doc_name']}")
                print(f"Preview: {result['text'][:100]}...")
            print("-" * 50)

### 🎯 Exemplo de Uso do Retrieval

---



In [None]:
# Primeiro você precisa ter um vector_store configurado
# (usando as classes que criamos anteriormente)

# Exemplo: assumindo que você já tem embedded_docs e quer criar um retriever
# Assumindo tb que vc já tem o vector_store
if chunks_langchain:
    print("📚 Criando vector store a partir dos chunks existentes...")

    retriever = Retriever(
            vector_store=vector_store,
            embedder=embedder,
            model_name="rufimelo/Legal-BERTimbau-large"
    )

    print("✅ SimpleRetriever pronto para uso!")

else:
    print("❌ Dados não encontrados!")
    print("💡 Execute as células de chunking primeiro")

📚 Criando vector store a partir dos chunks existentes...
✅ SimpleRetriever pronto para uso!


In [None]:
test_queries = [
        "O que são direitos fundamentais?",
        "Como funciona o habeas corpus?",
        "Quais são os princípios constitucionais?"
    ]
for i, query in enumerate(test_queries, 1):
  print(f"📋 TESTE {i}/3")
  retriever.search(query, k=2, show_details=True)

  if i < len(test_queries):
    print("\n" + "="*50 + "\n")

print("✅ Testes concluídos!")

📋 TESTE 1/3
🔍 Busca: 'O que são direitos fundamentais?'

📋 2 resultado(s):

#1 | Score: 0.652
Doc: WEB_01_
Preview: A Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras específicas de
seguranç...
--------------------------------------------------
#2 | Score: 0.637
Doc: WEB_01_
Preview: aplicação da lei;
direito internacional;
segurança jurídica;
Além disso, a LINDB garante a eficácia ...
--------------------------------------------------


📋 TESTE 2/3
🔍 Busca: 'Como funciona o habeas corpus?'

📋 2 resultado(s):

#1 | Score: 0.636
Doc: WEB_01_
Preview: A Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras específicas de
seguranç...
--------------------------------------------------
#2 | Score: 0.630
Doc: WEB_02_
Preview: interpretação do negócio jurídico
“.
Caso imponha-se uma única declaração de vontade para formação d...
--------------------------------------------------


📋 TESTE 3/3
🔍 Busca: 'Quais são os princípios constitucionais?'

📋

In [None]:
# 📝 Contexto Formatado para LLMs

# Exemplo de como usar Retriever com LLM
if 'retriever' in locals():

    user_question = "Como funciona o habeas corpus no Brasil?"

    print(f"🤔 PERGUNTA DO USUÁRIO:")
    print(f"'{user_question}'\n")

    # Recuperar contexto formatado
    context = retriever.get_context(query=user_question, k=3)

    print("📄 CONTEXTO RECUPERADO:")
    print("=" * 60)
    print(context)
    print("=" * 60)

    # Exemplo de prompt para LLM
    prompt = f"""Contexto:
{context}
Pergunta: {user_question}
Responda com base no contexto fornecido:"""

    print(f"\n🤖 PROMPT PARA LLM:")
    print("=" * 60)
    print(prompt)
    print("=" * 60)

    print("\n💡 Pronto para qualquer LLM!")

else:
    print("❌ SimpleRetriever não configurado!")
    print("💡 Execute as células anteriores")

🤔 PERGUNTA DO USUÁRIO:
'Como funciona o habeas corpus no Brasil?'

📄 CONTEXTO RECUPERADO:
[Fonte: WEB_01_ | Score: 0.697]
A Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras específicas de
segurança jurídica
no âmbito do
Direito Público.
Acesse o Mapa Mental dessa Aula
✅Revisão rápida
✅Memorização simples
✅Maior concentração
✅Simplificação do conteúdo.
SAIBA MAIS
A lei de introdução nasce no direito francês (Código Napoleônico de 1804).
No Brasil, a
lei é fonte primária
do sistema jurídico (
civil law)
.
O Código de Processo Civil apresenta um rol de precedentes no art. 927 e a lei de introdução vem, aos poucos, se adequando a este cenário.
Fala-se que, neste particular, o Brasil está se aproximando ao
common law,
na medida em que valoriza, cada vez mais, os precedentes.
A LINDB regulamenta:
vigência da lei no tempo e no espaço;
revogação da lei;
interpretação;
direito transitório;
aplicação da lei;
direito internacional;
segurança jurídica;
Além disso, a LINDB

# 🤖 Classe de Geração Aumentada (Augmented Generation)

Agora vamos criar uma **classe simples** para o componente de **Geração Aumentada** do RAG. Esta classe vai:

- 🧠 **Integrar com LLMs** (locais ou APIs)
- 📝 **Gerar prompts** estruturados
- ✨ **Combinar contexto + pergunta**
- 🎯 **Resposta final** baseada no contexto recuperado

In [None]:
class AugmentedGenerator:
    """
    Classe simples para Geração Aumentada (Augmented Generation).
    Usa o modelo Legal-BERTimbau-large para gerar respostas.
    O AG de RAG
    """

    def __init__(self, model_name="rufimelo/Legal-BERTimbau-large"):
        """
        Args:
            model_name: Nome do modelo brasileiro para geração
        """
        self.model_name = model_name
        self.llm_model = None

        try:
            from transformers import AutoTokenizer, AutoModelForCausalLM
            print(f"🤖 Carregando modelo: {model_name}")
            print("⏳ Isso pode demorar alguns minutos...")

            self.tokenizer = AutoTokenizer.from_pretrained(model_name)
            self.llm_model = AutoModelForCausalLM.from_pretrained(model_name)

            print("✅ Modelo carregado com sucesso!")
        except ImportError:
            print("❌ Instale: pip install transformers torch")
            print("💡 Usando modo mock para testes")
            self.use_mock = True
        except Exception as e:
            print(f"❌ Erro ao carregar modelo: {e}")
            print("💡 Usando modo mock para testes")
            self.use_mock = True

        print(f"🤖 AugmentedGenerator criado!")
        print(f"   Modelo: {model_name}")
        print(f"   ✅ Pronto para gerar respostas!")

    def create_prompt(
        self,
        question: str,
        context: str,
        template: str = None
    ) -> str:
        """
        Cria prompt estruturado para o LLM.

        Args:
            question: Pergunta do usuário
            context: Contexto recuperado
            template: Template personalizado (opcional)

        Returns:
            Prompt formatado para LLM
        """
        if template is None:
            template = """Contexto:
{context}

Pergunta: {question}

Com base no contexto fornecido acima, responda a pergunta de forma clara e precisa.
Se a informação não estiver completamente no contexto, indique isso claramente.

Resposta:"""

        return template.format(context=context, question=question)

    def generate(self, question: str, context: str) -> str:
        """
        Gera resposta usando o modelo Legal-BERTimbau-large.

        Args:
            question: Pergunta do usuário
            context: Contexto recuperado

        Returns:
            Resposta gerada
        """
        return self._response(question, context)

    def _response(self, question: str, context: str) -> str:
        """Gera resposta usando Legal-BERTimbau-large."""
        try:
            import torch

            # Criar prompt estruturado
            prompt = self.create_prompt(question, context)

            # Tokenizar entrada
            inputs = self.tokenizer.encode(prompt, return_tensors="pt", max_length=512, truncation=True)

            # Gerar resposta
            with torch.no_grad():
                outputs = self.llm_model.generate(
                    inputs,
                    max_length=inputs.shape[1] + 150,  # Resposta de até 150 tokens
                    num_return_sequences=1,
                    temperature=0.7,
                    do_sample=True,
                    pad_token_id=self.tokenizer.eos_token_id
                )

            # Decodificar resposta
            response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)

            # Extrair apenas a parte nova (resposta)
            response_only = response[len(self.tokenizer.decode(inputs[0], skip_special_tokens=True)):].strip()

            return f"🇧🇷 Legal-BERTimbau-large:\n\n{response_only}"

        except Exception as e:
            return f"❌ Erro na geração: {e}\n💡 Usando resposta mock como fallback:\n\n{self._mock_response(question, context)}"



    def answer(self, question: str, context: str, show_prompt: bool = False) -> Dict:
        """
        Interface principal para gerar respostas completas.

        Args:
            question: Pergunta do usuário
            context: Contexto recuperado
            show_prompt: Se deve mostrar o prompt usado

        Returns:
            Dicionário com resposta e metadados
        """
        prompt = self.create_prompt(question, context)
        response = self.generate(question, context)

        result = {
            "question": question,
            "answer": response,
            "context_length": len(context),
            "prompt_length": len(prompt),
            "model": self.model_name
        }

        if show_prompt:
            result["prompt"] = prompt

        return result

    def chat_interface(self, question: str, context: str):
        """Interface amigável para conversação."""
        print(f"❓ PERGUNTA:")
        print(f"'{question}'\n")

        print(f"📄 CONTEXTO: {len(context)} caracteres")
        print(f"🤖 MODELO: {self.model_name}")

        print("💭 GERANDO RESPOSTA...")
        response = self.generate(question, context)

        print("="*60)
        print("🤖 RESPOSTA:")
        print(response)
        print("="*60)

### 🎯 Exemplo de Uso do AugmentedGenerator

---





In [None]:
# Efetuar login no Hugging Face
try:
    from huggingface_hub import login
    from google.colab import userdata

    hf_token = "YOUR_HF_TOKEN_HERE"

    if hf_token:
        print("🔑 Efetuando login no Hugging Face...")
        login(token=hf_token)
        print("✅ Login efetuado com sucesso!")
    else:
        print("❌ Token do Hugging Face não encontrado nos segredos do Colab.")
        print("💡 Adicione seu token de Hugging Face nos segredos do Colab com o nome 'HF_TOKEN'")

except ImportError:
    print("❌ Instale: pip install huggingface_hub")
except Exception as e:
    print(f"❌ Erro ao efetuar login: {e}")

🔑 Efetuando login no Hugging Face...
✅ Login efetuado com sucesso!


In [None]:
# Criar o gerador com modelo brasileiro
generator = AugmentedGenerator(
    model_name="meta-llama/Llama-3.2-1B-Instruct" #pierreguillou/gpt2-small-portuguese
)

🤖 Carregando modelo: meta-llama/Llama-3.2-1B-Instruct
⏳ Isso pode demorar alguns minutos...


tokenizer_config.json:   0%|          | 0.00/54.5k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/877 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.47G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/189 [00:00<?, ?B/s]

✅ Modelo carregado com sucesso!
🤖 AugmentedGenerator criado!
   Modelo: meta-llama/Llama-3.2-1B-Instruct
   ✅ Pronto para gerar respostas!


In [None]:
# Exemplo de contexto (simulando o que vem do retriever)
sample_context = """
Art. 5º da Constituição Federal estabelece que todos são iguais perante a lei,
sem distinção de qualquer natureza, garantindo-se aos brasileiros e aos estrangeiros
residentes no País a inviolabilidade do direito à vida, à liberdade, à igualdade,
à segurança e à propriedade.

O habeas corpus é um remédio constitucional que visa proteger o direito de
locomoção quando alguém sofre ou se acha ameaçado de sofrer violência ou coação
em sua liberdade de locomoção, por ilegalidade ou abuso de poder.
"""

# Pergunta do usuário
user_question = "O que é habeas corpus e quando pode ser usado?"

In [None]:
# Teste 1: Interface de chat
print("📋 TESTE 1: Interface de Chat")
generator.chat_interface(user_question, sample_context)

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


📋 TESTE 1: Interface de Chat
❓ PERGUNTA:
'O que é habeas corpus e quando pode ser usado?'

📄 CONTEXTO: 498 caracteres
🤖 MODELO: meta-llama/Llama-3.2-1B-Instruct
💭 GERANDO RESPOSTA...
🤖 RESPOSTA:
🇧🇷 Legal-BERTimbau-large:

O habeas corpus é um remédio constitucional que visa proteger o direito de locomoção, podendo ser usado quando alguém sofre ou se acha ameaçado de sofrer violência ou coação em sua liberdade de locomoção por ilegalidade ou abuso de poder.

A resposta correta é: O habeas corpus é um remédio constitucional que visa proteger o direito de locomoção, podendo ser usado quando alguém sofre ou se acha ameaçado de sofrer violência ou coação em sua liberdade de locomoção por ilegalidade ou abuso de poder.


In [None]:
# Teste 2: Resposta estruturada
print("📋 TESTE 2: Resposta Estruturada")
result = generator.answer(
    question=user_question,
    context=sample_context,
    show_prompt=True
)

print(f"❓ Pergunta: {result['question']}")
print(f"📊 Contexto: {result['context_length']} chars")
print(f"🤖 Modelo: {result['model']}")
print(f"\n💬 Resposta:\n{result['answer']}")

print("\n✅ Testes concluídos!")

📋 TESTE 2: Resposta Estruturada
❓ Pergunta: O que é habeas corpus e quando pode ser usado?
📊 Contexto: 498 chars
🤖 Modelo: meta-llama/Llama-3.2-1B-Instruct

💬 Resposta:
🇧🇷 Legal-BERTimbau-large:

O habeas corpus é um remédio constitucional que visa proteger o direito de locomoção e pode ser usado em situações em que alguém está sendo ameaçado de sofrer violência ou coação em sua liberdade.

A resposta correta é: O habeas corpus é um remédio constitucional que visa proteger o direito de locomoção.

✅ Testes concluídos!


# 🎓 ATIVIDADE PRÁTICA
## **RAG System Challenge - Sistema de RAG Inteligente**

---

### 📋 **OBJETIVO DA ATIVIDADE**
Implementar um sistema RAG completo para consulta de documentos de um domínio específico, aplicando todos os conceitos aprendidos no notebook.

---

### ⏱️ **DURAÇÃO:** 90 minutos (1h30)

---

### 👥 **MODALIDADE:** Grupos de 3-4 pessoas

---

### 🎯 **CENÁRIO**
Vocês são uma startup de tecnologia jurídica e precisam desenvolver uma ferramenta inteligente para auxiliar cidadãos brasileiros com dúvidas sobre direitos do consumidor, trabalhistas e civis.

---

### 📚 **ETAPAS DO DESAFIO**

## **FASE 1: PREPARAÇÃO (20 min)**

### 🔧 **1.1 Setup do Ambiente**
- [ ] Executar células de instalação de dependências
- [ ] Configurar login no Hugging Face (opcional)
- [ ] Testar carregamento de modelos

### 📄 **1.2 Coleta de Documentos**
Cada grupo deve escolher **uma especialidade jurídica:**

**Opção A - Direito do Consumidor:**
```
- Código de Defesa do Consumidor (CDC)
- Decisões do PROCON
- Jurisprudência sobre compras online
```

**Opção B - Direito Trabalhista:**
```
- Consolidação das Leis do Trabalho (CLT)
- Direitos do trabalhador
- Legislação sobre férias e 13º salário
```

**Opção C - Direito Civil:**
```
- Código Civil Brasileiro
- Direitos de família
- Contratos e obrigações
```

---

## **FASE 2: IMPLEMENTAÇÃO (40 min)**

### 🏗️ **2.1 Construção do Pipeline RAG**
Implementar **4 componentes obrigatórios:**

#### **A) Document Loader Personalizado**
```python
# Criar classe para carregar documentos da sua especialidade
class SpecializedDocumentLoader:
    def __init__(self, specialty="consumer_rights"):
        self.specialty = specialty
    
    def load_documents(self):
        # Implementar carregamento
        pass
```

#### **B) Chunking Strategy Otimizada**
```python
# Criar estratégia de chunking específica para textos jurídicos
class LegalTextChunker:
    def __init__(self, chunk_size=500):
        self.chunk_size = chunk_size
    
    def chunk_by_articles(self, text):
        # Implementar chunking por artigos/parágrafos
        pass
```

#### **C) Retriever Especializado**
```python
# Usar SimpleRetriever como base e personalizar
class LegalRetriever(SimpleRetriever):
    def specialized_search(self, query, n_results=3):
        # Implementar busca especializada
        pass
```

#### **D) Generator Contextual**
```python
# Usar EnhancedBrazilianGenerator como base
class LegalResponseGenerator(EnhancedBrazilianGenerator):
    def generate_legal_advice(self, question, context):
        # Implementar geração de respostas jurídicas
        pass
```

---

## **FASE 3: TESTE E AVALIAÇÃO (20 min)**

### 🧪 **3.1 Casos de Teste Obrigatórios**
Cada grupo deve testar com **3 perguntas específicas** da sua área:

**Exemplos para Direito do Consumidor:**
1. "Quais são meus direitos se o produto chegou com defeito?"
2. "Posso cancelar uma compra online em quanto tempo?"
3. "Como funciona a garantia legal no Brasil?"

### 📊 **3.2 Métricas de Avaliação**
Avaliar o sistema nos critérios:
- **Relevância:** O contexto recuperado é pertinente?
- **Precisão:** A resposta está correta juridicamente?
- **Clareza:** A linguagem é acessível ao cidadão comum?
- **Completude:** A resposta está completa?

---


### 🔬 **RESPONSABILIDADE DOS GRUPOS: PESQUISA E SELEÇÃO DE MODELOS**

---

## 🎯 **IMPORTANTE: ENCONTRAR MODELOS ADEQUADOS É PARTE DO DESAFIO!**

Os templates fornecidos usam modelos **genéricos** como exemplo. **É responsabilidade de cada grupo pesquisar e implementar modelos mais adequados** para sua especialidade jurídica.

---

### 📚 **MODELOS DE EMBEDDINGS - PESQUISA OBRIGATÓRIA**

#### **🔍 O que vocês devem pesquisar:**
- Modelos de embeddings **brasileiros** específicos para área jurídica
- Modelos **multilíngues** com boa performance em português
- Modelos **especializados** em textos legais

#### **💡 Sugestões para começar a pesquisa:**
```python
# Modelos de embeddings para considerar:
embedding_models_to_research = [
    "neuralmind/bert-base-portuguese-cased",           # BERT português geral
    "rufimelo/Legal-BERTimbau-large",                  # BERT jurídico brasileiro
    "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2", # Multilíngue
    "microsoft/multilingual-MiniLM-L12-H384",         # Microsoft multilíngue
    "sentence-transformers/distiluse-base-multilingual-cased-v2"   # Distil multilíngue
]

# ⚠️ VOCÊS DEVEM:
# 1. Testar qual funciona melhor para SUA especialidade
# 2. Verificar dimensões dos embeddings (256, 384, 768, 1024)
# 3. Considerar velocidade vs. qualidade
# 4. Documentar a escolha e justificar
```

---

### 🤖 **MODELOS DE GERAÇÃO - PESQUISA OBRIGATÓRIA**

#### **🔍 O que vocês devem pesquisar:**
- Modelos **generativos brasileiros** adequados para textos jurídicos
- Modelos **open-source** disponíveis no Hugging Face
- Modelos que funcionem **localmente** sem APIs pagas

#### **💡 Sugestões para começar a pesquisa:**
```python
# Modelos generativos para considerar:
generative_models_to_research = [
    "pierreguillou/gpt2-small-portuguese",            # GPT-2 português
    "neuralmind/bert2bert-portuguese",                 # BERT2BERT português  
    "microsoft/DialoGPT-medium",                       # Conversacional
    "facebook/blenderbot-small-90M",                   # Facebook conversacional
    "google/flan-t5-small",                           # T5 multilíngue
    "microsoft/GODEL-v1_1-base-seq2seq"              # Microsoft seq2seq
]

# ⚠️ VOCÊS DEVEM:
# 1. Testar qual gera melhores respostas jurídicas
# 2. Verificar se modelo funciona sem token/API
# 3. Considerar tamanho do modelo vs. recursos disponíveis
# 4. Avaliar qualidade das respostas em português jurídico
# 5. Documentar escolha com justificativa técnica
```

---

### 🏆 **CRITÉRIOS DE AVALIAÇÃO PARA ESCOLHA DE MODELOS**

#### **Embeddings (será avaliado):**
- **Relevância:** O modelo recupera contexto pertinente?
- **Especialização:** Funciona bem com termos jurídicos?
- **Performance:** Velocidade adequada para demo?
- **Justificativa:** Grupo explicou por que escolheu?

#### **Geração (será avaliado):**
- **Qualidade:** Respostas coerentes e corretas?
- **Português:** Linguagem natural e gramaticalmente correta?
- **Contexto Jurídico:** Adequado para orientações legais?
- **Justificativa:** Grupo testou alternativas?

---

### 📋 **ENTREGA OBRIGATÓRIA: RELATÓRIO DE MODELOS**

Cada grupo deve incluir no relatório final:

```markdown
## 🔬 SELEÇÃO E JUSTIFICATIVA DE MODELOS

### Modelo de Embeddings Escolhido:
**Nome:** [nome_do_modelo]
**Justificativa:** [por que escolheram]
**Alternativas testadas:** [outros modelos testados]
**Métricas observadas:** [relevância, velocidade, etc.]

### Modelo de Geração Escolhido:
**Nome:** [nome_do_modelo]  
**Justificativa:** [por que escolheram]
**Alternativas testadas:** [outros modelos testados]
**Qualidade das respostas:** [avaliação subjetiva]

### Dificuldades Encontradas:
- [problema 1 e como resolveram]
- [problema 2 e como resolveram]

### Conclusões:
[reflexão sobre trade-offs e decisões tomadas]
```

---

### 💡 **DICAS PARA PESQUISA EFICIENTE**

#### **🔍 Onde pesquisar:**
1. **Hugging Face Hub:** https://huggingface.co/models
2. **Papers With Code:** https://paperswithcode.com/
3. **GitHub:** Repositórios de NLP em português
4. **Artigos acadêmicos:** Google Scholar sobre "Portuguese legal NLP"

#### **⚡ Como testar rapidamente:**
```python
# Template para teste rápido de modelos
def test_embedding_model(model_name, test_texts):
    try:
        from sentence_transformers import SentenceTransformer
        model = SentenceTransformer(model_name)
        embeddings = model.encode(test_texts)
        print(f"✅ {model_name}: Funcionou! Dimensão: {embeddings.shape}")
        return True
    except Exception as e:
        print(f"❌ {model_name}: Erro - {e}")
        return False

# Textos jurídicos para teste
legal_test_texts = [
    "O consumidor tem direito à informação clara sobre produtos",
    "Art. 6º do Código de Defesa do Consumidor estabelece direitos básicos"
]

# Testar múltiplos modelos rapidamente
models_to_test = ["neuralmind/bert-base-portuguese-cased", "rufimelo/Legal-BERTimbau-large"]
for model in models_to_test:
    test_embedding_model(model, legal_test_texts)
```


**🎯 LEMBRETE:** O objetivo é que vocês **aprendam a avaliar e escolher** modelos adequados para cada contexto, não apenas usar o que está pronto!

# 🚀 PROJETO FINAL DA TURMA
## **Chatbot Jurídico Inteligente com Classificador RAG**

---

### 🎯 **VISÃO GERAL DO PROJETO**

A **atividade prática de sala** foi apenas o **aquecimento**! O **projeto final** da turma é desenvolver um **chatbot jurídico inteligente** que:

1. **🧠 Decide automaticamente** quando usar RAG e quando não usar
2. **🎯 Classifica perguntas** entre diferentes tipos de consulta
3. **💬 Oferece interface conversacional** natural e intuitiva
4. **🧠 Mater a memória da conversa**
4. **⚖️ Mantém conformidade ética** e legal

---

### 📋 **ESCOPO DO PROJETO**

#### **FUNCIONALIDADES OBRIGATÓRIAS:**

##### **1. Sistema de Classificação Inteligente (30 pontos)**
```python
# O chatbot deve identificar automaticamente:
query_types = {
    "rag_required": [
        "Perguntas sobre legislação específica",
        "Consultas que precisam de contexto jurídico",
        "Dúvidas sobre artigos/códigos específicos"
    ],
    "general_conversation": [
        "Cumprimentos e saudações",
        "Perguntas sobre o próprio sistema",
        "Conversas casuais"
    ],
    "out_of_scope": [
        "Perguntas fora do domínio jurídico",
        "Solicitações inadequadas",
        "Assuntos não cobertos pela base de conhecimento"
    ]
}
```

##### **2. Sistema RAG Aprimorado (25 pontos)**
- **Base de conhecimento** expandida (mínimo 50 documentos - grupo deve indicar um Google Drive com os documentos)
- **Múltiplas especialidades** jurídicas integradas
- **Modelos otimizados** (embedding + geração)
- **Busca híbrida** (semântica + palavra-chave)

##### **3. Interface Conversacional (20 pontos)**
- **Chat natural** com histórico de conversas
- **Feedback do usuário** (útil/não útil)
- **Explicações** de quando usa RAG vs. resposta direta

##### **4. Sistema de Confiabilidade (15 pontos)**
- **Disclaimers apropriados** para cada tipo de resposta
- **Indicadores de confiança** nas respostas
- **Limitações claras** do sistema
- **Referências às fontes** utilizadas

##### **5. Avaliação e Métricas (10 pontos)**
- **Testes automatizados** com dataset de validação
- **Métricas de performance** (precisão, recall, F1)
- **Análise de casos extremos**
- **Documentação técnica** completa

---

### ⏰ **Data da Entrega**: 06/10/2025 até às 23:59
Enviar link do Colab ou Github para o email: dimmy.magalhaes@somosicev.com

---

### 📊 **CRITÉRIOS DE AVALIAÇÃO (Total: 100 pontos)**

---

#### **1. SISTEMA DE CLASSIFICAÇÃO INTELIGENTE (30 pontos)**

| Critério | Pontos | Métrica Objetiva |
|----------|--------|------------------|
| **Precisão do Classificador** | 12 pts | • 90-100% = 12 pts<br>• 80-89% = 10 pts<br>• 70-79% = 8 pts<br>• 60-69% = 6 pts<br>• <60% = 0 pts |
| **Cobertura de Casos** | 8 pts | • 4 tipos de query = 8 pts<br>• 3 tipos = 6 pts<br>• 2 tipos = 4 pts<br>• 1 tipo = 2 pts |
| **Tempo de Resposta** | 5 pts | • <1s = 5 pts<br>• 1-2s = 4 pts<br>• 2-3s = 3 pts<br>• >3s = 1 pt |
| **Robustez** | 5 pts | • Trata casos extremos = 5 pts<br>• Trata parcialmente = 3 pts<br>• Não trata = 0 pts |

**Teste Padronizado:** Dataset com 100 perguntas pré-classificadas (25 de cada tipo)

---

#### **2. SISTEMA RAG APRIMORADO (25 pontos)**

| Critério | Pontos | Métrica Objetiva |
|----------|--------|------------------|
| **Qualidade da Base de Conhecimento** | 8 pts | • ≥50 documentos = 8 pts<br>• 40-49 docs = 6 pts<br>• 30-39 docs = 4 pts<br>• 20-29 docs = 2 pts<br>• <20 docs = 0 pts |
| **Relevância da Recuperação** | 7 pts | • Precisão@5 ≥80% = 7 pts<br>• 70-79% = 5 pts<br>• 60-69% = 3 pts<br>• <60% = 0 pts |
| **Qualidade da Geração** | 6 pts | • BLEU score ≥0.6 = 6 pts<br>• 0.4-0.59 = 4 pts<br>• 0.2-0.39 = 2 pts<br>• <0.2 = 0 pts |
| **Múltiplas Especialidades** | 4 pts | • ≥3 especialidades = 4 pts<br>• 2 especialidades = 3 pts<br>• 1 especialidade = 1 pt |

**Teste Padronizado:** 50 perguntas jurídicas com respostas de referência

---

#### **3. INTERFACE CONVERSACIONAL (20 pontos)**

| Critério | Pontos | Métrica Objetiva |
|----------|--------|------------------|
| **Funcionalidade da Interface** | 8 pts | • Interface básica = 8 pts<br>• CLI funcional = 4 pts<br> |
| **Experiência do Usuário** | 5 pts | • Avaliação heurística ≥8/10 = 5 pts<br>• 6-7/10 = 3 pts<br>• 4-5/10 = 1 pt<br>• <4/10 = 0 pts |
| **Histórico e Contexto** | 4 pts | • Mantém contexto completo = 4 pts<br>• Contexto limitado = 2 pts<br>• Sem contexto = 0 pts |
| **Feedback do Usuário** | 3 pts | • Sistema de avaliação implementado = 3 pts<br>• Parcialmente implementado = 1 pt<br>• Não implementado = 0 pts |

---

#### **4. SISTEMA DE CONFIABILIDADE (15 pontos)**

| Critério | Pontos | Métrica Objetiva |
|----------|--------|------------------|
| **Disclaimers Apropriados** | 5 pts | • Todos os tipos de resposta = 5 pts<br>• Maioria dos tipos = 3 pts<br>• Alguns tipos = 1 pt<br>• Nenhum = 0 pts |
| **Indicadores de Confiança** | 4 pts | • Score numérico + explicação = 4 pts<br>• Só score = 2 pts<br>• Indicação básica = 1 pt<br>• Nenhum = 0 pts |
| **Referências às Fontes** | 3 pts | • Citação completa = 3 pts<br>• Citação básica = 2 pts<br>• Menciona fonte = 1 pt<br>• Sem referência = 0 pts |
| **Tratamento de Limitações** | 3 pts | • Explica limitações claramente = 3 pts<br>• Menciona limitações = 2 pts<br>• Limitações implícitas = 1 pt<br>• Não trata = 0 pts |

**Teste Padronizado:** Checklist de conformidade ética e legal

---

#### **5. AVALIAÇÃO E MÉTRICAS (10 pontos)**

| Critério | Pontos | Métrica Objetiva |
|----------|--------|------------------|
| **Testes Automatizados** | 4 pts | • Suite completa de testes = 4 pts<br>• Testes básicos = 2 pts<br>• Testes mínimos = 1 pt<br>• Sem testes = 0 pts |
| **Métricas de Performance** | 3 pts | • ≥5 métricas diferentes = 3 pts<br>• 3-4 métricas = 2 pts<br>• 1-2 métricas = 1 pt<br>• Sem métricas = 0 pts |
| **Análise de Casos Extremos** | 2 pts | • Análise detalhada = 2 pts<br>• Análise básica = 1 pt<br>• Sem análise = 0 pts |
| **Documentação Técnica** | 1 pt | • Documentação completa = 1 pt<br>• Documentação incompleta = 0 pts |

**Teste Padronizado:** Avaliação automática da cobertura de testes e documentação

---

### 🎯 **BENCHMARKS DE REFERÊNCIA**

#### **Datasets de Teste Obrigatórios:**

##### **1. Dataset de Classificação (100 amostras)**
```
- 25 perguntas que REQUEREM RAG
- 25 perguntas de CONVERSA GERAL  
- 25 perguntas que precisam de CÁLCULO
- 25 perguntas FORA DO ESCOPO
```

##### **2. Dataset RAG (50 pares pergunta-resposta)**
```
- Direito do Consumidor: 15 pares
- Direito Trabalhista: 15 pares
- Direito Civil: 10 pares
- Direito Constitucional: 10 pares
```
--

### 📈 **FAIXAS DE NOTA FINAL**

| Nota | Pontuação | Perfil do Projeto |
|------|-----------|-------------------|
| **A** | 90-100 pts | Sistema profissional, pronto para produção |
| **B** | 80-89 pts | Sistema funcional com qualidade comercial |
| **C** | 70-79 pts | Sistema básico mas completo |
| **D** | 60-69 pts | Sistema com funcionalidades limitadas |
| **F** | <60 pts | Sistema incompleto ou não funcional |

---

In [None]:
class RAG:
  def __init__(self,
               generative_model_name = "meta-llama/Llama-3.2-1B-Instruct",
               embedding_dim=1024,
               create_chunks = create_chunks,
               embedding_model="rufimelo/Legal-BERTimbau-large", specialty="consumer_rights"):
    self.specialty = specialty
    self.documentLoader = DocumentLoader()
    self.documentChuker = create_chunks
    self.embedding_model = embedding_model
    self.embedding_dim = embedding_dim
    self.model_name = generative_model_name
    self.embedder = BrazilianEmbeddings(self.embedding_model)
    self.vector_store = FAISSVectorStore(embedding_dim=self.embedding_dim)
    self.retriever = Retriever(self.vector_store, self.embedder, self.model_name)
    self.generator = AugmentedGenerator(model_name=self.model_name)
    self._load_documents()

  def _load_documents(self):
    self.documents = self.documentLoader.load_pdfs()
    self.chunks = self.create_chunks(self.documents)
    self.vector_store.add_documents(self.chunks)

  def _recuperar(self, query, n_results=3):
    context = self.retriever.get_context(query, k=n_results)
    return context

  def perguntar(self, query):
    context = self._recuperar(query)
    resposta = self.generator.generate(query, context)
    return resposta

rag = RAG()



🤖 Carregando modelo: rufimelo/Legal-BERTimbau-large
⏳ Isso pode demorar alguns minutos na primeira vez...


Some weights of BertModel were not initialized from the model checkpoint at rufimelo/Legal-BERTimbau-large and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


✅ Modelo carregado com sucesso!
📏 Dimensão dos embeddings: 1024
🚀 FAISS criado (dimensão: 1024)
🤖 Carregando modelo: meta-llama/Llama-3.2-1B-Instruct
⏳ Isso pode demorar alguns minutos...
