# RAG - Retrieval-Augmented Generation

## Uma Explica√ß√£o Completa sobre Gera√ß√£o Aumentada por Recupera√ß√£o

## 1. Introdu√ß√£o

**RAG (Retrieval-Augmented Generation)** √© uma arquitetura de intelig√™ncia artificial que combina dois componentes principais:

1. **Sistema de Recupera√ß√£o (Retrieval)**: Busca e recupera informa√ß√µes relevantes de uma base de conhecimento externa
2. **Modelo de Gera√ß√£o (Generation)**: Utiliza as informa√ß√µes recuperadas para gerar respostas mais precisas e contextualizadas

Esta abordagem resolve uma das principais limita√ß√µes dos Large Language Models (LLMs): a falta de acesso a informa√ß√µes atualizadas ou espec√≠ficas do dom√≠nio que n√£o estavam presentes durante o treinamento.

## 2. Como Funciona o RAG?

### 2.1 Fluxo de Funcionamento

O processo RAG segue os seguintes passos:

```
Pergunta do Usu√°rio ‚Üí Recupera√ß√£o de Documentos ‚Üí Gera√ß√£o da Resposta
```

**Detalhamento do processo:**

1. **Recebimento da Query**: O usu√°rio faz uma pergunta ou solicita informa√ß√£o
2. **Busca Sem√¢ntica**: O sistema busca documentos relevantes na base de conhecimento usando embeddings
3. **Recupera√ß√£o**: Os documentos mais relevantes s√£o selecionados
4. **Contextualiza√ß√£o**: Os documentos recuperados s√£o combinados com a pergunta original
5. **Gera√ß√£o**: O LLM gera uma resposta baseada tanto no seu conhecimento quanto nas informa√ß√µes recuperadas

### 2.2 Componentes T√©cnicos

- **Vector Store**: Banco de dados vetorial que armazena embeddings dos documentos
- **Embeddings Model**: Modelo que converte texto em representa√ß√µes vetoriais
- **Retriever**: Algoritmo que busca documentos similares (ex: cosine similarity)
- **LLM**: Modelo de linguagem que gera a resposta final

## 3. Vantagens do RAG

### 3.1 Principais Benef√≠cios

**üéØ Precis√£o Aprimorada**
- Acesso a informa√ß√µes espec√≠ficas e atualizadas
- Redu√ß√£o de alucina√ß√µes dos LLMs
- Respostas baseadas em fontes confi√°veis

**‚ö° Flexibilidade**
- Atualiza√ß√£o da base de conhecimento sem retreinamento do modelo
- Adi√ß√£o de documentos espec√≠ficos do dom√≠nio
- Personaliza√ß√£o para diferentes casos de uso

**üí∞ Efici√™ncia de Custos**
- N√£o requer retreinamento de modelos grandes
- Uso de modelos menores com conhecimento externo
- Escalabilidade mais econ√¥mica

**üîç Transpar√™ncia**
- Rastreabilidade das fontes utilizadas
- Possibilidade de verificar informa√ß√µes
- Maior confiabilidade nas respostas

### 3.2 Compara√ß√£o: RAG vs Fine-tuning

| Aspecto | RAG | Fine-tuning |
|---------|-----|-------------|
| **Atualiza√ß√£o** | Din√¢mica | Requer retreinamento |
| **Custo** | Baixo | Alto |
| **Precis√£o** | Alta para informa√ß√µes espec√≠ficas | Alta para tarefas espec√≠ficas |
| **Flexibilidade** | Alta | Baixa |
| **Transpar√™ncia** | Alta | Baixa |

## 4. Tipos de RAG

### 4.1 RAG B√°sico (Naive RAG)
- Abordagem mais simples
- Busca direta por similaridade
- Uma √∫nica recupera√ß√£o por query

### 4.2 RAG Avan√ßado (Advanced RAG)
- **Pr√©-processamento aprimorado**: Chunking inteligente, limpeza de dados
- **Indexa√ß√£o otimizada**: Hierarquias, metadados, m√∫ltiplos √≠ndices
- **Recupera√ß√£o sofisticada**: Re-ranking, fus√£o de resultados

### 4.3 RAG Modular (Modular RAG)
- **Componentes especializados**: Diferentes retrievers para diferentes tipos de dados
- **Pipelines flex√≠veis**: Combina√ß√£o de m√∫ltiplas estrat√©gias
- **Adaptabilidade**: Ajuste din√¢mico baseado no tipo de query

### 4.4 Varia√ß√µes Especializadas

**Self-RAG**
- Auto-avalia√ß√£o da qualidade da recupera√ß√£o
- Decis√£o din√¢mica sobre quando usar recupera√ß√£o

**Corrective RAG (CRAG)**
- Corre√ß√£o autom√°tica de documentos irrelevantes
- Refinamento iterativo da busca

**Adaptive RAG**
- Sele√ß√£o autom√°tica da estrat√©gia de recupera√ß√£o
- Otimiza√ß√£o baseada no contexto da query

## 5. Casos de Uso e Aplica√ß√µes

### 5.1 Aplica√ß√µes Empresariais

**üìö Sistemas de Documenta√ß√£o**
- Base de conhecimento interna
- Manuais t√©cnicos e procedimentos
- FAQs inteligentes

**üè• √Årea da Sa√∫de**
- Consulta a literatura m√©dica
- An√°lise de hist√≥ricos de pacientes
- Suporte a diagn√≥sticos

**‚öñÔ∏è Jur√≠dico**
- Pesquisa em jurisprud√™ncia
- An√°lise de contratos
- Compliance e regulamenta√ß√µes

**üéì Educa√ß√£o**
- Tutores inteligentes
- Sistemas de Q&A acad√™micos
- Personaliza√ß√£o de conte√∫do

### 5.2 Aplica√ß√µes de Consumo

**üõí E-commerce**
- Recomenda√ß√µes personalizadas
- Suporte ao cliente
- Compara√ß√£o de produtos

**üì∞ M√≠dia e Jornalismo**
- Fact-checking automatizado
- S√≠ntese de not√≠cias
- Pesquisa investigativa

**üéÆ Entretenimento**
- NPCs inteligentes em jogos
- Sistemas de recomenda√ß√£o
- Cria√ß√£o de conte√∫do din√¢mico

## 6. Desafios e Limita√ß√µes

### 6.1 Desafios T√©cnicos

**üîç Qualidade da Recupera√ß√£o**
- Documentos irrelevantes ou imprecisos
- Necessidade de ajuste fino dos algoritmos de busca
- Balanceamento entre precis√£o e recall

**üìä Processamento de Dados**
- Chunking eficiente de documentos longos
- Manuten√ß√£o da coer√™ncia sem√¢ntica
- Tratamento de formatos diversos (PDF, HTML, imagens)

**‚ö° Performance**
- Lat√™ncia na recupera√ß√£o de documentos
- Escalabilidade para grandes bases de dados
- Otimiza√ß√£o de recursos computacionais

### 6.2 Desafios de Implementa√ß√£o

**üõ†Ô∏è Complexidade Arquitetural**
- Integra√ß√£o de m√∫ltiplos componentes
- Monitoramento e debugging
- Versionamento de embeddings

**üìà Avalia√ß√£o e M√©tricas**
- Defini√ß√£o de m√©tricas de sucesso
- Avalia√ß√£o da qualidade das respostas
- A/B testing em sistemas RAG

**üîí Seguran√ßa e Privacidade**
- Controle de acesso a documentos sens√≠veis
- Preven√ß√£o de vazamento de informa√ß√µes
- Compliance com regulamenta√ß√µes (LGPD, GDPR)

### 6.3 Limita√ß√µes Conhecidas

- **Depend√™ncia da qualidade dos dados**: Respostas limitadas pela qualidade da base de conhecimento
- **Vi√©s nos documentos**: Propaga√ß√£o de vieses presentes nos dados de origem
- **Contexto limitado**: Dificuldade com queries que requerem racioc√≠nio complexo
- **Atualiza√ß√£o em tempo real**: Desafios para incorporar informa√ß√µes muito recentes

## 7. Ferramentas e Tecnologias

### 7.1 Frameworks e Bibliotecas

**ü¶ú LangChain**
- Framework mais popular para RAG
- Integra√ß√µes com m√∫ltiplos LLMs e vector stores
- Pipelines pr√©-constru√≠dos

**üîó LlamaIndex**
- Especializado em indexa√ß√£o e recupera√ß√£o
- Otimizado para grandes volumes de dados
- M√∫ltiplas estrat√©gias de chunking

**ü§ó Haystack**
- Framework end-to-end da Deepset
- Pipelines modulares e customiz√°veis
- Interface web para desenvolvimento

### 7.2 Vector Databases

**üåü Principais Op√ß√µes:**
- **Pinecone**: Servi√ßo gerenciado, alta performance
- **Weaviate**: Open-source, busca sem√¢ntica avan√ßada
- **Chroma**: Leve, ideal para prototipagem
- **Qdrant**: Russo, focado em performance
- **Milvus**: Escal√°vel, usado em produ√ß√£o

### 7.3 Modelos de Embeddings

**üìù Modelos Populares:**
- **OpenAI Ada-002**: Vers√°til, boa qualidade
- **Sentence-BERT**: Open-source, m√∫ltiplos idiomas
- **E5**: Microsoft, estado da arte
- **BGE**: BAAI, otimizado para chin√™s/ingl√™s

### 7.4 LLMs para Gera√ß√£o

**üî¨ Modelos Comerciais:**
- GPT-4, GPT-3.5 (OpenAI)
- Claude (Anthropic)
- Gemini (Google)

**üåç Modelos Open-Source:**
- Llama 2/3 (Meta)
- Mistral (Mistral AI)
- Vicuna, Alpaca

## 8. Melhores Pr√°ticas e Otimiza√ß√µes

### 8.1 Prepara√ß√£o dos Dados

**üìÑ Estrat√©gias de Chunking:**
- **Tamanho otimizado**: 200-800 tokens por chunk
- **Sobreposi√ß√£o**: 10-20% entre chunks consecutivos
- **Respeitar estrutura**: N√£o quebrar par√°grafos ou se√ß√µes
- **Metadados ricos**: Incluir t√≠tulo, autor, data, categoria

**üßπ Limpeza de Dados:**
- Remo√ß√£o de ru√≠do (headers, footers, navega√ß√£o)
- Normaliza√ß√£o de formata√ß√£o
- Tratamento de caracteres especiais
- Deduplica√ß√£o de conte√∫do

### 8.2 Otimiza√ß√£o da Recupera√ß√£o

**üéØ Estrat√©gias Avan√ßadas:**
- **Hybrid Search**: Combina√ß√£o de busca sem√¢ntica e keyword
- **Re-ranking**: Reordena√ß√£o dos resultados com modelos especializados
- **Query Expansion**: Enriquecimento da query original
- **Multi-vector retrieval**: M√∫ltiplas representa√ß√µes do mesmo documento

**üìä M√©tricas de Avalia√ß√£o:**
- **Retrieval**: Precision@K, Recall@K, NDCG
- **Gera√ß√£o**: BLEU, ROUGE, BERTScore
- **End-to-end**: Avalia√ß√£o humana, satisfa√ß√£o do usu√°rio

### 8.3 Otimiza√ß√£o de Performance

**‚ö° Estrat√©gias de Cache:**
- Cache de embeddings computados
- Cache de resultados de busca frequentes
- Cache de respostas geradas

**üîß Otimiza√ß√µes T√©cnicas:**
- Indexa√ß√£o incremental
- Paraleliza√ß√£o de opera√ß√µes
- Batch processing para embeddings
- Compression de vetores

## 9. Tend√™ncias e Futuro do RAG

### 9.1 Inova√ß√µes Emergentes

**üß† RAG Multimodal**
- Integra√ß√£o de texto, imagens, √°udio e v√≠deo
- Recupera√ß√£o cross-modal
- Gera√ß√£o rica em m√∫ltiplas modalidades

**üîó Graph RAG**
- Utiliza√ß√£o de knowledge graphs
- Recupera√ß√£o baseada em relacionamentos
- Racioc√≠nio estruturado sobre entidades

**ü§ñ Agentes RAG**
- Sistemas aut√¥nomos com RAG
- Planejamento e execu√ß√£o de tarefas
- Intera√ß√£o com APIs e ferramentas externas

### 9.2 Desenvolvimentos T√©cnicos

**‚ö° Efici√™ncia Computacional**
- Quantiza√ß√£o de embeddings
- Modelos de recupera√ß√£o mais leves
- Arquiteturas h√≠bridas

**üéØ Personaliza√ß√£o Avan√ßada**
- RAG adaptativo ao usu√°rio
- Aprendizado cont√≠nuo
- Contextualiza√ß√£o temporal

### 9.3 Impacto Futuro

- **Democratiza√ß√£o do conhecimento**: Acesso facilitado a informa√ß√µes especializadas
- **Transforma√ß√£o empresarial**: Novos modelos de neg√≥cio baseados em conhecimento
- **Pesquisa cient√≠fica**: Acelera√ß√£o da descoberta atrav√©s de s√≠ntese autom√°tica
- **Educa√ß√£o personalizada**: Tutores adaptativos para cada estudante

---

## 10. Conclus√£o

O **RAG representa uma evolu√ß√£o fundamental** na forma como os sistemas de IA acessam e utilizam conhecimento. Ao combinar a capacidade de recupera√ß√£o de informa√ß√µes espec√≠ficas com a flexibilidade dos modelos de linguagem, o RAG oferece:

‚úÖ **Precis√£o aprimorada** atrav√©s de informa√ß√µes contextuais
‚úÖ **Flexibilidade** para atualiza√ß√µes din√¢micas de conhecimento  
‚úÖ **Transpar√™ncia** na origem das informa√ß√µes
‚úÖ **Efici√™ncia** sem necessidade de retreinamento constante

√Ä medida que a tecnologia evolui, esperamos ver **RAG mais sofisticado, multimodal e integrado** em praticamente todas as aplica√ß√µes que envolvem processamento de conhecimento.

O futuro da IA conversacional e dos sistemas de Q&A est√° intrinsecamente ligado aos avan√ßos em RAG, tornando-o uma das tecnologias mais importantes para dominar no ecossistema atual de IA.

---

---

### üéØ Vamos √† Pr√°tica!

In [None]:
!pip install requests beautifulsoup4 -q
!pip install langchain langchain-text-splitters -q
!pip install PyPDF2 -q
!pip install pdfplumber -q
!pip install sentence-transformers transformers torch -q

[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m232.6/232.6 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m42.8/42.8 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m48.5/48.5 kB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m60.0/60.0 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m5.6/5.6 MB[0m [31m60.9 MB/s[0m eta [36m0:00:00[0m
[2K 

# Obtendo dados!


## üìã Implementa√ß√£o Pr√°tica - Leitura de PDFs


In [None]:
# Importa√ß√µes necess√°rias para processamento de PDFs
from pathlib import Path
from typing import List, Dict

# Para processamento de PDFs - instale com: pip install pdfplumber
try:
    import pdfplumber
    PDF_AVAILABLE = True
except ImportError:
    print("‚ö†Ô∏è  Execute: pip install pdfplumber")
    PDF_AVAILABLE = False

In [None]:
class PDFReader:
    """Classe simples para ler PDFs de um diret√≥rio."""

    def __init__(self, data_dir: str = "data"):
        self.data_dir = Path(data_dir)
        self._create_directory()

    def _create_directory(self) -> None:
        """Cria o diret√≥rio se n√£o existir."""
        if not self.data_dir.exists():
            self.data_dir.mkdir(parents=True, exist_ok=True)
            print(f"üìÅ Diret√≥rio '{self.data_dir}' criado.")

    def _find_pdfs(self) -> List[Path]:
        """Encontra todos os PDFs no diret√≥rio."""
        return list(self.data_dir.glob("*.pdf")) + list(self.data_dir.glob("*.PDF"))

    def _extract_text(self, pdf_path: Path) -> str:
        """Extrai texto de um PDF."""
        if not PDF_AVAILABLE:
            return ""

        text = ""
        try:
            with pdfplumber.open(pdf_path) as pdf:
                for page in pdf.pages:
                    page_text = page.extract_text()
                    if page_text:
                        text += page_text + "\n"
        except Exception as e:
            print(f"‚ùå Erro ao processar {pdf_path.name}: {e}")

        return text

    def read_all_pdfs(self) -> Dict[str, str]:
        """L√™ todos os PDFs e retorna dicion√°rio {nome: texto}."""
        pdf_files = self._find_pdfs()

        if not pdf_files:
            print(f"‚ùå Nenhum PDF encontrado em '{self.data_dir}'")
            return {}

        documents = {}
        print(f"üöÄ Processando {len(pdf_files)} arquivo(s)...")

        for pdf_path in pdf_files:
            text = self._extract_text(pdf_path)
            if text.strip():
                documents[pdf_path.name] = text
                print(f"‚úÖ {pdf_path.name}: {len(text):,} caracteres")

        return documents

In [None]:
pdf_reader = PDFReader()

documents = pdf_reader.read_all_pdfs()
print("Finalizado a leitura dos PDFs.")

üìÅ Diret√≥rio 'data' criado.
‚ùå Nenhum PDF encontrado em 'data'
Finalizado a leitura dos PDFs.


## üåê Leitura de Dados de Sites

In [None]:
import requests
from bs4 import BeautifulSoup

def get_web_content(url: str) -> str:
    """Extrai texto de uma p√°gina web."""
    try:
        print(f"üåê Acessando: {url}")

        # Fazer requisi√ß√£o
        response = requests.get(url, timeout=10)
        response.raise_for_status()

        # Extrair texto
        soup = BeautifulSoup(response.text, 'html.parser')

        # Remover elementos desnecess√°rios
        for element in soup(['script', 'style', 'nav', 'footer']):
            element.decompose()

        # Pegar texto limpo
        text = soup.get_text(separator='\n', strip=True)

        print(f"‚úÖ Extra√≠do: {len(text):,} caracteres")
        return text

    except Exception as e:
        print(f"‚ùå Erro: {e}")
        return ""

### üìã Exemplo de Uso do Web Scraper

Vamos testar nossa classe para extrair conte√∫do de sites:

In [None]:
url = "https://direitodesenhado.com.br/lindb-resumo-completo/"

web_content = get_web_content(url)
web_content[:500]  # Mostrar os primeiros 500 caracteres

üåê Acessando: https://direitodesenhado.com.br/lindb-resumo-completo/
‚úÖ Extra√≠do: 30,974 caracteres


'LINDB: Resumo Completo (Atualizado em 2023)\nSaltar para o conte√∫do\nIn√≠cio\n¬ª\nBlog\n¬ª\nDireito Civil\n¬ª\nLINDB: Resumo Completo\nIvo Fernando Pereira Martins\nDireito Civil\nMar√ßo 3, 2020\nLINDB: Resumo Completo\nNavegue por t√≥picos\nToggle\nA\nLINDB\n(Lei de Introdu√ß√£o as Normas do Direito Brasileiro), antiga LIC (Lei de introdu√ß√£o ao C√≥digo Civil), ingressou no sistema jur√≠dico em 1942 com o Decreto 4.657/42.\nImportante observar que, embora seja um decreto, a norma tem status de\nlei ordin√°ria.\nTrata-se de um'

## üìö Classe Unificada para Documentos

Agora vamos criar uma classe que combine PDFs e conte√∫do web:

In [None]:
class DocumentLoader:
    """Classe unificada para carregar documentos de PDFs e URLs."""

    def __init__(self, data_dir: str = "data"):
        self.pdf_reader = PDFReader(data_dir)
        self.documents = {}

    def load_pdfs(self) -> Dict[str, str]:
        """Carrega todos os PDFs do diret√≥rio."""
        print("üìÑ Carregando PDFs...")
        pdf_docs = self.pdf_reader.read_all_pdfs()

        # Adicionar prefixo para identificar fonte
        for filename, content in pdf_docs.items():
            key = f"PDF_{filename}"
            self.documents[key] = content

        return pdf_docs

    def load_urls(self, urls: List[str]) -> Dict[str, str]:
        """Carrega conte√∫do de m√∫ltiplas URLs."""
        print("üåê Carregando URLs...")
        web_docs = {}

        for i, url in enumerate(urls):
            content = get_web_content(url)
            if content:
                # Criar nome simples para a URL
                key = f"WEB_{i+1:02d}_{url.split('/')[-1][:30]}"
                web_docs[key] = content
                self.documents[key] = content

        return web_docs

    def load_all(self, urls: List[str] = None) -> Dict[str, str]:
        """Carrega todos os documentos (PDFs + URLs)."""
        print("üöÄ Carregando todos os documentos...")

        # Carregar PDFs
        self.load_pdfs()

        # Carregar URLs se fornecidas
        if urls:
            self.load_urls(urls)

        # Mostrar resumo
        total_chars = sum(len(content) for content in self.documents.values())
        print(f"\nüìä Resumo final:")
        print(f"   üìö Total de documentos: {len(self.documents)}")
        print(f"   üìù Total de caracteres: {total_chars:,}")

        return self.documents

    def get_documents(self) -> Dict[str, str]:
        """Retorna todos os documentos carregados."""
        return self.documents

    def get_summary(self) -> Dict:
        """Retorna resumo dos documentos."""
        pdf_count = sum(1 for key in self.documents.keys() if key.startswith('PDF_'))
        web_count = sum(1 for key in self.documents.keys() if key.startswith('WEB_'))

        return {
            'total_documents': len(self.documents),
            'pdf_documents': pdf_count,
            'web_documents': web_count,
            'total_characters': sum(len(content) for content in self.documents.values())
        }

### üéØ Exemplo de Uso da Classe Unificada




In [None]:
# Instanciar o carregador de documentos
loader = DocumentLoader()

# Lista de URLs para carregar (exemplo)
urls = [
    "https://direitodesenhado.com.br/lindb-resumo-completo/",
    "https://direitodesenhado.com.br/teoria-geral-do-negocio-juridico/",
]

# Carregar todos os documentos (PDFs + URLs)
documents = loader.load_all(urls)


# Ver resumo
summary = loader.get_summary()
print(f"\nüìà Resumo dos documentos:")
for key, value in summary.items():
    print(f"   {key}: {value:,}" if isinstance(value, int) else f"   {key}: {value}")

üöÄ Carregando todos os documentos...
üìÑ Carregando PDFs...
‚ùå Nenhum PDF encontrado em 'data'
üåê Carregando URLs...
üåê Acessando: https://direitodesenhado.com.br/lindb-resumo-completo/
‚úÖ Extra√≠do: 30,974 caracteres
üåê Acessando: https://direitodesenhado.com.br/teoria-geral-do-negocio-juridico/
‚úÖ Extra√≠do: 15,656 caracteres

üìä Resumo final:
   üìö Total de documentos: 2
   üìù Total de caracteres: 46,630

üìà Resumo dos documentos:
   total_documents: 2
   pdf_documents: 0
   web_documents: 2
   total_characters: 46,630


## üßπ Limpeza e Normaliza√ß√£o de Texto


In [None]:
import re

def clean_text(text: str) -> str:
    """Limpa e normaliza texto de forma simples."""

    # Remover quebras de linha duplas/triplas
    text = re.sub(r'\n\s*\n+', '\n\n', text)

    # Remover espa√ßos em excesso
    text = re.sub(r'[ \t]+', ' ', text)

    # Remover caracteres especiais indesejados (manter acentos)
    text = re.sub(r'[^\w\s\.\,\;\:\!\?\-\(\)\[\]\"\'\n\r]', ' ', text)

    # Remover linhas muito curtas (provavelmente ru√≠do)
    lines = text.split('\n')
    clean_lines = [line.strip() for line in lines if len(line.strip()) > 2]

    # Juntar tudo
    text = '\n'.join(clean_lines)

    # Limpar espa√ßos finais
    text = text.strip()

    return text

# Aplicar limpeza nos documentos carregados
if documents:
    print("üßπ Aplicando limpeza nos documentos...")

    cleaned_documents = {}

    for doc_name, content in documents.items():
        cleaned_content = clean_text(content)
        cleaned_documents[doc_name] = cleaned_content

        # Mostrar diferen√ßa
        original_size = len(content)
        cleaned_size = len(cleaned_content)
        reduction = ((original_size - cleaned_size) / original_size) * 100

        print(f"‚úÖ {doc_name}")
        print(f"   Original: {original_size:,} ‚Üí Limpo: {cleaned_size:,} (-{reduction:.1f}%)")

    print(f"\nüìä Limpeza conclu√≠da para {len(cleaned_documents)} documento(s)")

else:
    print("‚ùå Nenhum documento encontrado para limpar")
    print("üí° Execute as c√©lulas anteriores para carregar documentos primeiro")

üßπ Aplicando limpeza nos documentos...
‚úÖ WEB_01_
   Original: 30,974 ‚Üí Limpo: 30,766 (-0.7%)
‚úÖ WEB_02_
   Original: 15,656 ‚Üí Limpo: 15,522 (-0.9%)

üìä Limpeza conclu√≠da para 2 documento(s)


Um LLM tem um limite de contexto (o n√∫mero de tokens que ele pode processar de uma vez). Por isso, voc√™ n√£o pode enviar documentos inteiros. Voc√™ precisa dividi-los em peda√ßos menores e significativos (chunks).

* **Estrat√©gia de Chunking √© Crucial:**
    * **Tamanho Fixo (Fixed-size):** Simples, mas pode quebrar frases ou ideias no meio. Ex: "dividir a cada 1000 caracteres".
    * **Recursivo (Recursive Character Text Splitter):** Uma abordagem mais inteligente. Tenta dividir por par√°grafos, depois por frases e, por √∫ltimo, por palavras, para manter o contexto sem√¢ntico. √â o m√©todo mais recomendado para come√ßar.
    * **Sem√¢ntico (Semantic Chunking):** Uma t√©cnica avan√ßada que agrupa senten√ßas com base em sua similaridade de embedding, criando chunks que s√£o tematicamente coesos.

**Dica de Excel√™ncia:** A sobreposi√ß√£o de chunks (chunk overlap) √© importante. Fazer com que o final de um chunk seja o in√≠cio do pr√≥ximo (ex: 100-200 caracteres de sobreposi√ß√£o) ajuda a n√£o perder o contexto entre os peda√ßos.

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

def create_chunks(documents: Dict[str, str]) -> Dict[str, List[str]]:
    """
    Aplica chunking usando o RecursiveCharacterTextSplitter do LangChain.
    Muito mais robusto que nossa implementa√ß√£o manual!
    """

    # Configurar o splitter do LangChain
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,           # Tamanho ideal para textos jur√≠dicos
        chunk_overlap=200,         # 20% de sobreposi√ß√£o
        length_function=len,       # Fun√ß√£o para medir tamanho
        separators=[              # Separadores otimizados para portugu√™s
            "\n\n",               # Par√°grafos
            "\n",                 # Quebras de linha
            ". ",                 # Fim de frases
            "! ",                 # Exclama√ß√µes
            "? ",                 # Perguntas
            "; ",                 # Ponto e v√≠rgula
            ", ",                 # V√≠rgulas
            " ",                  # Espa√ßos
            ""                    # Caracteres (√∫ltimo recurso)
        ]
    )

    chunked_docs = {}

    print("ü¶ú Aplicando LangChain RecursiveCharacterTextSplitter...")
    print(f"   üìè Chunk size: {text_splitter._chunk_size}")
    print(f"   üîÑ Overlap: {text_splitter._chunk_overlap}")
    print()

    total_chunks = 0

    for doc_name, content in documents.items():
        print("Executando chunking para o documento", doc_name)
        # Aplicar chunking
        chunks = text_splitter.split_text(content)
        chunked_docs[doc_name] = chunks

        # Estat√≠sticas
        total_chars = len(content)
        chunk_count = len(chunks)
        avg_chunk_size = sum(len(chunk) for chunk in chunks) // max(chunk_count, 1)
        total_chunks += chunk_count

        print(f"üìÑ {doc_name}:")
        print(f"   üìù Original: {total_chars:,} caracteres")
        print(f"   üß© Chunks: {chunk_count}")
        print(f"   üìä Tamanho m√©dio: {avg_chunk_size} chars")

        # Mostrar preview do primeiro chunk
        if chunks:
            preview = chunks[0][:100].replace('\n', ' ').strip()
            print(f"   üëÄ Preview: {preview}...")
        print()

    print(f"‚úÖ Total de chunks gerados: {total_chunks}")
    return chunked_docs

### üéØ Exemplo de Uso do Chunking




In [None]:
documents['WEB_01_']

'LINDB: Resumo Completo (Atualizado em 2023)\nSaltar para o conte√∫do\nIn√≠cio\n¬ª\nBlog\n¬ª\nDireito Civil\n¬ª\nLINDB: Resumo Completo\nIvo Fernando Pereira Martins\nDireito Civil\nMar√ßo 3, 2020\nLINDB: Resumo Completo\nNavegue por t√≥picos\nToggle\nA\nLINDB\n(Lei de Introdu√ß√£o as Normas do Direito Brasileiro), antiga LIC (Lei de introdu√ß√£o ao C√≥digo Civil), ingressou no sistema jur√≠dico em 1942 com o Decreto 4.657/42.\nImportante observar que, embora seja um decreto, a norma tem status de\nlei ordin√°ria.\nTrata-se de um conjunto de normas que aplica-se a todo o Direito (e n√£o apenas ao Direito Civil).\nEm verdade, √© uma norma que\nn√£o regula comportamento, mas regula a pr√≥pria lei\n(aplica√ß√£o, interpreta√ß√£o, etc.).\nFala-se, no Direito, que a LINDB √© uma\nnorma de sobredireito.\nPor isso, inclusive, n√£o fazia sentido manter a nomenclatura ‚ÄúLei de Introdu√ß√£o ao C√≥digo Civil‚Äù.\nA Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras espec√≠

In [None]:
if documents:
    print("üöÄ Aplicando chunking com LangChain nos documentos carregados...\n")

    # Aplicar chunking
    chunks_langchain = create_chunks(documents)

else:
    print("‚ùå Execute as c√©lulas anteriores para carregar documentos primeiro!")

üöÄ Aplicando chunking com LangChain nos documentos carregados...

ü¶ú Aplicando LangChain RecursiveCharacterTextSplitter...
   üìè Chunk size: 1000
   üîÑ Overlap: 200

Executando chunking para o documento WEB_01_
üìÑ WEB_01_:
   üìù Original: 30,974 caracteres
   üß© Chunks: 39
   üìä Tamanho m√©dio: 945 chars
   üëÄ Preview: LINDB: Resumo Completo (Atualizado em 2023) Saltar para o conte√∫do In√≠cio ¬ª Blog ¬ª Direito Civil ¬ª L...

Executando chunking para o documento WEB_02_
üìÑ WEB_02_:
   üìù Original: 15,656 caracteres
   üß© Chunks: 20
   üìä Tamanho m√©dio: 935 chars
   üëÄ Preview: Teoria Geral do Neg√≥cio Jur√≠dico (Direito Civil) - Resumo Completo Saltar para o conte√∫do In√≠cio ¬ª B...

‚úÖ Total de chunks gerados: 59


### Cria√ß√£o de Embeddings e Indexa√ß√£o**
* **Escolha do Modelo de Embedding:** Um modelo de embedding transforma seus chunks de texto em vetores num√©ricos que representam seu significado. A qualidade do seu RAG depende muito deste modelo.
    
* **Gera√ß√£o dos Embeddings:** Aplique o modelo escolhido a cada um dos seus chunks de texto para gerar os vetores.



## üáßüá∑ Melhores Modelos de Embeddings para Portugu√™s Brasileiro

### üèÜ **TOP 3 Recomendados:**

#### 1. **`neuralmind/bert-base-portuguese-cased`**
- üéØ **Especialidade**: Treinado especificamente em portugu√™s brasileiro
- üìä **Performance**: Excelente para textos jur√≠dicos e formais
- üíæ **Tamanho**: ~500MB
- ‚ö° **Velocidade**: R√°pido
- üè¢ **Empresa**: NeuralMind (brasileira)

#### 2. **`sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2`**
- üåç **Especialidade**: Multil√≠ngue com √≥timo suporte a portugu√™s
- üî• **Performance**: Estado da arte para busca sem√¢ntica
- üíæ **Tamanho**: ~420MB
- ‚ö° **Velocidade**: Muito r√°pido
- üéØ **Ideal para**: RAG e retrieval

#### 3. **`rufimelo/Legal-BERTimbau-large`**
- ‚öñÔ∏è **Especialidade**: **ESPEC√çFICO PARA TEXTOS JUR√çDICOS**
- üáßüá∑ **L√≠ngua**: Portugu√™s brasileiro jur√≠dico
- üìä **Performance**: Otimizado para documentos legais
- üíæ **Tamanho**: ~1.2GB

### üìã **Compara√ß√£o R√°pida:**

| Modelo | Portugu√™s-BR | Textos Jur√≠dicos | Tamanho | Velocidade |
|--------|--------------|------------------|---------|------------|
| `neuralmind/bert-base-portuguese-cased` | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê | M√©dio | R√°pido |
| `paraphrase-multilingual-MiniLM-L12-v2` | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | Pequeno | Muito R√°pido |
| `rufimelo/Legal-BERTimbau-large` | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | Grande | M√©dio |

In [None]:
import numpy as np
from sentence_transformers import SentenceTransformer
from typing import List, Dict, Tuple
import warnings

warnings.filterwarnings('ignore')

class BrazilianEmbeddings:
    """
    Classe para gerar embeddings usando modelos otimizados para portugu√™s brasileiro.
    """

    def __init__(self, model_name: str = "rufimelo/Legal-BERTimbau-large"):
        """
        Args:
            model_name: Nome do modelo do Hugging Face
        """
        self.model_name = model_name
        self.model = None
        self._load_model()

    def _load_model(self):
        """Carrega o modelo de embeddings."""
        print(f"ü§ñ Carregando modelo: {self.model_name}")
        print("‚è≥ Isso pode demorar alguns minutos na primeira vez...")

        try:
            self.model = SentenceTransformer(self.model_name)
            print(f"‚úÖ Modelo carregado com sucesso!")
            print(f"üìè Dimens√£o dos embeddings: {self.model.get_sentence_embedding_dimension()}")
        except Exception as e:
            print(f"‚ùå Erro ao carregar modelo: {e}")
            print("üí° Tentando modelo alternativo...")
            # Fallback para modelo multil√≠ngue
            self.model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
            self.model = SentenceTransformer(self.model_name)
            print(f"‚úÖ Modelo alternativo carregado: {self.model_name}")

    def encode_chunks(self, chunks: List[str], show_progress: bool = True) -> np.ndarray:
        """
        Converte lista de chunks em embeddings.

        Args:
            chunks: Lista de textos para converter em embeddings
            show_progress: Mostrar barra de progresso

        Returns:
            Array numpy com embeddings
        """
        if not chunks:
            return np.array([])

        print(f"üîÑ Gerando embeddings para {len(chunks)} chunks...")

        embeddings = self.model.encode(
            chunks,
            show_progress_bar=show_progress,
            batch_size=32,  # Otimizado para n√£o sobrecarregar a mem√≥ria
            convert_to_numpy=True
        )

        print(f"‚úÖ Embeddings gerados: {embeddings.shape}")
        return embeddings

    def encode_documents(self, chunked_docs: Dict[str, List[str]]) -> Dict[str, Dict]:
        """
        Gera embeddings para documentos j√° divididos em chunks.

        Args:
            chunked_docs: {doc_name: [chunk1, chunk2, ...]}

        Returns:
            {doc_name: {'chunks': [...], 'embeddings': array, 'metadata': {...}}}
        """
        processed_docs = {}

        print(f"üß† Processando embeddings para {len(chunked_docs)} documento(s)...")
        print(f"ü§ñ Modelo: {self.model_name}")
        print()

        total_chunks = sum(len(chunks) for chunks in chunked_docs.values())
        processed_chunks = 0

        for doc_name, chunks in chunked_docs.items():
            print(f"üìÑ Processando: {doc_name}")
            print(f"   üß© Chunks: {len(chunks)}")

            # Gerar embeddings
            embeddings = self.encode_chunks(chunks, show_progress=False)

            # Metadados
            metadata = {
                'doc_name': doc_name,
                'num_chunks': len(chunks),
                'embedding_dim': embeddings.shape[1] if len(embeddings) > 0 else 0,
                'avg_chunk_length': sum(len(chunk) for chunk in chunks) // len(chunks),
                'model_used': self.model_name
            }

            processed_docs[doc_name] = {
                'chunks': chunks,
                'embeddings': embeddings,
                'metadata': metadata
            }

            processed_chunks += len(chunks)
            print(f"   ‚úÖ Conclu√≠do ({processed_chunks}/{total_chunks} chunks)")
            print()

        print(f"üéâ Processamento completo!")
        print(f"üìä Total de chunks processados: {processed_chunks}")

        return processed_docs

    def get_model_info(self) -> Dict:
        """Retorna informa√ß√µes sobre o modelo."""
        return {
            'model_name': self.model_name,
            'embedding_dimension': self.model.get_sentence_embedding_dimension(),
            'max_sequence_length': self.model.max_seq_length
        }

In [None]:
embedder = BrazilianEmbeddings("rufimelo/Legal-BERTimbau-large")

ü§ñ Carregando modelo: rufimelo/Legal-BERTimbau-large
‚è≥ Isso pode demorar alguns minutos na primeira vez...




config.json:   0%|          | 0.00/865 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

Some weights of BertModel were not initialized from the model checkpoint at rufimelo/Legal-BERTimbau-large and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


tokenizer_config.json:   0%|          | 0.00/568 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

‚úÖ Modelo carregado com sucesso!
üìè Dimens√£o dos embeddings: 1024


In [None]:
model_info = embedder.get_model_info()
print(f"\nüìä Informa√ß√µes do Modelo:")
for key, value in model_info.items():
    print(f"   {key}: {value}")


üìä Informa√ß√µes do Modelo:
   model_name: rufimelo/Legal-BERTimbau-large
   embedding_dimension: 1024
   max_sequence_length: 512


### üß† **Conceito Fundamental:**

O `max_sequence_length` √© o **n√∫mero m√°ximo de tokens** que o modelo pode processar de uma s√≥ vez.

### üî§ **Token vs Caractere:**

- **Token** ‚â† Caractere
- **1 token** ‚âà 0.75 palavras em portugu√™s
- **512 tokens** ‚âà ~384 palavras ‚âà ~2.500-3.000 caracteres


### üéØ **Por que 512 √© bom para RAG:**

1. **Contexto Suficiente**: 512 tokens capturam contexto sem√¢ntico completo
2. **Performance**: Processar 512 tokens √© r√°pido
3. **Qualidade**: Embeddings mais precisos com textos menores e focados
4. **Memoria**: Menor uso de GPU/RAM

In [None]:
sample_chunks = {}
for doc_name, doc_chunks in chunks_langchain.items():
    # Pegar apenas os primeiros 3 chunks de cada documento para teste
    sample_chunks[doc_name] = doc_chunks[:3]
    print(f"üìÑ {doc_name}: {len(sample_chunks[doc_name])} chunks de teste")

üìÑ WEB_01_: 3 chunks de teste
üìÑ WEB_02_: 3 chunks de teste


In [None]:
embedded_docs = embedder.encode_documents(sample_chunks)

üß† Processando embeddings para 2 documento(s)...
ü§ñ Modelo: rufimelo/Legal-BERTimbau-large

üìÑ Processando: WEB_01_
   üß© Chunks: 3
üîÑ Gerando embeddings para 3 chunks...
‚úÖ Embeddings gerados: (3, 1024)
   ‚úÖ Conclu√≠do (3/6 chunks)

üìÑ Processando: WEB_02_
   üß© Chunks: 3
üîÑ Gerando embeddings para 3 chunks...
‚úÖ Embeddings gerados: (3, 1024)
   ‚úÖ Conclu√≠do (6/6 chunks)

üéâ Processamento completo!
üìä Total de chunks processados: 6


In [None]:
embedded_docs.keys()

dict_keys(['WEB_01_', 'WEB_02_'])

In [None]:
print(f"Qt de embeddings", len(embedded_docs['WEB_01_']['embeddings']))
embedded_docs['WEB_01_']['embeddings']

Qt de embeddings 3


array([[ 0.2584315 ,  0.05535078,  0.03189277, ...,  0.2783965 ,
        -0.57743484, -0.0456107 ],
       [ 0.13816385,  0.0944467 ,  0.03286987, ...,  0.04084489,
        -0.29083595, -0.23160882],
       [ 0.26266158,  0.04782164, -0.03774992, ...,  0.03904825,
        -0.49738538, -0.07781266]], dtype=float32)

In [None]:
emb_1 = embedded_docs['WEB_01_']['embeddings'][0]
emb_1.shape

(1024,)

## üóÑÔ∏è O que √© um Banco Vetorial?

### üìö **Defini√ß√£o Fundamental:**

Um **banco vetorial** (vector database) √© um sistema de armazenamento **especializado** que:
- üß† Armazena **embeddings** (vetores de alta dimensionalidade)
- üîç Realiza **buscas por similaridade** ultrarr√°pidas
- üìä Indexa vetores de forma **otimizada**
- ‚ö° Retorna resultados **ordenados por relev√¢ncia**

### üÜö **Banco Tradicional vs Banco Vetorial:**

| Aspecto | Banco Tradicional | Banco Vetorial |
|---------|------------------|----------------|
| **Dados** | Texto, n√∫meros, datas | Vetores (arrays de n√∫meros) |
| **Busca** | Palavras-chave exatas | Similaridade sem√¢ntica |
| **Consulta** | `WHERE nome = "Jo√£o"` | `similarity(vetor_query, vetor_doc)` |
| **Resultado** | Correspond√™ncia exata | Ordenado por relev√¢ncia |
| **Uso** | CRUD tradicional | IA, ML, RAG, recomenda√ß√µes |

### üîç **Como Funciona a Busca Vetorial:**

1. **üìù Query do usu√°rio**: "O que √© habeas corpus?"
2. **üß† Convers√£o**: Query ‚Üí embedding (vetor de 768 dimens√µes)
3. **üìä Compara√ß√£o**: Calcula similaridade com todos os vetores armazenados
4. **üìã Ranking**: Ordena por maior similaridade (cosine similarity)
5. **‚úÖ Retorno**: Top-k documentos mais relevantes

### üèóÔ∏è **Arquitetura de um Banco Vetorial:**

```
Documento Original ‚Üí Embedding Model ‚Üí Vetor ‚Üí √çndice ‚Üí Busca R√°pida
    "Habeas corpus √©..."     BERT      [0.2, -0.1, 0.8, ...]    HNSW     Millisegundos
```

### üéØ **Principais Caracter√≠sticas:**

#### **1. üìè Alta Dimensionalidade**
- Vetores com 384, 768, 1536+ dimens√µes
- Cada dimens√£o representa uma "caracter√≠stica sem√¢ntica"
- Captura nuances sutis de significado

#### **2. ‚ö° Busca por Similaridade**
- **Cosine Similarity**: Mede √¢ngulo entre vetores
- **Dot Product**: Produto escalar para relev√¢ncia
- **Euclidean Distance**: Dist√¢ncia geom√©trica

#### **3. üöÄ Algoritmos Otimizados**
- **HNSW**: Hierarchical Navigable Small World
- **IVF**: Inverted File Index
- **PQ**: Product Quantization (compress√£o)

### üõ†Ô∏è **Principais Bancos Vetoriais:**

#### **üåü Solu√ß√µes Populares:**

1. **üîß FAISS** (Meta/Facebook)
   - üÜì Gratuito e open-source
   - ‚ö° Extremamente r√°pido
   - üß† M√∫ltiplos algoritmos
   - üíª CPU/GPU support

2. **ü¶Ñ Pinecone**
   - ‚òÅÔ∏è Servi√ßo gerenciado
   - üìà Escalabilidade autom√°tica
   - üí∞ Modelo de cobran√ßa por uso
   - üîß APIs simples

3. **üîÆ Chroma**
   - üÜì Open-source
   - üêç Integra√ß√£o Python nativa
   - üìö √ìtimo para prototipagem
   - ü¶ú Integra√ß√£o LangChain

4. **‚ö° Qdrant**
   - ü¶Ä Escrito em Rust
   - üî• Performance extrema
   - üåê API REST completa
   - üîß Self-hosted ou cloud

5. **üï∏Ô∏è Weaviate**
   - üß† GraphQL nativo
   - ü§ñ ML pipelines integrados
   - üåç Busca multimodal
   - üìä Schema flex√≠vel

### üéØ **Casos de Uso Essenciais:**

#### **üîç RAG (Retrieval-Augmented Generation)**
```python
query = "Como funciona habeas corpus?"
similar_docs = vector_db.similarity_search(query, k=5)
context = "\n".join(similar_docs)
response = llm.generate(query + context)
```

#### **üõí Sistemas de Recomenda√ß√£o**
```python
user_preferences = [0.1, 0.8, -0.2, ...]  # Vetor do usu√°rio
similar_products = vector_db.search(user_preferences)
```

#### **üîê Detec√ß√£o de Duplicatas**
```python
new_document_vector = model.encode(new_doc)
duplicates = vector_db.search(new_document_vector, threshold=0.95)
```

#### **üé® Busca por Imagens**
```python
image_vector = vision_model.encode(image)
similar_images = vector_db.search(image_vector)
```

In [None]:
!pip install faiss-cpu langchain-community -q

[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m31.4/31.4 MB[0m [31m21.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.5/2.5 MB[0m [31m28.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m64.7/64.7 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m50.9/50.9 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
google-colab 1.0.0 req

In [None]:
import faiss
import numpy as np
from typing import List, Dict

class FAISSVectorStore:
    """Banco vetorial FAISS simplificado para RAG."""

    def __init__(self, embedding_dim: int = 1024):
        self.embedding_dim = embedding_dim
        self.index = faiss.IndexFlatIP(embedding_dim)  # Cosine similarity
        self.chunks = []  # Lista de textos dos chunks
        self.metadata = []  # Lista de metadados

        print(f"üöÄ FAISS criado (dimens√£o: {embedding_dim})")

    def add_documents(self, embedded_docs: Dict[str, Dict]):
        """Adiciona documentos ao banco vetorial."""
        embeddings_list = []

        for doc_name, doc_data in embedded_docs.items():
            chunks = doc_data['chunks']
            embeddings = doc_data['embeddings']

            for i, (chunk, embedding) in enumerate(zip(chunks, embeddings)):
                embeddings_list.append(embedding)
                self.chunks.append(chunk)
                self.metadata.append({
                    'doc_name': doc_name,
                    'chunk_index': i,
                    'text_preview': chunk[:100] + "..."
                })

        # Normalizar e adicionar ao √≠ndice
        embeddings_array = np.array(embeddings_list, dtype=np.float32)
        faiss.normalize_L2(embeddings_array)
        self.index.add(embeddings_array)

        print(f"‚úÖ {len(self.chunks)} chunks indexados!")

    def search(self, query_text: str, embedder, k: int = 3) -> List[Dict]:
        """Busca documentos similares."""
        # Converter query para embedding
        query_embedding = embedder.model.encode([query_text])[0]
        query_embedding = query_embedding.reshape(1, -1).astype(np.float32)
        faiss.normalize_L2(query_embedding)

        # Buscar
        scores, indices = self.index.search(query_embedding, k)

        # Retornar resultados
        results = []
        for score, idx in zip(scores[0], indices[0]):
            if idx >= 0:
                results.append({
                    'text': self.chunks[idx],
                    'score': float(score),
                    'metadata': self.metadata[idx]
                })

        return results

In [None]:
# Testar a vers√£o simplificada do FAISS
if embedded_docs:
    print("üß™ Testando FAISSVectorStore...\n")

    # Criar banco vetorial simplificado
    vector_store = FAISSVectorStore(embedding_dim=1024)  # Legal-BERTimbau-large

    # Adicionar documentos
    vector_store.add_documents(embedded_docs)


üß™ Testando FAISSVectorStore...

üöÄ FAISS criado (dimens√£o: 1024)
‚úÖ 6 chunks indexados!


In [None]:
# Testar busca
test_queries = [
    "O que s√£o direitos fundamentais?",
    "Como funciona habeas corpus?",
    "Princ√≠pios constitucionais"
]

for query in test_queries:
    print(f"\nüîç Query: '{query}'")
    results = vector_store.search(query, embedder, k=2)

    for i, result in enumerate(results, 1):
        print(f"   {i}. Score: {result['score']:.3f}")
        print(f"      Doc: {result['metadata']['doc_name']}")
        print(f"      Preview: {result['text'][:150]}...")
        print()

    print("*"*100)


üîç Query: 'O que s√£o direitos fundamentais?'
   1. Score: 0.652
      Doc: WEB_01_
      Preview: A Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras espec√≠ficas de
seguran√ßa jur√≠dica
no √¢mbito do
Direito P√∫blico.
Acesse o ...

   2. Score: 0.637
      Doc: WEB_01_
      Preview: aplica√ß√£o da lei;
direito internacional;
seguran√ßa jur√≠dica;
Al√©m disso, a LINDB garante a efic√°cia da ordem jur√≠dica, na medida em que n√£o se admite ...

****************************************************************************************************

üîç Query: 'Como funciona habeas corpus?'
   1. Score: 0.619
      Doc: WEB_01_
      Preview: A Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras espec√≠ficas de
seguran√ßa jur√≠dica
no √¢mbito do
Direito P√∫blico.
Acesse o ...

   2. Score: 0.614
      Doc: WEB_02_
      Preview: interpreta√ß√£o do neg√≥cio jur√≠dico
‚Äú.
Caso imponha-se uma √∫nica declara√ß√£o de vontade para forma√ß√£o d

# Como montar o RAG?

## Vamos come√ßar pelo Retrieval

In [None]:
class Retriever:
    """
      Classe simplificada para Recupera√ß√£o de Contexto (Retrieval).
      Recebe vector_store e modelo j√° configurados.
    """

    def __init__(self, vector_store, embedder, model_name: str):
        """
        Args:
            vector_store: Inst√¢ncia do banco vetorial j√° configurado
            embedder: Inst√¢ncia do objeto que faz o embedding
            model_name: Nome do modelo para carregar o embedder
        """
        self.vector_store = vector_store
        self.model_name = model_name
        self.embedder = embedder


    def retrieve(self, query: str, k: int = 3) -> List[Dict]:
        """
        Recupera contexto relevante para uma consulta.

        Args:
            query: Pergunta do usu√°rio
            k: N√∫mero de chunks a retornar

        Returns:
            Lista de chunks com scores e metadados
        """
        results = self.vector_store.search(query, self.embedder, k)

        # Formatar resultados
        formatted_results = []
        for i, result in enumerate(results, 1):
            formatted_results.append({
                'rank': i,
                'text': result['text'],
                'score': result['score'],
                'metadata': result['metadata']
            })

        return formatted_results

    def get_context(self, query: str, k: int = 3) -> str:
        """
        Retorna contexto formatado para LLMs.

        Args:
            query: Pergunta do usu√°rio
            k: N√∫mero de chunks

        Returns:
            String com contexto formatado
        """
        results = self.retrieve(query, k)

        if not results:
            return "Nenhum contexto encontrado."

        # Formatar para LLM
        context_parts = []
        for result in results:
            doc_name = result['metadata']['doc_name']
            score = result['score']
            text = result['text']

            context_parts.append(f"[Fonte: {doc_name} | Score: {score:.3f}]\n{text}")

        return "\n\n---\n\n".join(context_parts)

    def search(self, query: str, k: int = 3, show_details: bool = True):
        """Interface amig√°vel para busca."""
        print(f"üîç Busca: '{query}'\n")

        results = self.retrieve(query, k)

        if not results:
            print("‚ùå Nenhum resultado encontrado.")
            return

        print(f"üìã {len(results)} resultado(s):\n")

        for result in results:
            print(f"#{result['rank']} | Score: {result['score']:.3f}")
            if show_details:
                print(f"Doc: {result['metadata']['doc_name']}")
                print(f"Preview: {result['text'][:100]}...")
            print("-" * 50)

### üéØ Exemplo de Uso do Retrieval

---



In [None]:
# Primeiro voc√™ precisa ter um vector_store configurado
# (usando as classes que criamos anteriormente)

# Exemplo: assumindo que voc√™ j√° tem embedded_docs e quer criar um retriever
# Assumindo tb que vc j√° tem o vector_store
if chunks_langchain:
    print("üìö Criando vector store a partir dos chunks existentes...")

    retriever = Retriever(
            vector_store=vector_store,
            embedder=embedder,
            model_name="rufimelo/Legal-BERTimbau-large"
    )

    print("‚úÖ SimpleRetriever pronto para uso!")

else:
    print("‚ùå Dados n√£o encontrados!")
    print("üí° Execute as c√©lulas de chunking primeiro")

üìö Criando vector store a partir dos chunks existentes...
‚úÖ SimpleRetriever pronto para uso!


In [None]:
test_queries = [
        "O que s√£o direitos fundamentais?",
        "Como funciona o habeas corpus?",
        "Quais s√£o os princ√≠pios constitucionais?"
    ]
for i, query in enumerate(test_queries, 1):
  print(f"üìã TESTE {i}/3")
  retriever.search(query, k=2, show_details=True)

  if i < len(test_queries):
    print("\n" + "="*50 + "\n")

print("‚úÖ Testes conclu√≠dos!")

üìã TESTE 1/3
üîç Busca: 'O que s√£o direitos fundamentais?'

üìã 2 resultado(s):

#1 | Score: 0.652
Doc: WEB_01_
Preview: A Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras espec√≠ficas de
seguran√ß...
--------------------------------------------------
#2 | Score: 0.637
Doc: WEB_01_
Preview: aplica√ß√£o da lei;
direito internacional;
seguran√ßa jur√≠dica;
Al√©m disso, a LINDB garante a efic√°cia ...
--------------------------------------------------


üìã TESTE 2/3
üîç Busca: 'Como funciona o habeas corpus?'

üìã 2 resultado(s):

#1 | Score: 0.636
Doc: WEB_01_
Preview: A Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras espec√≠ficas de
seguran√ß...
--------------------------------------------------
#2 | Score: 0.630
Doc: WEB_02_
Preview: interpreta√ß√£o do neg√≥cio jur√≠dico
‚Äú.
Caso imponha-se uma √∫nica declara√ß√£o de vontade para forma√ß√£o d...
--------------------------------------------------


üìã TESTE 3/3
üîç Busca:

In [None]:
# üìù Contexto Formatado para LLMs

# Exemplo de como usar Retriever com LLM
if 'retriever' in locals():

    user_question = "Como funciona o habeas corpus no Brasil?"

    print(f"ü§î PERGUNTA DO USU√ÅRIO:")
    print(f"'{user_question}'\n")

    # Recuperar contexto formatado
    context = retriever.get_context(query=user_question, k=3)

    print("üìÑ CONTEXTO RECUPERADO:")
    print("=" * 60)
    print(context)
    print("=" * 60)

    # Exemplo de prompt para LLM
    prompt = f"""Contexto:
{context}
Pergunta: {user_question}
Responda com base no contexto fornecido:"""

    print(f"\nü§ñ PROMPT PARA LLM:")
    print("=" * 60)
    print(prompt)
    print("=" * 60)

    print("\nüí° Pronto para qualquer LLM!")

else:
    print("‚ùå SimpleRetriever n√£o configurado!")
    print("üí° Execute as c√©lulas anteriores")

ü§î PERGUNTA DO USU√ÅRIO:
'Como funciona o habeas corpus no Brasil?'

üìÑ CONTEXTO RECUPERADO:
[Fonte: WEB_01_ | Score: 0.697]
A Lei 13.655/18 incluiu alguns artigos com o objetivo de regulamentar regras espec√≠ficas de
seguran√ßa jur√≠dica
no √¢mbito do
Direito P√∫blico.
Acesse o Mapa Mental dessa Aula
‚úÖRevis√£o r√°pida
‚úÖMemoriza√ß√£o simples
‚úÖMaior concentra√ß√£o
‚úÖSimplifica√ß√£o do conte√∫do.
SAIBA MAIS
A lei de introdu√ß√£o nasce no direito franc√™s (C√≥digo Napole√¥nico de 1804).
No Brasil, a
lei √© fonte prim√°ria
do sistema jur√≠dico (
civil law)
.
O C√≥digo de Processo Civil apresenta um rol de precedentes no art. 927 e a lei de introdu√ß√£o vem, aos poucos, se adequando a este cen√°rio.
Fala-se que, neste particular, o Brasil est√° se aproximando ao
common law,
na medida em que valoriza, cada vez mais, os precedentes.
A LINDB regulamenta:
vig√™ncia da lei no tempo e no espa√ßo;
revoga√ß√£o da lei;
interpreta√ß√£o;
direito transit√≥rio;
aplica√ß√£o da lei;
direito int

# ü§ñ Classe de Gera√ß√£o Aumentada (Augmented Generation)

Agora vamos criar uma **classe simples** para o componente de **Gera√ß√£o Aumentada** do RAG. Esta classe vai:

- üß† **Integrar com LLMs** (locais ou APIs)
- üìù **Gerar prompts** estruturados
- ‚ú® **Combinar contexto + pergunta**
- üéØ **Resposta final** baseada no contexto recuperado

In [None]:
class AugmentedGenerator:
    """
    Classe simples para Gera√ß√£o Aumentada (Augmented Generation).
    Usa o modelo Legal-BERTimbau-large para gerar respostas.
    O AG de RAG
    """

    def __init__(self, model_name="rufimelo/Legal-BERTimbau-large"):
        """
        Args:
            model_name: Nome do modelo brasileiro para gera√ß√£o
        """
        self.model_name = model_name
        self.llm_model = None

        try:
            from transformers import AutoTokenizer, AutoModelForCausalLM
            print(f"ü§ñ Carregando modelo: {model_name}")
            print("‚è≥ Isso pode demorar alguns minutos...")

            self.tokenizer = AutoTokenizer.from_pretrained(model_name)
            self.llm_model = AutoModelForCausalLM.from_pretrained(model_name)

            print("‚úÖ Modelo carregado com sucesso!")
        except ImportError:
            print("‚ùå Instale: pip install transformers torch")
            print("üí° Usando modo mock para testes")
            self.use_mock = True
        except Exception as e:
            print(f"‚ùå Erro ao carregar modelo: {e}")
            print("üí° Usando modo mock para testes")
            self.use_mock = True

        print(f"ü§ñ AugmentedGenerator criado!")
        print(f"   Modelo: {model_name}")
        print(f"   ‚úÖ Pronto para gerar respostas!")

    def create_prompt(
        self,
        question: str,
        context: str,
        template: str = None
    ) -> str:
        """
        Cria prompt estruturado para o LLM.

        Args:
            question: Pergunta do usu√°rio
            context: Contexto recuperado
            template: Template personalizado (opcional)

        Returns:
            Prompt formatado para LLM
        """
        if template is None:
            template = """Contexto:
{context}

Pergunta: {question}

Com base no contexto fornecido acima, responda a pergunta de forma clara e precisa.
Se a informa√ß√£o n√£o estiver completamente no contexto, indique isso claramente.

Resposta:"""

        return template.format(context=context, question=question)

    def generate(self, question: str, context: str) -> str:
        """
        Gera resposta usando o modelo Legal-BERTimbau-large.

        Args:
            question: Pergunta do usu√°rio
            context: Contexto recuperado

        Returns:
            Resposta gerada
        """
        return self._response(question, context)

    def _response(self, question: str, context: str) -> str:
        """Gera resposta usando Legal-BERTimbau-large."""
        try:
            import torch

            # Criar prompt estruturado
            prompt = self.create_prompt(question, context)

            # Tokenizar entrada
            inputs = self.tokenizer.encode(prompt, return_tensors="pt", max_length=512, truncation=True)

            # Gerar resposta
            with torch.no_grad():
                outputs = self.llm_model.generate(
                    inputs,
                    max_length=inputs.shape[1] + 150,  # Resposta de at√© 150 tokens
                    num_return_sequences=1,
                    temperature=0.7,
                    do_sample=True,
                    pad_token_id=self.tokenizer.eos_token_id
                )

            # Decodificar resposta
            response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)

            # Extrair apenas a parte nova (resposta)
            response_only = response[len(self.tokenizer.decode(inputs[0], skip_special_tokens=True)):].strip()

            return f"üáßüá∑ Legal-BERTimbau-large:\n\n{response_only}"

        except Exception as e:
            return f"‚ùå Erro na gera√ß√£o: {e}\nüí° Usando resposta mock como fallback:\n\n{self._mock_response(question, context)}"



    def answer(self, question: str, context: str, show_prompt: bool = False) -> Dict:
        """
        Interface principal para gerar respostas completas.

        Args:
            question: Pergunta do usu√°rio
            context: Contexto recuperado
            show_prompt: Se deve mostrar o prompt usado

        Returns:
            Dicion√°rio com resposta e metadados
        """
        prompt = self.create_prompt(question, context)
        response = self.generate(question, context)

        result = {
            "question": question,
            "answer": response,
            "context_length": len(context),
            "prompt_length": len(prompt),
            "model": self.model_name
        }

        if show_prompt:
            result["prompt"] = prompt

        return result

    def chat_interface(self, question: str, context: str):
        """Interface amig√°vel para conversa√ß√£o."""
        print(f"‚ùì PERGUNTA:")
        print(f"'{question}'\n")

        print(f"üìÑ CONTEXTO: {len(context)} caracteres")
        print(f"ü§ñ MODELO: {self.model_name}")

        print("üí≠ GERANDO RESPOSTA...")
        response = self.generate(question, context)

        print("="*60)
        print("ü§ñ RESPOSTA:")
        print(response)
        print("="*60)

### üéØ Exemplo de Uso do AugmentedGenerator

---





In [None]:
# Efetuar login no Hugging Face
try:
    from huggingface_hub import login
    from google.colab import userdata

    hf_token = "YOUR_HF_TOKEN_HERE"

    if hf_token:
        print("üîë Efetuando login no Hugging Face...")
        login(token=hf_token)
        print("‚úÖ Login efetuado com sucesso!")
    else:
        print("‚ùå Token do Hugging Face n√£o encontrado nos segredos do Colab.")
        print("üí° Adicione seu token de Hugging Face nos segredos do Colab com o nome 'HF_TOKEN'")

except ImportError:
    print("‚ùå Instale: pip install huggingface_hub")
except Exception as e:
    print(f"‚ùå Erro ao efetuar login: {e}")

üîë Efetuando login no Hugging Face...
‚úÖ Login efetuado com sucesso!


In [None]:
# Criar o gerador com modelo brasileiro
generator = AugmentedGenerator(
    model_name="meta-llama/Llama-3.2-1B-Instruct" #pierreguillou/gpt2-small-portuguese
)

ü§ñ Carregando modelo: meta-llama/Llama-3.2-1B-Instruct
‚è≥ Isso pode demorar alguns minutos...


tokenizer_config.json:   0%|          | 0.00/54.5k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/877 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.47G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/189 [00:00<?, ?B/s]

‚úÖ Modelo carregado com sucesso!
ü§ñ AugmentedGenerator criado!
   Modelo: meta-llama/Llama-3.2-1B-Instruct
   ‚úÖ Pronto para gerar respostas!


In [None]:
# Exemplo de contexto (simulando o que vem do retriever)
sample_context = """
Art. 5¬∫ da Constitui√ß√£o Federal estabelece que todos s√£o iguais perante a lei,
sem distin√ß√£o de qualquer natureza, garantindo-se aos brasileiros e aos estrangeiros
residentes no Pa√≠s a inviolabilidade do direito √† vida, √† liberdade, √† igualdade,
√† seguran√ßa e √† propriedade.

O habeas corpus √© um rem√©dio constitucional que visa proteger o direito de
locomo√ß√£o quando algu√©m sofre ou se acha amea√ßado de sofrer viol√™ncia ou coa√ß√£o
em sua liberdade de locomo√ß√£o, por ilegalidade ou abuso de poder.
"""

# Pergunta do usu√°rio
user_question = "O que √© habeas corpus e quando pode ser usado?"

In [None]:
# Teste 1: Interface de chat
print("üìã TESTE 1: Interface de Chat")
generator.chat_interface(user_question, sample_context)

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


üìã TESTE 1: Interface de Chat
‚ùì PERGUNTA:
'O que √© habeas corpus e quando pode ser usado?'

üìÑ CONTEXTO: 498 caracteres
ü§ñ MODELO: meta-llama/Llama-3.2-1B-Instruct
üí≠ GERANDO RESPOSTA...
ü§ñ RESPOSTA:
üáßüá∑ Legal-BERTimbau-large:

O habeas corpus √© um rem√©dio constitucional que visa proteger o direito de locomo√ß√£o, podendo ser usado quando algu√©m sofre ou se acha amea√ßado de sofrer viol√™ncia ou coa√ß√£o em sua liberdade de locomo√ß√£o por ilegalidade ou abuso de poder.

A resposta correta √©: O habeas corpus √© um rem√©dio constitucional que visa proteger o direito de locomo√ß√£o, podendo ser usado quando algu√©m sofre ou se acha amea√ßado de sofrer viol√™ncia ou coa√ß√£o em sua liberdade de locomo√ß√£o por ilegalidade ou abuso de poder.


In [None]:
# Teste 2: Resposta estruturada
print("üìã TESTE 2: Resposta Estruturada")
result = generator.answer(
    question=user_question,
    context=sample_context,
    show_prompt=True
)

print(f"‚ùì Pergunta: {result['question']}")
print(f"üìä Contexto: {result['context_length']} chars")
print(f"ü§ñ Modelo: {result['model']}")
print(f"\nüí¨ Resposta:\n{result['answer']}")

print("\n‚úÖ Testes conclu√≠dos!")

üìã TESTE 2: Resposta Estruturada
‚ùì Pergunta: O que √© habeas corpus e quando pode ser usado?
üìä Contexto: 498 chars
ü§ñ Modelo: meta-llama/Llama-3.2-1B-Instruct

üí¨ Resposta:
üáßüá∑ Legal-BERTimbau-large:

O habeas corpus √© um rem√©dio constitucional que visa proteger o direito de locomo√ß√£o e pode ser usado em situa√ß√µes em que algu√©m est√° sendo amea√ßado de sofrer viol√™ncia ou coa√ß√£o em sua liberdade.

A resposta correta √©: O habeas corpus √© um rem√©dio constitucional que visa proteger o direito de locomo√ß√£o.

‚úÖ Testes conclu√≠dos!


# üéì ATIVIDADE PR√ÅTICA
## **RAG System Challenge - Sistema de RAG Inteligente**

---

### üìã **OBJETIVO DA ATIVIDADE**
Implementar um sistema RAG completo para consulta de documentos de um dom√≠nio espec√≠fico, aplicando todos os conceitos aprendidos no notebook.

---

### ‚è±Ô∏è **DURA√á√ÉO:** 90 minutos (1h30)

---

### üë• **MODALIDADE:** Grupos de 3-4 pessoas

---

### üéØ **CEN√ÅRIO**
Voc√™s s√£o uma startup de tecnologia jur√≠dica e precisam desenvolver uma ferramenta inteligente para auxiliar cidad√£os brasileiros com d√∫vidas sobre direitos do consumidor, trabalhistas e civis.

---

### üìö **ETAPAS DO DESAFIO**

## **FASE 1: PREPARA√á√ÉO (20 min)**

### üîß **1.1 Setup do Ambiente**
- [ ] Executar c√©lulas de instala√ß√£o de depend√™ncias
- [ ] Configurar login no Hugging Face (opcional)
- [ ] Testar carregamento de modelos

### üìÑ **1.2 Coleta de Documentos**
Cada grupo deve escolher **uma especialidade jur√≠dica:**

**Op√ß√£o A - Direito do Consumidor:**
```
- C√≥digo de Defesa do Consumidor (CDC)
- Decis√µes do PROCON
- Jurisprud√™ncia sobre compras online
```

**Op√ß√£o B - Direito Trabalhista:**
```
- Consolida√ß√£o das Leis do Trabalho (CLT)
- Direitos do trabalhador
- Legisla√ß√£o sobre f√©rias e 13¬∫ sal√°rio
```

**Op√ß√£o C - Direito Civil:**
```
- C√≥digo Civil Brasileiro
- Direitos de fam√≠lia
- Contratos e obriga√ß√µes
```

---

## **FASE 2: IMPLEMENTA√á√ÉO (40 min)**

### üèóÔ∏è **2.1 Constru√ß√£o do Pipeline RAG**
Implementar **4 componentes obrigat√≥rios:**

#### **A) Document Loader Personalizado**
```python
# Criar classe para carregar documentos da sua especialidade
class SpecializedDocumentLoader:
    def __init__(self, specialty="consumer_rights"):
        self.specialty = specialty
    
    def load_documents(self):
        # Implementar carregamento
        pass
```

#### **B) Chunking Strategy Otimizada**
```python
# Criar estrat√©gia de chunking espec√≠fica para textos jur√≠dicos
class LegalTextChunker:
    def __init__(self, chunk_size=500):
        self.chunk_size = chunk_size
    
    def chunk_by_articles(self, text):
        # Implementar chunking por artigos/par√°grafos
        pass
```

#### **C) Retriever Especializado**
```python
# Usar SimpleRetriever como base e personalizar
class LegalRetriever(SimpleRetriever):
    def specialized_search(self, query, n_results=3):
        # Implementar busca especializada
        pass
```

#### **D) Generator Contextual**
```python
# Usar EnhancedBrazilianGenerator como base
class LegalResponseGenerator(EnhancedBrazilianGenerator):
    def generate_legal_advice(self, question, context):
        # Implementar gera√ß√£o de respostas jur√≠dicas
        pass
```

---

## **FASE 3: TESTE E AVALIA√á√ÉO (20 min)**

### üß™ **3.1 Casos de Teste Obrigat√≥rios**
Cada grupo deve testar com **3 perguntas espec√≠ficas** da sua √°rea:

**Exemplos para Direito do Consumidor:**
1. "Quais s√£o meus direitos se o produto chegou com defeito?"
2. "Posso cancelar uma compra online em quanto tempo?"
3. "Como funciona a garantia legal no Brasil?"

### üìä **3.2 M√©tricas de Avalia√ß√£o**
Avaliar o sistema nos crit√©rios:
- **Relev√¢ncia:** O contexto recuperado √© pertinente?
- **Precis√£o:** A resposta est√° correta juridicamente?
- **Clareza:** A linguagem √© acess√≠vel ao cidad√£o comum?
- **Completude:** A resposta est√° completa?

---


### üî¨ **RESPONSABILIDADE DOS GRUPOS: PESQUISA E SELE√á√ÉO DE MODELOS**

---

## üéØ **IMPORTANTE: ENCONTRAR MODELOS ADEQUADOS √â PARTE DO DESAFIO!**

Os templates fornecidos usam modelos **gen√©ricos** como exemplo. **√â responsabilidade de cada grupo pesquisar e implementar modelos mais adequados** para sua especialidade jur√≠dica.

---

### üìö **MODELOS DE EMBEDDINGS - PESQUISA OBRIGAT√ìRIA**

#### **üîç O que voc√™s devem pesquisar:**
- Modelos de embeddings **brasileiros** espec√≠ficos para √°rea jur√≠dica
- Modelos **multil√≠ngues** com boa performance em portugu√™s
- Modelos **especializados** em textos legais

#### **üí° Sugest√µes para come√ßar a pesquisa:**
```python
# Modelos de embeddings para considerar:
embedding_models_to_research = [
    "neuralmind/bert-base-portuguese-cased",           # BERT portugu√™s geral
    "rufimelo/Legal-BERTimbau-large",                  # BERT jur√≠dico brasileiro
    "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2", # Multil√≠ngue
    "microsoft/multilingual-MiniLM-L12-H384",         # Microsoft multil√≠ngue
    "sentence-transformers/distiluse-base-multilingual-cased-v2"   # Distil multil√≠ngue
]

# ‚ö†Ô∏è VOC√äS DEVEM:
# 1. Testar qual funciona melhor para SUA especialidade
# 2. Verificar dimens√µes dos embeddings (256, 384, 768, 1024)
# 3. Considerar velocidade vs. qualidade
# 4. Documentar a escolha e justificar
```

---

### ü§ñ **MODELOS DE GERA√á√ÉO - PESQUISA OBRIGAT√ìRIA**

#### **üîç O que voc√™s devem pesquisar:**
- Modelos **generativos brasileiros** adequados para textos jur√≠dicos
- Modelos **open-source** dispon√≠veis no Hugging Face
- Modelos que funcionem **localmente** sem APIs pagas

#### **üí° Sugest√µes para come√ßar a pesquisa:**
```python
# Modelos generativos para considerar:
generative_models_to_research = [
    "pierreguillou/gpt2-small-portuguese",            # GPT-2 portugu√™s
    "neuralmind/bert2bert-portuguese",                 # BERT2BERT portugu√™s  
    "microsoft/DialoGPT-medium",                       # Conversacional
    "facebook/blenderbot-small-90M",                   # Facebook conversacional
    "google/flan-t5-small",                           # T5 multil√≠ngue
    "microsoft/GODEL-v1_1-base-seq2seq"              # Microsoft seq2seq
]

# ‚ö†Ô∏è VOC√äS DEVEM:
# 1. Testar qual gera melhores respostas jur√≠dicas
# 2. Verificar se modelo funciona sem token/API
# 3. Considerar tamanho do modelo vs. recursos dispon√≠veis
# 4. Avaliar qualidade das respostas em portugu√™s jur√≠dico
# 5. Documentar escolha com justificativa t√©cnica
```

---

### üèÜ **CRIT√âRIOS DE AVALIA√á√ÉO PARA ESCOLHA DE MODELOS**

#### **Embeddings (ser√° avaliado):**
- **Relev√¢ncia:** O modelo recupera contexto pertinente?
- **Especializa√ß√£o:** Funciona bem com termos jur√≠dicos?
- **Performance:** Velocidade adequada para demo?
- **Justificativa:** Grupo explicou por que escolheu?

#### **Gera√ß√£o (ser√° avaliado):**
- **Qualidade:** Respostas coerentes e corretas?
- **Portugu√™s:** Linguagem natural e gramaticalmente correta?
- **Contexto Jur√≠dico:** Adequado para orienta√ß√µes legais?
- **Justificativa:** Grupo testou alternativas?

---

### üìã **ENTREGA OBRIGAT√ìRIA: RELAT√ìRIO DE MODELOS**

Cada grupo deve incluir no relat√≥rio final:

```markdown
## üî¨ SELE√á√ÉO E JUSTIFICATIVA DE MODELOS

### Modelo de Embeddings Escolhido:
**Nome:** [nome_do_modelo]
**Justificativa:** [por que escolheram]
**Alternativas testadas:** [outros modelos testados]
**M√©tricas observadas:** [relev√¢ncia, velocidade, etc.]

### Modelo de Gera√ß√£o Escolhido:
**Nome:** [nome_do_modelo]  
**Justificativa:** [por que escolheram]
**Alternativas testadas:** [outros modelos testados]
**Qualidade das respostas:** [avalia√ß√£o subjetiva]

### Dificuldades Encontradas:
- [problema 1 e como resolveram]
- [problema 2 e como resolveram]

### Conclus√µes:
[reflex√£o sobre trade-offs e decis√µes tomadas]
```

---

### üí° **DICAS PARA PESQUISA EFICIENTE**

#### **üîç Onde pesquisar:**
1. **Hugging Face Hub:** https://huggingface.co/models
2. **Papers With Code:** https://paperswithcode.com/
3. **GitHub:** Reposit√≥rios de NLP em portugu√™s
4. **Artigos acad√™micos:** Google Scholar sobre "Portuguese legal NLP"

#### **‚ö° Como testar rapidamente:**
```python
# Template para teste r√°pido de modelos
def test_embedding_model(model_name, test_texts):
    try:
        from sentence_transformers import SentenceTransformer
        model = SentenceTransformer(model_name)
        embeddings = model.encode(test_texts)
        print(f"‚úÖ {model_name}: Funcionou! Dimens√£o: {embeddings.shape}")
        return True
    except Exception as e:
        print(f"‚ùå {model_name}: Erro - {e}")
        return False

# Textos jur√≠dicos para teste
legal_test_texts = [
    "O consumidor tem direito √† informa√ß√£o clara sobre produtos",
    "Art. 6¬∫ do C√≥digo de Defesa do Consumidor estabelece direitos b√°sicos"
]

# Testar m√∫ltiplos modelos rapidamente
models_to_test = ["neuralmind/bert-base-portuguese-cased", "rufimelo/Legal-BERTimbau-large"]
for model in models_to_test:
    test_embedding_model(model, legal_test_texts)
```


**üéØ LEMBRETE:** O objetivo √© que voc√™s **aprendam a avaliar e escolher** modelos adequados para cada contexto, n√£o apenas usar o que est√° pronto!

# üöÄ PROJETO FINAL DA TURMA
## **Chatbot Jur√≠dico Inteligente com Classificador RAG**

---

### üéØ **VIS√ÉO GERAL DO PROJETO**

A **atividade pr√°tica de sala** foi apenas o **aquecimento**! O **projeto final** da turma √© desenvolver um **chatbot jur√≠dico inteligente** que:

1. **üß† Decide automaticamente** quando usar RAG e quando n√£o usar
2. **üéØ Classifica perguntas** entre diferentes tipos de consulta
3. **üí¨ Oferece interface conversacional** natural e intuitiva
4. **üß† Mater a mem√≥ria da conversa**
4. **‚öñÔ∏è Mant√©m conformidade √©tica** e legal

---

### üìã **ESCOPO DO PROJETO**

#### **FUNCIONALIDADES OBRIGAT√ìRIAS:**

##### **1. Sistema de Classifica√ß√£o Inteligente (30 pontos)**
```python
# O chatbot deve identificar automaticamente:
query_types = {
    "rag_required": [
        "Perguntas sobre legisla√ß√£o espec√≠fica",
        "Consultas que precisam de contexto jur√≠dico",
        "D√∫vidas sobre artigos/c√≥digos espec√≠ficos"
    ],
    "general_conversation": [
        "Cumprimentos e sauda√ß√µes",
        "Perguntas sobre o pr√≥prio sistema",
        "Conversas casuais"
    ],
    "out_of_scope": [
        "Perguntas fora do dom√≠nio jur√≠dico",
        "Solicita√ß√µes inadequadas",
        "Assuntos n√£o cobertos pela base de conhecimento"
    ]
}
```

##### **2. Sistema RAG Aprimorado (25 pontos)**
- **Base de conhecimento** expandida (m√≠nimo 50 documentos - grupo deve indicar um Google Drive com os documentos)
- **M√∫ltiplas especialidades** jur√≠dicas integradas
- **Modelos otimizados** (embedding + gera√ß√£o)
- **Busca h√≠brida** (sem√¢ntica + palavra-chave)

##### **3. Interface Conversacional (20 pontos)**
- **Chat natural** com hist√≥rico de conversas
- **Feedback do usu√°rio** (√∫til/n√£o √∫til)
- **Explica√ß√µes** de quando usa RAG vs. resposta direta

##### **4. Sistema de Confiabilidade (15 pontos)**
- **Disclaimers apropriados** para cada tipo de resposta
- **Indicadores de confian√ßa** nas respostas
- **Limita√ß√µes claras** do sistema
- **Refer√™ncias √†s fontes** utilizadas

##### **5. Avalia√ß√£o e M√©tricas (10 pontos)**
- **Testes automatizados** com dataset de valida√ß√£o
- **M√©tricas de performance** (precis√£o, recall, F1)
- **An√°lise de casos extremos**
- **Documenta√ß√£o t√©cnica** completa

---

### ‚è∞ **Data da Entrega**: 06/10/2025 at√© √†s 23:59
Enviar link do Colab ou Github para o email: dimmy.magalhaes@somosicev.com

---

### üìä **CRIT√âRIOS DE AVALIA√á√ÉO (Total: 100 pontos)**

---

#### **1. SISTEMA DE CLASSIFICA√á√ÉO INTELIGENTE (30 pontos)**

| Crit√©rio | Pontos | M√©trica Objetiva |
|----------|--------|------------------|
| **Precis√£o do Classificador** | 12 pts | ‚Ä¢ 90-100% = 12 pts<br>‚Ä¢ 80-89% = 10 pts<br>‚Ä¢ 70-79% = 8 pts<br>‚Ä¢ 60-69% = 6 pts<br>‚Ä¢ <60% = 0 pts |
| **Cobertura de Casos** | 8 pts | ‚Ä¢ 4 tipos de query = 8 pts<br>‚Ä¢ 3 tipos = 6 pts<br>‚Ä¢ 2 tipos = 4 pts<br>‚Ä¢ 1 tipo = 2 pts |
| **Tempo de Resposta** | 5 pts | ‚Ä¢ <1s = 5 pts<br>‚Ä¢ 1-2s = 4 pts<br>‚Ä¢ 2-3s = 3 pts<br>‚Ä¢ >3s = 1 pt |
| **Robustez** | 5 pts | ‚Ä¢ Trata casos extremos = 5 pts<br>‚Ä¢ Trata parcialmente = 3 pts<br>‚Ä¢ N√£o trata = 0 pts |

**Teste Padronizado:** Dataset com 100 perguntas pr√©-classificadas (25 de cada tipo)

---

#### **2. SISTEMA RAG APRIMORADO (25 pontos)**

| Crit√©rio | Pontos | M√©trica Objetiva |
|----------|--------|------------------|
| **Qualidade da Base de Conhecimento** | 8 pts | ‚Ä¢ ‚â•50 documentos = 8 pts<br>‚Ä¢ 40-49 docs = 6 pts<br>‚Ä¢ 30-39 docs = 4 pts<br>‚Ä¢ 20-29 docs = 2 pts<br>‚Ä¢ <20 docs = 0 pts |
| **Relev√¢ncia da Recupera√ß√£o** | 7 pts | ‚Ä¢ Precis√£o@5 ‚â•80% = 7 pts<br>‚Ä¢ 70-79% = 5 pts<br>‚Ä¢ 60-69% = 3 pts<br>‚Ä¢ <60% = 0 pts |
| **Qualidade da Gera√ß√£o** | 6 pts | ‚Ä¢ BLEU score ‚â•0.6 = 6 pts<br>‚Ä¢ 0.4-0.59 = 4 pts<br>‚Ä¢ 0.2-0.39 = 2 pts<br>‚Ä¢ <0.2 = 0 pts |
| **M√∫ltiplas Especialidades** | 4 pts | ‚Ä¢ ‚â•3 especialidades = 4 pts<br>‚Ä¢ 2 especialidades = 3 pts<br>‚Ä¢ 1 especialidade = 1 pt |

**Teste Padronizado:** 50 perguntas jur√≠dicas com respostas de refer√™ncia

---

#### **3. INTERFACE CONVERSACIONAL (20 pontos)**

| Crit√©rio | Pontos | M√©trica Objetiva |
|----------|--------|------------------|
| **Funcionalidade da Interface** | 8 pts | ‚Ä¢ Interface b√°sica = 8 pts<br>‚Ä¢ CLI funcional = 4 pts<br> |
| **Experi√™ncia do Usu√°rio** | 5 pts | ‚Ä¢ Avalia√ß√£o heur√≠stica ‚â•8/10 = 5 pts<br>‚Ä¢ 6-7/10 = 3 pts<br>‚Ä¢ 4-5/10 = 1 pt<br>‚Ä¢ <4/10 = 0 pts |
| **Hist√≥rico e Contexto** | 4 pts | ‚Ä¢ Mant√©m contexto completo = 4 pts<br>‚Ä¢ Contexto limitado = 2 pts<br>‚Ä¢ Sem contexto = 0 pts |
| **Feedback do Usu√°rio** | 3 pts | ‚Ä¢ Sistema de avalia√ß√£o implementado = 3 pts<br>‚Ä¢ Parcialmente implementado = 1 pt<br>‚Ä¢ N√£o implementado = 0 pts |

---

#### **4. SISTEMA DE CONFIABILIDADE (15 pontos)**

| Crit√©rio | Pontos | M√©trica Objetiva |
|----------|--------|------------------|
| **Disclaimers Apropriados** | 5 pts | ‚Ä¢ Todos os tipos de resposta = 5 pts<br>‚Ä¢ Maioria dos tipos = 3 pts<br>‚Ä¢ Alguns tipos = 1 pt<br>‚Ä¢ Nenhum = 0 pts |
| **Indicadores de Confian√ßa** | 4 pts | ‚Ä¢ Score num√©rico + explica√ß√£o = 4 pts<br>‚Ä¢ S√≥ score = 2 pts<br>‚Ä¢ Indica√ß√£o b√°sica = 1 pt<br>‚Ä¢ Nenhum = 0 pts |
| **Refer√™ncias √†s Fontes** | 3 pts | ‚Ä¢ Cita√ß√£o completa = 3 pts<br>‚Ä¢ Cita√ß√£o b√°sica = 2 pts<br>‚Ä¢ Menciona fonte = 1 pt<br>‚Ä¢ Sem refer√™ncia = 0 pts |
| **Tratamento de Limita√ß√µes** | 3 pts | ‚Ä¢ Explica limita√ß√µes claramente = 3 pts<br>‚Ä¢ Menciona limita√ß√µes = 2 pts<br>‚Ä¢ Limita√ß√µes impl√≠citas = 1 pt<br>‚Ä¢ N√£o trata = 0 pts |

**Teste Padronizado:** Checklist de conformidade √©tica e legal

---

#### **5. AVALIA√á√ÉO E M√âTRICAS (10 pontos)**

| Crit√©rio | Pontos | M√©trica Objetiva |
|----------|--------|------------------|
| **Testes Automatizados** | 4 pts | ‚Ä¢ Suite completa de testes = 4 pts<br>‚Ä¢ Testes b√°sicos = 2 pts<br>‚Ä¢ Testes m√≠nimos = 1 pt<br>‚Ä¢ Sem testes = 0 pts |
| **M√©tricas de Performance** | 3 pts | ‚Ä¢ ‚â•5 m√©tricas diferentes = 3 pts<br>‚Ä¢ 3-4 m√©tricas = 2 pts<br>‚Ä¢ 1-2 m√©tricas = 1 pt<br>‚Ä¢ Sem m√©tricas = 0 pts |
| **An√°lise de Casos Extremos** | 2 pts | ‚Ä¢ An√°lise detalhada = 2 pts<br>‚Ä¢ An√°lise b√°sica = 1 pt<br>‚Ä¢ Sem an√°lise = 0 pts |
| **Documenta√ß√£o T√©cnica** | 1 pt | ‚Ä¢ Documenta√ß√£o completa = 1 pt<br>‚Ä¢ Documenta√ß√£o incompleta = 0 pts |

**Teste Padronizado:** Avalia√ß√£o autom√°tica da cobertura de testes e documenta√ß√£o

---

### üéØ **BENCHMARKS DE REFER√äNCIA**

#### **Datasets de Teste Obrigat√≥rios:**

##### **1. Dataset de Classifica√ß√£o (100 amostras)**
```
- 25 perguntas que REQUEREM RAG
- 25 perguntas de CONVERSA GERAL  
- 25 perguntas que precisam de C√ÅLCULO
- 25 perguntas FORA DO ESCOPO
```

##### **2. Dataset RAG (50 pares pergunta-resposta)**
```
- Direito do Consumidor: 15 pares
- Direito Trabalhista: 15 pares
- Direito Civil: 10 pares
- Direito Constitucional: 10 pares
```
--

### üìà **FAIXAS DE NOTA FINAL**

| Nota | Pontua√ß√£o | Perfil do Projeto |
|------|-----------|-------------------|
| **A** | 90-100 pts | Sistema profissional, pronto para produ√ß√£o |
| **B** | 80-89 pts | Sistema funcional com qualidade comercial |
| **C** | 70-79 pts | Sistema b√°sico mas completo |
| **D** | 60-69 pts | Sistema com funcionalidades limitadas |
| **F** | <60 pts | Sistema incompleto ou n√£o funcional |

---

In [None]:
class RAG:
  def __init__(self,
               generative_model_name = "meta-llama/Llama-3.2-1B-Instruct",
               embedding_dim=1024,
               create_chunks = create_chunks,
               embedding_model="rufimelo/Legal-BERTimbau-large", specialty="consumer_rights"):
    self.specialty = specialty
    self.documentLoader = DocumentLoader()
    self.documentChuker = create_chunks
    self.embedding_model = embedding_model
    self.embedding_dim = embedding_dim
    self.model_name = generative_model_name
    self.embedder = BrazilianEmbeddings(self.embedding_model)
    self.vector_store = FAISSVectorStore(embedding_dim=self.embedding_dim)
    self.retriever = Retriever(self.vector_store, self.embedder, self.model_name)
    self.generator = AugmentedGenerator(model_name=self.model_name)
    self._load_documents()

  def _load_documents(self):
    self.documents = self.documentLoader.load_pdfs()
    self.chunks = self.create_chunks(self.documents)
    self.vector_store.add_documents(self.chunks)

  def _recuperar(self, query, n_results=3):
    context = self.retriever.get_context(query, k=n_results)
    return context

  def perguntar(self, query):
    context = self._recuperar(query)
    resposta = self.generator.generate(query, context)
    return resposta

rag = RAG()



ü§ñ Carregando modelo: rufimelo/Legal-BERTimbau-large
‚è≥ Isso pode demorar alguns minutos na primeira vez...


Some weights of BertModel were not initialized from the model checkpoint at rufimelo/Legal-BERTimbau-large and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


‚úÖ Modelo carregado com sucesso!
üìè Dimens√£o dos embeddings: 1024
üöÄ FAISS criado (dimens√£o: 1024)
ü§ñ Carregando modelo: meta-llama/Llama-3.2-1B-Instruct
‚è≥ Isso pode demorar alguns minutos...
