# üîç Similaridade de Cossenos vs. BM25: Potencializando Sistemas RAG com Busca H√≠brida

Este notebook explica em detalhes a implementa√ß√£o de um sistema RAG (Retrieval-Augmented Generation) h√≠brido para consultas √† LGPD, combinando a for√ßa sem√¢ntica dos embeddings vetoriais com a precis√£o l√©xica do algoritmo BM25.

## üìä Compara√ß√£o de T√©cnicas de Busca

| Caracter√≠stica | Similaridade de Cossenos (Embeddings) | BM25 | Abordagem H√≠brida |
|---------------|---------------------------------------|------|-------------------|
| Base matem√°tica | √Ålgebra linear e espa√ßo vetorial | Teoria da informa√ß√£o e estat√≠stica | Combina√ß√£o ponderada |
| Capta√ß√£o sem√¢ntica | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| Correspond√™ncia exata | ‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| Tratamento de termos raros | ‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| Sensibilidade a contexto | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| Robustez a sin√¥nimos | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê |
| Requisitos computacionais | Alto (gera√ß√£o de embeddings) | M√©dio | Alto |

## üîç Por que BM25 + Similaridade de Cossenos √â Superior

A busca h√≠brida combina o melhor de dois mundos: a **compreens√£o sem√¢ntica de embeddings vetoriais** com a **precis√£o l√©xica do BM25**. Esta combina√ß√£o resolve as limita√ß√µes fundamentais de cada abordagem quando usada isoladamente.

### üß© Entendendo os Embeddings Vetoriais

Os embeddings vetoriais transformam texto em vetores de alta dimens√£o onde a similaridade de cossenos entre vetores representa a proximidade sem√¢ntica entre os textos. Esta t√©cnica √© poderosa para capturar:

- **Rela√ß√µes sem√¢nticas**: Compreende que "prote√ß√£o de dados" e "privacidade de informa√ß√µes" s√£o conceitos relacionados
- **Contexto lingu√≠stico**: Captura o significado das palavras em seu contexto
- **Similaridade conceitual**: Identifica textos conceitualmente similares mesmo com vocabul√°rio diferente

### ‚ö†Ô∏è Limita√ß√µes da Similaridade de Cossenos

A similaridade de cossenos aplicada em embeddings vetoriais, apesar de poderosa, apresenta defici√™ncias importantes:

1. **Problema dos Termos Raros**: Termos t√©cnicos, nomenclaturas espec√≠ficas ou entidades raras frequentemente s√£o "dilu√≠dos" no espa√ßo vetorial. Por exemplo, c√≥digos de artigos espec√≠ficos da LGPD podem n√£o ser adequadamente representados.

2. **Correspond√™ncia Inexata**: Pode falhar ao n√£o conseguir distinguir entre termos semanticamente pr√≥ximos mas tecnicamente distintos. Por exemplo, "controlador de dados" e "operador de dados" s√£o conceitos distintos na LGPD, mas podem ter embeddings pr√≥ximos.

3. **Vocabul√°rio Limitado**: Embeddings podem n√£o representar adequadamente termos fora do vocabul√°rio de treinamento, como terminologias jur√≠dicas espec√≠ficas da legisla√ß√£o brasileira.

4. **Fen√¥meno da "M√©dia"**: Trechos longos acabam tendo suas caracter√≠sticas espec√≠ficas atenuadas quando comprimidos em um √∫nico vetor, perdendo detalhes importantes em documentos jur√≠dicos extensos.

### üìà A For√ßa do BM25

O algoritmo BM25 (Best Matching 25) √© uma evolu√ß√£o sofisticada dos modelos estat√≠sticos TF-IDF (Term Frequency-Inverse Document Frequency) que incorpora melhorias significativas:

1. **Satura√ß√£o de Frequ√™ncia**: Utiliza uma fun√ß√£o de satura√ß√£o que evita que termos repetidos dominem a pontua√ß√£o, seguindo a intui√ß√£o de que a relev√¢ncia n√£o aumenta linearmente com a frequ√™ncia do termo.

2. **Normaliza√ß√£o de Tamanho de Documento**: Ajusta pontua√ß√µes para reduzir o vi√©s em documentos mais longos, permitindo compara√ß√µes mais justas entre trechos de diferentes tamanhos da LGPD.

3. **Valoriza√ß√£o de Termos Raros**: Atribui pontua√ß√£o mais alta para termos que raramente aparecem na cole√ß√£o, destacando termos t√©cnicos espec√≠ficos da legisla√ß√£o.

4. **Correspond√™ncia L√©xica Precisa**: Excelente para identificar termos t√©cnicos e palavras-chave espec√≠ficas, como "encarregado", "ANPD" ou "consentimento".

#### üßÆ A F√≥rmula do BM25

```
score(D,Q) = ‚àë(IDF(qi) √ó (f(qi,D) √ó (k1+1)) / (f(qi,D) + k1 √ó (1-b+b √ó |D|/avgdl)))
```

Onde:
- `D` √© o documento (chunk de texto)
- `Q` √© a consulta
- `qi` s√£o os termos da consulta
- `f(qi,D)` √© a frequ√™ncia do termo no documento
- `|D|` √© o tamanho do documento
- `avgdl` √© o tamanho m√©dio dos documentos na cole√ß√£o
- `k1` e `b` s√£o par√¢metros de ajuste (tipicamente k1=1.2 e b=0.75)

### üí° A Magia da Abordagem H√≠brida

O sistema RAG implementado combina essas abordagens em uma busca h√≠brida atrav√©s de uma f√≥rmula de pondera√ß√£o:

```
score_h√≠brido = Œ± √ó score_embeddings + (1-Œ±) √ó score_BM25
```

Onde `Œ±` √© um par√¢metro de balanceamento (0.5 no c√≥digo atual, representando peso igual para ambas as t√©cnicas).

#### üìä Fluxo de Recupera√ß√£o H√≠brida

1. **Consulta Paralela**: A consulta do usu√°rio √© processada simultaneamente pelo sistema de embeddings e pelo BM25
2. **Uni√£o de Candidatos**: Os resultados de ambos os sistemas s√£o combinados em um conjunto √∫nico de candidatos
3. **Reordena√ß√£o H√≠brida**: Cada documento candidato recebe uma pontua√ß√£o combinada
4. **Sele√ß√£o Final**: Os documentos com maior pontua√ß√£o h√≠brida s√£o selecionados

#### üåü Benef√≠cios Tang√≠veis para RAG:

1. **Melhor Precis√£o para Termos T√©cnicos**: Legisla√ß√£o como a LGPD cont√©m termos jur√≠dicos espec√≠ficos que o BM25 captura com precis√£o, como "titular de dados", "controlador" ou "operador".

2. **Maior Diversidade nas Respostas**: O BM25 recupera documentos que podem ser relevantes mas semanticamente distantes no espa√ßo vetorial, enriquecendo o contexto fornecido ao LLM.

3. **Robustez a Consultas Complexas**: Consultas que mesclam conceitos gerais com termos espec√≠ficos s√£o melhor atendidas pela combina√ß√£o de m√©todos.

4. **Complementaridade**: Uma t√©cnica compensa as falhas da outra, criando um sistema mais resiliente a diferentes tipos de consultas.

5. **Menor Sensibilidade a Vi√©s de Corpus**: A combina√ß√£o reduz o efeito de enviesamento presente em cada m√©todo isolado.

6. **Adaptabilidade**: O par√¢metro Œ± pode ser ajustado para diferentes dom√≠nios ou tipos de consulta.

## üöÄ Boas Pr√°ticas e Observabilidade no Script RAG_BM25.py

O c√≥digo implementa diversas boas pr√°ticas de desenvolvimento e observabilidade que merecem destaque:

### üèóÔ∏è Estrutura√ß√£o e Modulariza√ß√£o

1. **Separa√ß√£o de Responsabilidades**: O c√≥digo segue o princ√≠pio de responsabilidade √∫nica com classes distintas:
   - `DocumentProcessor`: Extra√ß√£o e processamento de texto
   - `ChromaStore`: Gerenciamento do armazenamento vetorial
   - `LGPDRagSystem`: Orquestra√ß√£o do sistema RAG completo

2. **Modelos Pydantic com Valida√ß√£o**: Os modelos `SearchResult` e `LGPDResponse` implementam valida√ß√µes e documenta√ß√£o integrada, garantindo integridade dos dados.

3. **Tipagem Forte**: Uso extensivo de anota√ß√µes de tipo (`typing`) para maior seguran√ßa e melhor documenta√ß√£o do c√≥digo.

4. **Inje√ß√£o de Depend√™ncias**: O padr√£o de inje√ß√£o via `RagDependencies` facilita testes e manuten√ß√£o.

### üìä Observabilidade e Monitoramento

1. **Logging Detalhado**: O sistema utiliza o m√≥dulo `logging` para registrar cada etapa do processo com informa√ß√µes contextuais, facilitando depura√ß√£o e monitoramento.

2. **Medi√ß√£o de Tempo**: M√©tricas de performance s√£o coletadas para opera√ß√µes cr√≠ticas:
   - Inicializa√ß√£o do sistema
   - Processamento de consultas
   - Busca de documentos relevantes

3. **Feedback ao Usu√°rio**: A interface fornece informa√ß√µes sobre o progresso das opera√ß√µes, incluindo tempo de resposta e confian√ßa.

4. **Rastreabilidade**: O sistema mant√©m identifica√ß√£o clara das fontes utilizadas para gerar respostas, essencial para auditoria em contextos jur√≠dicos.

### üõ°Ô∏è Robustez e Tratamento de Erros

1. **Tratamento Abrangente de Exce√ß√µes**: O c√≥digo implementa captura de erros em diferentes n√≠veis, garantindo degrada√ß√£o graciosa.

2. **Valores Padr√£o Sensatos**: Configura√ß√µes via vari√°veis de ambiente com valores padr√£o bem definidos permitem opera√ß√£o imediata.

3. **Valida√ß√µes em Modelos**: Os modelos Pydantic garantem que dados est√£o dentro de par√¢metros esperados, como confian√ßa entre 0 e 1.

### üë§ Usabilidade e UX

1. **Prompts Estruturados**: O sistema fornece orienta√ß√µes claras para o LLM sobre como responder, incluindo diretrizes lingu√≠sticas espec√≠ficas para o contexto jur√≠dico brasileiro.

2. **Feedback Visual**: A formata√ß√£o destaca elementos importantes como confian√ßa e fontes, facilitando a interpreta√ß√£o dos resultados.

3. **Interface Conversacional Intuitiva**: A sess√£o interativa √© projetada para facilitar a intera√ß√£o humana, com instru√ß√µes claras e feedback cont√≠nuo.

### üîå Integra√ß√µes Inteligentes

1. **PydanticAI para Ferramentas**: Uso de decoradores `@tool()` para facilitar integra√ß√£o com o framework de agentes.

2. **ChromaDB para Vetores**: Abstra√ß√£o eficiente do armazenamento vetorial com persist√™ncia.

3. **BM25 para Busca L√©xica**: Implementa√ß√£o eficiente do algoritmo BM25 via biblioteca `rank-bm25`.

## üèóÔ∏è Arquitetura do Sistema RAG H√≠brido

O sistema implementa o fluxo RAG moderno com estas etapas bem definidas:

### 1Ô∏è‚É£ Ingest√£o e Processamento

- Extra√ß√£o de texto do PDF da LGPD usando PyPDF
- Divis√£o em chunks controlados com tamanho e sobreposi√ß√£o configur√°veis
- Pr√©-processamento para otimizar recupera√ß√£o

### 2Ô∏è‚É£ Indexa√ß√£o Dual

- **Vetorial**: Gera√ß√£o de embeddings e armazenamento no ChromaDB
- **L√©xica**: Tokeniza√ß√£o e constru√ß√£o do √≠ndice BM25
- Persist√™ncia de √≠ndices para reutiliza√ß√£o

### 3Ô∏è‚É£ Recupera√ß√£o H√≠brida

- Processamento da consulta do usu√°rio
- Busca paralela em ambos os √≠ndices
- Normaliza√ß√£o de pontua√ß√µes para escala compar√°vel
- Fus√£o ponderada de resultados com par√¢metro Œ± configur√°vel
- Sele√ß√£o dos top-k documentos mais relevantes

### 4Ô∏è‚É£ Gera√ß√£o Aumentada

- Constru√ß√£o de prompt com contextos recuperados
- Instru√ß√µes espec√≠ficas para o LLM sobre formato e estilo de resposta
- Gera√ß√£o de resposta com base nos contextos fornecidos

### 5Ô∏è‚É£ Apresenta√ß√£o e Feedback

- Formata√ß√£o estruturada da resposta
- Inclus√£o de metadados de confian√ßa
- Cita√ß√£o das fontes utilizadas
- M√©tricas de desempenho

## üß™ Experimenta√ß√£o e Ajustes

O sistema permite experimenta√ß√£o atrav√©s de par√¢metros configur√°veis:

- **ALPHA**: Ajuste do peso entre embeddings e BM25 (0-1)
- **TOP_K**: N√∫mero de documentos a recuperar
- **CHUNK_SIZE** e **CHUNK_OVERLAP**: Controle da granularidade dos chunks
- **EMBEDDING_MODEL**: Sele√ß√£o do modelo de embedding

## üîÆ Conclus√£o

Este sistema representa o estado da arte em recupera√ß√£o de informa√ß√µes jur√≠dicas, combinando o poder da compreens√£o sem√¢ntica dos modelos de embedding com a precis√£o de correspond√™ncia textual do BM25. A abordagem h√≠brida supera as limita√ß√µes de cada m√©todo isolado, resultando em respostas mais confi√°veis e completas sobre a LGPD.

A implementa√ß√£o segue boas pr√°ticas de engenharia de software e oferece uma base s√≥lida para aplica√ß√µes de IA em contextos jur√≠dicos, demonstrando como t√©cnicas avan√ßadas de recupera√ß√£o de informa√ß√£o podem ser aplicadas para melhorar significativamente sistemas RAG.


## üíª Exemplo de Uso do Sistema

Para utilizar o sistema RAG h√≠brido para consultas √† LGPD, voc√™ pode executar o script principal ou importar o sistema em seu pr√≥prio c√≥digo:

```python
# Importando o sistema
from RAG_BM25 import LGPDRagSystem
import asyncio

async def main():
    # Inicializa√ß√£o do sistema
    system = LGPDRagSystem()
    await system.initialize()
    
    # Exemplo de consulta
    response = await system.ask("Quais s√£o os direitos do titular de dados na LGPD?")
    
    # Exibi√ß√£o da resposta
    print(f"Resposta (confian√ßa: {response.confidence:.2f}):\n")
    print(response.answer)
    print("\nFontes utilizadas:")
    for source in response.sources:
        print(f"- {source}")

# Execu√ß√£o do exemplo
asyncio.run(main())
```

Este exemplo demonstra como inicializar o sistema e realizar uma consulta simples sobre os direitos do titular de dados na LGPD.