# Recuperação por Fusão em Busca de Documentos

## Visão Geral

Este código implementa um sistema de Recuperação por Fusão que combina a busca por similaridade baseada em vetores com a recuperação baseada em palavras-chave (BM25). A abordagem visa aproveitar os pontos fortes de ambos os métodos para melhorar a qualidade e a relevância geral da recuperação de documentos.

## Motivação

Os métodos tradicionais de recuperação geralmente dependem de compreensão semântica (baseada em vetores) ou correspondência de palavras-chave (BM25). Cada abordagem tem seus pontos fortes e fracos. A recuperação por fusão busca combinar esses métodos para criar um sistema de recuperação mais robusto e preciso, capaz de lidar com uma variedade maior de consultas de forma eficaz.

## Componentes Principais

1. Processamento de PDF e divisão de texto em segmentos
2. Criação de um armazenamento de vetores usando FAISS e embeddings da OpenAI
3. Criação de um índice BM25 para recuperação baseada em palavras-chave
4. Função personalizada de recuperação por fusão que combina ambos os métodos

## Detalhes do Método

### Pré-processamento do Documento

1. O PDF é carregado e dividido em segmentos usando o `RecursiveCharacterTextSplitter`.
2. Os segmentos são limpos, substituindo 't' por espaços (provavelmente para corrigir um problema de formatação específico).

### Criação do Armazenamento de Vetores

1. Os embeddings da OpenAI são usados para criar representações vetoriais dos segmentos de texto.
2. Um armazenamento de vetores FAISS é criado a partir desses embeddings para uma busca de similaridade eficiente.

### Criação do Índice BM25

1. Um índice BM25 é criado a partir dos mesmos segmentos de texto usados para o armazenamento de vetores.
2. Isso permite a recuperação baseada em palavras-chave junto com o método baseado em vetores.

### Função de Recuperação por Fusão

A função `fusion_retrieval` é o núcleo desta implementação:

1. Ela recebe uma consulta e realiza a recuperação tanto baseada em vetores quanto em BM25.
2. As pontuações de ambos os métodos são normalizadas para uma escala comum.
3. Uma combinação ponderada dessas pontuações é calculada (controlada pelo parâmetro `alpha`).
4. Os documentos são classificados com base nas pontuações combinadas, e os k melhores resultados são retornados.

## Benefícios dessa Abordagem

1. Melhoria na Qualidade da Recuperação: Ao combinar a busca semântica e a busca por palavras-chave, o sistema pode capturar tanto a similaridade conceitual quanto as correspondências exatas de palavras-chave.
2. Flexibilidade: O parâmetro `alpha` permite ajustar o equilíbrio entre a busca vetorial e a busca por palavras-chave com base em casos de uso específicos ou tipos de consulta.
3. Robustez: A abordagem combinada pode lidar com uma variedade maior de consultas de forma eficaz, mitigando as fraquezas dos métodos individuais.
4. Personalização: O sistema pode ser facilmente adaptado para usar diferentes armazenamentos de vetores ou métodos de recuperação baseados em palavras-chave.

## Conclusão

A recuperação por fusão representa uma abordagem poderosa para a busca de documentos que combina os pontos fortes da compreensão semântica e da correspondência de palavras-chave. Ao aproveitar tanto os métodos de recuperação baseados em vetores quanto em BM25, ela oferece uma solução mais abrangente e flexível para tarefas de recuperação de informações. Essa abordagem tem aplicações potenciais em vários campos onde tanto a similaridade conceitual quanto a relevância de palavras-chave são importantes, como pesquisa acadêmica, busca de documentos jurídicos ou motores de busca de propósito geral.