# Notebook Compilado sobre Recuperação de Informação (RI)

## Uma Jornada do Conceito à Prática, com uma Pitada de Alegoria

## Fase 1: Análise e Síntese Inicial (Trabalho Prévio)

Este notebook é o resultado da análise e compilação de diversos materiais sobre Recuperação de Informação, incluindo notebooks, arquivos de dados e pesquisas teóricas. O objetivo é apresentar os conceitos fundamentais, algoritmos, métodos de desenvolvimento, história, figuras importantes, e discutir melhorias e aplicações, culminando em uma explicação alegórica para tornar o aprendizado mais intuitivo.

## Seção 1: Introdução à Recuperação de Informação

### O que é RI? Importância e Aplicações
Recuperação de Informação (RI) é a ciência de buscar informação em documentos, buscar os próprios documentos, ou buscar metadados que descrevam documentos, bem como a busca em bancos de dados, seja de texto, imagem ou som.

A RI é fundamental na era digital, sustentando motores de busca na web, sistemas de recomendação, bibliotecas digitais, busca em emails, sistemas de descoberta de fármacos, e muito mais. Seu objetivo principal é satisfazer uma necessidade de informação do usuário, retornando resultados relevantes de forma eficiente.

### Breve Panorama Histórico
- **Vannevar Bush (1945):** Idealizou o "Memex", um dispositivo conceitual para armazenar e recuperar informações interligadas, precursor do hipertexto.
- **Calvin Mooers (1948-1950):** Cunhou o termo "Information Retrieval". Trabalhou com sistemas baseados em cartões perfurados.
- **Hans Peter Luhn (IBM, década de 1950):** Contribuiu para indexação automática, resumos automáticos e "Selective Dissemination of Information" (SDI).
- **Gerard Salton (décadas de 1960-1970):** Considerado o pai da RI moderna. Desenvolveu o sistema SMART, introduziu o Modelo Vetorial (VSM) e o TF-IDF.
- **Cyril W. Cleverdon (década de 1960):** Liderou os Experimentos de Cranfield, estabelecendo metodologias de avaliação (precisão e revocação).
- **Karen Spärck Jones (décadas de 1970-1980):** Introduziu o conceito de IDF e contribuiu para modelos probabilísticos.
- **TREC (Text REtrieval Conference, desde 1992):** Impulsionou a pesquisa através de avaliações em larga escala.

## Seção 2: Pré-processamento de Texto

O pré-processamento de texto é uma etapa crucial para preparar os dados textuais para indexação e recuperação. O objetivo é normalizar o texto e reduzir seu vocabulário, mantendo a informação semântica essencial.

### 2.1. Tokenização

Tokenização é o processo de dividir o texto em unidades menores, chamadas tokens (geralmente palavras ou sentenças).

**Abordagens Comuns:**
- `nltk.word_tokenize`: Robusto para tokenização de palavras.
- `RegexpTokenizer` (NLTK): Permite definir tokens usando expressões regulares, oferecendo flexibilidade.
- `split()`: Abordagem mais simples, pode requerer limpeza adicional.

**Estratégias Adicionais:**
- Conversão para minúsculas (`.lower()`).
- Remoção de pontuação e caracteres especiais.
- Remoção de números (dependendo do contexto).
- Filtro por comprimento mínimo do token.

**Exemplo (NLTK):**

In [None]:
import nltk
from nltk.tokenize import word_tokenize, RegexpTokenizer
# nltk.download('punkt') # # Em caso de uso anterior do módulo (previamente baixado), não precisa descomentar, caso necessário descomentar, se for a primeira vez que vai utilizar

texto_exemplo = "A Recuperação de Informação (RI) é fascinante! Processar textos em 2024 é um desafio."

tokens_word_tokenize = word_tokenize(texto_exemplo.lower(), language='portuguese')
print(f"Tokens com word_tokenize: {tokens_word_tokenize}")

tokenizer_regexp = RegexpTokenizer(r'\w+') # Apenas palavras alfanuméricas
tokens_regexp = tokenizer_regexp.tokenize(texto_exemplo.lower())
print(f"Tokens com RegexpTokenizer: {tokens_regexp}")

**Melhorias e Discussão (Tokenização):**
- A escolha do tokenizador deve considerar o domínio do texto. Tokenizadores como os do `spaCy` podem oferecer melhor desempenho para algumas línguas e lidar melhor com casos complexos (contrações, hífens contextuais).
- Normalização Unicode (NFC, NFD) pode ser importante antes da tokenização para consistência.

### 2.2. Remoção de Stopwords

Stopwords são palavras muito comuns (artigos, preposições, etc.) que geralmente não carregam significado discriminativo para a recuperação.

**Abordagem Comum:**
- Utilizar listas pré-definidas (ex: `nltk.corpus.stopwords.words('portuguese')`).
- Possibilidade de adicionar stopwords personalizadas.

**Exemplo (NLTK):**

In [None]:
from nltk.corpus import stopwords
# nltk.download('stopwords') # Em caso de uso anterior do módulo (previamente baixado), não precisa descomentar, caso necessário descomentar, se for a primeira vez que vai utilizar

stop_words_pt = set(stopwords.words('portuguese'))
tokens_sem_stopwords = [token for token in tokens_regexp if token not in stop_words_pt]
print(f"Tokens sem stopwords: {tokens_sem_stopwords}")

**Melhorias e Discussão (Stopwords):**
- A remoção de stopwords pode ser prejudicial para consultas curtas ou que dependem do significado contextual dessas palavras.
- Listas de stopwords devem ser adaptadas ao corpus e à tarefa.

### 2.3. Stemming e Lematização

O objetivo é reduzir palavras às suas formas canônicas ou raízes para agrupar variações morfológicas.

- **Stemming:** Processo heurístico que remove sufixos (e às vezes prefixos). É mais rápido, mas pode gerar raízes que não são palavras reais (over-stemming) ou falhar em agrupar palavras que deveriam (under-stemming). Ex: RSLPStemmer para português, PorterStemmer para inglês.
- **Lematização:** Processo mais sofisticado que utiliza análise morfológica e um dicionário para retornar a forma base (lema) da palavra. Geralmente mais preciso, mas computacionalmente mais custoso.

**Exemplo (Stemming com RSLPStemmer - NLTK):**

In [None]:
from nltk.stem import RSLPStemmer
# nltk.download('rslp') # # Em caso de uso anterior do módulo (previamente baixado), não precisa descomentar, caso necessário descomentar, se for a primeira vez que vai utilizar

stemmer_pt = RSLPStemmer()
tokens_stemizados = [stemmer_pt.stem(token) for token in tokens_sem_stopwords]
print(f"Tokens stemizados (RSLP): {tokens_stemizados}")

**Exemplo (Lematização com WordNetLemmatizer - NLTK para Inglês, pois o NLTK não tem um lematizador robusto para português por padrão):**
*Nota: Para português, bibliotecas como `spaCy` ou `Stanza` são mais indicadas para lematização de qualidade.*

In [None]:
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
# nltk.download('wordnet')
# nltk.download('omw-1.4')
# nltk.download('averaged_perceptron_tagger') # Necessário para POS tagging

lemmatizer_en = WordNetLemmatizer()
texto_en = "The cats are playing with larger mice."
tokens_en = word_tokenize(texto_en.lower())

# Função auxiliar para mapear POS tags do NLTK para o formato do WordNetLemmatizer
def get_wordnet_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN) # Default para substantivo

tokens_lematizados_en = [lemmatizer_en.lemmatize(token, get_wordnet_pos(token)) for token in tokens_en]
print(f"Tokens lematizados (WordNet): {tokens_lematizados_en}")

# Exemplos Simples de Stemming e Lematização em Português


Vou usar exemplos bem coloquiais para explicar esses conceitos, com o uso de  "pedra" --> palavra raíz e "pedreiro" --> palavra derivada, por exemplo.



In [None]:
# Exemplo com palavras relacionadas a "pedra"
palavras = ["pedra", "pedreiro", "pedregulho", "apedrejar", "pedreira"]

# Stemming (resultados aproximados - pode variar por algoritmo)
for palavra in palavras:
    radical = palavra[:4]  # Simplesmente pegando as 4 primeiras letras
    print(f"Palavra: {palavra:12} → Radical: {radical}")

: 

# 1. Stemming (Radical da Palavra)


Saída:

```bash

Palavra: pedra        → Radical: pedr
Palavra: pedreiro     → Radical: pedr
Palavra: pedregulho   → Radical: pedr
Palavra: apedrejar    → Radical: aped
Palavra: pedreira     → Radical: pedr

```

Problemas do stemming:

* "apedrejar" virou "aped" (não faz sentido)

* Todos os outros viraram "pedr" (não é uma palavra real)


# 2. Lematização (Forma Correta da Palavra)

Agora a lematização tenta achar a forma "dicionarizada" da palavra:


In [None]:
# Dicionário simplificado de lemas
lemas = {
    "pedra": "pedra",
    "pedreiro": "pedreiro",  # profissão tem seu próprio lema
    "pedregulho": "pedra",
    "apedrejar": "pedra",
    "pedreira": "pedra"
}

palavras = ["pedra", "pedreiro", "pedregulho", "apedrejar", "pedreira"]

for palavra in palavras:
    print(f"Palavra: {palavra:12} → Lema: {lemas[palavra]}")

saída

```bash
Palavra: pedra        → Lema: pedra
Palavra: pedreiro     → Lema: pedreiro
Palavra: pedregulho   → Lema: pedra
Palavra: apedrejar    → Lema: pedra
Palavra: pedreira     → Lema: pedra
```

**Melhorias e Discussão (Stemming/Lematização):**
- A escolha entre stemming e lematização depende do trade-off entre velocidade e precisão. Lematização é geralmente preferível se o custo computacional for aceitável.
- Avaliar o impacto de diferentes stemmers/lematizadores no desempenho final do sistema de RI é crucial.

# Comparação com Exemplos Reais

Vamos ver mais exemplos do dia a dia:




In [None]:
# Stemming bruto (cortando sufixos)
print("\n=== Stemming Brutão ===")
palavras = ["correr", "correndo", "corrida", "corredor", "corredores"]
for p in palavras:
    print(f"{p:12} → {p[:4]}")

# Lematização inteligente
print("\n=== Lematização ===")
lemas = {
    "correr": "correr",
    "correndo": "correr",
    "corrida": "correr",
    "corredor": "corredor",
    "corredores": "corredor"
}
for p in palavras:
    print(f"{p:12} → {lemas[p]}")


```bash
=== Stemming Brutão ===
correr       → corr
correndo     → corr
corrida      → corr
corredor     → corr
corredores   → corr

=== Lematização ===
correr       → correr
correndo     → correr
corrida      → correr
corredor     → corredor
corredores   → corredor
```

# Exemplo com Algoritmo Real (RSLPStemmer)

Aqui está um exemplo usando uma biblioteca real para stemming em português:



In [None]:
from nltk.stem import RSLPStemmer

stemmer = RSLPStemmer()

palavras = ["cantar", "cantei", "cantando", "cantor", "canção"]

print("=== RSLPStemmer (Stemming de verdade) ===")
for p in palavras:
    print(f"{p:12} → {stemmer.stem(p)}")

Saída (aproximada):

```bash
cantar       → cant
cantei       → cant
cantando     → cant
cantor       → cant
canção       → canç
```


### Tomei a liberdade de compor uma tabela comparativa para simplificação entre os conceitos de Stemming e Lematização

| Técnica       | Vantagens         | Desvantagens                     | Exemplo                 | Analogia Culinária                     |
|---------------|-------------------|-----------------------------------|-------------------------|----------------------------------------|
| **Stemming**  | - Rápido<br>- Simples de implementar | - Pode criar radicais não existentes<br>- Menos preciso | "corredor" → "corr"<br>"cantando" → "cant" | Como bater tudo no liquidificador - rápido, mas vira uma mistura homogênea |
| **Lematização** | - Preciso (mantém o significado real)<br>- Produz palavras válidas | - Requer dicionários<br>- Computacionalmente mais custoso | "corredor" → "corredor"<br>"cantando" → "cantar" | Como descascar e cortar ingredientes - demora mais, mas o resultado fica perfeito |

### Quando usar cada técnica?

| Cenário                     | Técnica Recomendada | Porquê                          |
|-----------------------------|---------------------|---------------------------------|
| Processamento em grande volume | Stemming            | Velocidade é prioritária        |
| Aplicações de precisão      | Lematização         | Qualidade dos resultados importa |
| Busca geral                 | Combinação de ambas | Equilíbrio entre velocidade e precisão |

**Dica prática**: Para português, o stemmer RSLP e o lematizador POSPT (do NLTK) são boas opções para começar.

## Seção 3: Indexação

A indexação é o processo de criar estruturas de dados que permitem a busca rápida e eficiente de documentos. A estrutura mais comum é o **Índice Invertido**.

### 3.1. Índice Invertido

Um índice invertido mapeia cada termo do vocabulário para uma lista de documentos (e informações adicionais) onde o termo ocorre.

**Componentes:**
- **Dicionário de Termos (Term Dictionary / Lexicon):** Contém todos os termos únicos da coleção.
- **Listas de Postings (Postings Lists):** Para cada termo, uma lista de entradas (postings). Cada posting geralmente contém:
    - `doc_id`: Identificador do documento.
    - `frequencia_termo_no_doc (tf)`: Quantas vezes o termo aparece no documento.
    - `posicoes` (opcional): As posições onde o termo ocorre no documento (útil para consultas de frase).

**Exemplo de Construção Simplificada de um Índice Invertido (com frequência):**

In [None]:
documentos = {
    1: "o rato roeu a roupa do rei de roma",
    2: "o rei roeu o queijo que o rato roeu",
    3: "a rata roeu a rolha da garrafa do rei"
}

indice_invertido = {}
stop_words_pt_simples = set(['o', 'a', 'do', 'da', 'de', 'que']) # Lista simplificada
stemmer_simples = RSLPStemmer()

for doc_id, texto in documentos.items():
    tokens = word_tokenize(texto.lower(), language='portuguese')
    termos_processados = []
    for token in tokens:
        if token.isalnum() and token not in stop_words_pt_simples:
            termos_processados.append(stemmer_simples.stem(token))

    # Contar frequência dos termos no documento atual
    frequencia_termos_doc = {}
    for termo in termos_processados:
        frequencia_termos_doc[termo] = frequencia_termos_doc.get(termo, 0) + 1

    for termo, freq in frequencia_termos_doc.items():
        if termo not in indice_invertido:
            indice_invertido[termo] = []
        # Adiciona (doc_id, frequencia) se ainda não existir para este termo e doc_id
        # (uma implementação mais robusta evitaria duplicatas de doc_id na lista de postings de um termo)
        # Esta versão simplificada pode adicionar múltiplos postings para o mesmo doc_id se o termo aparecer múltiplas vezes no loop externo
        # Correção: a lógica de contagem de frequência já agrupa por termo no doc. Apenas adicionamos ao índice.
        # Garantir que cada doc_id apareça uma vez por termo na lista de postings.
        # A estrutura correta é: termo -> [(doc1, freq1), (doc2, freq2)]
        # (Comentário da linha 287 removido para teste de sintaxe)
        indice_invertido[termo].append((doc_id, freq))

# Ordenar as listas de postings por doc_id (bom para algoritmos de merge)
for termo in indice_invertido:
    indice_invertido[termo].sort(key=lambda x: x[0])

import pprint
pprint.pprint(indice_invertido)

**Melhorias e Discussão (Indexação):**
- **Armazenamento de Posições:** Crucial para consultas de frase (ex: "Recuperação de Informação"). O índice armazenaria `termo: [(doc_id, freq, [pos1, pos2,...])]`.
- **Algoritmos de Construção em Larga Escala:** Para coleções grandes, algoritmos como BSBI (Blocked Sort-Based Indexing) e SPIMI (Single-Pass In-Memory Indexing) são necessários para gerenciar o uso de memória.
- **Compressão de Índice:** Técnicas como Variable Byte Encoding, Gamma Codes para docIDs e deltas de posições, e compressão do dicionário (ex: front coding) são essenciais para reduzir o tamanho do índice.

## Seção 4: Modelos de Recuperação

Modelos de recuperação definem como os documentos são representados, como as consultas são processadas e como a relevância de um documento para uma consulta é calculada.

### 4.1. Modelo Booleano

- **Base:** Teoria dos conjuntos e lógica booleana (AND, OR, NOT).
- **Funcionamento:** Documentos são recuperados se satisfazem a expressão booleana da consulta.
- **Vantagens:** Simples de implementar, previsível.
- **Desvantagens:** Não ranqueia resultados (todos os documentos que satisfazem são igualmente "relevantes"), difícil para usuários formularem consultas eficazes, pode retornar muitos ou poucos resultados.

**Exemplo de Processamento de Consulta Booleana (AND):**
Para uma consulta `termoA AND termoB`, o sistema recupera a lista de postings de `termoA` e `termoB` e encontra a interseção dos `doc_id`s.

In [None]:
def processar_consulta_and(termo1, termo2, indice):
    resultados = []
    if termo1 in indice and termo2 in indice:
        lista1 = [posting[0] for posting in indice[termo1]] # Apenas doc_ids
        lista2 = [posting[0] for posting in indice[termo2]]

        # Interseção eficiente de listas ordenadas
        ptr1, ptr2 = 0, 0
        while ptr1 < len(lista1) and ptr2 < len(lista2):
            if lista1[ptr1] == lista2[ptr2]:
                resultados.append(lista1[ptr1])
                ptr1 += 1
                ptr2 += 1
            elif lista1[ptr1] < lista2[ptr2]:
                ptr1 += 1
            else:
                ptr2 += 1
    return resultados

# Exemplo: 'rei' AND 'rato'
# Stem de 'rei' é 'rei', stem de 'rato' é 'rat'
consulta_booleana_exemplo = processar_consulta_and('rei', 'rat', indice_invertido)
print(f"Documentos para 'rei' AND 'rat': {consulta_booleana_exemplo}")

### 4.2. Modelo Vetorial (VSM)

- **Base:** Álgebra Linear. Documentos e consultas são representados como vetores em um espaço n-dimensional (onde n é o tamanho do vocabulário).
- **Ponderação de Termos:** A importância de cada termo no vetor é dada por um peso, comumente TF-IDF.
    - **TF (Term Frequency):** Frequência do termo no documento. Pode ser normalizada (ex: logarítmica `1 + log(tf)`).
    - **IDF (Inverse Document Frequency):** Mede a raridade/importância global de um termo. `log(N / df_t)`, onde N é o total de documentos e `df_t` é o número de documentos contendo o termo `t`. Variações incluem `log(N / (df_t + 1))` para suavização.
    - **TF-IDF = TF * IDF**
- **Similaridade:** A relevância é calculada pela similaridade entre o vetor da consulta e o vetor do documento, geralmente usando a **Similaridade por Cosseno**.
    `cos(q, d) = (q ⋅ d) / (||q|| ⋅ ||d||)`

**Cálculo de IDF e TF-IDF (Exemplo):**

In [None]:
import math

N_docs = len(documentos)
idf_scores = {}
for termo, postings in indice_invertido.items():
    df_t = len(set([p[0] for p in postings])) # Número de documentos únicos contendo o termo
    idf_scores[termo] = math.log(N_docs / df_t) if df_t > 0 else 0

print("IDF Scores:")
pprint.pprint(idf_scores)

# Construir vetores TF-IDF para cada documento (simplificado)
# Um vetor TF-IDF completo teria uma dimensão para cada termo no vocabulário global
documentos_tfidf = {doc_id: {} for doc_id in documentos}

for termo, postings in indice_invertido.items():
    idf_termo = idf_scores[termo]
    for doc_id, tf_bruta in postings:
        # Usando TF logarítmica: 1 + log(tf_bruta) se tf_bruta > 0 else 0
        tf_log = (1 + math.log(tf_bruta)) if tf_bruta > 0 else 0
        documentos_tfidf[doc_id][termo] = tf_log * idf_termo

print("
Documentos TF-IDF (apenas termos presentes):")
pprint.pprint(documentos_tfidf)

**Melhorias e Discussão (VSM):**
- Implementar diferentes esquemas de ponderação de TF e IDF (ver Tabela 6.15 do livro de Manning et al.).
- Garantir a normalização correta dos vetores (por cosseno) para o cálculo da similaridade.

### 4.3. Modelos Probabilísticos (BM25)

- **Base:** Teoria da probabilidade. Estima a probabilidade de um documento ser relevante para uma consulta.
- **Princípio do Ranking Probabilístico (PRP):** Documentos devem ser ranqueados pela sua probabilidade de relevância.
- **BM25 (Okapi BM25):** Modelo estado-da-arte, muito eficaz na prática. Considera TF, IDF e normalização pelo comprimento do documento.
    Fórmula do Score BM25 para um termo `t` da consulta `q` em um documento `d`:
    `IDF(t) * [ (f_{t,d} * (k1 + 1)) / (f_{t,d} + k1 * (1 - b + b * (|d| / avgdl))) ]`
    - `f_{t,d}`: frequência do termo t no documento d.
    - `|d|`: comprimento do documento d.
    - `avgdl`: comprimento médio dos documentos na coleção.
    - `k1`, `b`: parâmetros de ajuste (ex: `k1`=1.2-2.0, `b`=0.75).
    O score total do documento é a soma dos scores BM25 para cada termo da consulta.

In [None]:
def calcular_bm25_score(consulta_termos, doc_id, indice, idf_scores, documentos_texto, N_docs, avgdl, k1=1.5, b=0.75):
    score_doc = 0
    texto_doc_original = documentos_texto[doc_id]
    # Re-tokenizar e stemizar o documento para obter f_td e |d| consistentes com o índice
    tokens_doc_original = word_tokenize(texto_doc_original.lower(), language='portuguese')
    termos_doc_processados = []
    for token in tokens_doc_original:
        if token.isalnum() and token not in stop_words_pt_simples:
            termos_doc_processados.append(stemmer_simples.stem(token))

    len_d = len(termos_doc_processados) # Comprimento do documento em termos processados

    for termo_consulta_stem in consulta_termos: # Assume que consulta_termos já está stemizada
        if termo_consulta_stem in indice: # Se o termo da consulta está no nosso vocabulário
            f_td = 0 # Frequência do termo da consulta no documento atual
            for posting_doc_id, freq in indice[termo_consulta_stem]:
                if posting_doc_id == doc_id:
                    f_td = freq
                    break

            if f_td > 0:
                idf_t = idf_scores.get(termo_consulta_stem, 0) # Usar IDF calculado anteriormente

                numerador = f_td * (k1 + 1)
                denominador = f_td + k1 * (1 - b + b * (len_d / avgdl))

                score_doc += idf_t * (numerador / denominador)
    return score_doc

# Exemplo de uso do BM25
consulta_exemplo_bm25_original = "rei rato"
tokens_consulta_bm25 = word_tokenize(consulta_exemplo_bm25_original.lower(), language='portuguese')
termos_consulta_bm25_stem = [stemmer_simples.stem(t) for t in tokens_consulta_bm25 if t.isalnum() and t not in stop_words_pt_simples]

# Calcular avgdl
total_len_docs = 0
for doc_id_loop in documentos:
    tokens_doc_loop = word_tokenize(documentos[doc_id_loop].lower(), language='portuguese')
    termos_proc_doc_loop = [stemmer_simples.stem(tk) for tk in tokens_doc_loop if tk.isalnum() and tk not in stop_words_pt_simples]
    total_len_docs += len(termos_proc_doc_loop)
avgdl_calculado = total_len_docs / N_docs

scores_bm25_exemplo = {}
for doc_id_iter in documentos.keys():
    scores_bm25_exemplo[doc_id_iter] = calcular_bm25_score(termos_consulta_bm25_stem,
                                                              doc_id_iter,
                                                              indice_invertido,
                                                              idf_scores,
                                                              documentos, # Passando o dict original de documentos
                                                              N_docs,
                                                              avgdl_calculado)

print(f"Scores BM25 para consulta '{consulta_exemplo_bm25_original}':")
pprint.pprint(scores_bm25_exemplo)

**Melhorias e Discussão (BM25):**
- Ajustar (tuning) os parâmetros `k1` e `b` usando uma coleção de validação para otimizar o desempenho.
- Comparar BM25 com TF-IDF em termos de eficácia.

## Seção 5: Processamento de Consulta

Refere-se aos algoritmos usados para processar a consulta do usuário contra o índice e retornar os documentos correspondentes.

## Seção 5: Processamento de Consulta
### 5.1. Algoritmos DAAT e TAAT

Para consultas ranqueadas (ex: com VSM ou BM25), duas estratégias principais são:
- **Document-at-a-Time (DAAT):** Para cada documento na coleção (ou um subconjunto promissor), calcula-se seu score em relação à consulta. Os scores são acumulados e os top-k documentos são mantidos.
- **Term-at-a-Time (TAAT):** Para cada termo na consulta, processa-se sua lista de postings. Scores parciais são acumulados para os documentos que contêm os termos da consulta. Ao final, os documentos com os maiores scores totais são retornados.

**Otimizações:**
- Para DAAT, pode-se usar o índice para iterar apenas sobre documentos que contenham pelo menos um termo da consulta.
- Para TAAT, o uso de acumuladores (um array ou hash map indexado por `doc_id`) é comum.
- Manter os top-k resultados durante o processamento usando uma min-heap é mais eficiente do que ordenar todos os scores no final.

Document-at-a-Time (DAAT) - Python


In [None]:
import heapq

def daat_query_processing(query_terms, inverted_index, k=10):
    """
    Processa consulta usando abordagem Document-at-a-Time (DAAT)
    Retorna os top-k documentos mais relevantes
    """
    # Obter iteradores para as listas de postings de cada termo
    postings_lists = []
    for term in query_terms:
        if term in inverted_index:
            postings_lists.append(iter(inverted_index[term]))

    # Inicializar min-heap para manter os top-k documentos
    top_k = []
    heapq.heapify(top_k)

    # Avançar pelos documentos de forma sincronizada
    current_docs = []
    for pl in postings_lists:
        try:
            current_docs.append(next(pl))
        except StopIteration:
            current_docs.append(None)

    while any(doc is not None for doc in current_docs):
        # Encontrar o menor doc_id atual
        min_doc_id = min(doc[0] for doc in current_docs if doc is not None)

        # Calcular score para este documento
        total_score = 0
        for i, doc in enumerate(current_docs):
            if doc is not None and doc[0] == min_doc_id:
                total_score += doc[1]  # score do termo para este doc
                try:
                    current_docs[i] = next(postings_lists[i])
                except StopIteration:
                    current_docs[i] = None

        # Manter apenas top-k na heap
        if len(top_k) < k:
            heapq.heappush(top_k, (total_score, min_doc_id))
        else:
            if total_score > top_k[0][0]:
                heapq.heappushpop(top_k, (total_score, min_doc_id))

    # Retornar resultados ordenados por score (do maior para o menor)
    return sorted(top_k, key=lambda x: -x[0])

: 

Term-at-a-Time (TAAT) - Python


In [None]:
def taat_query_processing(query_terms, inverted_index, k=10):
    """
    Processa consulta usando abordagem Term-at-a-Time (TAAT)
    Retorna os top-k documentos mais relevantes
    """
    accumulators = {}  # {doc_id: score}

    for term in query_terms:
        if term not in inverted_index:
            continue

        # Processar lista de postings para este termo
        for doc_id, score in inverted_index[term]:
            if doc_id in accumulators:
                accumulators[doc_id] += score
            else:
                accumulators[doc_id] = score

    # Obter top-k documentos
    top_k = sorted(accumulators.items(), key=lambda x: -x[1])[:k]

    return top_k

: 

### 5.2. Consultas de Frase e Proximidade

- Requerem que o índice invertido armazene as **posições** dos termos nos documentos.
- **Consulta de Frase (ex: "recuperação de informação"):** Os termos devem aparecer na ordem especificada e adjacentes (ou com uma pequena distância permitida).
- **Consulta de Proximidade (ex: "recuperação /3 informação"):** Os termos devem aparecer próximos um do outro, dentro de uma janela de `k` palavras.
- O processamento envolve encontrar documentos que contenham todos os termos da frase/proximidade e depois verificar as restrições de posição usando as listas de postings posicionais.

In [None]:
Consulta de Frase - Python


: 

def phrase_query_processing(phrase_terms, positional_index, k=10):
    """
    Processa consulta de frase (termos devem aparecer em sequência)
    Retorna os top-k documentos que contêm a frase
    """
    # Verificar se todos os termos existem no índice
    for term in phrase_terms:
        if term not in positional_index:
            return []
    
    # Obter documentos que contêm todos os termos
    common_docs = set(positional_index[phrase_terms[0]].keys())
    for term in phrase_terms[1:]:
        common_docs.intersection_update(positional_index[term].keys())
    
    results = []
    
    for doc_id in common_docs:
        # Obter listas de posições para cada termo no documento
        positions = []
        for term in phrase_terms:
            positions.append(positional_index[term][doc_id])
        
        # Verificar ocorrências da frase
        phrase_count = 0
        # Pegamos as posições do primeiro termo como base
        for pos in positions[0]:
            match = True
            # Verificar se os próximos termos aparecem nas posições esperadas
            for i in range(1, len(phrase_terms)):
                expected_pos = pos + i
                if expected_pos not in positions[i]:
                    match = False
                    break
            
            if match:
                phrase_count += 1
        
        if phrase_count > 0:
            results.append((doc_id, phrase_count))
    
    # Ordenar por número de ocorrências da frase
    results.sort(key=lambda x: -x[1])
    
    return results[:k]

Consulta de Proximidade - Python


In [None]:
def proximity_query_processing(terms, positional_index, max_distance=3, k=10):
    """
    Processa consulta de proximidade (termos devem aparecer dentro de uma janela)
    Retorna os top-k documentos que atendem ao critério de proximidade
    """
    # Verificar se todos os termos existem no índice
    for term in terms:
        if term not in positional_index:
            return []

    # Obter documentos que contêm todos os termos
    common_docs = set(positional_index[terms[0]].keys())
    for term in terms[1:]:
        common_docs.intersection_update(positional_index[term].keys())

    results = []

    for doc_id in common_docs:
        # Obter listas de posições para cada termo no documento
        positions = []
        for term in terms:
            positions.append(positional_index[term][doc_id])

        # Encontrar todas as ocorrências onde os termos estão próximos
        proximity_matches = 0

        # Estratégia: para cada ocorrência do primeiro termo, verificar os outros
        for first_pos in positions[0]:
            found = True
            current_window = [first_pos]

            for i in range(1, len(terms)):
                # Procurar ocorrência do termo i dentro da janela permitida
                term_positions = positions[i]
                min_pos = current_window[-1] - max_distance
                max_pos = current_window[-1] + max_distance

                # Encontrar a posição mais próxima que satisfaz a condição
                match_pos = None
                for pos in term_positions:
                    if min_pos <= pos <= max_pos:
                        match_pos = pos
                        break

                if match_pos is None:
                    found = False
                    break
                else:
                    current_window.append(match_pos)

            if found:
                proximity_matches += 1

        if proximity_matches > 0:
            results.append((doc_id, proximity_matches))

    # Ordenar por número de ocorrências que satisfazem a proximidade
    results.sort(key=lambda x: -x[1])

    return results[:k]

Exemplo de uso:


In [None]:
# Exemplo de índice invertido (simplificado)
inverted_index = {
    "recuperação": {
        "doc1": [(101, 2.3), (205, 1.8)],  # (doc_id, score)
        "doc2": [(102, 1.5)]
    },
    "informação": {
        "doc1": [(102, 1.8), (206, 2.1)],
        "doc3": [(103, 2.0)]
    }
}

# Exemplo de índice posicional (simplificado)
positional_index = {
    "recuperação": {
        "doc1": [101, 205],  # posições do termo no documento
        "doc2": [102]
    },
    "informação": {
        "doc1": [102, 206],
        "doc3": [103]
    }
}

# Executando consultas
print("DAAT:", daat_query_processing(["recuperação", "informação"], inverted_index))
print("TAAT:", taat_query_processing(["recuperação", "informação"], inverted_index))
print("Frase:", phrase_query_processing(["recuperação", "informação"], positional_index))
print("Proximidade:", proximity_query_processing(["recuperação", "informação"], positional_index, max_distance=3))

## Seção 6: Avaliação de Sistemas de RI

A avaliação é crucial para medir a eficácia de um sistema de RI e comparar diferentes abordagens.

### 6.1. Coleções de Teste e Julgamentos de Relevância

- **Coleção de Teste:** Consiste em:
    1.  Um corpus de documentos.
    2.  Um conjunto de consultas de exemplo (tópicos).
    3.  Julgamentos de relevância (qrels): Para cada par (consulta, documento), uma anotação se o documento é relevante para a consulta (binário ou em múltiplos níveis).
- **Exemplos:** Cranfield, CACM, TREC Ad-Hoc, MS MARCO, etc.

### 6.2. Métricas de Avaliação Comuns

- **Precisão (Precision):** Fração de documentos recuperados que são relevantes. `P = |Relevantes Recuperados| / |Recuperados|`
- **Revocação (Recall):** Fração de documentos relevantes (na coleção inteira) que foram recuperados. `R = |Relevantes Recuperados| / |Relevantes na Coleção|`
- **F-measure (F1-score):** Média harmônica de Precisão e Revocação. `F1 = 2 * (P * R) / (P + R)`
- **Precisão@k (P@k):** Precisão nos `k` primeiros documentos recuperados. Importante para buscas na web.
- **Average Precision (AP):** Para uma única consulta, é a média das precisões calculadas nas posições onde documentos relevantes são recuperados no ranking. Considera a ordem dos resultados.
- **Mean Average Precision (MAP):** Média das APs sobre um conjunto de consultas. Principal métrica para sistemas ranqueados.
- **Reciprocal Rank (RR):** `1 / rank` do primeiro documento relevante recuperado. Usado quando apenas uma resposta correta é esperada.
- **Mean Reciprocal Rank (MRR):** Média dos RRs sobre um conjunto de consultas.
- **NDCG (Normalized Discounted Cumulative Gain):** Considera múltiplos níveis de relevância e dá mais peso para documentos altamente relevantes em posições mais altas no ranking.

In [None]:
# Exemplo de cálculo de Precisão, Revocação e P@k (simplificado)
def calcular_metricas_simples(recuperados, relevantes_para_consulta, k=3):
    # recuperados: lista de doc_ids ordenados pelo sistema
    # relevantes_para_consulta: conjunto de doc_ids que são realmente relevantes

    recuperados_relevantes = [doc for doc in recuperados if doc in relevantes_para_consulta]

    precisao = len(recuperados_relevantes) / len(recuperados) if len(recuperados) > 0 else 0
    revocacao = len(recuperados_relevantes) / len(relevantes_para_consulta) if len(relevantes_para_consulta) > 0 else 0

    recuperados_top_k = recuperados[:k]
    recuperados_relevantes_top_k = [doc for doc in recuperados_top_k if doc in relevantes_para_consulta]
    p_at_k = len(recuperados_relevantes_top_k) / k if k > 0 else 0

    return {"Precisão": precisao, "Revocação": revocacao, f"P@{k}": p_at_k}

# Exemplo de uso
docs_recuperados_exemplo = [1, 3, 5, 2, 4] # Sistema recuperou doc 1, depois 3, etc.
docs_relevantes_reais = {1, 2, 6} # Documentos que são de fato relevantes

metricas = calcular_metricas_simples(docs_recuperados_exemplo, docs_relevantes_reais, k=3)
print(f"Métricas de Avaliação: {metricas}")

# Explicação Simples das Métricas de Busca (Como se Fosse uma Receita)

Vamos imaginar que você fez uma busca no Google e quer saber se os resultados foram bons. Como medir isso?

## Os Ingredientes Básicos

1. **Documentos recuperados**: Os resultados que o sistema trouxe (como os 5 primeiros links do Google)
2. **Documentos relevantes**: Os resultados que realmente servem para o que você queria (você sabe quais são os bons)

## As Três Medidas Principais

### 1. Precisão (Quantos são bons?)
- **Pergunta**: Dos resultados que trouxe, quantos acertei?
- **Exemplo prático**: 
  - Você pediu 5 livros sobre "culinária" (recuperados)
  - 3 eram realmente sobre culinária (relevantes)
  - Precisão = 3/5 = 0.6 (60% de acerto)

### 2. Revocação (Quantos bons eu deixei de trazer?)
- **Pergunta**: De todos os bons que existiam, quantos eu consegui trazer?
- **Exemplo prático**:
  - Existem 10 livros bons sobre culinária na loja (relevantes totais)
  - Você trouxe 3 desses
  - Revocação = 3/10 = 0.3 (30% dos bons)

### 3. P@k (Precisão nos primeiros k itens)
- **Pergunta**: Nos primeiros resultados (ex: 3 primeiros), quantos são bons?
- **Exemplo prático**:
  - Nos 3 primeiros livros que apareceram:
    - 2 eram bons
  - P@3 = 2/3 ≈ 0.66 (66% de acerto nos primeiros)

## Código Explicado com Exemplo de Livros

```python
# Documentos que o sistema trouxe (em ordem)
livros_trazidos = [101, 303, 505, 202, 404]  # IDs dos livros

# Documentos que realmente são bons (o que você sabe que são relevantes)
livros_bons = {101, 202, 606}  # IDs dos livros bons

def avaliar_busca(resultados, bons, k=3):
    # Quantos dos trazidos são bons?
    acertos = [livro for livro in resultados if livro in bons]
    
    precisao = len(acertos) / len(resultados) if resultados else 0
    revocacao = len(acertos) / len(bons) if bons else 0
    
    # Avaliando só os primeiros 'k' resultados
    acertos_topk = [livro for livro in resultados[:k] if livro in bons]
    p_at_k = len(acertos_topk) / k if k > 0 else 0
    
    return {
        "Precisão": f"{precisao:.0%}",
        "Revocação": f"{revocacao:.0%}", 
        f"P@{k}": f"{p_at_k:.0%}"
    }

print(avaliar_busca(livros_trazidos, livros_bons))
```

### Resultado Explicado:
- **Precisão 40%**: Dos 5 livros trazidos, 2 eram bons (101 e 202)
- **Revocação 67%**: Dos 3 livros bons que existiam, trouxe 2
- **P@3 33%**: Nos 3 primeiros, só 1 era bom (101)

## Analogia com Pesquisa na Biblioteca

Imagine que:
1. Você pede 5 livros ao bibliotecário sobre "bolos" (sua busca)
2. Na prateleira tem 3 livros bons sobre bolos (mas você não sabe quais)
3. O bibliotecário te traz:
   - 1 livro de bolo (bom)
   - 1 livro de bolo (bom) 
   - 1 livro de saladas (ruim)
   - 1 livro de sopas (ruim)
   - 1 livro de bolos (bom)

**Precisão**: 3 bons em 5 = 60%  
**Revocação**: Trouxe todos os 3 bons que existiam = 100%  
**P@3**: Nos 3 primeiros, 2 eram bons = 66%

Quanto mais próximos de 100%, melhor!

**Melhorias e Discussão (Avaliação):**
- Implementar métricas mais robustas como MAP e NDCG.
- Discutir a importância de testes de significância estatística ao comparar sistemas.

## Seção 7: Tópicos Avançados (Breve Menção)

- **Expansão de Consulta:** Técnicas para refinar a consulta do usuário (ex: feedback de relevância, uso de tesauros) para melhorar os resultados. O Algoritmo de Rocchio é um exemplo clássico.
- **RI na Web:** Desafios específicos como a escala massiva, a natureza dinâmica e o spam. Algoritmos como PageRank (para medir a importância de páginas) são cruciais.
- **Aprendizado de Máquina em RI (Learning to Rank - LTR):** Usar técnicas de aprendizado de máquina para aprender uma função de ranking ótima a partir de dados de treinamento (consultas, documentos, julgamentos de relevância).

# Exemplos Triviais em Python para Tópicos Avançados em RI


1. Expansão de Consulta com Algoritmo de Rocchio


In [None]:
import numpy as np
from collections import defaultdict

def rocchio_algorithm(original_query, relevant_docs, non_relevant_docs, alpha=1, beta=0.75, gamma=0.15):
    """
    Algoritmo de Rocchio para expansão de consulta

    :param original_query: Vetor de termos da consulta original {termo: peso}
    :param relevant_docs: Lista de vetores de documentos relevantes
    :param non_relevant_docs: Lista de vetores de documentos não relevantes
    :param alpha: Peso da consulta original
    :param beta: Peso dos documentos relevantes
    :param gamma: Peso dos documentos não relevantes
    :return: Consulta expandida
    """
    # Converter a consulta original para vetor numpy
    terms = set(original_query.keys())
    for doc in relevant_docs + non_relevant_docs:
        terms.update(doc.keys())

    # Criar vetores
    query_vec = np.array([original_query.get(term, 0) for term in terms])

    # Calcular centroide dos relevantes
    if relevant_docs:
        rel_vec = np.mean([np.array([doc.get(term, 0) for term in terms])
                          for doc in relevant_docs], axis=0)
    else:
        rel_vec = np.zeros(len(terms))

    # Calcular centroide dos não relevantes
    if non_relevant_docs:
        non_rel_vec = np.mean([np.array([doc.get(term, 0) for term in terms])
                             for doc in non_relevant_docs], axis=0)
    else:
        non_rel_vec = np.zeros(len(terms))

    # Aplicar fórmula de Rocchio
    expanded_query = alpha * query_vec + beta * rel_vec - gamma * non_rel_vec

    # Mapear de volta para termos
    expanded_query_dict = {term: expanded_query[i]
                          for i, term in enumerate(terms)
                          if expanded_query[i] > 0}

    return expanded_query_dict

# Exemplo de uso
original_query = {"recuperação": 1.5, "informação": 1.0}
relevant_docs = [
    {"recuperação": 1.2, "informação": 1.5, "dados": 0.8},
    {"recuperação": 1.3, "documentos": 0.7, "busca": 0.5}
]
non_relevant_docs = [
    {"banco": 1.0, "dados": 1.2},
    {"sistema": 0.9, "arquivos": 0.8}
]

expanded_query = rocchio_algorithm(original_query, relevant_docs, non_relevant_docs)
print("Consulta expandida:", expanded_query)

: 

2. Simulação Simplificada do PageRank


In [None]:
import numpy as np

def simple_pagerank(graph, damping=0.85, max_iter=100, tol=1e-6):
    """
    Implementação simplificada do algoritmo PageRank

    :param graph: Dicionário representando o grafo de links {página: [links]}
    :param damping: Fator de amortecimento (teleport)
    :param max_iter: Número máximo de iterações
    :param tol: Tolerância para convergência
    :return: Vetor de PageRank
    """
    pages = list(graph.keys())
    n = len(pages)

    # Mapear páginas para índices
    page_to_idx = {page: i for i, page in enumerate(pages)}

    # Construir matriz de transição
    M = np.zeros((n, n))

    for page, links in graph.items():
        if links:
            # Distribuir igualmente para os links
            for link in links:
                if link in page_to_idx:
                    M[page_to_idx[link], page_to_idx[page]] = 1/len(links)
        else:
            # Se não tem links, distribui igual para todas
            M[:, page_to_idx[page]] = 1/n

    # Inicializar vetor PageRank
    pr = np.ones(n) / n

    # Iterar até convergência
    for _ in range(max_iter):
        new_pr = damping * M.dot(pr) + (1 - damping) / n
        if np.linalg.norm(new_pr - pr) < tol:
            break
        pr = new_pr

    return {page: pr[i] for i, page in enumerate(pages)}

# Exemplo de uso
web_graph = {
    "A": ["B", "C"],
    "B": ["C"],
    "C": ["A"],
    "D": ["C"]
}

pageranks = simple_pagerank(web_graph)
print("PageRanks:", pageranks)

3. Learning to Rank (LTR) Simplificado


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction import DictVectorizer
from sklearn.preprocessing import StandardScaler

def learning_to_rank_example():
    """
    Exemplo simplificado de Learning to Rank usando regressão logística
    """
    # Dados de treinamento (simulados)
    # Cada exemplo é (query, doc_features, relevance_label)
    train_data = [
        ({"query": "recuperação informação", "doc": "doc1"}, {"tf": 12, "idf": 1.8, "bm25": 2.3}, 2),
        ({"query": "recuperação informação", "doc": "doc2"}, {"tf": 8, "idf": 1.5, "bm25": 1.7}, 1),
        ({"query": "recuperação informação", "doc": "doc3"}, {"tf": 5, "idf": 1.2, "bm25": 1.2}, 0),
        ({"query": "sistemas busca", "doc": "doc4"}, {"tf": 15, "idf": 2.1, "bm25": 2.8}, 2),
        ({"query": "sistemas busca", "doc": "doc5"}, {"tf": 6, "idf": 1.3, "bm25": 1.5}, 1),
        ({"query": "sistemas busca", "doc": "doc6"}, {"tf": 3, "idf": 0.8, "bm25": 0.9}, 0),
    ]

    # Separar features e labels
    X = [features for (_, features, _) in train_data]
    y = [label for (_, _, label) in train_data]

    # Converter features para vetores
    vec = DictVectorizer()
    X_vec = vec.fit_transform(X)

    # Normalizar features
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X_vec.toarray())

    # Treinar modelo (poderíamos usar LambdaMART na prática, mas usamos regressão logística para simplificar)
    model = LogisticRegression()
    model.fit(X_scaled, y)

    # Dados de teste
    test_data = [
        {"tf": 10, "idf": 1.7, "bm25": 2.1},
        {"tf": 7, "idf": 1.4, "bm25": 1.6},
        {"tf": 4, "idf": 1.1, "bm25": 1.1},
    ]

    # Prever relevância
    X_test = vec.transform(test_data)
    X_test_scaled = scaler.transform(X_test.toarray())
    predictions = model.predict_proba(X_test_scaled)

    # Probabilidade de ser relevante (classe 2)
    relevance_scores = predictions[:, 2]

    print("Scores de relevância previstos:", relevance_scores)
    return model, vec, scaler

# Executar exemplo
model, vec, scaler = learning_to_rank_example()

: 

## Seção 8: Melhorias e Discussões Críticas (Compilado das Análises)

**Exemplos de Pontos a Serem Detalhados:**
- **Pré-processamento:** Escolha de tokenizadores avançados, impacto da lematização vs. stemming, listas de stopwords customizadas.
- **Indexação:** Implementação de índices posicionais, compressão de índice.
- **Modelos de Recuperação:** Variantes de TF-IDF, ajuste de parâmetros do BM25, cálculo correto da similaridade por cosseno.
- **Processamento de Consulta:** Otimizações com skip pointers, uso eficiente de heaps para top-k.
- **Avaliação:** Implementação de MAP e NDCG, testes de significância.

## Seção 9: A Aventura da Recuperação da Informação - Uma Abordagem Alegórica

*(Esta seção fora desenvolvida com uma narrativa lúdica e infantilizada para explicar os conceitos de RI de forma intuitiva, usando metáforas e analogias.)*

**Ideia Central:** Imagine um reino mágico chamado "Biblioteca Infinita", onde todos os livros e pergaminhos do universo estão guardados. Os habitantes do reino (usuários) precisam encontrar informações específicas para resolver seus problemas ou satisfazer sua curiosidade.

- **Os Documentos:** São os livros, pergaminhos, mapas e canções da Biblioteca.
- **A Necessidade de Informação:** É um enigma ou uma missão que um habitante precisa resolver (ex: "Qual o feitiço para fazer um bolo de chocolate voar?").
- **A Consulta:** São as palavras mágicas que o habitante sussurra para os Guardiões da Biblioteca (o sistema de RI) para tentar encontrar a resposta.
- **Os Guardiões da Biblioteca (Sistema de RI):** Um grupo de sábios e criaturas mágicas que ajudam a encontrar os livros certos.

**Personagens e Metáforas:**
- **Os Gnomos Tokenizadores:** Pequenos seres que quebram as frases dos livros e das consultas em palavras individuais (tokens).
- **As Fadas das Stopwords:** Elas removem palavras muito comuns e sem magia própria (stopwords como "o", "a", "de") para não atrapalhar a busca.
- **O Mago Stemmador/Lematizador:** Transforma as palavras em suas raízes mágicas ou formas base, para que "correndo", "corre" e "correria" sejam todas vistas como a magia "corr-".
- **O Grande Livro dos Índices (Índice Invertido):** Um livro encantado que não contém as histórias completas, mas sim, para cada palavra mágica (termo), ele diz em quais livros (doc_id) e quantas vezes (frequência) ela aparece, e até mesmo em qual página e linha (posição).
- **Os Óculos da Relevância (Modelos de Recuperação):**
    - **Óculos Booleanos:** Mostram apenas os livros que contêm EXATAMENTE as palavras mágicas da consulta (AND, OR). Simples, mas às vezes não muito úteis.
    - **Óculos Vetoriais (TF-IDF):** Dão a cada palavra mágica um peso (TF-IDF) baseado em quão importante ela é no livro e quão rara ela é na biblioteca. Os livros que têm as palavras mágicas mais importantes e raras para a consulta brilham mais forte.
    - **Óculos Probabilísticos (BM25):** São óculos super avançados que tentam adivinhar qual livro tem a MAIOR CHANCE de ser o que o habitante procura, considerando o tamanho do livro e a importância das palavras mágicas.
- **Os Duendes Avaliadores (Métricas de Avaliação):** Depois que os Guardiões trazem uma pilha de livros, esses duendes verificam quão bons foram os Guardiões:
    - **Duende da Precisão:** Conta quantos dos livros trazidos são realmente úteis.
    - **Duende da Revocação:** Verifica se todos os livros úteis que existem na biblioteca foram encontrados.
    - **O Chefe Duende MAP:** Dá uma nota geral para os Guardiões baseada em quão bem eles ordenaram os livros úteis.

**A Jornada da Consulta:**
1.  O habitante tem um enigma (necessidade de informação).
2.  Ele formula palavras mágicas (consulta).
3.  Os Gnomos Tokenizadores e o Mago Stemmador preparam as palavras mágicas.
4.  Os Guardiões usam o Grande Livro dos Índices e seus Óculos da Relevância para encontrar os melhores livros.
5.  Os Duendes Avaliadores dão o feedback sobre a busca.

Esta abordagem alegórica acima, foi escolhida por mim, na busca por simplificar conceitos complexos através de uma narrativa envolvente, e fantasiosa, conectando cada elemento da RI (Recover of Information ou Recuperação da Informação) a uma parte da história mágica.