# üî¨ Lab: Valida√ß√£o dos Retrievers Individuais

Este notebook demonstra **passo a passo** como funcionam os tr√™s tipos de retrieval implementados no projeto, com √™nfase especial no **retriever de grafo** (entidades + embeddings).

## Objetivos
1. **TF-IDF Retriever**: Entender retrieval baseado em sobreposi√ß√£o lexical
2. **Dense Retriever**: Compreender embeddings sem√¢nticos (MiniLM vs BGE)
3. **Graph Retriever**: Explorar em profundidade a extra√ß√£o de entidades, IDF e agrega√ß√£o ponderada

Usaremos um mini-corpus de 5 documentos e 3 queries para valida√ß√£o.

## üì¶ Setup: Imports e Configura√ß√£o do Ambiente

Primeiro, garantimos que o Python encontra o reposit√≥rio e importamos as depend√™ncias necess√°rias.

In [1]:
# Se estiver em um ambiente limpo, descomente conforme necess√°rio:
# %pip install -U sentence-transformers transformers torch scikit-learn spacy scispacy

import sys
import warnings
from pathlib import Path
import numpy as np

repo_root = Path.cwd()
while repo_root != repo_root.parent and repo_root.name != "hybrid-retrieval":
    repo_root = repo_root.parent
repo_root_str = str(repo_root)
if repo_root_str not in sys.path:
    sys.path.insert(0, repo_root_str)

print("Repo root:", repo_root)

# Imports dos schemas do projeto
from src.datasets.schema import Document, Query

# Silencia warnings de modelos
warnings.filterwarnings('ignore', category=FutureWarning)
warnings.filterwarnings('ignore', category=UserWarning)

Repo root: /Users/thiago/Documents/GitHub/hybrid-retrieval


## üìö Cria√ß√£o do Mini-Corpus

Criamos 5 documentos com temas variados para testar os diferentes comportamentos dos retrievers:
- **D1**: COVID-19 e vacinas (dom√≠nio m√©dico, entidades: "COVID-19", "mRNA vaccines")
- **D2**: Mercados financeiros (dom√≠nio financeiro, entidades: "equity market", "US economy")
- **D3**: Graph Neural Networks (dom√≠nio t√©cnico, entidades: "GNNs", "entity classification")
- **D4**: Nutri√ß√£o (dom√≠nio sa√∫de, entidades: "apples", "fiber", "vitamins")
- **D5**: Large Language Models (dom√≠nio ML, entidades: "MiniLM", "BGE")

E 3 queries que exploram diferentes aspectos:
- **Q1**: Busca sobre efic√°cia de vacinas (termos relacionados a D1)
- **Q2**: Busca sobre impacto de taxas de juros (relacionada a D2)
- **Q3**: Busca sobre embeddings de entidades e grafos (relacionada a D3 e D5)

In [2]:
docs = [
    Document(
        doc_id="D1", 
        title="COVID-19 vaccines", 
        text="Efficacy and side effects of mRNA COVID-19 vaccines in clinical trials."
    ),
    Document(
        doc_id="D2", 
        title="Financial markets overview", 
        text="Equity market volatility and interest rates in the US economy during 2023."
    ),
    Document(
        doc_id="D3", 
        title="Graph neural networks", 
        text="Using GNNs for entity classification and link prediction tasks in knowledge graphs."
    ),
    Document(
        doc_id="D4", 
        title="Nutritional benefits of apples", 
        text="Apples contain dietary fiber and vitamins, reducing cardiovascular health risks."
    ),
    Document(
        doc_id="D5", 
        title="Large language models for retrieval", 
        text="MiniLM and BGE embeddings improve semantic retrieval and reranking performance."
    ),
]

queries = [
    Query(query_id="Q1", text="Are mRNA vaccines effective against COVID?"),
    Query(query_id="Q2", text="How do interest rates impact equity volatility?"),
    Query(query_id="Q3", text="Entity embeddings and graph-based retrieval methods"),
]

print(f"‚úì Corpus: {len(docs)} documentos")
print(f"‚úì Queries: {len(queries)} consultas")

‚úì Corpus: 5 documentos
‚úì Queries: 3 consultas


---
# üî§ Parte 1: TF-IDF Retriever (Sinal Lexical)

## O que √© TF-IDF?
- **Term Frequency (TF)**: Frequ√™ncia do termo no documento
- **Inverse Document Frequency (IDF)**: Penaliza termos comuns no corpus
- **Vetor TF-IDF**: Cada documento √© representado como um vetor esparso de tamanho = vocabul√°rio

## Como funciona?
1. **Fit**: Constr√≥i vocabul√°rio do corpus e calcula IDF para cada termo
2. **Transform**: Converte documento ‚Üí vetor TF-IDF normalizado (L2)
3. **Busca**: Similaridade por inner-product (equivalente a cosseno ap√≥s normaliza√ß√£o)

## Vantagens
‚úì R√°pido e interpret√°vel  
‚úì Bom para matching exato de termos  

## Limita√ß√µes
‚úó N√£o captura sin√¥nimos ou par√°frases  
‚úó Sens√≠vel a varia√ß√µes morfol√≥gicas  

In [None]:
from src.retrievers.tfidf_faiss import TFIDFRetriever

tfidf_r = TFIDFRetriever(
    dim=1000,              # tamanho m√°ximo do vocabul√°rio
    min_df=1,              # aceita termos que aparecem pelo menos 1x
    backend="sklearn",     # usa scikit-learn TfidfVectorizer
    use_faiss=True,        # IndexFlatIP para busca r√°pida
    artifact_dir=None,     # sem persist√™ncia (apenas para lab)
    index_name="tfidf.index",
)

print("üîß Construindo √≠ndice TF-IDF...")
tfidf_r.build_index(docs)

print("\nüîç Executando retrieval (top-3 por query)...")
tfidf_results = tfidf_r.retrieve(queries, k=3)

# Exibe resultados
for q in queries:
    print(f"\nüìä Query [{q.query_id}]: {q.text}")
    pairs = tfidf_results.get(q.query_id, [])
    for rank, (doc_id, score) in enumerate(pairs, 1):
        doc = next(d for d in docs if d.doc_id == doc_id)
        print(f"  {rank}. {doc_id} (score={score:.4f}) - {doc.title}")

üîß Construindo √≠ndice TF-IDF...
2025-10-29 18:07:11 | INFO     | retriever.tfidf | [tfidf_faiss.py:66] | üöÄ Building TF-IDF Index (5 documentos)
2025-10-29 18:07:11 | INFO     | retriever.tfidf | [logging.py:199] | ‚è±Ô∏è  Fit TF-IDF no corpus - iniciando...
2025-10-29 18:07:11 | INFO     | tfidf.vectorizer | [logging.py:199] | ‚è±Ô∏è  Fit TF-IDF - iniciando...
2025-10-29 18:07:12 | INFO     | tfidf.vectorizer | [logging.py:220] | ‚úì Fit TF-IDF - conclu√≠do em [32m1.21s[0m
2025-10-29 18:07:12 | INFO     | tfidf.vectorizer | [tfidf_vectorizer.py:19] | ‚úì TF-IDF fitted: vocab_size=60
2025-10-29 18:07:12 | INFO     | retriever.tfidf | [logging.py:220] | ‚úì Fit TF-IDF no corpus - conclu√≠do em [32m1.21s[0m
2025-10-29 18:07:12 | INFO     | retriever.tfidf | [logging.py:199] | ‚è±Ô∏è  Encoding documents (TF-IDF) - iniciando...
2025-10-29 18:07:12 | INFO     | retriever.tfidf | [logging.py:220] | ‚úì Encoding documents (TF-IDF) - conclu√≠do em [32m1.0ms[0m
2025-10-29 18:07:12 | 

: 

### üìà An√°lise dos Resultados TF-IDF

**Observe**:
- Queries com **termos exatos** do corpus (ex: "mRNA", "vaccines", "COVID") ranqueiam bem documentos correspondentes
- Queries com **par√°frases** (ex: "effective" vs "efficacy") podem ter scores mais baixos
- O TF-IDF √© **lexical**: n√£o entende que "interest rates" e "taxas de juros" s√£o sin√¥nimos

**Exemplo**: Q1 ranquea D1 no topo, pois compartilha "mRNA", "vaccines", "COVID".

---
# üß† Parte 2: Dense Retriever (Embeddings Sem√¢nticos)

## O que √© Dense Retrieval?
- Usa **modelos de linguagem** (ex: MiniLM, BGE) para gerar embeddings densos
- Cada documento/query ‚Üí vetor cont√≠nuo de 384d (MiniLM) ou 1024d (BGE-Large)
- Similaridade captura **significado sem√¢ntico**, n√£o apenas palavras exatas

## Modelos comparados no paper
| Modelo | Dimens√£o | Par√¢metros | Uso |
|--------|----------|------------|-----|
| **MiniLM-L6-v2** | 384 | 22M | R√°pido, eficiente |
| **BGE-Large** | 1024 | 335M | Maior qualidade |

## Por que MiniLM pode superar BGE no h√≠brido?
O paper mostra que embeddings menores podem ter **melhor alinhamento com LLMs** durante o reranking (fen√¥meno chamado "FAISS Hybrid Paradox").

In [None]:
from src.retrievers.dense_faiss import DenseFaiss

# Escolha do modelo (altere para testar)
dense_model = "sentence-transformers/all-MiniLM-L6-v2"  
# Alternativa: "BAAI/bge-large-en-v1.5"

dense_r = DenseFaiss(
    model_name=dense_model,
    device=None,              # Use "cuda:0" se tiver GPU dispon√≠vel
    query_prefix="",
    doc_prefix="",
    use_faiss=True,
    artifact_dir=None,
    index_name="dense.index",
)

print(f"üîß Construindo √≠ndice denso com {dense_model}...")
print(f"   Dimens√£o: {dense_r.dim}d")
dense_r.build_index(docs)

print("\nüîç Executando retrieval (top-3 por query)...")
dense_results = dense_r.retrieve(queries, k=3)

for q in queries:
    print(f"\nüìä Query [{q.query_id}]: {q.text}")
    pairs = dense_results.get(q.query_id, [])
    for rank, (doc_id, score) in enumerate(pairs, 1):
        doc = next(d for d in docs if d.doc_id == doc_id)
        print(f"  {rank}. {doc_id} (score={score:.4f}) - {doc.title}")

  from .autonotebook import tqdm as notebook_tqdm


üîß Construindo √≠ndice denso com sentence-transformers/all-MiniLM-L6-v2...
   Dimens√£o: 384d
2025-10-29 18:07:15 | INFO     | retriever.dense | [dense_faiss.py:75] | üöÄ Building Dense Index (5 documentos)
2025-10-29 18:07:15 | INFO     | retriever.dense | [logging.py:199] | ‚è±Ô∏è  Encoding documents - iniciando...


### üìà An√°lise dos Resultados Dense

**Observe**:
- Melhor captura de **sin√¥nimos** e **par√°frases** (ex: "effective" ‚âà "efficacy")
- Scores geralmente mais **uniformes** do que TF-IDF (espa√ßo denso √© mais suave)
- Pode ranquear documentos **tematicamente relacionados** mesmo sem overlap lexical

**Experimento**: Troque para `"BAAI/bge-large-en-v1.5"` e compare os resultados!

---
# üï∏Ô∏è Parte 3: Graph Retriever (Entidades + Embeddings)

## Vis√£o Geral
O retriever de grafo implementa o **terceiro modo (g)** do paper:
1. **Extra√ß√£o de Entidades**: Identifica "nomes" importantes no texto (pessoas, locais, termos t√©cnicos)
2. **IDF de Entidades**: Calcula import√¢ncia relativa de cada entidade no corpus
3. **Embedding de Entidades**: Cada entidade ‚Üí vetor denso (ex: BGE-Large 1024d)
4. **Agrega√ß√£o TF-IDF**: Vetor do documento = Œ£ [TF(e) √ó IDF(e) √ó emb(e)]
5. **Normaliza√ß√£o L2**: Vetor final √© normalizado para compara√ß√£o por cosseno

## F√≥rmula

g(text) = L2_norm( Œ£_{e ‚àà entities(text)} TF(e, text) √ó IDF(e) √ó embedding(e) )


## Por que √© √∫til?
- Captura **sinal estruturado** de entidades nomeadas
- √ötil em dom√≠nios com **terminologia espec√≠fica** (medicina, finan√ßas, produtos)
- Complementa sinais denso e lexical no h√≠brido

## üîç Passo 1: Extra√ß√£o de Entidades

Vamos explorar **manualmente** como as entidades s√£o extra√≠das de um documento exemplo antes de usar o retriever completo.

### M√©todos de NER dispon√≠veis:
1. **sciSpaCy** (recomendado para textos cient√≠ficos): `en_ner_bc5cdr_md`, `en_core_sci_md`
2. **spaCy padr√£o**: `en_core_web_sm`, `en_core_web_md`
3. **Fallback regex** (quando spaCy n√£o est√° instalado): detecta palavras capitalizadas e termos longos

### O que √© extra√≠do?
- **Entidades nomeadas**: detectadas pelo modelo NER (ex: DISEASE, CHEMICAL, ORG)
- **Noun chunks** (opcional): sintagmas nominais (ex: "mRNA vaccines", "clinical trials")

In [None]:
# Vamos inspecionar a extra√ß√£o de entidades no documento D1 manualmente

doc_text = docs[0].title + " " + docs[0].text
print(f"üìÑ Documento D1:\n{doc_text}\n")

# Tentamos carregar spaCy (pode falhar se n√£o instalado)
try:
    import spacy
    # Tenta sciSpaCy primeiro (melhor para textos cient√≠ficos)
    try:
        nlp = spacy.load("en_ner_bc5cdr_md", disable=["tagger", "parser", "lemmatizer"])
        print("‚úì Usando sciSpaCy: en_ner_bc5cdr_md")
    except:
        # Fallback para spaCy padr√£o
        nlp = spacy.load("en_core_web_sm", disable=["tagger", "parser", "lemmatizer"])
        print("‚úì Usando spaCy: en_core_web_sm")
    
    doc = nlp(doc_text)
    
    # Extrai entidades nomeadas
    entities = []
    print("\nüè∑Ô∏è  Entidades Nomeadas Detectadas:")
    for ent in doc.ents:
        entities.append(ent.text.lower().strip())
        print(f"   - '{ent.text}' [{ent.label_}]")
    
    # Extrai noun chunks
    print("\nüì¶ Noun Chunks Detectados:")
    for chunk in doc.noun_chunks:
        chunk_text = chunk.text.lower().strip()
        if chunk_text not in entities:
            entities.append(chunk_text)
        print(f"   - '{chunk.text}'")
    
    print(f"\n‚úì Total de entidades √∫nicas: {len(set(entities))}")
    print(f"  Entidades: {sorted(set(entities))}")
    
except Exception as e:
    print(f"‚ö†Ô∏è  spaCy n√£o dispon√≠vel: {e}")
    print("   Usando fallback regex (detecta termos capitalizados e longos)")
    
    # Fallback simples: palavras capitalizadas ou termos longos
    import re
    pattern = re.compile(r"[A-Za-z][A-Za-z0-9_\-/\.]{1,}")
    candidates = []
    for tok in pattern.findall(doc_text):
        if len(tok) >= 10 or tok[0].isupper():
            candidates.append(tok.lower())
    print(f"\n  Entidades detectadas (fallback): {sorted(set(candidates))}")

### üí° Interpreta√ß√£o da Extra√ß√£o

**Entidades nomeadas** capturam:
- Nomes pr√≥prios: "COVID-19", "US", "MiniLM"
- Termos t√©cnicos: "mRNA", "GNNs", "equity market"
- Conceitos importantes: "vaccines", "clinical trials"

**Noun chunks** adicionam:
- Sintagmas nominais completos: "mRNA vaccines", "interest rates"
- Contexto adicional al√©m de palavras isoladas

**Normaliza√ß√£o aplicada**:
- Lowercase para uniformidade
- Remo√ß√£o de pontua√ß√£o nas bordas
- M√≠nimo 2 caracteres

## üßÆ Passo 2: C√°lculo do IDF de Entidades

Ap√≥s extrair entidades de **todos** os documentos, calculamos o IDF:

IDF(e) = log((1 + N) / (1 + DF(e))) + 1.0


Onde:
- **N** = n√∫mero total de documentos
- **DF(e)** = n√∫mero de documentos que cont√™m a entidade `e`

**Intui√ß√£o**: Entidades raras (baixo DF) recebem maior peso; entidades comuns (alto DF) s√£o penalizadas.

In [None]:
# Vamos calcular manualmente o IDF das entidades no nosso corpus

from collections import defaultdict
import re

print("üî¢ Calculando IDF de Entidades no Corpus\n")

# Fun√ß√£o simplificada de extra√ß√£o (fallback regex)
def extract_entities_simple(text):
    """Extrai entidades via regex (fallback)"""
    pattern = re.compile(r"[A-Za-z][A-Za-z0-9_\-/\.]{1,}")
    entities = []
    for tok in pattern.findall(text):
        if len(tok) >= 10 or tok[0].isupper():
            entities.append(tok.lower().strip(".,;:()[]{}"))
    return [e for e in entities if len(e) >= 2]

# Conta DF (document frequency) de cada entidade
df = defaultdict(int)
N = len(docs)

for doc in docs:
    text = (doc.title or "") + " " + (doc.text or "")
    entities = set(extract_entities_simple(text))
    for e in entities:
        df[e] += 1

# Calcula IDF
entity_idf = {}
for e, count in df.items():
    idf_value = np.log((1 + N) / (1 + count)) + 1.0
    entity_idf[e] = idf_value

# Ordena por IDF decrescente
sorted_entities = sorted(entity_idf.items(), key=lambda x: x[1], reverse=True)

print(f"üìä Top 10 Entidades por IDF (mais raras = maior IDF):\n")
for e, idf in sorted_entities[:10]:
    print(f"   {e:<20} | DF={df[e]:>2} | IDF={idf:.4f}")

print(f"\n‚úì Total de entidades √∫nicas no corpus: {len(entity_idf)}")

### üìà Interpreta√ß√£o do IDF

**Entidades com IDF alto** (raras):
- Aparecem em poucos documentos
- S√£o mais **discriminativas** (ajudam a diferenciar documentos)
- Exemplo: "cardiovascular" (s√≥ em D4), "gnns" (s√≥ em D3)

**Entidades com IDF baixo** (comuns):
- Aparecem em muitos documentos
- S√£o menos √∫teis para distinguir conte√∫do
- Exemplo: termos gen√©ricos que aparecem em m√∫ltiplos contextos

**Por que isso importa?** 
O IDF pondera a contribui√ß√£o de cada entidade no vetor final, dando mais peso a termos discriminativos.

## üéØ Passo 3: Embedding de Entidades

Cada entidade √© transformada em um **vetor denso** usando um modelo HF (ex: BGE-Large).

**Exemplo**: 
- Entidade: `"mRNA vaccines"`
- Embedding: vetor de 1024 dimens√µes (se BGE-Large)

**Por que embeddings de entidades?**
- Captura **similaridade sem√¢ntica entre entidades** (ex: "mRNA" ‚âà "RNA-based")
- Permite que entidades relacionadas contribuam de forma similar ao vetor do documento

In [None]:
# Vamos ver como uma entidade √© transformada em embedding

from src.encoders.encoders import HFSemanticEncoder, l2norm

print("üß¨ Gerando Embeddings de Entidades\n")

# Carrega encoder (mesmo usado no retriever de grafo)
entity_encoder = HFSemanticEncoder(
    model_name="BAAI/bge-large-en-v1.5",  # BGE-Large (1024d)
    device=None,
)

print(f"‚úì Modelo: {entity_encoder.model_name}")
print(f"‚úì Dimens√£o: {entity_encoder.dim}d\n")

# Embute algumas entidades exemplo
sample_entities = ["mrna vaccines", "covid-19", "equity market", "gnns"]

print("üìä Embeddings de Entidades (primeiras 5 dimens√µes):\n")
embeddings = {}
for ent in sample_entities:
    emb = l2norm(entity_encoder.encode_text(ent, is_query=False))
    embeddings[ent] = emb
    norm = np.linalg.norm(emb)
    print(f"   {ent:<20} ‚Üí [{emb[:5]}...] || norm={norm:.4f}")

print("\n‚úì Embeddings gerados e normalizados (L2 norm ‚âà 1.0)")

### üîó Similaridade entre Entidades

Vamos calcular a **similaridade de cosseno** entre pares de entidades para verificar se o modelo captura rela√ß√µes sem√¢nticas.

In [None]:
# Calcula similaridade de cosseno entre pares de entidades

def cosine_sim(v1, v2):
    return float(np.dot(v1, v2))  # J√° normalizados (L2), ent√£o dot = cosseno

print("üîó Similaridade entre Entidades (cosseno):\n")

pairs = [
    ("mrna vaccines", "covid-19"),      # relacionadas (dom√≠nio m√©dico)
    ("equity market", "gnns"),          # n√£o relacionadas (finan√ßas vs ML)
    ("mrna vaccines", "equity market"), # n√£o relacionadas (medicina vs finan√ßas)
]

for e1, e2 in pairs:
    if e1 in embeddings and e2 in embeddings:
        sim = cosine_sim(embeddings[e1], embeddings[e2])
        print(f"   '{e1}' ‚Üî '{e2}': {sim:.4f}")

print("\nüí° Entidades semanticamente relacionadas t√™m similaridade maior!")

## üß© Passo 4: Agrega√ß√£o TF-IDF de Entidades

Agora combinamos tudo para gerar o **vetor do documento**:

g(doc) = L2_norm( Œ£_{e ‚àà doc} TF(e, doc) √ó IDF(e) √ó embedding(e) )


Onde:
- **TF(e, doc)** = frequ√™ncia da entidade no documento
- **IDF(e)** = inverse document frequency (calculado no passo 2)
- **embedding(e)** = vetor denso da entidade (calculado no passo 3)

**Algoritmo**:
1. Extrair entidades do documento
2. Contar TF de cada entidade
3. Para cada entidade: peso = TF √ó IDF
4. Somar: vetor_final = Œ£ (peso √ó embedding)
5. Normalizar L2

In [None]:
# Vamos calcular manualmente o vetor de grafo para o documento D1

doc_d1 = docs[0]
text_d1 = (doc_d1.title or "") + " " + (doc_d1.text or "")
print(f"üìÑ Documento D1:\n{text_d1}\n")

# 1. Extrai entidades
entities_d1 = extract_entities_simple(text_d1)
print(f"üè∑Ô∏è  Entidades extra√≠das: {entities_d1}\n")

# 2. Conta TF
from collections import Counter
tf_d1 = Counter(entities_d1)
print(f"üî¢ Term Frequency (TF):")
for e, count in tf_d1.items():
    print(f"   {e}: {count}")

# 3. Calcula vetor agregado (manual)
print(f"\nüßÆ Agrega√ß√£o TF-IDF √ó Embeddings:")
vec_d1 = np.zeros(entity_encoder.dim, dtype=np.float32)

for e, tf in tf_d1.items():
    if e in entity_idf:  # entidade conhecida no corpus
        idf = entity_idf[e]
        weight = tf * idf
        
        # Gera embedding da entidade (ou usa cache)
        if e not in embeddings:
            embeddings[e] = l2norm(entity_encoder.encode_text(e, is_query=False))
        emb = embeddings[e]
        
        vec_d1 += weight * emb
        print(f"   {e:<20} | TF={tf} | IDF={idf:.4f} | weight={weight:.4f}")

# 4. Normaliza L2
vec_d1 = l2norm(vec_d1)
print(f"\n‚úì Vetor final (primeiras 5 dims): {vec_d1[:5]}")
print(f"‚úì Norma L2: {np.linalg.norm(vec_d1):.4f}")

### üí° Interpreta√ß√£o da Agrega√ß√£o

**Contribui√ß√£o de cada entidade**:
- Entidades **frequentes** no documento (alto TF) contribuem mais
- Entidades **raras** no corpus (alto IDF) t√™m maior peso relativo
- Embedding captura o **significado sem√¢ntico** da entidade

**Resultado final**:
- Vetor denso de 1024d (se BGE-Large) normalizado
- Representa o documento como uma **composi√ß√£o ponderada de suas entidades**
- Permite compara√ß√£o por cosseno com queries que tamb√©m passam pelo mesmo processo

## üöÄ Retriever de Grafo Completo

Agora que entendemos o passo a passo, vamos usar o **GraphRetriever** oficial que automatiza todo esse pipeline:

1. **Fit**: Extrai entidades de todos os documentos e calcula IDF
2. **Build**: Gera embeddings e vetores agregados, indexa no FAISS
3. **Retrieve**: Para cada query, gera vetor e busca top-K por cosseno

In [None]:
from src.retrievers.graph_faiss import GraphRetriever

graph_r = GraphRetriever(
    graph_model_name="BAAI/bge-large-en-v1.5",  # BGE-Large para embeddings de entidades
    device=None,                                # "cuda:0" para GPU
    ner_backend="scispacy",                     # ou "spacy" / "none" (fallback)
    ner_model=None,                             # auto-detecta modelo dispon√≠vel
    ner_use_noun_chunks=True,                   # inclui noun chunks
    ner_batch_size=64,
    ner_n_process=1,
    ner_allowed_labels=None,                    # aceita todas as labels NER
    min_df=1,                                   # min document frequency
    use_faiss=True,
    artifact_dir=None,
    index_name="graph.index",
    entity_artifact_dir=None,                   # sem cache neste lab
    entity_force_rebuild=False,
)

print("üîß Construindo √≠ndice de grafo...")
print(f"   Modelo: {graph_r.vec.encoder.model_name}")
print(f"   Dimens√£o: {graph_r.vec.dim}d")
graph_r.build_index(docs)

print("\nüîç Executando retrieval (top-3 por query)...")
graph_results = graph_r.retrieve(queries, k=3)

for q in queries:
    print(f"\nüìä Query [{q.query_id}]: {q.text}")
    pairs = graph_results.get(q.query_id, [])
    for rank, (doc_id, score) in enumerate(pairs, 1):
        doc = next(d for d in docs if d.doc_id == doc_id)
        print(f"  {rank}. {doc_id} (score={score:.4f}) - {doc.title}")

### üìà An√°lise dos Resultados Graph

**Observe**:
- Queries com **entidades nomeadas fortes** (ex: "mRNA", "COVID", "entity embeddings") devem ranquear bem documentos relacionados
- O retriever de grafo √© especialmente forte quando:
  - Documento e query compartilham **entidades raras** (alto IDF)
  - Entidades t√™m **alta similaridade sem√¢ntica** nos embeddings
- Pode capturar rela√ß√µes que TF-IDF perde (par√°frases de entidades) e que Dense n√£o enfatiza (import√¢ncia de termos espec√≠ficos)

**Exemplo esperado**: 
- Q3 ("Entity embeddings and graph-based retrieval") deve ranquear bem D3 (GNNs, entity classification) e D5 (embeddings para retrieval)

---
# üìä Compara√ß√£o Lado a Lado dos Tr√™s Retrievers

Vamos consolidar os resultados dos tr√™s m√©todos para facilitar a an√°lise comparativa.

In [None]:
import pandas as pd

def format_results(results, name):
    """Formata resultados em DataFrame para visualiza√ß√£o"""
    rows = []
    for q in queries:
        pairs = results.get(q.query_id, [])[:3]
        for rank, (doc_id, score) in enumerate(pairs, 1):
            doc = next(d for d in docs if d.doc_id == doc_id)
            rows.append({
                'Query': q.query_id,
                'Retriever': name,
                'Rank': rank,
                'Doc': doc_id,
                'Score': f"{score:.4f}",
                'Title': doc.title[:40]
            })
    return pd.DataFrame(rows)

# Concatena resultados
df_tfidf = format_results(tfidf_results, "TF-IDF")
df_dense = format_results(dense_results, "Dense")
df_graph = format_results(graph_results, "Graph")

df_all = pd.concat([df_tfidf, df_dense, df_graph], ignore_index=True)

print("üìä Compara√ß√£o dos Retrievers (Top-3 por Query):\n")
for qid in ["Q1", "Q2", "Q3"]:
    print(f"\n{'='*80}")
    print(f"Query {qid}: {next(q.text for q in queries if q.query_id == qid)}")
    print('='*80)
    subset = df_all[df_all['Query'] == qid]
    print(subset[['Retriever', 'Rank', 'Doc', 'Score', 'Title']].to_string(index=False))

### üîç An√°lise Comparativa

| Retriever | For√ßa | Fraqueza |
|-----------|-------|----------|
| **TF-IDF** | ‚úì Match exato de termos<br>‚úì R√°pido e interpret√°vel | ‚úó N√£o captura sin√¥nimos<br>‚úó Sens√≠vel a vocabul√°rio |
| **Dense** | ‚úì Similaridade sem√¢ntica<br>‚úì Generaliza√ß√£o | ‚úó Pode perder signal lexical espec√≠fico<br>‚úó Menos interpret√°vel |
| **Graph** | ‚úì Captura entidades importantes<br>‚úì Pondera√ß√£o por IDF | ‚úó Depende da qualidade do NER<br>‚úó Mais lento (extra√ß√£o + embedding) |

**Conclus√£o**: Cada retriever captura um **sinal complementar**. O retriever **h√≠brido** combina os tr√™s para obter o melhor de todos.

---
# üî¨ Explora√ß√£o Adicional: Dimens√µes e Normaliza√ß√£o

Vamos verificar as dimens√µes e normas L2 dos vetores gerados por cada retriever para confirmar que est√£o corretamente normalizados.

In [None]:
# Verifica dimens√µes e normaliza√ß√£o

print("üìê Dimens√µes e Normaliza√ß√£o dos Vetores\n")

# TF-IDF
from src.vectorizers.tfidf_vectorizer import TFIDFVectorizer
tf_vec = TFIDFVectorizer(dim=1000, min_df=1, backend="sklearn")
tf_vec.fit_corpus([(d.title or "") + " " + (d.text or "") for d in docs])
v_tf = tf_vec.encode_text(queries[0].text)
print(f"TF-IDF:")
print(f"   Dim: {v_tf.shape[0]:>4}d | L2 norm: {np.linalg.norm(v_tf):.6f} | Sparsity: {np.sum(v_tf == 0) / len(v_tf) * 100:.1f}%")

# Dense (MiniLM)
from src.vectorizers.dense_vectorizer import DenseVectorizer
dv = DenseVectorizer(model_name="sentence-transformers/all-MiniLM-L6-v2", device=None)
v_d = dv.encode_query(queries[0].text)
print(f"\nDense (MiniLM):")
print(f"   Dim: {v_d.shape[0]:>4}d | L2 norm: {np.linalg.norm(v_d):.6f} | Sparsity: {np.sum(v_d == 0) / len(v_d) * 100:.1f}%")

# Graph
from src.vectorizers.graph_vectorizer import GraphVectorizer
gv = GraphVectorizer(
    graph_model_name="BAAI/bge-large-en-v1.5", 
    device=None, 
    ner_backend="scispacy", 
    min_df=1
)
gv.fit_corpus([(d.title or "") + " " + (d.text or "") for d in docs])
v_g = gv.encode_text(queries[0].text)
print(f"\nGraph (BGE-Large):")
print(f"   Dim: {v_g.shape[0]:>4}d | L2 norm: {np.linalg.norm(v_g):.6f} | Sparsity: {np.sum(v_g == 0) / len(v_g) * 100:.1f}%")

print("\n‚úì Todos os vetores est√£o normalizados (L2 norm ‚âà 1.0)")
print("‚úì TF-IDF √© esparso; Dense e Graph s√£o densos")

### üìä Interpreta√ß√£o das Dimens√µes

**TF-IDF** (1000d):
- Dimens√£o = tamanho do vocabul√°rio (limitado por `max_features`)
- **Altamente esparso**: maioria das dimens√µes √© zero (termos n√£o presentes)
- Sparsity t√≠pica: 95-99%

**Dense MiniLM** (384d):
- Dimens√£o fixa definida pelo modelo
- **Totalmente denso**: todas as dimens√µes t√™m valores n√£o-zero
- Menor que BGE, mas ainda captura sem√¢ntica eficazmente

**Graph BGE-Large** (1024d):
- Dimens√£o = dimens√£o do encoder de entidades
- **Denso**: composi√ß√£o ponderada de embeddings de entidades
- Maior dimens√£o ‚Üí maior capacidade representacional

**Normaliza√ß√£o L2**: Todos os vetores t√™m norma ‚âà 1.0, permitindo compara√ß√£o direta por inner-product (equivalente a cosseno).