# Proposta de Atividade de Aula 30/06
## Recuperação de Informação em Sistemas Chatbot com RAG
### Grupo 1: Marilia e Murilo



### Atividade 1:
**Objetivo:** Transformar textos em embeddings, simulando um armazenamento vetorizado para posterior busca

**Contexto:** Essa etapa simula a fase de Indexing, onde  documentos externos são processados, divididos em "chunks" (pedaços) e transformados em vetores numéricos (embeddings). Você pode eleger o critério para separação dos chuncks, por exemplo, parágrafos, frases, limite de tokens, etc.

**Passos da Atividade:**

a) Coletar o texto da Página https://brasileiraspln.com/livro-pln/1a-edicao/parte8/cap16/cap16.html e armazenar em um documento de texto.

b) Salvar chuncks em um arquivo csv com a seguinte estrutura:

| id  | nome\_arquivo       | texto\_artigo | vector (lista)    | numero\_tokens |
| --- | ------------------- | ------------- | ----------------- | -------------- |
| 1   | brasileiraspln.docx | "Texto 1..."  | \[0.34, ..., ...] | 98             |
| 2   | brasileiraspln.docx | "Texto 2..."  | \[0.22, ..., ...] | 97             |
| ... | ...                 | ...           | ...               | ...            |

Faça esse processo para pelo menos 2 modelos de embedding.
- all-MiniLM-L6-v2
- paraphrase-multilingual-MiniLM-L12-v2


---



In [7]:
from docx import Document
from sentence_transformers import SentenceTransformer
import nltk
from nltk.tokenize import word_tokenize
import pandas as pd
import json
import re

# Baixar tokenizer do NLTK
nltk.download("punkt")

[nltk_data] Downloading package punkt to /home/grati/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [24]:
#all-MiniLM-L6-v2
#paraphrase-multilingual-MiniLM-L12-v2

doc_path = "brasileiraspln_cap16.docx"
doc = Document(doc_path)
text = " ".join([p.text for p in doc.paragraphs if p.text.strip() != ""])

text = re.sub(r'\s+', ' ', text) 
words = word_tokenize(text, language="portuguese")

chunk_size = 35
chunks = []
for i in range(0, len(words), chunk_size):
    chunk = words[i:i+chunk_size]
    chunk_text = ' '.join(chunk)
    chunks.append(chunk_text)

model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")
vectors = model.encode(chunks)

data = []
for i, (chunk, vec) in enumerate(zip(chunks, vectors), start=1):
    data.append({
        "id": i,
        "nome_arquivo": "brasileiraspln.docx",
        "texto_artigo": chunk,
        "vector": vec.tolist(),  
        "numero_tokens": len(word_tokenize(chunk, language="portuguese"))
    })

df = pd.DataFrame(data)

df.to_csv("chunks_35palavras_embeddings.csv", index=False, encoding="utf-8")

print("Arquivo gerado: chunks_35palavras_embeddings.csv")

Arquivo gerado: chunks_35palavras_embeddings.csv


### Atividade 2
**Objetivo:** Avaliar e comparar a eficácia de três métodos de recuperação de documentos para uma consulta específica.

**Contexto:** Usaremos um pequeno conjunto de documentos (2 arquivos csv) e uma pergunta.

**Métodos a Comparar:**
* Baseline (Busca Esparsa): BM25
* Busca Densa 1 (Multilíngue): Embedding com paraphrase-multilingual-MiniLM-L12-v2
* Busca Densa 2 (Multilíngue): Embedding com all-MiniLM-L6-v2

**Passos da Atividade:**

a) Para a mesma pergunta, obter a lista ordenada de documentos de cada um dos três métodos.

b) Calcular as seguintes métricas de avaliação para cada método:
- MRR (Mean Reciprocal Rank): Mede a posição do primeiro resultado relevante.
- NDCG@10 (Normalized Discounted Cumulative Gain): Mede a qualidade do ranking dos 10 primeiros resultados.



FUNÇÕES DE AVALIAÇÃO

In [14]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from rank_bm25 import BM25Okapi
from sentence_transformers import SentenceTransformer
import ast

# ======= Funções de avaliação =======

def compute_mrr(ranked_ids, relevant_ids):
    for rank, doc_id in enumerate(ranked_ids, start=1):
        if doc_id in relevant_ids:
            return 1.0 / rank
    return 0.0

def compute_ndcg(ranked_ids, relevant_ids, k=10):
    dcg = 0.0
    for i, doc_id in enumerate(ranked_ids[:k]):
        if doc_id in relevant_ids:
            dcg += 1 / np.log2(i + 2)
    ideal_dcg = sum(1 / np.log2(i + 2) for i in range(min(len(relevant_ids), k)))
    return dcg / ideal_dcg if ideal_dcg > 0 else 0.0

# ======= Similaridade de cosseno =======

def cosine_rank(df, question_embedding):
    matrix = np.vstack(df['vector'].values)
    sims = cosine_similarity([question_embedding], matrix)[0]
    df['score'] = sims
    return df.sort_values('score', ascending=False)['id'].tolist()

# ======= BM25 =======

def bm25_rank(df_bm25, question):
    tokenized_corpus = [str(doc).split() for doc in df_bm25['texto_artigo']]
    bm25 = BM25Okapi(tokenized_corpus)
    tokenized_question = question.split()
    scores = bm25.get_scores(tokenized_question)
    df_bm25['score'] = scores
    return df_bm25.sort_values('score', ascending=False)['id'].tolist()

In [25]:
embedings_model_1 = pd.read_csv('chunks_35palavras_embeddings2.csv')
embedings_model = pd.read_csv('chunks_35palavras_embeddings.csv')

BUSCA ESPARSA

In [34]:
df_dense1 = pd.read_csv("chunks_35palavras_embeddings.csv")   # paraphrase-multilingual-MiniLM-L12-v2
df_dense2 = pd.read_csv("chunks_35palavras_embeddings2.csv")      # all-MiniLM-L6-v2
df_bm25 = pd.read_csv("chunks_35palavras_embeddings.csv")[['id', 'texto_artigo', 'numero_tokens']]     # Pode ser o mesmo texto, sem importar os vetores

df_dense1['vector'] = df_dense1['vector'].apply(ast.literal_eval)
df_dense2['vector'] = df_dense2['vector'].apply(ast.literal_eval)

df_dense1['vector'] = df_dense1['vector'].apply(np.array)
df_dense2['vector'] = df_dense2['vector'].apply(np.array)

question = "O que é modelo booleano?"  # exemplo
relevant_ids = [85,86,87,88,89, 90,91]  

model_1 = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
model_2 = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

embedding_q1 = model_1.encode(question)
embedding_q2 = model_2.encode(question)

# ======= Rankear documentos =======
rank_bm25 = bm25_rank(df_bm25.copy(), question)
rank_dense1 = cosine_rank(df_dense1.copy(), embedding_q1)
rank_dense2 = cosine_rank(df_dense2.copy(), embedding_q2)

# ======= Avaliar =======
print("===== Avaliação da Pergunta =====")
print("Pergunta:", question)
print("\n-- BM25 --")
print("Ranking:", rank_bm25[:10])
print("MRR:", compute_mrr(rank_bm25, relevant_ids))
print("NDCG@10:", compute_ndcg(rank_bm25, relevant_ids))

print("\n-- Embedding: paraphrase-multilingual-MiniLM-L12-v2 --")
print("Ranking:", rank_dense1[:10])
print("MRR:", compute_mrr(rank_dense1, relevant_ids))
print("NDCG@10:", compute_ndcg(rank_dense1, relevant_ids))

print("\n-- Embedding: all-MiniLM-L6-v2 --")
print("Ranking:", rank_dense2[:10])
print("MRR:", compute_mrr(rank_dense2, relevant_ids))
print("NDCG@10:", compute_ndcg(rank_dense2, relevant_ids))

===== Avaliação da Pergunta =====
Pergunta: O que é modelo booleano?

-- BM25 --
Ranking: [85, 142, 138, 150, 143, 140, 139, 167, 91, 164]
MRR: 1.0
NDCG@10: 0.3576223542196109

-- Embedding: paraphrase-multilingual-MiniLM-L12-v2 --
Ranking: [85, 91, 150, 142, 82, 83, 60, 129, 139, 160]
MRR: 1.0
NDCG@10: 0.4483039899025303

-- Embedding: all-MiniLM-L6-v2 --
Ranking: [85, 91, 90, 86, 96, 82, 69, 150, 142, 97]
MRR: 1.0
NDCG@10: 0.7041249493150387
