# Aula 6 - Solução dos exercícios
Leandro Carísio Fernandes

<br>

Iremos fazer finetuning de um buscador denso

Usar como treino o dataset "tiny" do MS MARCO
https://storage.googleapis.com/unicamp-dl/ia368dd_2023s1/msmarco/msmarco_triples.train.tiny.tsv

Avaliar o modelo no TREC-COVID, e comparar os resultados com o BM25 e doc2query

Comparar busca "exaustiva" (semelhança do vetor query com todos os vetores do corpus) com a busca aproximada (Approximate Nearest Neighbor - ANN)

Para a busca aproximada, usar os algoritmos existentes na biblioteca sentence-transformers (ex: hnswlib) OU implemente um você mesmo (Bonus!)

Dicas:

- Usar a média dos vetores da última camada (conhecido como mean pooling) do transformer para representar queries e passagens; Alternativamente, usar apenas o vetor do [CLS] da última cada.

- Tente inicialmente uma loss facil de implementar, como a entropia-cruzada

- Começar o treino a partir do microsoft/MiniLM-L12-H384-uncased

- Avaliar o pipeline usando um modelo já bem treinado: sentence-transformers/all-mpnet-base-v2

- Comparar resultados usando semelhança de coseno e produto escalar como funções de similaridade

- Para checar se seu codigo de avaliação está correto, comparar o seu desempenho com o do modelo já treinado no MS MARCO: https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2; O nDCG@10 no TREC-COVID deve ser ~0.47

- Usar a biblioteca do sentence-transformers para avaliar o modelo



## Preparação do ambiente

### Variáveis para controlar o fluxo do caderno




In [20]:
treinar_e_salvar_modelos = False

gerar_e_salvar_matriz_docs_trec_covid = False

# Local onde fica o arquivo que contém a matriz de todos os documentos do trec_covid. Se gerar_e_salvar_matriz_docs_trec_covid = True, esse arquivo será sobrescrito com a nova geração
arquivo_matriz_docs_trec_covid = '/content/drive/My Drive/IA368-DD_deep_learning_busca/Aula6-buscador-denso/matriz_docs_trec_covid_unitario.pt'

# Diretório onde vai salvando o modelo a cada época
dir_modelos = '/content/drive/My Drive/IA368-DD_deep_learning_busca/Aula6-buscador-denso/modelos_unitario/'

# Nome dos modelos e tokenizador. São esses modelos que serão carregados no início com o from_pretrained.
# Se quiser iniciar um treinamento do 0, é necessário substituir por "microsoft/MiniLM-L12-H384-uncased"
nome_modelo_query = '/content/drive/My Drive/IA368-DD_deep_learning_busca/Aula6-buscador-denso/modelos_unitario/final/query/' #nome_modelo_query = "microsoft/MiniLM-L12-H384-uncased"
nome_modelo_doc = '/content/drive/My Drive/IA368-DD_deep_learning_busca/Aula6-buscador-denso/modelos_unitario/final/doc/' #nome_modelo_doc = "microsoft/MiniLM-L12-H384-uncased"
nome_tokenizador = "microsoft/MiniLM-L12-H384-uncased"


url_ms_marco_treinamento = "https://storage.googleapis.com/unicamp-dl/ia368dd_2023s1/msmarco/msmarco_triples.train.tiny.tsv"
url_trec_covid = 'https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/trec-covid.zip'

max_length = 256 
batch_size = 32
epochs = 20
lr = 1e-5

### Instalação de libs e montagem do Drive

In [21]:
# Já monta o drive, pois vamos usar o índice invertido da Aula 1 para usar o BM25 implementado também na aula 1
# Além disso, é necessário para salvar/recuperar o modelo tunado
from google.colab import drive
drive.mount('/content/drive')

!pip install transformers datasets -q
!pip install sentence-transformers -q
!pip install pyserini -q
!pip install faiss-gpu -q

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Fine-tuning dos encoders

Cada linha do dataset de treino (MSMARCO-tiny) possui 3 campos: query, exemplo positivo, exemplo negativo. Vamos desconsiderar os exemplos negativos e usar apenas os positivos. Para uma dada query, usamos os exemplos positivos de outras queries como negativo para a query avaliada.

In [22]:
import pandas as pd
from pathlib import Path
from sklearn.model_selection import train_test_split

# Só faz o download se ainda não tiver feito
if not Path('./collections/msmarco_triples.train.tiny.tsv').is_file():
  !wget {url_ms_marco_treinamento} -P collections # type: ignore

# Lê usando pandas
msmarco_df = pd.read_csv("collections/msmarco_triples.train.tiny.tsv", sep='\t', names=['query', 'relevante', 'nao_relevante'], header=None)
msmarco_train_df, msmarco_val_df = train_test_split(msmarco_df, test_size=0.1, random_state=42)

# Separa os conjuntos de treinamento e validação
queries_train = msmarco_train_df['query'].tolist()
docs_train = msmarco_train_df['relevante'].tolist()
queries_val = msmarco_val_df['query'].tolist()
docs_val = msmarco_val_df['relevante'].tolist()

print('Total treinamento', len(queries_train), len(docs_train))
print('Total validação', len(queries_val), len(docs_val))

Total treinamento 9900 9900
Total validação 1100 1100


Define os datasets e dataloaders:

In [23]:
from transformers import AutoTokenizer
from torch.utils import data
from torch.utils.data import DataLoader
from transformers import BatchEncoding

In [24]:
# Definição do Dataset
class Dataset(data.Dataset):
    # Recebe apenas um vetor de textos
    def __init__(self, tokenizer, textos, max_seq_length = max_length):
        self.max_seq_length = max_seq_length
        self.tokenizer = tokenizer
        self.textos = textos
        self.cache = {}

    def __len__(self):
        return len(self.textos)
    
    def __getitem__(self, idx):
        # Guarda os itens tokenizados num dict e apenas recupera de lá, pra não
        # ter que ficar tokenizando a cada época
        # Como estamos guardando no dict e idx é um slice, é necessário converter ele pra algo
        # mapeável
        self.cache[str(idx)] = self.cache.get(str(idx), 
                   self.tokenizer(self.textos[idx],
                                  padding=True,
                                  truncation=True,
                                  max_length=self.max_seq_length
                                  )
                   )
        return self.cache[str(idx)]





In [25]:
tokenizer = AutoTokenizer.from_pretrained(nome_tokenizador)

# Temos 2 datasets de cada tipo (train/val). Um pro encoder do documentos e outro pro encoder das queries
# Datasets de treinamento
dataset_queries_train = Dataset(tokenizer, queries_train)
dataset_docs_train = Dataset(tokenizer, docs_train)

# Datasets de validação
dataset_queries_val = Dataset(tokenizer, queries_val)
dataset_docs_val = Dataset(tokenizer, docs_val)

In [26]:
# Dataloaders para os datasets

#collate_fn = lambda batch: BatchEncoding(tokenizer.pad(batch, return_tensors='pt'))
def collate_fn(batch):
    #print('Dentro de collate_fn')
    #print(BatchEncoding(tokenizer.pad(batch, return_tensors='pt')))
    return BatchEncoding(tokenizer.pad(batch, return_tensors='pt'))

dataloader_queries_train = DataLoader(dataset_queries_train, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)
dataloader_docs_train = DataLoader(dataset_docs_train, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)

dataloader_queries_val = DataLoader(dataset_queries_val, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)
dataloader_docs_val = DataLoader(dataset_docs_val, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)

Carrega os modelos:

In [27]:
# Agora vamos carregar dois modelos:
import torch
from transformers import AutoModel

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Se tiver que treinar os modelos, abre
model_query = AutoModel.from_pretrained(nome_modelo_query).to(device)
model_doc = AutoModel.from_pretrained(nome_modelo_doc).to(device)

Define função pro cálculo da loss:

In [28]:
# Essa função já considera o resultado via batchs:
def compute_loss_com_gradiente(model_query, tokenized_queries, model_doc, tokenized_docs):
    outputs_queries = model_query(**tokenized_queries.to(device))
    outputs_docs    = model_doc(**tokenized_docs.to(device))
    
    # Extrai a última camada oculta associada ao token [CLS]
    tcls_queries = outputs_queries.last_hidden_state[:, 0, :]
    tcls_docs    = outputs_docs.last_hidden_state[:, 0, :]
    
    # Normaliza os tensores
    tcls_queries = tcls_queries / torch.norm(tcls_queries, dim=1, keepdim=True)
    tcls_docs = tcls_docs / torch.norm(tcls_docs, dim=1, keepdim=True)
    
    # Agora é necessário calcular a loss. Para isso, o primeiro passo é
    # calcular a similaridade entre uma query e documento (sim(q, d))
    similaridade = torch.matmul(tcls_queries, torch.transpose(tcls_docs, 0, 1))

    # Calcula a exponencial da similaridade
    exp_sim = torch.exp(similaridade/0.02)
    
    # Calcula a loss
    soma_linhas = exp_sim.sum(dim=1) # Isso é pro denominador, inclui os exemplos positivos e negativos
    diagonal = torch.diag(exp_sim)
    log_loss = -1* torch.log(diagonal/soma_linhas)
    
    loss = torch.mean(log_loss)
    return loss

def compute_loss_sem_gradiente(model_query, tokenized_queries, model_doc, tokenized_docs):
    with torch.no_grad():
        return compute_loss_com_gradiente(model_query, tokenized_queries, model_doc, tokenized_docs)

def compute_loss_dataloaders(model_query, dataloader_query, model_doc, dataloader_docs):
    loss = 0
    n_batches = 0
    for batch_query, batch_docs in zip(dataloader_query, dataloader_docs):
        loss = loss + compute_loss_sem_gradiente(model_query, batch_query, model_doc, batch_docs)
        n_batches += 1
    return loss/n_batches

In [29]:
%%time
# Só pra medir o tempo que ele demora para calcular a loss em todo o dataset de treinamento
model_query.eval()
model_doc.eval()
print(f'Loss de treinamento: {compute_loss_dataloaders(model_query, dataloader_queries_train, model_doc, dataloader_docs_train)}')
print(f'Loss de validação: {compute_loss_dataloaders(model_query, dataloader_queries_val, model_doc, dataloader_docs_val)}')

You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Loss de treinamento: 0.0002726383681874722
Loss de validação: 0.07193975150585175
CPU times: user 35.6 s, sys: 66.8 ms, total: 35.7 s
Wall time: 35.9 s


Agora treina os dois encoders simulatenamente:

In [30]:
%%time
from transformers import Trainer, TrainingArguments
from transformers import get_linear_schedule_with_warmup, get_cosine_with_hard_restarts_schedule_with_warmup, AdamW
from tqdm.auto import tqdm

if treinar_e_salvar_modelos:
  # Training loop
  optimizer_query = AdamW(model_query.parameters(), lr=lr)
  optimizer_doc = AdamW(model_doc.parameters(), lr=lr)

  num_training_steps = epochs * len(dataloader_queries_train)
  num_warmup_steps = int(num_training_steps * 0.1)

  # get_linear_schedule_with_warmup get_cosine_with_hard_restarts_schedule_with_warmup
  scheduler_query = get_cosine_with_hard_restarts_schedule_with_warmup(optimizer_query, num_warmup_steps, num_training_steps)   
  scheduler_doc = get_cosine_with_hard_restarts_schedule_with_warmup(optimizer_doc, num_warmup_steps, num_training_steps)   

  for epoch in tqdm(range(epochs), desc='Epochs'):
      model_query.train()
      model_doc.train()
      
      train_losses = []
      for batch_query, batch_docs in tqdm(list(zip(dataloader_queries_train, dataloader_docs_train)), mininterval=0.5, desc='Train', disable=False):
          optimizer_query.zero_grad()
          optimizer_doc.zero_grad()
          
          loss = compute_loss_com_gradiente(model_query, batch_query, model_doc, batch_docs)
          loss.backward()
          
          optimizer_query.step()
          optimizer_doc.step()

          scheduler_query.step()
          scheduler_doc.step()
      
      model_query.save_pretrained(f'{dir_modelos}{epoch}/query/')
      model_doc.save_pretrained(f'{dir_modelos}{epoch}/doc/')

      model_query.eval()
      model_doc.eval()
      
      print(f'Loss de treinamento {epoch}: {compute_loss_dataloaders(model_query, dataloader_queries_train, model_doc, dataloader_docs_train)}')
      print(f'Loss de validação {epoch}: {compute_loss_dataloaders(model_query, dataloader_queries_val, model_doc, dataloader_docs_val)}')

CPU times: user 23 µs, sys: 2 µs, total: 25 µs
Wall time: 28.4 µs


## Pesquisa completa no TREC-COVID

Treinado o modelo, agora vamos aplicá-lo ao TREC-COVID:.

Coloca os modelos em modo eval:


In [31]:
model_query.eval()
model_doc.eval()

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(30522, 384, padding_idx=0)
    (position_embeddings): Embedding(512, 384)
    (token_type_embeddings): Embedding(2, 384)
    (LayerNorm): LayerNorm((384,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSelfAttention(
            (query): Linear(in_features=384, out_features=384, bias=True)
            (key): Linear(in_features=384, out_features=384, bias=True)
            (value): Linear(in_features=384, out_features=384, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=384, out_features=384, bias=True)
            (LayerNorm): LayerNorm((384,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)
  

Baixa o trec-covid:

In [32]:
if not Path('./collections/trec-covid.zip').is_file():
  !wget {url_trec_covid} -P collections # type: ignore
  !unzip -o collections/trec-covid.zip -d ./collections # type: ignore

# Converte o qrels que veio no trec-covid.zip pra o formato esperado:
with open('./collections/trec-covid/qrels/test.tsv', 'r') as fin:
  data = fin.read().splitlines(True)
with open('./collections/trec-covid/qrels/test_corrigido.tsv', 'w') as fout:
  for linha in data[1:]:
    campos = linha.split()
    fout.write(f'{campos[0]}\t0\t{campos[1]}\t{campos[2]}\n')

Carrega as queries e os documentos:

In [33]:
%%time
import json

def carrega_corpus_trec_covid():
  retorno = []
  with open('./collections/trec-covid/corpus.jsonl') as corpus:
    for i, line in enumerate(corpus):
      doc = json.loads(line)
      #retorno.append({
      #    'id': doc['_id'],
      #    'doc': f"{doc['title']} {doc['text']}"
      #})
      retorno.append(
          (doc['_id'], f"{doc['title']} {doc['text']}")
      )
      if (i % 10000 == 0):
        print(f'Processado {i} documentos')
    return retorno

def carrega_queries_trec_covid():
  retorno = []
  with open('./collections/trec-covid/queries.jsonl') as queries:
    for line in queries:
      query = json.loads(line)
      # Faz apenas uma pequena tradução de _id para id e text para texto
      retorno.append({'id': query['_id'], 'texto': query['text']})
  return retorno

queries_trec_covid = carrega_queries_trec_covid()
corpus_trec_covid = carrega_corpus_trec_covid()

Processado 0 documentos
Processado 10000 documentos
Processado 20000 documentos
Processado 30000 documentos
Processado 40000 documentos
Processado 50000 documentos
Processado 60000 documentos
Processado 70000 documentos
Processado 80000 documentos
Processado 90000 documentos
Processado 100000 documentos
Processado 110000 documentos
Processado 120000 documentos
Processado 130000 documentos
Processado 140000 documentos
Processado 150000 documentos
Processado 160000 documentos
Processado 170000 documentos
CPU times: user 1.21 s, sys: 132 ms, total: 1.34 s
Wall time: 1.31 s


A variável corpus_trec_covid contém os ids e os textos. Agora é necessário carregar a representação vetorial desses textos. Isso será feito gerando a matriz matriz_docs_trec_covid:

In [34]:
%%time
ids_trec_covid, textos_trec_covid = zip(*corpus_trec_covid)

matriz_docs_trec_covid = None
#textos_trec_covid = textos_trec_covid[0:20000]
dataset_docs_trec_covid = Dataset(tokenizer, textos_trec_covid)
dataloader_docs_trec_covid = DataLoader(dataset_docs_trec_covid, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)

if gerar_e_salvar_matriz_docs_trec_covid:
  with torch.no_grad():
    for batch in tqdm(dataloader_docs_trec_covid, mininterval=0.5, desc='Convertendo documentos trec-covid', disable=False):
      outputs_docs = model_doc(**batch.to(device))
      tcls_docs    = outputs_docs.last_hidden_state[:, 0, :]
      tcls_docs    = tcls_docs / torch.norm(tcls_docs, dim=1, keepdim=True)
      # Monta a matriz de documentos na CPU
      tcls_docs = tcls_docs.to("cpu")

      if matriz_docs_trec_covid is None:
        matriz_docs_trec_covid = tcls_docs
      else:
        matriz_docs_trec_covid = torch.cat( (matriz_docs_trec_covid, tcls_docs), dim=0)

  # Agora volta a matriz pra GPU pq ela cabe lá, não sei pq estava estourando a memória antes...
  matriz_docs_trec_covid = matriz_docs_trec_covid.to(device)
  torch.save(matriz_docs_trec_covid, arquivo_matriz_docs_trec_covid)
else:
  matriz_docs_trec_covid = torch.load(arquivo_matriz_docs_trec_covid).to(device)

print(matriz_docs_trec_covid.size())

torch.Size([171332, 384])
CPU times: user 5.33 s, sys: 1.47 s, total: 6.81 s
Wall time: 6.67 s


Agora vamos definir um método pra calcular a representação vetorial da query e para fazer a pesquisa na base de dados. O método de pesquisa só retorna o vetor de score pareado com as ids contidas na variável ids_trec_covid:


In [35]:
def get_vetor_query(query):
  query_tokenizada = tokenizer(query, padding=True, truncation=True, max_length=max_length, return_tensors='pt')

  with torch.no_grad():
    output_query = model_query(**query_tokenizada.to(device))
    tcls_query    = output_query.last_hidden_state[:, 0, :]
    # tcls_query    = tcls_query / torch.norm(tcls_query, dim=1, keepdim=True)

  return tcls_query[0]

vetor_query = get_vetor_query('what is this?')

print(vetor_query.size())


torch.Size([384])


In [36]:
def calcula_score_documentos_para_a_query(matriz_docs, query):
  vetor_query = get_vetor_query(query)
  score = torch.matmul(matriz_docs, vetor_query)

  return score

def pesquisa_query_e_retorna_n_primeiros_docs(matriz_docs, ids_docs_na_matriz, query, n=1000):
  # Calcula o score
  score = calcula_score_documentos_para_a_query(matriz_docs, query)
  # Ordena
  sorted_score, indices_score = torch.sort(score, descending=True)
  # Pega só os n primeiros
  sorted_score = sorted_score[0:n]
  indices_score = indices_score[0:n]
  # Extrai os ids dos documentos
  ids_docs = [ids_docs_na_matriz[i] for i in indices_score]

  return zip(ids_docs, sorted_score)


Agora roda todas as queries para avaliação...

In [37]:
# Roda todas as queries
def run_all_queries(file):
  print('Carregando as queries do arquivo queries.jsonl...\n')
  queries_trec_covid = carrega_queries_trec_covid()

  print(f'Total de queries que serão avaliadas: {len(queries_trec_covid)}')
  cnt = 0
  with open(file, 'w') as runfile:
    for query in queries_trec_covid:
      id_query = query['id']
      texto = query['texto']

      if cnt % 5 == 0:
        print(f'{cnt} queries completadas')

      # Pega os primeiros 1000 resultados
      docs_score = pesquisa_query_e_retorna_n_primeiros_docs(matriz_docs_trec_covid, ids_trec_covid, texto, n=1000)
      
      i = 0
      for id_doc, score in docs_score:
        _ = runfile.write('{} Q0 {} {} {:.6f} Pesquisa_densa\n'.format(id_query, id_doc, i+1, float(score)))
        i += 1

      cnt += 1
      # break # Pra testar, gera só a primeira query
    print(f'{cnt} queries completadas')
    

E calcula o nDCG@10:

In [38]:
run_all_queries('run-pesquisa-densa.txt')

!python -m pyserini.eval.trec_eval -c -m ndcg_cut.10 collections/trec-covid/qrels/test_corrigido.tsv run-pesquisa-densa.txt #type: ignore

Carregando as queries do arquivo queries.jsonl...

Total de queries que serão avaliadas: 50
0 queries completadas
5 queries completadas
10 queries completadas
15 queries completadas
20 queries completadas
25 queries completadas
30 queries completadas
35 queries completadas
40 queries completadas
45 queries completadas
50 queries completadas
Downloading https://search.maven.org/remotecontent?filepath=uk/ac/gla/dcs/terrierteam/jtreceval/0.0.5/jtreceval-0.0.5-jar-with-dependencies.jar to /root/.cache/pyserini/eval/jtreceval-0.0.5-jar-with-dependencies.jar...
/root/.cache/pyserini/eval/jtreceval-0.0.5-jar-with-dependencies.jar already exists!
Skipping download.
Running command: ['java', '-jar', '/root/.cache/pyserini/eval/jtreceval-0.0.5-jar-with-dependencies.jar', '-c', '-m', 'ndcg_cut.10', 'collections/trec-covid/qrels/test_corrigido.tsv', 'run-pesquisa-densa.txt']
Results:
ndcg_cut_10           	all	0.3567
