# Aula 7 - DPR

[Unicamp - IA368DD: Deep Learning aplicado a sistemas de busca.](https://www.cpg.feec.unicamp.br/cpg/lista/caderno_horario_show.php?id=1779)

Autor: Marcus Vinícius Borela de Castro

[Repositório no github](https://github.com/marcusborela/deep_learning_em_buscas_unicamp)


## Enunciado do Exercício

Fazer o finetuning de um buscador denso

Usar como treino o dataset "tiny" do MS MARCO
https://storage.googleapis.com/unicamp-dl/ia368dd_2023s1/msmarco/msmarco_triples.train.tiny.tsv

Avaliar o modelo no TREC-COVID, e comparar os resultados com o BM25 e doc2query

Comparar busca "exaustiva" (semelhança do vetor query com todos os vetores do corpus) com a busca aproximada (Approximate Nearest Neighbor - ANN)

Para a busca aproximada, usar os algoritmos existentes na biblioteca sentence-transformers (ex: hnswlib) OU implemente um você mesmo (Bonus!)

Dicas:

    Usar a média dos vetores da última camada (conhecido como mean pooling) do transformer para representar queries e passagens; Alternativamente, usar apenas o vetor do [CLS] da última cada.
    Tente inicialmente uma loss fácil de implementar, como a entropia-cruzada
    Começar o treino a partir do microsoft/MiniLM-L12-H384-uncased
    Avaliar o pipeline usando um modelo já bem treinado: sentence-transformers/all-mpnet-base-v2
    Comparar resultados usando semelhança de cosseno e produto escalar como funções de similaridade
    Para checar se seu codigo de avaliação está correto, comparar o seu desempenho com o do modelo já treinado no MS MARCO:   https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2; O nDCG@10 no TREC-COVID deve ser ~0.47
    Usar a biblioteca do sentence-transformers para avaliar o modelo


## Fase

Utilizando DPR treinado

# Organizando o ambiente

In [2]:
import pickle

In [3]:
import os

In [4]:
import gzip

In [5]:
import json

In [6]:
import pandas as pd

In [7]:
import faiss

In [8]:
from tqdm import tqdm

In [9]:
from transformers import AutoTokenizer, AutoModel
import torch

  from .autonotebook import tqdm as notebook_tqdm


In [10]:
from evaluate import load

In [11]:
DIRETORIO_TRABALHO = '/home/borela/fontes/deep_learning_em_buscas_unicamp/local/dpr'

In [12]:
if os.path.exists(DIRETORIO_TRABALHO):
    print('pasta já existia!')
else:
    os.makedirs(DIRETORIO_TRABALHO)
    print('pasta criada!')


pasta já existia!


In [13]:
DIRETORIO_RUN = f"{DIRETORIO_TRABALHO}/runs"
CAMINHO_RUN = f"{DIRETORIO_RUN}/run-trec-covid-bm25.txt"

In [14]:
if os.path.exists(DIRETORIO_RUN):
    print('pasta já existia!')
else:
    os.makedirs(DIRETORIO_RUN)
    print('pasta criada!')


pasta já existia!


In [15]:
os.environ['JVM_PATH'] = '/usr/lib/jvm/java-11-openjdk-amd64/lib/server/libjvm.so'
os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-11-openjdk-amd64'

In [16]:
from pyserini.search.lucene import LuceneSearcher

In [17]:
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
  

In [18]:
from psutil import virtual_memory

In [19]:
def mostra_memoria(lista_mem=['cpu']):
  """
  Esta função exibe informações de memória da CPU e/ou GPU, conforme parâmetros fornecidos.

  Parâmetros:
  -----------
  lista_mem : list, opcional
      Lista com strings 'cpu' e/ou 'gpu'. 
      'cpu' - exibe informações de memória da CPU.
      'gpu' - exibe informações de memória da GPU (se disponível).
      O valor padrão é ['cpu'].

  Saída:
  -------
  A função não retorna nada, apenas exibe as informações na tela.

  Exemplo de uso:
  ---------------
  Para exibir informações de memória da CPU:
      mostra_memoria(['cpu'])

  Para exibir informações de memória da CPU e GPU:
      mostra_memoria(['cpu', 'gpu'])
  
  Autor: Marcus Vinícius Borela de Castro

  """  
  if 'cpu' in lista_mem:
    vm = virtual_memory()
    ram={}
    ram['total']=round(vm.total / 1e9,2)
    ram['available']=round(virtual_memory().available / 1e9,2)
    # ram['percent']=round(virtual_memory().percent / 1e9,2)
    ram['used']=round(virtual_memory().used / 1e9,2)
    ram['free']=round(virtual_memory().free / 1e9,2)
    ram['active']=round(virtual_memory().active / 1e9,2)
    ram['inactive']=round(virtual_memory().inactive / 1e9,2)
    ram['buffers']=round(virtual_memory().buffers / 1e9,2)
    ram['cached']=round(virtual_memory().cached/1e9 ,2)
    print(f"Your runtime RAM in gb: \n total {ram['total']}\n available {ram['available']}\n used {ram['used']}\n free {ram['free']}\n cached {ram['cached']}\n buffers {ram['buffers']}")
    print('/nGPU')
    gpu_info = !nvidia-smi
  if 'gpu' in lista_mem:
    gpu_info = '\n'.join(gpu_info)
    if gpu_info.find('failed') >= 0:
      print('Not connected to a GPU')
    else:
      print(gpu_info)


In [20]:
mostra_memoria(['cpu','gpu'])

Your runtime RAM in gb: 
 total 67.35
 available 56.93
 used 9.32
 free 12.28
 cached 45.18
 buffers 0.57
/nGPU
Tue Apr 18 20:30:31 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.39.01    Driver Version: 510.39.01    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  On   | 00000000:02:00.0 Off |                  N/A |
| 90%   79C    P2   259W / 370W |  17091MiB / 24576MiB |     29%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                        

## Fixando as seeds

In [21]:
import random
import torch
import numpy as np

In [22]:
def inicializa_seed(num_semente:int=123):
  """
  Inicializa as sementes para garantir a reprodutibilidade dos resultados do modelo.
  Essa é uma prática recomendada, já que a geração de números aleatórios pode influenciar os resultados do modelo.
  Além disso, a função também configura as sementes da GPU para garantir a reprodutibilidade quando se utiliza aceleração por GPU. 
  
  Args:
      num_semente (int): número da semente a ser utilizada para inicializar as sementes das bibliotecas.
  
  References:
      http://nlp.seas.harvard.edu/2018/04/03/attention.html
      https://github.com/CyberZHG/torch-multi-head-attention/blob/master/torch_multi_head_attention/multi_head_attention.py#L15
  """
  # Define as sementes das bibliotecas random, numpy e pytorch
  random.seed(num_semente)
  np.random.seed(num_semente)
  torch.manual_seed(num_semente)
  
  # Define as sementes da GPU
  torch.backends.cudnn.deterministic = True
  torch.backends.cudnn.benchmark = False

  #torch.cuda.manual_seed(num_semente)
  #Cuda algorithms
  #torch.backends.cudnn.deterministic = True


In [23]:
num_semente=123
inicializa_seed(num_semente)

## Preparando para debug e display

In [24]:
import pandas as pd

In [25]:
#!pip install transformers -q

In [26]:
import transformers

In [27]:
# https://zohaib.me/debugging-in-google-collab-notebook/
# !pip install -Uqq ipdb
import ipdb
# %pdb off # desativa debug em exceção
# %pdb on  # ativa debug em exceção
# ipdb.set_trace(context=8)  para execução nesse ponto

In [28]:
def config_display():
  """
  Esta função configura as opções de display do Pandas.
  """

  # Configurando formato saída Pandas
  # define o número máximo de colunas que serão exibidas
  pd.options.display.max_columns = None

  # define a largura máxima de uma linha
  pd.options.display.width = 1000

  # define o número máximo de linhas que serão exibidas
  pd.options.display.max_rows = 100

  # define o número máximo de caracteres por coluna
  pd.options.display.max_colwidth = 50

  # se deve exibir o número de linhas e colunas de um DataFrame.
  pd.options.display.show_dimensions = True

  # número de dígitos após a vírgula decimal a serem exibidos para floats.
  pd.options.display.precision = 7


In [29]:
def config_debug():
  """
  Esta função configura as opções de debug do PyTorch e dos pacotes
  transformers e datasets.
  """

  # Define opções de impressão de tensores para o modo científico
  torch.set_printoptions(sci_mode=True) 
  """
    Significa que valores muito grandes ou muito pequenos são mostrados em notação científica.
    Por exemplo, em vez de imprimir o número 0.0000012345 como 0.0000012345, 
    ele seria impresso como 1.2345e-06. Isso é útil em situações em que os valores dos tensores 
    envolvidos nas operações são muito grandes ou pequenos, e a notação científica permite 
    uma melhor compreensão dos números envolvidos.  
  """

  # Habilita detecção de anomalias no autograd do PyTorch
  torch.autograd.set_detect_anomaly(True)
  """
    Permite identificar operações que podem causar problemas de estabilidade numérica, 
    como gradientes explodindo ou desaparecendo. Quando essa opção é ativada, 
    o PyTorch verifica se há operações que geram valores NaN ou infinitos nos tensores 
    envolvidos no cálculo do gradiente. Se for detectado um valor anômalo, o PyTorch 
    interrompe a execução e gera uma exceção, permitindo que o erro seja corrigido 
    antes que se torne um problema maior.

    É importante notar que a detecção de anomalias pode ter um impacto significativo 
    no desempenho, especialmente em modelos grandes e complexos. Por esse motivo,
    ela deve ser usada com cautela e apenas para depuração.
  """

  # Configura variável de ambiente para habilitar a execução síncrona (bloqueante) das chamadas da API do CUDA.
  os.environ['CUDA_LAUNCH_BLOCKING'] = '1'
  """
    o Python aguarda o término da execução de uma chamada da API do CUDA antes de executar a próxima chamada. 
    Isso é útil para depurar erros no código que envolve operações na GPU, pois permite que o erro seja capturado 
    no momento em que ocorre, e não depois de uma sequência de operações que pode tornar a origem do erro mais difícil de determinar.
    No entanto, é importante lembrar que esse modo de execução é significativamente mais lento do que a execução assíncrona, 
    que é o comportamento padrão do CUDA. Por isso, é recomendado utilizar esse comando apenas em situações de depuração 
    e removê-lo após a solução do problema.
  """

  # Define o nível de verbosity do pacote transformers para info
  # transformers.utils.logging.set_verbosity_info() 
  
  
  """
    Define o nível de detalhamento das mensagens de log geradas pela biblioteca Hugging Face Transformers 
    para o nível info. Isso significa que a biblioteca irá imprimir mensagens de log informativas sobre
    o andamento da execução, tais como tempo de execução, tamanho de batches, etc.

    Essas informações podem ser úteis para entender o que está acontecendo durante a execução da tarefa 
    e auxiliar no processo de debug. É importante notar que, em alguns casos, a quantidade de informações
    geradas pode ser muito grande, o que pode afetar o desempenho do sistema e dificultar a visualização
    das informações relevantes. Por isso, é importante ajustar o nível de detalhamento de acordo com a 
    necessidade de cada tarefa.
  
    Caso queira reduzir a quantidade de mensagens, comentar a linha acima e 
      descomentar as duas linhas abaixo, para definir o nível de verbosity como error ou warning
  
    transformers.utils.logging.set_verbosity_error()
    transformers.utils.logging.set_verbosity_warning()
  """


  # Define o modo verbose do xmode, que é utilizado no debug
  # %xmode Verbose 

  """
    Comando usado no Jupyter Notebook para controlar o modo de exibição das informações de exceções.
    O modo verbose é um modo detalhado que exibe informações adicionais ao imprimir as exceções.
    Ele inclui as informações de pilha de chamadas completa e valores de variáveis locais e globais 
    no momento da exceção. Isso pode ser útil para depurar e encontrar a causa de exceções em seu código.
    Ao usar %xmode Verbose, as informações de exceção serão impressas com mais detalhes e informações adicionais serão incluídas.

    Caso queira desabilitar o modo verbose e utilizar o modo plain, 
    comentar a linha acima e descomentar a linha abaixo:
    %xmode Plain
  """

  """
    Dica:
    1.  pdb (Python Debugger)
      Quando ocorre uma exceção em uma parte do código, o programa para a execução e exibe uma mensagem de erro 
      com informações sobre a exceção, como a linha do código em que ocorreu o erro e o tipo da exceção.

      Se você estiver depurando o código e quiser examinar o estado das variáveis ​​e executar outras operações 
      no momento em que a exceção ocorreu, pode usar o pdb (Python Debugger). Para isso, é preciso colocar o comando %debug 
      logo após ocorrer a exceção. Isso fará com que o programa pare na linha em que ocorreu a exceção e abra o pdb,
      permitindo que você explore o estado das variáveis, examine a pilha de chamadas e execute outras operações para depurar o código.


    2. ipdb
      O ipdb é um depurador interativo para o Python que oferece recursos mais avançados do que o pdb,
      incluindo a capacidade de navegar pelo código fonte enquanto depura.
      
      Você pode começar a depurar seu código inserindo o comando ipdb.set_trace() em qualquer lugar do 
      seu código onde deseja pausar a execução e começar a depurar. Quando a execução chegar nessa linha, 
      o depurador entrará em ação, permitindo que você examine o estado atual do seu programa e execute 
      comandos para investigar o comportamento.

      Durante a depuração, você pode usar comandos:
        next (para executar a próxima linha de código), 
        step (para entrar em uma função chamada na próxima linha de código) 
        continue (para continuar a execução normalmente até o próximo ponto de interrupção).

      Ao contrário do pdb, o ipdb é um depurador interativo que permite navegar pelo código fonte em que
      está trabalhando enquanto depura, permitindo que você inspecione variáveis, defina pontos de interrupção
      adicionais e até mesmo execute expressões Python no contexto do seu programa.
  """


In [30]:
config_display()

In [31]:
config_debug()

# Baixando o dataset para avaliação (trec-covid)

## Queries

In [32]:
from pyserini.search import get_topics

In [33]:
topics = get_topics('covid-round5')
print(f'{len(topics)} queries total')

50 queries total


In [34]:
topics[50]

{'question': 'what is known about an mRNA vaccine for the SARS-CoV-2 virus?',
 'query': 'mRNA vaccine coronavirus',
 'narrative': 'Looking for studies specifically focusing on mRNA vaccines for COVID-19, including how mRNA vaccines work, why they are promising, and any results from actual clinical studies.'}

## Relevância (qrel) de teste

In [35]:
if not os.path.exists(f'{DIRETORIO_TRABALHO}/test.tsv'):
    !wget https://huggingface.co/datasets/BeIR/trec-covid-qrels/raw/main/test.tsv
    !mv test.tsv {DIRETORIO_TRABALHO}/

In [36]:
qrel = pd.read_csv(f"{DIRETORIO_TRABALHO}/test.tsv", sep="\t", header=None, 
                   skiprows=1, names=["query", "docid", "rel"])

In [37]:
qrel.head()

Unnamed: 0,query,docid,rel
0,1,005b2j4b,2
1,1,00fmeepz,1
2,1,g7dhmyyo,2
3,1,0194oljo,1
4,1,021q9884,1


In [38]:
qrel.head()

Unnamed: 0,query,docid,rel
0,1,005b2j4b,2
1,1,00fmeepz,1
2,1,g7dhmyyo,2
3,1,0194oljo,1
4,1,021q9884,1


In [39]:
qrel["q0"] = "q0"
qrel_dict = qrel.to_dict(orient="list")

In [40]:
qrel_dict['query'][0], qrel_dict['docid'][0], qrel_dict['rel'][0]

(1, '005b2j4b', 2)

## Documentos a serem indexados

In [41]:
if not os.path.exists(f"{DIRETORIO_TRABALHO}/corpus.jsonl.gz"):
    !wget https://huggingface.co/datasets/BeIR/trec-covid/resolve/main/corpus.jsonl.gz
    !mv corpus.jsonl.gz {DIRETORIO_TRABALHO}
    print('Baixado')
else:
    print('Já existia a pasta')

Já existia a pasta


In [42]:
# Descompacte o arquivo para a memória
with gzip.open(f'{DIRETORIO_TRABALHO}/corpus.jsonl.gz', 'rt') as f:
    # Leia o conteúdo do arquivo descompactado
    corpus = [json.loads(line) for line in f]

In [43]:
# Exiba os dados carregados
print(f"{type(corpus)} len(corpus): {len(corpus)} corpus[0] {corpus[0]}" )

<class 'list'> len(corpus): 171332 corpus[0] {'_id': 'ug7v899j', 'title': 'Clinical features of culture-proven Mycoplasma pneumoniae infections at King Abdulaziz University Hospital, Jeddah, Saudi Arabia', 'text': 'OBJECTIVE: This retrospective chart review describes the epidemiology and clinical features of 40 patients with culture-proven Mycoplasma pneumoniae infections at King Abdulaziz University Hospital, Jeddah, Saudi Arabia. METHODS: Patients with positive M. pneumoniae cultures from respiratory specimens from January 1997 through December 1998 were identified through the Microbiology records. Charts of patients were reviewed. RESULTS: 40 patients were identified, 33 (82.5%) of whom required admission. Most infections (92.5%) were community-acquired. The infection affected all age groups but was most common in infants (32.5%) and pre-school children (22.5%). It occurred year-round but was most common in the fall (35%) and spring (30%). More than three-quarters of patients (77.5%

In [44]:
corpus[0].keys()

dict_keys(['_id', 'title', 'text', 'metadata'])

# Busca para modelo já treinado all-MiniLM-L12-v2

Para checar se seu codigo de avaliação está correto, comparar o seu desempenho com o do modelo já treinado no MS MARCO:   https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2; O nDCG@10 no TREC-COVID deve ser ~0.47

In [47]:
MODEL_NAME = 'sentence-transformers/all-MiniLM-L12-v2'

In [49]:
# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModel.from_pretrained(MODEL_NAME).to(device)
model.eval()
#models['query'] = AutoModel.from_pretrained(MODEL_NAME).to(device)

models = {'passage': model,
    'query': model}

### Experimentos de teste de encoding

In [50]:
sentences_test = ["This is an example sentence", "Each sentence is converted"]

In [51]:
# Tokenize sentences
encoded_input = tokenizer(sentences_test, padding=True, truncation=True, return_tensors='pt')

In [56]:
# Move os dados para o dispositivo especificado (CPU ou GPU)
encoded_input = {key: value.to(device) for key, value in encoded_input.items()}

In [57]:
encoded_input

{'input_ids': tensor([[ 101, 2023, 2003, 2019, 2742, 6251,  102],
         [ 101, 2169, 6251, 2003, 4991,  102,    0]], device='cuda:0'),
 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0],
         [0, 0, 0, 0, 0, 0, 0]], device='cuda:0'),
 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1],
         [1, 1, 1, 1, 1, 1, 0]], device='cuda:0')}

In [58]:
models['passage']

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(30522, 384, padding_idx=0)
    (position_embeddings): Embedding(512, 384)
    (token_type_embeddings): Embedding(2, 384)
    (LayerNorm): LayerNorm((384,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSelfAttention(
            (query): Linear(in_features=384, out_features=384, bias=True)
            (key): Linear(in_features=384, out_features=384, bias=True)
            (value): Linear(in_features=384, out_features=384, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=384, out_features=384, bias=True)
            (LayerNorm): LayerNorm((384,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)
  

In [59]:
# Compute token embeddings
with torch.no_grad():
    model_output = models['passage'](**encoded_input)

In [60]:
model_output.last_hidden_state[:, 0, :].to('cpu').numpy().squeeze().shape

(2, 384)

In [61]:
model_output.pooler_output.to('cpu').numpy().squeeze().shape

(2, 384)

In [62]:
model_output.last_hidden_state.shape

torch.Size([2, 7, 384])

In [63]:
len(model_output)

2

## Geração dos embeddings 

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


In [64]:
def gera_embeddings(parm_model:AutoModel , parm_tokenizer:AutoTokenizer, parm_sentences:list, parm_tipo_resumo:str='cls'):
    """
    Função para gerar embeddings de sentenças usando um modelo pré-treinado.

    Args:
        parm_model (AutoModel): Modelo pré-treinado para geração de embeddings.
        parm_tokenizer (AutoTokenizer): Tokenizer associado ao modelo pré-treinado.
        parm_sentences (list): Lista de sentenças para as quais os embeddings serão gerados.
        parm_tipo_resumo (str, opcional): Tipo de resumo a ser aplicado nas sentenças. Pode ser 'cls' para usar o token [CLS]
            ou 'mean' para usar a média das embeddings dos tokens. O padrão é 'cls'.

    Returns:
        embeddings (torch.Tensor): Embeddings gerados para as sentenças, como um tensor do PyTorch.
    """

    # Tokenize sentences
    encoded_input = parm_tokenizer(parm_sentences, padding=True, truncation=True, return_tensors='pt')
    # Executa o tokenizador nas sentenças fornecidas, com opções de padding, truncation e retorno como tensores do PyTorch

    # Move os dados para o dispositivo especificado (CPU ou GPU)
    encoded_input = {key: value.to(device) for key, value in encoded_input.items()}

    with torch.no_grad():
        # Desativa o cálculo de gradientes para economizar memória e acelerar a inferência
        model_output = parm_model(**encoded_input)
        # Passa os inputs tokenizados para o modelo e obtém a saída do modelo
    if parm_tipo_resumo == 'cls':
        # Se o tipo de resumo for 'cls', retorna o embedding do token [CLS]
        embeddings = model_output.last_hidden_state[:, 0, :].to('cpu').numpy().squeeze()
        # Seleciona o embedding do token [CLS], que está na primeira posição do output do modelo
    elif parm_tipo_resumo == 'pooler':
        embeddings = model_output.pooler_output.to('cpu').numpy().squeeze()
    else:
        # Se o tipo de resumo não for válido, levanta uma exceção
        raise Exception(f"parm_tipo_resumo deve ser cls ou mean, não  {parm_tipo_resumo}")

    return embeddings
    # Retorna as embeddings geradas como um tensor do PyTorch


## Gerando enconding para queries

In [65]:
%%time
topics_encoded = {}
for id, value in topics.items():
    # print(id, value)
    topics_encoded[id]= gera_embeddings(models['query'], tokenizer, [value['question']], 'pooler')

CPU times: user 1.67 s, sys: 0 ns, total: 1.67 s
Wall time: 1.67 s


In [66]:
len(topics_encoded), topics_encoded[1][:10]

(50,
 array([-0.03935588,  0.00160428,  0.00538637,  0.03172739,  0.06769221,
         0.00383863,  0.03446036,  0.05101689,  0.01310555, -0.00599946],
       dtype=float32))

## Gerando enconding para docs

In [67]:
corpus[0].keys()

dict_keys(['_id', 'title', 'text', 'metadata'])

In [75]:
import math

In [76]:
def gera_embedding_corpus(parm_batch_size:int=64):
    embeddings = []
    qtd_bloco = math.ceil(len(corpus)/parm_batch_size) 
    for ndx in tqdm(range(qtd_bloco)):
        # print(ndx, f"ndx*parm_batch_size:ndx*parm_batch_size+parm_batch_size {ndx}*{parm_batch_size}:{ndx}*{parm_batch_size}+{batch_size} ")
        lista_doctos = [docto['title'] + '. '+ docto['text'] for docto in corpus[ndx*parm_batch_size:ndx*parm_batch_size+parm_batch_size]]
        embeddings_batch = gera_embeddings(parm_model=models['passage'], parm_tokenizer=tokenizer, parm_sentences=lista_doctos, parm_tipo_resumo='pooler')
        embeddings.extend(embeddings_batch)
        # print(embeddings.shape)
    return embeddings



In [77]:
%%time
corpus_encoded = gera_embedding_corpus(parm_batch_size=32)

100%|██████████| 5355/5355 [13:59<00:00,  6.38it/s]

CPU times: user 16min, sys: 6.3 s, total: 16min 6s
Wall time: 13min 59s





In [78]:
mostra_memoria(['cpu','gpu'])

Your runtime RAM in gb: 
 total 67.35
 available 54.22
 used 12.11
 free 9.54
 cached 45.13
 buffers 0.58
/nGPU
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
Tue Apr 18 20:51:02 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.39.01    Driver Version: 510.39.01    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  On   | 00000000:02:00.0 Off |                  N/A |
|100%   84C  

In [79]:
len(corpus_encoded)

171332

In [81]:
dict_corpus_encoded = {}
for ndx, docto in tqdm(enumerate(corpus)):
    dict_corpus_encoded[docto['_id']] = corpus_encoded[ndx]


171332it [00:00, 1694874.92it/s]


In [82]:
mostra_memoria(['cpu','gpu'])

Your runtime RAM in gb: 
 total 67.35
 available 56.11
 used 9.71
 free 10.84
 cached 46.19
 buffers 0.6
/nGPU
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
Tue Apr 18 23:05:06 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.39.01    Driver Version: 510.39.01    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  On   | 00000000:02:00.0 Off |                  N/A |
|  0%   45C   

In [83]:
dict_corpus_encoded['ug7v899j'][:10]

array([-0.02885823,  0.01702235,  0.01581491, -0.00032683, -0.02601779,
       -0.03749407,  0.02850626,  0.02971224, -0.040149  ,  0.00384295],
      dtype=float32)

### Salvando os dados

In [86]:
with open(f"{DIRETORIO_TRABALHO}/data_index_all_minilm.pickle", 'wb') as outputFile:
    pickle.dump({'topics_encoded_pooler': topics_encoded,
                 'dict_corpus_encoded_pooler': dict_corpus_encoded}, outputFile, pickle.HIGHEST_PROTOCOL)

## Indexação 

## Lendo os dados

In [87]:
with open(f"{DIRETORIO_TRABALHO}/data_index_all_minilm.pickle", "rb") as f:
  teste = pickle.load(f)

In [90]:
topics_encoded = teste['topics_encoded_pooler']
corpus_encoded = teste['dict_corpus_encoded_pooler']

In [91]:
assert len(corpus_encoded)==171332, f"Tamanho len(corpus_encoded) deveria ser 171332 e foi {len(corpus_encoded)}"
assert len(topics_encoded)==50, f"Tamanho len(topics_encoded) deveria ser 171332 e foi {len(topics_encoded)}"

In [92]:
def gera_indice(parm_corpus_encoded:{}, parm_tipo_similaridade_indice:str='cosseno'):
    """
        Ainda não implementados outros tipos de similaridade.
        Outras métricas de similaridade suportadas pelo FAISS incluem a distância euclidiana (faiss.IndexFlatL2) e 
        a distância Manhattan (faiss.IndexFlatL1).
        Você pode consultar a documentação oficial do FAISS para obter mais informações sobre as métricas disponíveis e como usá-las: https://github.com/facebookresearch/faiss/blob/master/docs/indexes.md#available-indexes
    """
    lista_id_docto_corpus = list(parm_corpus_encoded.keys())
    corpus_encoded_np = np.array(list(parm_corpus_encoded.values()))
    embed_dim = parm_corpus_encoded[lista_id_docto_corpus[0]].shape[0]  # dimensão dos embeddings
    print(f"embed_dim: {embed_dim}")    
    if parm_tipo_similaridade_indice == 'cosseno':
        #  a métrica cosseno é usada com o índice FlatIP, que é uma versão otimizada para a métrica cosseno do índice Flat, que é o índice padrão do FAISS.
        index = faiss.IndexFlatL2(embed_dim)  # índice com métrica L2 (euclidiana)
    else:
        raise Exception(f"parm_tipo_similaridade_indice deve ser cosseno, não  {parm_tipo_similaridade_indice}")
    index.add(corpus_encoded_np)  # adiciona os embeddings do corpus ao índice
    return index, lista_id_docto_corpus

In [93]:
%%time
indice, lista_id_docto_corpus = gera_indice(corpus_encoded, 'cosseno')


embed_dim: 384
CPU times: user 122 ms, sys: 67.9 ms, total: 189 ms
Wall time: 264 ms


In [94]:
type(indice)

faiss.swigfaiss_avx2.IndexFlatL2

In [95]:
lista_id_docto_corpus[:4]

['ug7v899j', '02tnwd4m', 'ejv2xln0', '2b73a28n']

## Realizar buscas 

In [100]:
# Run all queries in topics, retrive top 1k for each query
def run_all_queries_embed_index(parm_topics_encoded:{}, parm_indice_com_embeddings:faiss.swigfaiss_avx2.IndexFlatL2, parm_lista_id_docto_corpus:list, parm_num_max_hits:int=1000):
    """
    A função run_all_queries é responsável por realizar todas as consultas armazenadas no dicionário topics utilizando o objeto searcher fornecido e salvar os resultados em um arquivo de texto.
    Usada no notebook da aula 2

    Parâmetros:

    file: caminho do arquivo de saída onde serão salvos os resultados das consultas.
    topics: dicionário contendo as consultas a serem executadas. Cada consulta é representada por uma chave única no dicionário. O valor correspondente a cada chave é um outro dicionário contendo as informações da consulta, como seu título e outras informações relevantes.
    searcher: objeto do tipo Searcher que será utilizado para realizar as consultas.
    num_max_hits: número máximo de documentos relevantes que serão retornados para cada consulta.
    Retorno:

    A função não retorna nenhum valor, mas salva os resultados das consultas no arquivo especificado em file.
    Comentário:

    A função usa a biblioteca tqdm para exibir uma barra de progresso enquanto executa as consultas.
    O número de consultas concluídas é impresso a cada 100 consultas.
    """
    global CAMINHO_RUN
    topics_encoded_np = np.array(list(parm_topics_encoded.values()))

    scores_result_search, index_result_search = parm_indice_com_embeddings.search(topics_encoded_np, parm_num_max_hits)  # realiza a pesquisa no índice

    print(f"Após pesquisa, scores_result_search.shape: {scores_result_search.shape}, scores_result_search[0][:10]:{scores_result_search[0][:10]} ")


    # ajustando os ids

    all_topics_results = {}
    for ndx_query, (topic_id, doc_indices) in enumerate(zip(topics_encoded.keys(), index_result_search)):
        doc_scores_query = scores_result_search[ndx_query]
        topic_results = []
        for ndx_doc, doc_ndx in enumerate(doc_indices):
            doc_id = parm_lista_id_docto_corpus[doc_ndx]
            doc_score = doc_scores_query[ndx_doc]
            topic_results.append([doc_id, doc_score])
        topic_results.sort(key=lambda x: x[1], reverse=True)
        all_topics_results[topic_id] = topic_results
    print(len(all_topics_results), list(all_topics_results.keys()))# , list(all_topics_results.values())[0][:10])
    print(f"Exemplo de um resultado: query_id== {list(all_topics_results.keys())[0]}, first_10_relevant_documents_retrieved = {list(all_topics_results.values())[0][:10]}")




    with open(CAMINHO_RUN, 'w') as runfile:
        for topic_id in topics_encoded:
            # print(topic_id)
            for i in range(0, parm_num_max_hits):
                _ = runfile.write(f'{topic_id} Q0 {all_topics_results[topic_id][i][0]} {i+1} {all_topics_results[topic_id][i][1]:.6f} Pesquisa\n')
                


In [97]:
run_all_queries_embed_index(topics_encoded, indice, lista_id_docto_corpus, parm_num_max_hits=1000)

Após pesquisa, scores_result_search.shape: (50, 1000), scores_result_search[0][:10]:[0.10256314 0.10500884 0.1158874  0.12486482 0.12843657 0.1301254
 0.15340972 0.15406668 0.1547221  0.1644268 ] 
50 [44, 45, 46, 47, 48, 49, 50, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 1, 2, 3, 4, 5, 6, 7, 8, 9, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43]
Exemplo de um resultado: query_id== 44, first_10_relevant_documents_retrieved = [['t7xjru7k', 0.44172764], ['4r2zp5hs', 0.44170296], ['6vlti21z', 0.44168234], ['gprvoecp', 0.44167018], ['nw1nlc1y', 0.44166255], ['8xyd7nzt', 0.4416349], ['1wlqlop0', 0.44161487], ['qud4bj12', 0.44155622], ['xcyt411b', 0.44153523], ['9shc3a5q', 0.44151485]]


In [130]:
run_all_queries_embed_index(topics_encoded, indice, lista_id_docto_corpus, parm_num_max_hits=1000)

Após pesquisa, scores_result_search.shape: (50, 1000), scores_result_search[0][:10]:[3.0686874 3.1987457 3.482605  3.7657661 3.9926224 4.0703087 4.1311874
 4.42017   4.4837875 4.828064 ] 
50 [44, 45, 46, 47, 48, 49, 50, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 1, 2, 3, 4, 5, 6, 7, 8, 9, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43]
Exemplo de um resultado: query_id== 44, first_10_relevant_documents_retrieved = [['rroxtmag', 13.564629], ['6qs8pvrv', 13.563751], ['wiomb5k3', 13.5636635], ['id3iu30t', 13.562904], ['5ina237p', 13.562317], ['5r3kf9wa', 13.560501], ['xfjexm5b', 13.560413], ['xb4klcub', 13.557503], ['h9hipko0', 13.552311], ['k2pha0ub', 13.551182]]


## Avaliação dos resultados

Com pooler

In [98]:
trec_eval = load("trec_eval")

In [101]:
### Calculando métricas
run = pd.read_csv(f"{CAMINHO_RUN}", sep="\s+", 
                names=["query", "q0", "docid", "rank", "score", "system"])
print(run.head())
run = run.to_dict(orient="list")
results = trec_eval.compute(predictions=[run], references=[qrel_dict])

# salvando métricas    
print(f"NDCG@10: {results['NDCG@10']}")
print(f"Resultados: {results}")


   query  q0     docid  rank     score    system
0     44  Q0  t7xjru7k     1  0.441728  Pesquisa
1     44  Q0  4r2zp5hs     2  0.441703  Pesquisa
2     44  Q0  6vlti21z     3  0.441682  Pesquisa
3     44  Q0  gprvoecp     4  0.441670  Pesquisa
4     44  Q0  nw1nlc1y     5  0.441663  Pesquisa

[5 rows x 6 columns]
NDCG@10: 0.0219703604421648
Resultados: {'runid': 'Pesquisa', 'num_ret': 50000, 'num_rel': 24673, 'num_rel_ret': 4108, 'num_q': 50, 'map': 0.020578596211148645, 'gm_map': 0.003641961663121404, 'bpref': 0.16230319390373504, 'Rprec': 0.05512879429092482, 'recip_rank': 0.088321748887556, 'P@5': 0.028000000000000004, 'P@10': 0.028000000000000004, 'P@15': 0.027999999999999997, 'P@20': 0.03, 'P@30': 0.03866666666666667, 'P@100': 0.04479999999999999, 'P@200': 0.0455, 'P@500': 0.0536, 'P@1000': 0.08216, 'NDCG@5': 0.02258392426832247, 'NDCG@10': 0.0219703604421648, 'NDCG@15': 0.022057477942497856, 'NDCG@20': 0.02417484293948232, 'NDCG@30': 0.029509773820806915, 'NDCG@100': 0.035475234

old

In [135]:
### Calculando métricas
run = pd.read_csv(f"{CAMINHO_RUN}", sep="\s+", 
                names=["query", "q0", "docid", "rank", "score", "system"])
print(run.head())
run = run.to_dict(orient="list")
results = trec_eval.compute(predictions=[run], references=[qrel_dict])

# salvando métricas    
print(f"NDCG@10: {results['NDCG@10']}")
print(f"Resultados: {results}")


   query  q0     docid  rank      score    system
0     44  Q0  rroxtmag     1  13.564629  Pesquisa
1     44  Q0  6qs8pvrv     2  13.563751  Pesquisa
2     44  Q0  wiomb5k3     3  13.563663  Pesquisa
3     44  Q0  id3iu30t     4  13.562904  Pesquisa
4     44  Q0  5ina237p     5  13.562317  Pesquisa

[5 rows x 6 columns]
NDCG@10: 0.02728446458793006
Resultados: {'runid': 'Pesquisa', 'num_ret': 50000, 'num_rel': 24673, 'num_rel_ret': 4111, 'num_q': 50, 'map': 0.020725983829006842, 'gm_map': 0.0032868832686071886, 'bpref': 0.16421888309534055, 'Rprec': 0.05620782552194098, 'recip_rank': 0.0958358681934901, 'P@5': 0.04, 'P@10': 0.04, 'P@15': 0.04, 'P@20': 0.040999999999999995, 'P@30': 0.04333333333333333, 'P@100': 0.0426, 'P@200': 0.04540000000000001, 'P@500': 0.05316, 'P@1000': 0.08222, 'NDCG@5': 0.024541013967736877, 'NDCG@10': 0.02728446458793006, 'NDCG@15': 0.028399203726244823, 'NDCG@20': 0.03007681061382414, 'NDCG@30': 0.03231653413695874, 'NDCG@100': 0.03423262008119381, 'NDCG@200':

In [102]:
from sentence_transformers import SentenceTransformer, util