# Classificação de Texto e Reranqueadores

Desenvolvimento de um buscador Simples: Booleano, TF-IDF, BM25

Tópicos abordados: Indexação, Bag-of-Words, TF-IDF, BM25

Aula 1 - [Unicamp - IA368DD: Deep Learning aplicado a sistemas de busca.](https://www.cpg.feec.unicamp.br/cpg/lista/caderno_horario_show.php?id=1779)

Autor: Marcus Vinícius Borela de Castro

[Repositório no github](https://github.com/marcusborela/deep_learning_em_buscas_unicamp)

[Link para chat de apoio com WebChatGPT](https://github.com/marcusborela/deep_learning_em_buscas_unicamp/blob/main/chat/CG%20uso%20aula_2_classificacao_de_texto_e_reranqueador.md)

[![Open In Colab latest github version](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/marcusborela/deep_learning_em_buscas_unicamp/blob/main/code/aula_2_classificacao_de_texto_e_reranqueador.ipynb) [Open In Colab latest github version]

# Enunciado exercício

Aula 2 - Notebook: Classificação de Texto e Reranqueadores

Data de entrega: 15 de mar., 23:59

Reranqueamento usando um modelo estilo-BERT com o treinamento no dataset do MS MARCO e avaliação no TREC-DL 2020


O treinamento é igual ao de um classificador binário, que será feito por vocês.


O que muda é a forma de avaliação: reranqueadores precisam ser alimentados com documentos candidatos (ex: trazidos pelo BM25 - exercício aula 1)


Sugestões:
1. usar este dataset reduzido do MS MARCO como treinamento, com 10k triplas (query, passagem relevante, passagem não-relevante):
https://storage.googleapis.com/unicamp-dl/ia368dd_2023s1/msmarco/msmarco_triples.train.tiny.tsv


2. usar miniLM (modelo BERT pequeno, 5x mais rapido) para começar o finetuning: https://huggingface.co/nreimers/MiniLM-L6-H384-uncased pois oferece um bom compromisso entre qualidade e velocidade.


3. usar este notebook como base
Análise de sentimentos (dataset IMDB) usando um modelo estilo BERT: https://colab.research.google.com/drive/10etP7Lb915EC-uEuf1IKC8DYkyg_om6-?usp=sharing


4. para debug: usar este minilm para ver se consegue ndcg ~0.70: https://huggingface.co/cross-encoder/ms-marco-MiniLM-L-6-v2Sugestão: fazer overfit em um batch: treinar por 200 epocas um unico batch, e ver se consegue loss=0, e acuracia=100%, ou ndcg=1



# Organizando o ambiente

In [1]:
gpu_info = !nvidia-smi
gpu_info = '\n'.join(gpu_info)
if gpu_info.find('failed') >= 0:
  print('Not connected to a GPU')
else:
  print(gpu_info)

Mon Mar 13 09:36:28 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.85.12    Driver Version: 525.85.12    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   40C    P0    26W /  70W |      0MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [2]:
from psutil import virtual_memory


In [3]:
def mostra_memoria(lista_mem=['cpu']):
  """
  Esta função exibe informações de memória da CPU e/ou GPU, conforme parâmetros fornecidos.

  Parâmetros:
  -----------
  lista_mem : list, opcional
      Lista com strings 'cpu' e/ou 'gpu'. 
      'cpu' - exibe informações de memória da CPU.
      'gpu' - exibe informações de memória da GPU (se disponível).
      O valor padrão é ['cpu'].

  Saída:
  -------
  A função não retorna nada, apenas exibe as informações na tela.

  Exemplo de uso:
  ---------------
  Para exibir informações de memória da CPU:
      mostra_memoria(['cpu'])

  Para exibir informações de memória da CPU e GPU:
      mostra_memoria(['cpu', 'gpu'])
  
  Autor: Marcus Vinícius Borela de Castro

  """  
  if 'cpu' in lista_mem:
    vm = virtual_memory()
    ram={}
    ram['total']=round(vm.total / 1e9,2)
    ram['available']=round(virtual_memory().available / 1e9,2)
    # ram['percent']=round(virtual_memory().percent / 1e9,2)
    ram['used']=round(virtual_memory().used / 1e9,2)
    ram['free']=round(virtual_memory().free / 1e9,2)
    ram['active']=round(virtual_memory().active / 1e9,2)
    ram['inactive']=round(virtual_memory().inactive / 1e9,2)
    ram['buffers']=round(virtual_memory().buffers / 1e9,2)
    ram['cached']=round(virtual_memory().cached/1e9 ,2)
    print(f"Your runtime RAM in gb: \n total {ram['total']}\n available {ram['available']}\n used {ram['used']}\n free {ram['free']}\n cached {ram['cached']}\n buffers {ram['buffers']}")
    print('/nGPU')
    gpu_info = !nvidia-smi
  if 'gpu' in lista_mem:
    gpu_info = '\n'.join(gpu_info)
    if gpu_info.find('failed') >= 0:
      print('Not connected to a GPU')
    else:
      print(gpu_info)


In [4]:
mostra_memoria(['cpu'])

Your runtime RAM in gb: 
 total 27.33
 available 26.12
 used 0.81
 free 10.78
 cached 15.29
 buffers 0.45
/nGPU


### Vinculando pasta do google drive para salvar dados

In [5]:
import os

In [6]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [7]:
current_dir = os.getcwd()
print("Current directory:", current_dir)

Current directory: /content


Ainda não usei opção abaixo: 

Controle de estágio de execução do caderno

O desenvolvimento passa por fases: estagio_1, dados, treino, estagio_2, completo

A ideia é bypassar algumas execuções se não estiver na fase atual do projeto.

lista_fase_atual 

lista_estado_atual = ['estagio_1', 'dados', 'treino', 'estagio_2']

lista_estado_atual = ['dados']

## Fixando as seeds

In [8]:
import random
import torch
import torch.nn.functional as F
import numpy as np
from torch.utils.data import DataLoader

In [9]:
def inicializa_seed(num_semente:int=123):
  """
  Inicializa as sementes para garantir a reprodutibilidade dos resultados do modelo.
  Essa é uma prática recomendada, já que a geração de números aleatórios pode influenciar os resultados do modelo.
  Além disso, a função também configura as sementes da GPU para garantir a reprodutibilidade quando se utiliza aceleração por GPU. 
  
  Args:
      num_semente (int): número da semente a ser utilizada para inicializar as sementes das bibliotecas.
  
  References:
      http://nlp.seas.harvard.edu/2018/04/03/attention.html
      https://github.com/CyberZHG/torch-multi-head-attention/blob/master/torch_multi_head_attention/multi_head_attention.py#L15
  
  Autor: Marcus Vinícius Borela de Castro
  """
  # Define as sementes das bibliotecas random, numpy e pytorch
  random.seed(num_semente)
  np.random.seed(num_semente)
  torch.manual_seed(num_semente)
  
  # Define as sementes da GPU
  torch.backends.cudnn.deterministic = True
  torch.backends.cudnn.benchmark = False

  #torch.cuda.manual_seed(num_semente)
  #Cuda algorithms
  #torch.backends.cudnn.deterministic = True


In [10]:
num_semente=123
inicializa_seed(num_semente)

## Definindo Hiperparâmetros iniciais

In [11]:
def inicia_hparam()->dict:
  # Inicialização dos parâmetros
  hparam = {}
  hparam["num_workers_dataloader"] = 0
  hparam["device"] = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
  if torch.cuda.is_available(): print(torch. cuda. get_device_name(hparam["device"]))    
  return hparam

In [12]:
hparam=inicia_hparam()

Tesla T4


## Preparando para debug e display

In [13]:
import pandas as pd

In [14]:
mostra_memoria(('cpu','gpu'))

Your runtime RAM in gb: 
 total 27.33
 available 25.62
 used 1.31
 free 10.29
 cached 15.29
 buffers 0.45
/nGPU
Mon Mar 13 09:36:35 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.85.12    Driver Version: 525.85.12    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   41C    P0    27W /  70W |      3MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                        

In [15]:
!pip install transformers -q

In [16]:
import transformers

In [17]:
mostra_memoria(('cpu','gpu'))

Your runtime RAM in gb: 
 total 27.33
 available 25.53
 used 1.4
 free 10.2
 cached 15.29
 buffers 0.45
/nGPU
Mon Mar 13 09:36:40 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.85.12    Driver Version: 525.85.12    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   41C    P0    27W /  70W |      3MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                          

https://zohaib.me/debugging-in-google-collab-notebook/

In [18]:
!pip install -Uqq ipdb
import ipdb
# %pdb off # desativa debug em exceção
# %pdb on  # ativa debug em exceção
# ipdb.set_trace(context=8)  para execução nesse ponto

In [19]:
def config_display():
  """
  Esta função configura as opções de display do Pandas.

  Autor: Marcus Vinícius Borela de Castro
  """

  # Configurando formato saída Pandas
  # define o número máximo de colunas que serão exibidas
  pd.options.display.max_columns = None

  # define a largura máxima de uma linha
  pd.options.display.width = 1000

  # define o número máximo de linhas que serão exibidas
  pd.options.display.max_rows = 10

  # define o número máximo de caracteres por coluna
  pd.options.display.max_colwidth = 50

  # se deve exibir o número de linhas e colunas de um DataFrame.
  pd.options.display.show_dimensions = True

  # número de dígitos após a vírgula decimal a serem exibidos para floats.
  pd.options.display.precision = 2


In [20]:
def config_debug():
  """
  Esta função configura as opções de debug do PyTorch e dos pacotes
  transformers e datasets.

  Autor: Marcus Vinícius Borela de Castro
  """

  # Define opções de impressão de tensores para o modo científico
  torch.set_printoptions(sci_mode=True) 
  """
    Significa que valores muito grandes ou muito pequenos são mostrados em notação científica.
    Por exemplo, em vez de imprimir o número 0.0000012345 como 0.0000012345, 
    ele seria impresso como 1.2345e-06. Isso é útil em situações em que os valores dos tensores 
    envolvidos nas operações são muito grandes ou pequenos, e a notação científica permite 
    uma melhor compreensão dos números envolvidos.  
  """

  # Habilita detecção de anomalias no autograd do PyTorch
  torch.autograd.set_detect_anomaly(True)
  """
    Permite identificar operações que podem causar problemas de estabilidade numérica, 
    como gradientes explodindo ou desaparecendo. Quando essa opção é ativada, 
    o PyTorch verifica se há operações que geram valores NaN ou infinitos nos tensores 
    envolvidos no cálculo do gradiente. Se for detectado um valor anômalo, o PyTorch 
    interrompe a execução e gera uma exceção, permitindo que o erro seja corrigido 
    antes que se torne um problema maior.

    É importante notar que a detecção de anomalias pode ter um impacto significativo 
    no desempenho, especialmente em modelos grandes e complexos. Por esse motivo,
    ela deve ser usada com cautela e apenas para depuração.
  """

  # Configura variável de ambiente para habilitar a execução síncrona (bloqueante) das chamadas da API do CUDA.
  os.environ['CUDA_LAUNCH_BLOCKING'] = '1'
  """
    o Python aguarda o término da execução de uma chamada da API do CUDA antes de executar a próxima chamada. 
    Isso é útil para depurar erros no código que envolve operações na GPU, pois permite que o erro seja capturado 
    no momento em que ocorre, e não depois de uma sequência de operações que pode tornar a origem do erro mais difícil de determinar.
    No entanto, é importante lembrar que esse modo de execução é significativamente mais lento do que a execução assíncrona, 
    que é o comportamento padrão do CUDA. Por isso, é recomendado utilizar esse comando apenas em situações de depuração 
    e removê-lo após a solução do problema.
  """

  # Define o nível de verbosity do pacote transformers para info
  transformers.utils.logging.set_verbosity_info() 
  
  
  """
    Define o nível de detalhamento das mensagens de log geradas pela biblioteca Hugging Face Transformers 
    para o nível info. Isso significa que a biblioteca irá imprimir mensagens de log informativas sobre
    o andamento da execução, tais como tempo de execução, tamanho de batches, etc.

    Essas informações podem ser úteis para entender o que está acontecendo durante a execução da tarefa 
    e auxiliar no processo de debug. É importante notar que, em alguns casos, a quantidade de informações
    geradas pode ser muito grande, o que pode afetar o desempenho do sistema e dificultar a visualização
    das informações relevantes. Por isso, é importante ajustar o nível de detalhamento de acordo com a 
    necessidade de cada tarefa.
  
    Caso queira reduzir a quantidade de mensagens, comentar a linha acima e 
      descomentar as duas linhas abaixo, para definir o nível de verbosity como error ou warning
  
    transformers.utils.logging.set_verbosity_error()
    transformers.utils.logging.set_verbosity_warning()
  """


  # Define o modo verbose do xmode, que é utilizado no debug
  %xmode Verbose 

  """
    Comando usado no Jupyter Notebook para controlar o modo de exibição das informações de exceções.
    O modo verbose é um modo detalhado que exibe informações adicionais ao imprimir as exceções.
    Ele inclui as informações de pilha de chamadas completa e valores de variáveis locais e globais 
    no momento da exceção. Isso pode ser útil para depurar e encontrar a causa de exceções em seu código.
    Ao usar %xmode Verbose, as informações de exceção serão impressas com mais detalhes e informações adicionais serão incluídas.

    Caso queira desabilitar o modo verbose e utilizar o modo plain, 
    comentar a linha acima e descomentar a linha abaixo:
    %xmode Plain
  """

  """
    Dica:
    1.  pdb (Python Debugger)
      Quando ocorre uma exceção em uma parte do código, o programa para a execução e exibe uma mensagem de erro 
      com informações sobre a exceção, como a linha do código em que ocorreu o erro e o tipo da exceção.

      Se você estiver depurando o código e quiser examinar o estado das variáveis ​​e executar outras operações 
      no momento em que a exceção ocorreu, pode usar o pdb (Python Debugger). Para isso, é preciso colocar o comando %debug 
      logo após ocorrer a exceção. Isso fará com que o programa pare na linha em que ocorreu a exceção e abra o pdb,
      permitindo que você explore o estado das variáveis, examine a pilha de chamadas e execute outras operações para depurar o código.


    2. ipdb
      O ipdb é um depurador interativo para o Python que oferece recursos mais avançados do que o pdb,
      incluindo a capacidade de navegar pelo código fonte enquanto depura.
      
      Você pode começar a depurar seu código inserindo o comando ipdb.set_trace() em qualquer lugar do 
      seu código onde deseja pausar a execução e começar a depurar. Quando a execução chegar nessa linha, 
      o depurador entrará em ação, permitindo que você examine o estado atual do seu programa e execute 
      comandos para investigar o comportamento.

      Durante a depuração, você pode usar comandos:
        next (para executar a próxima linha de código), 
        step (para entrar em uma função chamada na próxima linha de código) 
        continue (para continuar a execução normalmente até o próximo ponto de interrupção).

      Ao contrário do pdb, o ipdb é um depurador interativo que permite navegar pelo código fonte em que
      está trabalhando enquanto depura, permitindo que você inspecione variáveis, defina pontos de interrupção
      adicionais e até mesmo execute expressões Python no contexto do seu programa.
  """


In [21]:
config_display()

In [22]:
config_debug()

Exception reporting mode: Verbose


## Rastro (neptune.ai)

Gerado rastro da execução no Neptune (detalhes no artigo [Rastro-DM: Mineração de Dados com Rastro](https://revista.tcu.gov.br/ojs/index.php/RTCU/article/view/1664))


### Importação de libraries para Rastro

In [23]:
!pip install neptune-client

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [300]:
import neptune

In [25]:
!pip install torchviz

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [26]:
from torchviz import make_dot 

In [27]:
import getpass
import copy
import time
import re
import tempfile

### Código Rastro

Busca implementar o rastro proposto em [Rastro-DM: Mineração de Dados com Rastro](https://revista.tcu.gov.br/ojs/index.php/RTCU/article/view/1664), autores Marcus Vinícius Borela de Castro e Remis Balaniuk, com o apoio da [solução Neptune](https://app.neptune.ai/)



In [301]:
def converte_optimizer_state_dict(parm_optimizer)-> dict:
  """
    Recebe um objeto "parm_optimizer" que é do tipo "torch.optim.Optimizer" e retorna um dicionário 
    com informações sobre o otimizador.

    O dicionário de retorno é gerado a partir do estado do otimizador que é extraído da propriedade
    "state_dict()" do objeto "parm_optimizer", seu primeiro grupo de parâmetros do otimizador.
  """
  # return str(hparam['optimizer'])
  return parm_optimizer.state_dict()['param_groups'][0]

In [302]:
def gera_tag_rastro_experiencia_treino(parm_aula: str, hparam: dict) -> str:
    """
    Gera uma string formatada com informações de hiperparâmetros para ser usada como tag de rastro de experiência de treino.

    Args:
        parm_aula (str): Nome da aula que está sendo treinada.
        hparam (dict): Dicionário contendo os hiperparâmetros utilizados no treinamento.

    Returns:
        str: String formatada com as informações de hiperparâmetros.

    Uso: 

    hparam['lista_tag_rastro_experiencia_treino'] =        gera_tag_rastro_experiencia_treino(parm_aula='aula7', hparam=hparam)
    """
    # Inicializa uma lista vazia para armazenar as tags
    lista_tag = []
    
    # Lista com as chaves dos hiperparâmetros que serão utilizados
    lista_chaves = ['embed_dim', 'dim_feedforward', 'max_seq_length', 'ind_activation_function', 'batch_size', 'learning_rate', 'weight_decay', 'amsgrad', 'decrease_factor_lr', 'max_examples', 'eval_every_steps']
    
    # Itera pelas chaves da lista e cria uma string com a chave e o valor correspondente em hparam,
    # adicionando essa string à lista_tag
    for chave in lista_chaves:
        if chave in hparam:
          tag = f"{chave} {hparam[chave]}"
          lista_tag.append(tag)
    
    # Concatena a lista de tags em uma única string, separando cada tag por '|',
    # e adicionando o nome da aula como prefixo
    tag_formatada = f"{parm_aula}|" + "|".join(lista_tag)
    
    return tag_formatada




In [315]:
class NeptuneRastroRun():
    """
      Classe para geração de rastro de experimento utilizando a ferramenta Neptune.

      Busca implementar o rastro proposto em [Rastro-DM: Mineração de Dados com Rastro](https://revista.tcu.gov.br/ojs/index.php/RTCU/article/view/1664),
      autores Marcus Vinícius Borela de Castro e Remis Balaniuk, com o apoio da [solução Neptune](https://app.neptune.ai/)


      Attributes:
      -----------
      se_geracao_rastro : bool
          Indica se deve ser gerado rastro de experimento. 
      neptune_project : str
          Nome do projeto criado no Neptune. 
      tag_contexto_rastro : str
          Nome da tag utilizada para identificar o experimento.
      neptune_api_token : str
          Token utilizado para autenticação na API do Neptune. 
      run_neptune : object
          Objeto que representa o experimento no Neptune.
      device : str
          Dispositivo utilizado para o treinamento do modelo.
      tmpDir : str
        Diretório temporário utilizado para salvar gráfico do modelo.          
    """
    se_geracao_rastro = True 
    neptune_project = ""
    tag_contexto_rastro = ""
    neptune_api_token = ""

    def __init__(self, parm_params:dict,  parm_lista_tag:list = None):
      """
        Método construtor da classe NeptuneRastroRun.
        
        Args:
        - parm_params: dicionário contendo os parâmetros do modelo.
        - parm_lista_tag: lista contendo tags adicionais para o experimento.
      """      
      # print(f"NeptuneRastroRun.init: se_geracao_rastro {self.__class__.se_geracao_rastro} parm_params `{parm_params} ")
      if self.__class__.se_geracao_rastro:      
        self.run_neptune = neptune.init_run(project=self.__class__.neptune_project, api_token=self.__class__.neptune_api_token, capture_hardware_metrics=True)
        self.run_neptune['sys/name'] = self.__class__.tag_contexto_rastro
        vparams = copy.deepcopy(parm_params)
        if "optimizer" in vparams:
          vparams["optimizer"] = converte_optimizer_state_dict(vparams["optimizer"])
        if 'criterion'  in vparams:
          vparams["criterion"] = str(vparams["criterion"])
        if 'scheduler'  in vparams:
          vparams["scheduler"] = str(type(vparams["scheduler"]))
        if 'device' in vparams:
          vparams['device'] = str(vparams["device"])
        self.device = vparams["device"]
        for tag in parm_lista_tag:
          self.run_neptune['sys/tags'].add(tag)
        self.run_neptune['parameters'] = vparams
        # self.tmpDir = tempfile.mkdtemp()

    @property
    def run():
      """
      Retorna a instância do objeto run_neptune.
      """      
      return self.run_neptune

    @classmethod
    def ativa_geracao_rastro(cls):
      """
      Ativa a geração de rastro.
      """      
      cls.se_geracao_rastro = True      

    @classmethod
    def def_contexto(cls):
      """
      Define o contexto para a geração de rastro.
      """      
      cls.se_geracao_rastro = True      

    @classmethod
    def desativa_geracao_rastro(cls):
      """
      Desativa a geração de rastro.
      """      
      cls.se_geracao_rastro = False      

    @classmethod
    def retorna_status_geracao_rastro(cls):
      """
        Retorna o status da geração de rastro.
        
        Returns:
        - True se a geração de rastro está ativada, False caso contrário.
      """      
      return cls.se_geracao_rastro      

    @classmethod
    def retorna_tag_contexto_rastro(cls):
      """
        Retorna a tag do contexto de rastro.
      """      
      return cls.tag_contexto_rastro 

    @classmethod
    def inicia_contexto(cls, neptune_project, tag_contexto_rastro, neptune_api_token):
      """
      Inicia o contexto de execução no Neptune.

      Args:
          neptune_project (str): Nome do projeto no Neptune.
          tag_contexto_rastro (str): Tag que identifica o contexto de execução no Neptune.
          neptune_api_token (str): Token de acesso à API do Neptune.

      Raises:
          AssertionError: Caso a tag_contexto_rastro possua um ponto (.), 
            o que pode gerar erros na gravação de arquivo.
      """      
      assert '.' not in tag_contexto_rastro, "NeptuneRastroRun.init(): tag_contexto_rastro não pode possuir ponto, pois será usado para gravar nome de arquivo"      
      cls.neptune_api_token = neptune_api_token
      cls.tag_contexto_rastro = tag_contexto_rastro
      cls.neptune_project = neptune_project

    def salva_metrica(self, parm_metricas={}):
      """
        Salva as métricas no Neptune Run caso a geração de rastro esteja ativa.

        Parameters
        ----------
        parm_metricas: dict
            Dicionário contendo as métricas a serem salvas. As chaves devem ser os nomes das métricas e os valores devem ser
            os valores das métricas.
      """
      #print(f"NeptuneRastroRun.salva_metrica: se_geracao_rastro {self.__class__.se_geracao_rastro} parm_metricas:{parm_metricas} ")
      if self.__class__.se_geracao_rastro:
        for metrica, valor in parm_metricas.items(): 
          self.run_neptune[metrica].append(valor)
 
    def gera_grafico_modelo(self, loader_train, model):
      """
        Gera um gráfico do modelo e o envia para o Neptune. 
        Para gerar o gráfico, um forward pass é realizado em um batch de exemplos 
        de treino e o resultado é renderizado como um gráfico de nós conectados. 
        O gráfico é salvo em um arquivo .png e enviado para o Neptune como um arquivo anexo.

        Args:
            loader_train (torch.utils.data.DataLoader): DataLoader do conjunto de treinamento.
            model (torch.nn.Module): Modelo a ser visualizado.
        
        Pendente:
          Evolui para usar from io import StringIO (buffer = io.StringIO()) ao invés de tempdir 
      """      
      if self.__class__.se_geracao_rastro: 
        # efetuar um forward 
        """
        se dataloader devolver x e y:
        """
        x_, y_ = next(iter(loader_train))
        x_ = x_.to(self.device)
        outputs = model(x_)
        """
        # se dataloader devolver dict:
        dados_ = next(iter(loader_train))
        outputs = model(dados_['x'].to(self.device))
        #outputs = model(x_['input_ids'].to(self.device), x_['attention_mask'].to(self.device))
        """
        nome_arquivo = os.path.join(self.tmpDir, "modelo "+ self.__class__.tag_contexto_rastro + time.strftime("%Y-%b-%d %H:%M:%S"))
        make_dot(outputs, params=dict(model.named_parameters()), show_attrs=True, show_saved=True).render(nome_arquivo, format="png")
        self.run_neptune["parameters/model_graph"].upload(nome_arquivo+'.png')
        self.run_neptune['parameters/model'] = re.sub('<bound method Module.state_dict of ', '',str(model.state_dict))      



    def stop(self):
      """
        Para a execução do objeto Neptune. Todos os experimentos do Neptune são sincronizados com o servidor, e nenhum outro 
        experimento poderá ser adicionado a este objeto após a chamada a este método.
      """
      if self.__class__.se_geracao_rastro:         
        self.run_neptune.stop()


### Definindo parâmetros para o rastro



In [316]:
NeptuneRastroRun.inicia_contexto('marcusborela/IA386DD', 'Aula 2 - classificador de texto como reranqueador',   getpass.getpass('Informe NEPTUNE_API_TOKEN'))
#NeptuneRastroRun.desativa_geracao_rastro()

Informe NEPTUNE_API_TOKEN··········


## Configurando Pyserini

### Instalações de libraries

In [31]:
!pip install pyserini

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [32]:
!pip install faiss-cpu -q

### Baixando o repositório do pyserini para usara seus scripts

In [33]:
path_pyserini = '/content/drive/MyDrive/treinamento/202301_IA368DD/code/pyserini'
path_pyserini_tools = path_pyserini + '/pyserini-master/anserini-tools-master'
path_pyserini_eval = path_pyserini + '/pyserini-master/pyserini/eval'

In [34]:
if not os.path.exists(path_pyserini):
    os.makedirs(path_pyserini)
    print('pasta criada')
    !wget -q https://github.com/castorini/pyserini/archive/refs/heads/master.zip -O pyserini.zip 
    !unzip -q pyserini.zip -d  {path_pyserini}
    # Baixando tools que é um atalho para https://github.com/castorini/anserini-tools
    !wget -q https://github.com/castorini/anserini-tools/archive/refs/heads/master.zip -O anserini-tools.zip 
    !unzip -q anserini-tools.zip -d  {path_pyserini}


In [35]:
path_pyserini = path_pyserini + '/pyserini-master'

In [36]:
assert os.path.exists(path_pyserini), f"Pasta {path_pyserini} não criada!"

In [37]:
assert os.path.exists(path_pyserini_tools), f"Pasta {path_pyserini_tools} não criada!"

In [38]:
assert os.path.exists(path_pyserini_eval), f"Pasta {path_pyserini_eval} não criada!"

# Carga dos dados da TREC 2020 usando pyserini

### Obtendo dados dos documentos a partir do pyserini


[Dicas aqui](https://github.com/castorini/pyserini/blob/master/docs/experiments-msmarco-passage.md)

In [39]:
path_data = '/content/drive/MyDrive/treinamento/202301_IA368DD/collections/msmarco-passage'

In [40]:
%%time
if not os.path.exists(path_data):
  os.makedirs(path_data)
  print('pasta criada')
  !wget https://msmarco.blob.core.windows.net/msmarcoranking/collectionandqueries.tar.gz -P {path_data}
  !tar xvfz {path_data}/collectionandqueries.tar.gz -C {path_data}
  os.remove(f'{path_data}/collectionandqueries.tar.gz')
  print("Dados carregados!")
else:
  print("Dados já existiam!")    

Dados já existiam!
CPU times: user 117 µs, sys: 687 µs, total: 804 µs
Wall time: 571 µs


In [41]:
assert os.path.exists(path_data), f"Pasta {path_data} não criada!"

Passo anterior gera os seguintes arquivos:

* collection.tsv
* qrels.dev.small.tsv
* qrels.train.tsv
* queries.dev.small.tsv
* queries.dev.tsv
* queries.eval.small.tsv
* queries.eval.tsv
* queries.train.tsv

In [42]:
%%time
if not os.path.exists(f'{path_data}/collection_jsonl'):
  !python {path_pyserini_tools}/tools/scripts/msmarco/convert_collection_to_jsonl.py \
  --collection-path {path_data}/collection.tsv \
  --output-folder {path_data}/collection_jsonl
  print("Dados carregados!")
else:
  print("Dados já existiam!")    

Dados já existiam!
CPU times: user 431 µs, sys: 0 ns, total: 431 µs
Wall time: 533 µs


In [43]:
assert os.path.exists(f'{path_data}/collection_jsonl'), f"Pasta {path_data}/collection_jsonl não criada!"

The above script should generate 9 jsonl files in collections/msmarco-passage/collection_jsonl, each with 1M lines (except for the last one, which should have 841,823 lines).

### Loading data in dicts

The 6980 queries in the development set are already stored in the repo. Let's take a peek:

In [44]:
!head {path_pyserini_tools}/topics-and-qrels/topics.msmarco-passage.dev-subset.txt

1048585	what is paula deen's brother
2	 Androgen receptor define
524332	treating tension headaches without medication
1048642	what is paranoid sc
524447	treatment of varicose veins in legs
786674	what is prime rate in canada
1048876	who plays young dr mallard on ncis
1048917	what is operating system misconfiguration
786786	what is priority pass
524699	tricare service number


In [45]:
!head {path_pyserini_tools}/topics-and-qrels/topics.dl20.txt

1030303	who is aziz hashim
1037496	who is rep scalise?
1043135	who killed nicholas ii of russia
1045109	who owns barnhart crane
1049519	who said no one can make you feel inferior
1051399	who sings monk theme song
1056416	who was the highest career passer  rating in the nfl
1064670	why do hunters pattern their shotguns?
1065636	why do some places on my scalp feel sore
1071750	why is pete rose banned from hall of fame


In [46]:
!head {path_data}/qrels.dev.small.trec

300674 0 7067032 1
125705 0 7067056 1
94798 0 7067181 1
9083 0 7067274 1
174249 0 7067348 1
320792 0 7067677 1
1090270 0 7067796 1
1101279 0 7067891 1
201376 0 7068066 1
54544 0 7068203 1


In [47]:
!head {path_pyserini_tools}/topics-and-qrels/qrels.dl20-passage.txt

23849 0 1020327 2
23849 0 1034183 3
23849 0 1120730 0
23849 0 1139571 1
23849 0 1143724 0
23849 0 1147202 0
23849 0 1150311 0
23849 0 1158886 2
23849 0 1175024 1
23849 0 1201385 0


Each line contains a tab-delimited (query id, query) pair. Conveniently, Pyserini already knows how to load and iterate through these pairs. We can now perform retrieval using these queries:

#### Carregando qrels (relevância por query)

##### Carregando usando get_qrels

In [48]:
from pyserini.search import get_qrels

In [49]:
qrels = get_qrels('dl20-passage')

In [50]:
len(qrels)

54

In [51]:
list(qrels.items())[0]

(23849,
 {1020327: '2',
  1034183: '3',
  1120730: '0',
  1139571: '1',
  1143724: '0',
  1147202: '0',
  1150311: '0',
  1158886: '2',
  1175024: '1',
  1201385: '0',
  1215556: '0',
  1220759: '0',
  1221770: '0',
  1333480: '1',
  1381453: '2',
  1414114: '2',
  1414115: '0',
  1414120: '2',
  1449780: '0',
  146754: '0',
  1493231: '0',
  1532701: '0',
  1535484: '0',
  1605854: '1',
  1605857: '1',
  1622747: '1',
  17118: '0',
  17122: '0',
  1714915: '0',
  1714917: '1',
  1724687: '0',
  172488: '0',
  178252: '0',
  182049: '0',
  1827512: '1',
  1844627: '0',
  188190: '0',
  188246: '1',
  1944730: '0',
  2003292: '0',
  2017213: '0',
  2203364: '0',
  2209883: '0',
  2318793: '0',
  2339898: '1',
  2373852: '0',
  2397072: '0',
  2423771: '0',
  2516458: '0',
  2585563: '0',
  2593928: '0',
  2607127: '3',
  2607128: '1',
  2607129: '2',
  2607130: '2',
  2607131: '2',
  2607132: '3',
  2607134: '0',
  2647769: '3',
  2674124: '0',
  2766280: '0',
  282421: '0',
  2838462: 

#### Carregando queries

##### Carregando usando get_topics

In [52]:
from pyserini.search import get_topics

In [53]:
topics = get_topics('dl20')
print(f'{len(topics)} queries total')

200 queries total


In [54]:
len(topics), list(topics.items())[0]

(200, (735922, {'title': 'what is crimp oil'}))

Deixando apenas queries com relevância

In [55]:
topics = {key:value for key, value in topics.items() if key in qrels}

In [56]:
len(topics), list(topics.items())[0]

(54, (23849, {'title': 'are naturalization records public information'}))

# Executando 1o estágio: exact match com BM25

In [57]:
num_max_hits = 1000

#### Com código para retornar o score do bm25

In [58]:
from tqdm import tqdm

In [59]:
# Run all queries in topics, retrive top 1k for each query
def run_all_queries(file, topics, searcher, num_max_hits=100):
  """
  A função run_all_queries é responsável por realizar todas as consultas armazenadas no dicionário topics utilizando o objeto searcher fornecido e salvar os resultados em um arquivo de texto.

  Parâmetros:

  file: caminho do arquivo de saída onde serão salvos os resultados das consultas.
  topics: dicionário contendo as consultas a serem executadas. Cada consulta é representada por uma chave única no dicionário. O valor correspondente a cada chave é um outro dicionário contendo as informações da consulta, como seu título e outras informações relevantes.
  searcher: objeto do tipo Searcher que será utilizado para realizar as consultas.
  num_max_hits: número máximo de documentos relevantes que serão retornados para cada consulta.
  Retorno:

  A função não retorna nenhum valor, mas salva os resultados das consultas no arquivo especificado em file.
  Comentário:

  A função usa a biblioteca tqdm para exibir uma barra de progresso enquanto executa as consultas.
  O número de consultas concluídas é impresso a cada 100 consultas.
  """
  print(f'Running {len(topics)} queries in total')
  with open(file, 'w') as runfile:
      cnt = 0
      for id in tqdm(topics, desc='Running Queries'):
          query = topics[id]['title']
          hits = searcher.search(query, num_max_hits)
          for i in range(0, len(hits)):
              _ = runfile.write(f'{id} Q0 {hits[i].docid} {i+1} {hits[i].score:.6f} Etapa_EM\n')
              # = runfile.write('{} Q0 {} {} {:.6f} Pyserini\n'.format(id, hits[i].docid, i+1, hits[i].score))
          cnt += 1
          if cnt % 100 == 0:
              print(f'{cnt} queries completed')

In [60]:
path_run = path_data + '/runs'
path_run_estagio1 = path_run + '/run-msmarco-passage-bm25-estagio1.txt'

In [61]:
path_run, path_run_estagio1

('/content/drive/MyDrive/treinamento/202301_IA368DD/collections/msmarco-passage/runs',
 '/content/drive/MyDrive/treinamento/202301_IA368DD/collections/msmarco-passage/runs/run-msmarco-passage-bm25-estagio1.txt')

In [62]:
%%time
if not os.path.exists(path_run):
  os.makedirs(path_run)
  print('pasta criada!')
else:
  print('pasta já existia!')


pasta já existia!
CPU times: user 1.25 ms, sys: 0 ns, total: 1.25 ms
Wall time: 7.98 ms


In [63]:
if not os.path.exists(path_run_estagio1):
  # roda 1o estágio de busca por bm25
  # code from https://colab.research.google.com/github/castorini/anserini-notebooks/blob/master/pyserini_msmarco_passage_demo.ipynb
  from pyserini.search import SimpleSearcher
  from pyserini.search.lucene import LuceneSearcher


  # Indexando Trec 2020 Collection using Pyserini
  !python -m pyserini.index.lucene \
    --collection JsonCollection \
    --input {path_data}/collection_jsonl \
    --index indexes/lucene-index-msmarco-passage \
    --generator DefaultLuceneDocumentGenerator \
    --threads 9 \
    --storePositions --storeDocvectors --storeRaw

  # realizando busca e salvando dados do estágio 1
  searcher = LuceneSearcher('./indexes/lucene-index-msmarco-passage')
  searcher.set_bm25(k1=0.82, b=0.68)  
  run_all_queries(path_run_estagio1, topics, searcher, num_max_hits)
  
  print("Dados estágio 1 (bm25) carregados!")
else:
  print("Dados estágio 1 (bm25) já existiam!")    

Dados estágio 1 (bm25) já existiam!


In [64]:
assert os.path.exists(path_run_estagio1), f"Pasta {path_run_estagio1} não criada!"

In [65]:
!head {path_run_estagio1}

23849 Q0 4348282 1 10.738400 Etapa_EM
23849 Q0 2674124 2 10.426600 Etapa_EM
23849 Q0 542113 3 9.687200 Etapa_EM
23849 Q0 8246990 4 9.641500 Etapa_EM
23849 Q0 8133127 5 9.566500 Etapa_EM
23849 Q0 2647769 6 9.547200 Etapa_EM
23849 Q0 2017213 7 9.504800 Etapa_EM
23849 Q0 7119957 8 9.500700 Etapa_EM
23849 Q0 964148 9 9.476800 Etapa_EM
23849 Q0 436721 10 9.464000 Etapa_EM


##### Eval

In [None]:
!python -m pyserini.eval.trec_eval -c -m ndcg_cut.10 -mrecall.1000 -mmap -l 2 'dl20-passage' {path_run_estagio1}

Downloading https://search.maven.org/remotecontent?filepath=uk/ac/gla/dcs/terrierteam/jtreceval/0.0.5/jtreceval-0.0.5-jar-with-dependencies.jar to /root/.cache/pyserini/eval/jtreceval-0.0.5-jar-with-dependencies.jar...
jtreceval-0.0.5-jar-with-dependencies.jar: 1.79MB [00:01, 946kB/s]                 
Running command: ['java', '-jar', '/root/.cache/pyserini/eval/jtreceval-0.0.5-jar-with-dependencies.jar', '-c', '-m', 'ndcg_cut.10', '-mrecall.1000', '-mmap', '-l', '2', '/root/.cache/pyserini/topics-and-qrels/qrels.dl20-passage.txt', '/content/drive/MyDrive/treinamento/202301_IA368DD/collections/msmarco-passage/runs/run-msmarco-passage-bm25-estagio1.txt']
Results:
map                   	all	0.2876
recall_1000           	all	0.8031
ndcg_cut_10           	all	0.4876


# Treinamento do ranqueador

Fonte: https://colab.research.google.com/drive/10etP7Lb915EC-uEuf1IKC8DYkyg_om6-?usp=sharing

In this notebook, we will finetuned and evaluate a BERT-based model on a document classification task.

Our dataset will be a smaller version of the IMDB Sentiment Analysis dataset.

To finetune and evaluate faster, we will be using [miniLM](https://huggingface.co/microsoft/MiniLM-L12-H384-uncased), which is small BERT-like model distilled from a larger one.

## Preparando dados de treinamento


### Carga dos dados

In [66]:
path_data_train = path_data + '/train'
path_data_train

'/content/drive/MyDrive/treinamento/202301_IA368DD/collections/msmarco-passage/train'

In [67]:
%%time
if not os.path.exists(path_data_train):
  os.makedirs(path_data_train)
  print(f'{path_data_train} pasta criada!')
else:
  print(f'{path_data_train} pasta já existia!')

/content/drive/MyDrive/treinamento/202301_IA368DD/collections/msmarco-passage/train pasta já existia!
CPU times: user 407 µs, sys: 885 µs, total: 1.29 ms
Wall time: 1.11 ms


In [68]:
assert os.path.exists(path_data_train), f"Path {path_data_train} não existe!"

In [None]:
if not os.path.exists(path_data_train+'/msmarco_triples.train.tiny.tsv'):
  !wget -P {path_data_train} https://storage.googleapis.com/unicamp-dl/ia368dd_2023s1/msmarco/msmarco_triples.train.tiny.tsv  
  print(f'arquivo baixado!')

In [69]:
assert os.path.exists(path_data_train+'/msmarco_triples.train.tiny.tsv'), f"Path {path_data_train+'/msmarco_triples.train.tiny.tsv'} não existe!"

In [70]:
!head -n 2 {path_data_train+'/msmarco_triples.train.tiny.tsv'}

is a little caffeine ok during pregnancy	We donât know a lot about the effects of caffeine during pregnancy on you and your baby. So itâs best to limit the amount you get each day. If youâre pregnant, limit caffeine to 200 milligrams each day. This is about the amount in 1Â½ 8-ounce cups of coffee or one 12-ounce cup of coffee.	It is generally safe for pregnant women to eat chocolate because studies have shown to prove certain benefits of eating chocolate during pregnancy. However, pregnant women should ensure their caffeine intake is below 200 mg per day.
what fruit is native to australia	Passiflora herbertiana. A rare passion fruit native to Australia. Fruits are green-skinned, white fleshed, with an unknown edible rating. Some sources list the fruit as edible, sweet and tasty, while others list the fruits as being bitter and inedible.assiflora herbertiana. A rare passion fruit native to Australia. Fruits are green-skinned, white fleshed, with an unknown edible rating. Some sou

In [108]:
df = pd.read_csv(path_data_train+'/msmarco_triples.train.tiny.tsv', sep='\t', header=None)

In [109]:
df.columns = ['query', 'positive', 'negative']

In [110]:
df.head()

Unnamed: 0,query,positive,negative
0,is a little caffeine ok during pregnancy,We donât know a lot about the effects of caf...,It is generally safe for pregnant women to eat...
1,what fruit is native to australia,Passiflora herbertiana. A rare passion fruit n...,"The kola nut is the fruit of the kola tree, a ..."
2,how large is the canadian military,The Canadian Armed Forces. 1 The first large-...,The Canadian Physician Health Institute (CPHI)...
3,types of fruit trees,Cherry. Cherry trees are found throughout the ...,"The kola nut is the fruit of the kola tree, a ..."
4,how many calories a day are lost breastfeeding,"Not only is breastfeeding better for the baby,...","However, you still need some niacin each day; ..."


In [111]:
df.dtypes


query       object
positive    object
negative    object
Length: 3, dtype: object

Verificando correção do arquivo!

In [112]:
print(df.isnull().sum())

query       0
positive    0
negative    0
Length: 3, dtype: int64


### Tratando qualidade dos dados

#### Ajustando o texto no dataframe

In [113]:
df['query']=df['query'].astype(str)
df['positive']=df['positive'].astype(str)
df['negative']=df['negative'].astype(str)

In [114]:
x = 'We donât know a lot about the effects'
#x = x.encode('utf-8').decode('unicode_escape')
x = x.replace('â', '\'')
print(x)

We don't know a lot about the effects


In [115]:
df['query'] = df['query'].apply(lambda x: x.replace('â', '\''))
df['positive'] = df['positive'].apply(lambda x: x.replace('â', '\''))
df['negative'] = df['negative'].apply(lambda x: x.replace('â', '\''))


In [116]:
df.shape

(11000, 3)

In [117]:
df.head(3)

Unnamed: 0,query,positive,negative
0,is a little caffeine ok during pregnancy,We don't know a lot about the effects of caffe...,It is generally safe for pregnant women to eat...
1,what fruit is native to australia,Passiflora herbertiana. A rare passion fruit n...,"The kola nut is the fruit of the kola tree, a ..."
2,how large is the canadian military,The Canadian Armed Forces. 1 The first large-...,The Canadian Physician Health Institute (CPHI)...


In [118]:
df['positive'].iloc[0]

"We don't know a lot about the effects of caffeine during pregnancy on you and your baby. So it's best to limit the amount you get each day. If you're pregnant, limit caffeine to 200 milligrams each day. This is about the amount in 1Â½ 8-ounce cups of coffee or one 12-ounce cup of coffee."

Código abaixo não funcionou. A evoluir (se der tempo)!

import unicodedata

x = '1Â½ 8-ounce cups of coffee'

x = unicodedata.normalize("NFKD", x)  # Normaliza a string

print(x)

s = re.sub(r'(\d+)[\u00C2\u00A0]([\u2150-\u215E\u2189])', r'\1\2', x, flags=re.UNICODE)
print(s)  # "1½ 8-ounce cups of coffee"

#### Verificando média de tamanho (em palavras, não em tokens)

In [119]:
df.applymap(len).mean()

query        34.23
positive    353.50
negative    340.20
Length: 3, dtype: float64

### Divisão em treino e validação (de forma estratificada)

In [120]:
df_data = pd.DataFrame()

In [121]:
df_data['query']=df['query']
df_data['passage']=df['positive']
df_data['classe']=1


In [122]:
df[['query','negative']].assign(classe=0).head(3)

Unnamed: 0,query,negative,classe
0,is a little caffeine ok during pregnancy,It is generally safe for pregnant women to eat...,0
1,what fruit is native to australia,"The kola nut is the fruit of the kola tree, a ...",0
2,how large is the canadian military,The Canadian Physician Health Institute (CPHI)...,0


In [123]:
df_data = df_data.append(df[['query','negative']].rename(columns={'negative': 'passage'}).assign(classe=0), ignore_index=True)

  df_data = df_data.append(df[['query','negative']].rename(columns={'negative': 'passage'}).assign(classe=0), ignore_index=True)


In [124]:
df_data.shape

(22000, 3)

In [125]:
assert df_data.shape[0] == 22000, f'Erro no df_data.shape[0]. Deveria ser 22000 e é {df_data.shape[0]}'

In [126]:
df_data.head(3), df_data.tail(3)

(                                      query                                            passage  classe
 0  is a little caffeine ok during pregnancy  We don't know a lot about the effects of caffe...       1
 1         what fruit is native to australia  Passiflora herbertiana. A rare passion fruit n...       1
 2        how large is the canadian military  The Canadian Armed Forces. 1  The first large-...       1
 
 [3 rows x 3 columns],
                                                  query                                            passage  classe
 21997              deloitte consulting or phone number  Virtual phone numbers are convenient for both ...       0
 21998  how many hours a day to work to get lunch in ,a  1 Levaquin can be taken at any time of the day...       0
 21999   what theatre company did shakespeare invest in  The Globe Theatre was constructed in 1599, out...       0
 
 [3 rows x 3 columns])

In [127]:
from sklearn.model_selection import train_test_split

In [128]:
hparam['percent_test_size'] = .15 #@param [.10, .15, .20] {type:'raw'}

In [129]:
df_data[['query','passage']]

Unnamed: 0,query,passage
0,is a little caffeine ok during pregnancy,We don't know a lot about the effects of caffe...
1,what fruit is native to australia,Passiflora herbertiana. A rare passion fruit n...
2,how large is the canadian military,The Canadian Armed Forces. 1 The first large-...
3,types of fruit trees,Cherry. Cherry trees are found throughout the ...
4,how many calories a day are lost breastfeeding,"Not only is breastfeeding better for the baby,..."
...,...,...
21995,where is maramal in skyrim,One type of character isn't necessarily better...
21996,which is a basic unit of a sugar molecule,According to Merriam-Webster and the Online Et...
21997,deloitte consulting or phone number,Virtual phone numbers are convenient for both ...
21998,"how many hours a day to work to get lunch in ,a",1 Levaquin can be taken at any time of the day...


In [130]:
df_data[['query','passage']].values

array([['is a little caffeine ok during pregnancy',
        "We don't know a lot about the effects of caffeine during pregnancy on you and your baby. So it's best to limit the amount you get each day. If you're pregnant, limit caffeine to 200 milligrams each day. This is about the amount in 1Â½ 8-ounce cups of coffee or one 12-ounce cup of coffee."],
       ['what fruit is native to australia',
        'Passiflora herbertiana. A rare passion fruit native to Australia. Fruits are green-skinned, white fleshed, with an unknown edible rating. Some sources list the fruit as edible, sweet and tasty, while others list the fruits as being bitter and inedible.assiflora herbertiana. A rare passion fruit native to Australia. Fruits are green-skinned, white fleshed, with an unknown edible rating. Some sources list the fruit as edible, sweet and tasty, while others list the fruits as being bitter and inedible.'],
       ['how large is the canadian military',
        "The Canadian Armed Forces. 1  T

In [131]:
X_train, X_valid, Y_train, Y_valid = train_test_split(df_data[['query','passage']].values, df_data['classe'].values, test_size=hparam['percent_test_size'], stratify=df_data['classe'].values, random_state=num_semente)

In [132]:
X_train.shape, type(X_valid), type(Y_valid), X_valid.shape, Y_valid.shape

((18700, 2), numpy.ndarray, numpy.ndarray, (3300, 2), (3300,))

In [133]:
print(np.unique(Y_train, return_counts=True), '\n', np.unique(Y_valid, return_counts=True))

(array([0, 1]), array([9350, 9350])) 
 (array([0, 1]), array([1650, 1650]))


In [134]:
X_train[:2]

array([['who is nucky thompson based on',
        'Nolan Lyons (1884) Marc Pickering (1897) Enoch Malachi Nucky Thompson, played by Steve Buscemi, is the protagonist of the series Boardwalk Empire. He is very loosely based on the real New Jersey politician Enoch L. Johnson (1883-1968), who was in control of Atlantic City for two decades, between 1911 and 1931.'],
       ['can i bury paper money',
        "They keep your tax return once filed and do NOT return the return to you. Are you asking about your refund? YOU had the problem which resulted in denial of efiling. Paper returns always take longer to process. I just got my federal refund for a paper return filed 4/15 and the state refund hasn't come yet. It takes as long as it takes, and there is nothing you can do about it, venting and ranting won't change anything. The state is out of money, so I don't expect anything anytime soon."]],
      dtype=object)

In [135]:
Y_train[:2]

array([1, 0])

### Computing input lengths - experimentando o tokenizador

In [71]:
const_nome_modelo = 'microsoft/MiniLM-L12-H384-uncased'

In [72]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained(const_nome_modelo)

https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/config.json not found in cache or force_download set to True, downloading to /root/.cache/huggingface/transformers/tmp_fnq9_6v


Downloading:   0%|          | 0.00/385 [00:00<?, ?B/s]

storing https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/config.json in cache at /root/.cache/huggingface/transformers/ceb753d3f27a8c0d09184f35884666cda91b8ae610cd2a54d89793ac7663f1f9.13815020fd994b27db9974c0ce0ec4c47dfac6c8f11bf1a35a0a06d5b165665a
creating metadata file for /root/.cache/huggingface/transformers/ceb753d3f27a8c0d09184f35884666cda91b8ae610cd2a54d89793ac7663f1f9.13815020fd994b27db9974c0ce0ec4c47dfac6c8f11bf1a35a0a06d5b165665a
loading configuration file https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/config.json from cache at /root/.cache/huggingface/transformers/ceb753d3f27a8c0d09184f35884666cda91b8ae610cd2a54d89793ac7663f1f9.13815020fd994b27db9974c0ce0ec4c47dfac6c8f11bf1a35a0a06d5b165665a
Model config BertConfig {
  "attention_probs_dropout_prob": 0.1,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 384,
  "initializer_range": 0.02,
  "intermediate_size": 1536,
  "layer_n

Downloading:   0%|          | 0.00/232k [00:00<?, ?B/s]

storing https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/vocab.txt in cache at /root/.cache/huggingface/transformers/49c302ee103bf6737d0877cfbd658563cf4bbc4b7914363ca419ce8a3d8a4c51.d789d64ebfe299b0e416afc4a169632f903f693095b4629a7ea271d5a0cf2c99
creating metadata file for /root/.cache/huggingface/transformers/49c302ee103bf6737d0877cfbd658563cf4bbc4b7914363ca419ce8a3d8a4c51.d789d64ebfe299b0e416afc4a169632f903f693095b4629a7ea271d5a0cf2c99
https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/special_tokens_map.json not found in cache or force_download set to True, downloading to /root/.cache/huggingface/transformers/tmpddk6mgow


Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

storing https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/special_tokens_map.json in cache at /root/.cache/huggingface/transformers/1e5909e4dfaa904617797ed35a6105a23daa56cbefca48fef329f772584699fb.dd8bd9bfd3664b530ea4e645105f557769387b3da9f79bdb55ed556bdd80611d
creating metadata file for /root/.cache/huggingface/transformers/1e5909e4dfaa904617797ed35a6105a23daa56cbefca48fef329f772584699fb.dd8bd9bfd3664b530ea4e645105f557769387b3da9f79bdb55ed556bdd80611d
https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/tokenizer_config.json not found in cache or force_download set to True, downloading to /root/.cache/huggingface/transformers/tmpl34hzbqy


Downloading:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

storing https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/tokenizer_config.json in cache at /root/.cache/huggingface/transformers/29039dfe8c131360348e9f5ebecd464478cec7576c9af532b55ddcf9d4ec8d1e.5cc6e825eb228a7a5cfd27cb4d7151e97a79fb962b31aaf1813aa102e746584b
creating metadata file for /root/.cache/huggingface/transformers/29039dfe8c131360348e9f5ebecd464478cec7576c9af532b55ddcf9d4ec8d1e.5cc6e825eb228a7a5cfd27cb4d7151e97a79fb962b31aaf1813aa102e746584b
loading file https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/vocab.txt from cache at /root/.cache/huggingface/transformers/49c302ee103bf6737d0877cfbd658563cf4bbc4b7914363ca419ce8a3d8a4c51.d789d64ebfe299b0e416afc4a169632f903f693095b4629a7ea271d5a0cf2c99
loading file https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/tokenizer.json from cache at None
loading file https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/added_tokens.json from cache at None
loading file 

In [73]:
mostra_memoria(['cpu','gpu'])

Your runtime RAM in gb: 
 total 27.33
 available 25.23
 used 1.7
 free 9.88
 cached 15.3
 buffers 0.45
/nGPU
Mon Mar 13 09:38:45 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.85.12    Driver Version: 525.85.12    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   39C    P8    10W /  70W |      3MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                           

In [74]:
tokenizer.pad_token_id,tokenizer.cls_token_id,tokenizer.sep_token_id

(0, 101, 102)

In [None]:
x='x, it is just a test!'
y='y, it is just a continuation!'

In [None]:
tokenizer(x,y)['input_ids']

[101,
 1060,
 1010,
 2009,
 2003,
 2074,
 1037,
 3231,
 999,
 102,
 1061,
 1010,
 2009,
 2003,
 2074,
 1037,
 13633,
 999,
 102]

In [None]:
tokenizer.encode_plus(x,y)['input_ids']

[101,
 1060,
 1010,
 2009,
 2003,
 2074,
 1037,
 3231,
 999,
 102,
 1061,
 1010,
 2009,
 2003,
 2074,
 1037,
 13633,
 999,
 102]

In [None]:
df_tokenizado = df.applymap(lambda x: tokenizer(x)['input_ids'])

In [None]:
df_tokenizado.head()

Unnamed: 0,query,positive,negative
0,"[101, 2003, 1037, 2210, 24689, 7959, 3170, 792...","[101, 2057, 2123, 1005, 1056, 2113, 1037, 2843...","[101, 2009, 2003, 3227, 3647, 2005, 6875, 2308..."
1,"[101, 2054, 5909, 2003, 3128, 2000, 2660, 102]","[101, 3413, 10128, 10626, 2050, 7253, 11410, 1...","[101, 1996, 12849, 2721, 17490, 2003, 1996, 59..."
2,"[101, 2129, 2312, 2003, 1996, 3010, 2510, 102]","[101, 1996, 3010, 4273, 2749, 1012, 1015, 1996...","[101, 1996, 3010, 7522, 2740, 2820, 1006, 1813..."
3,"[101, 4127, 1997, 5909, 3628, 102]","[101, 9115, 1012, 9115, 3628, 2024, 2179, 2802...","[101, 1996, 12849, 2721, 17490, 2003, 1996, 59..."
4,"[101, 2129, 2116, 10250, 18909, 1037, 2154, 20...","[101, 2025, 2069, 2003, 7388, 7959, 17819, 248...","[101, 2174, 1010, 2017, 2145, 2342, 2070, 9152..."


In [None]:
print('max:', '\n', df_tokenizado.applymap(len).max(), '\n','mean:', '\n', df_tokenizado.applymap(len).mean(), '\n', 'std:', '\n', df_tokenizado.applymap(len).std())

max: 
 query        43
positive    280
negative    249
Length: 3, dtype: int64 
 mean: 
 query        9.10
positive    80.88
negative    77.52
Length: 3, dtype: float64 
 std: 
 query        2.85
positive    32.58
negative    31.12
Length: 3, dtype: float64


Logo: max_seq_length pode ser 322 (43 + 280 - 1 [sep comum aos 2])

Definindo o prefixo de nome do arquivo 

In [75]:
path_aula = '/content/drive/MyDrive/treinamento/202301_IA368DD/aula2/'
if not os.path.exists(path_aula):
  os.makedirs(path_aula)
  print(f'{path_aula} pasta criada!')
else: 
  print(f'{path_aula} pasta já existia!')
  

/content/drive/MyDrive/treinamento/202301_IA368DD/aula2/ pasta já existia!


### Definindo parâmetros e informações para o rastro (hparam)

In [227]:
# visto que "max_position_embeddings": 512 em https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/blob/main/config.json
hparam['max_seq_length'] = 322  #@param {type:"slider", min:100, max:512, step:1} 
hparam['num_sentenca_train'] = 18700 # X_train.shape[0]
hparam['num_sentenca_valid'] = 3300 # X_valid.shape[0]
hparam['num_epochs'] = 10  #@param {type:"slider", min:1, max:100, step:1} 
hparam['model_name'] = const_nome_modelo
hparam['vocab_size']= tokenizer.vocab_size
hparam['batch_size']=32

In [77]:
infixo_nome= 'rerank_max_seq_'+ str(hparam['max_seq_length'])+'_text_'
path_treino = path_aula + infixo_nome
print(path_treino)

/content/drive/MyDrive/treinamento/202301_IA368DD/aula2/rerank_max_seq_322_text_


### Criando código para o Dataset

In [230]:
class MyDataset():
    """
      Classe para representar um dataset de texto e classes.
    """  
    def __init__(self, texts: np.ndarray, classes:list[int], tokenizer, max_seq_length: int, parm_device:torch.device):
      """
      Inicializa um novo objeto MyDataset.

      Args:
          texts (np.ndarray): um array com as strings de texto. Cada linha deve ter 2 strings.
          classes (np.ndarray): um array com as classes de cada texto.
          tokenizer: um objeto tokenizer do Hugging Face Transformers.
          max_seq_length (int): o tamanho máximo da sequência a ser considerado.
          parm_device: indica se é para salvar os tensores na CPU ou na GPU
      Raises:
          AssertionError: se os parâmetros não estiverem no formato esperado.
      """
      # Verifica se os parâmetros são do tipo esperado
      assert isinstance(texts, np.ndarray), f"Parâmetro texts deve ser do tipo np.ndarray e não {type(texts)}"
      assert texts.shape[1] == 2, "Array must have 2 columns"
      for row in texts:
          assert isinstance(row, np.ndarray) and row.shape == (2,), f"Each row in texts must have 2 elements"
          assert isinstance(row[0], str) and isinstance(row[1], str), f"Each element in texts.row must be a string e não {type(row[0])}"
      assert isinstance(classes,np.ndarray), f'classes deve ser do tipo np.ndarray e não {type(classes)}'
      assert isinstance(classes[0],np.int64), f'classes[0] deve ser do tipo numpy.int64 e não {type(classe[0])} '
      assert isinstance(max_seq_length, int), f'max_seq_length deve ser do tipo int e não {type(max_seq_length)}'
      assert max_seq_length > 100, f'max_seq_length deve ser maior do que 100'
      assert isinstance(parm_device, torch.device), f'parm_device deve ser do tipo torch.device e não {type(parm_device)}'

      self.texts = texts
      self.classes = classes
      self.tokenizer = tokenizer
      self.max_seq_length = max_seq_length
      self.device = parm_device

      # Salvar os dados dos tensores
      x_data_input_ids = []
      x_data_token_type_ids = []
      x_data_attention_masks = []
      for text_pair in tqdm(texts, desc='encoding text pair'):
          encoding = tokenizer.encode_plus(
              text_pair[0],
              text_pair[1],
              add_special_tokens=True,
              max_length=self.max_seq_length,
              padding='max_length',
              return_tensors = 'pt',
              truncation=True,
              return_attention_mask=True,
              return_token_type_ids=True
          )
          x_data_input_ids.append(encoding['input_ids'].long())
          x_data_token_type_ids.append(encoding['token_type_ids'].long())
          x_data_attention_masks.append(encoding['attention_mask'].long())
      print(F'\tVou converter lista para tensor;  Momento: {time.strftime("[%Y-%b-%d %H:%M:%S]")}')
      # squeeze: vai transformar um tensor de shape [2, 1, 322] em um tensor de shape [2, 322].

      self.x_tensor_input_ids = torch.stack(x_data_input_ids).squeeze(1).to(self.device)
      self.x_tensor_attention_masks = torch.stack(x_data_attention_masks).squeeze(1).to(self.device)
      self.x_tensor_token_type_ids = torch.stack(x_data_token_type_ids).squeeze(1).to(self.device)
    def __len__(self):
        """
          Retorna o tamanho do dataset (= tamanho do array texts)
        """
        return len(self.texts)
    
    def __getitem__(self, idx):
        """
          Retorna um dicionário com os dados do texto e sua classe correspondente, em um formato que pode 
          ser usado pelo dataloader do PyTorch para alimentar um modelo de aprendizado de máquina.
        """
        return {
            'input_ids': self.x_tensor_input_ids[idx],
            'attention_mask': self.x_tensor_attention_masks[idx],
            'token_type_ids': self.x_tensor_token_type_ids[idx],
            'labels': int(self.classes[idx])
        }

#### Testando o MyDataset e o Dataloader

In [231]:
# Cria dados fictícios
texts = np.array([['This is the first text', 'This is the second text'],
                  ['This is text 2.1', 'This is text 2.2'],
                  ['This is text 3.1', 'This is text 3.2'],
                  ['This is text 4.1', 'This is text 4.2'],
                  ['This is text 5.1', 'This is text 5.2'],
                  ['This is text 6.1', 'This is text 6.2'],
                  ['This is text 7.1', 'This is text 7.2']])
classes = np.array([1, 0, 1, 0, 1, 0, 1])


In [232]:
# Cria um objeto da classe MyDataset
dummy_dataset = MyDataset(texts=texts, classes=classes, tokenizer=tokenizer, max_seq_length=hparam['max_seq_length'], parm_device=hparam['device'])

encoding text pair:   0%|          | 0/7 [00:00<?, ?it/s]

	Vou converter lista para tensor;  Momento: [2023-Mar-13 11:31:58]


In [233]:
sample['input_ids'].shape[0]

322

In [234]:
# Testa o método __len__()
assert len(dummy_dataset) == 7

# Testa o método __getitem__()
sample = dummy_dataset[0]
assert set(sample.keys()) == {'input_ids', 'attention_mask', 'token_type_ids', 'labels'} # 
assert isinstance(sample['input_ids'], torch.Tensor)
assert sample['input_ids'].shape[0] == hparam['max_seq_length']
assert isinstance(sample['attention_mask'], torch.Tensor)
assert sample['attention_mask'].shape[0] == hparam['max_seq_length']
assert isinstance(sample['labels'], int)

In [235]:
print(sample)

{'input_ids': tensor([ 101, 2023, 2003, 1996, 2034, 3793,  102, 2023, 2003, 1996, 2117, 3793,
         102,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0, 

In [202]:
dummy_loader = DataLoader(dummy_dataset, batch_size=2, shuffle=False, num_workers=hparam['num_workers_dataloader'] )

In [203]:
mostra_memoria(['cpu','gpu'])

Your runtime RAM in gb: 
 total 27.33
 available 22.66
 used 4.26
 free 6.13
 cached 16.48
 buffers 0.47
/nGPU
Mon Mar 13 10:43:32 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.85.12    Driver Version: 525.85.12    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   62C    P0    30W /  70W |   1263MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                         

In [204]:
first_batch = next(iter(dummy_loader))

In [205]:
first_batch

{'input_ids': tensor([[ 101, 2023, 2003, 1996, 2034, 3793,  102, 2023, 2003, 1996, 2117, 3793,
           102,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
   

Confirmando efeito do parâmetro shuffle em DataLoader

In [236]:
dummy_loader = DataLoader(dummy_dataset, batch_size=2, shuffle=False, num_workers=hparam['num_workers_dataloader'])
for ndx, epoch in tqdm(enumerate(range(hparam['num_epochs'])), desc='Epochs'):
  for batch in dummy_loader:
    print(batch['labels'])
  print(f"Fim época {ndx}")


Epochs: 0it [00:00, ?it/s]

tensor([1, 0])
tensor([1, 0])
tensor([1, 0])
tensor([1])
Fim época 0
tensor([1, 0])
tensor([1, 0])
tensor([1, 0])
tensor([1])
Fim época 1
tensor([1, 0])
tensor([1, 0])
tensor([1, 0])
tensor([1])
Fim época 2


In [237]:
dummy_loader = DataLoader(dummy_dataset, batch_size=2, shuffle=True, num_workers=hparam['num_workers_dataloader'])
for ndx, epoch in tqdm(enumerate(range(hparam['num_epochs'])), desc='Epochs'):
  for batch in dummy_loader:
    print(batch['labels'])
  print(f"Fim época {ndx}")

Epochs: 0it [00:00, ?it/s]

tensor([0, 1])
tensor([0, 1])
tensor([0, 1])
tensor([1])
Fim época 0
tensor([0, 0])
tensor([0, 1])
tensor([1, 1])
tensor([1])
Fim época 1
tensor([1, 1])
tensor([0, 1])
tensor([0, 1])
tensor([0])
Fim época 2


### Carregando o Dataset e os Dataloaders


In [208]:
datasets_carregados_previamente = False #@param {type:"boolean"}

print(datasets_carregados_previamente)

False


In [209]:
import io

In [210]:
if datasets_carregados_previamente:
  with open(path_treino+'dataset_valid_len_'+str(hparam['num_sentenca_valid'])+'.pt','rb') as f:
    buffer = io.BytesIO(f.read())
  dataset_valid = torch.load(buffer)
  with open(path_treino+'dataset_train_len_'+str(hparam['num_sentenca_train'])+'.pt','rb') as f:
    buffer = io.BytesIO(f.read())
  dataset_train = torch.load(buffer)
  print('Datasets carregados')   

In [239]:
%%time
if not datasets_carregados_previamente:
  print("carregando valid_dataset")  
  dataset_valid = MyDataset(texts=X_valid, classes=Y_valid, tokenizer=tokenizer, max_seq_length=hparam['max_seq_length'], parm_device=hparam['device'])
  torch.save(dataset_valid, path_treino+'dataset_valid_len_'+str(hparam['num_sentenca_valid'])+'.pt')

carregando valid_dataset


encoding text pair:   0%|          | 0/3300 [00:00<?, ?it/s]

	Vou converter lista para tensor;  Momento: [2023-Mar-13 11:33:32]
CPU times: user 2.01 s, sys: 48.6 ms, total: 2.06 s
Wall time: 2.07 s


In [240]:
%%time
if not datasets_carregados_previamente:
  print("carregando train_dataset")  
  dataset_train = MyDataset(texts=X_train, classes=Y_train, tokenizer=tokenizer, max_seq_length=hparam['max_seq_length'], parm_device=hparam['device'])
  torch.save(dataset_train, path_treino+'dataset_train_len_'+str(hparam['num_sentenca_train'])+'.pt')

carregando train_dataset


encoding text pair:   0%|          | 0/18700 [00:00<?, ?it/s]

	Vou converter lista para tensor;  Momento: [2023-Mar-13 11:33:43]
CPU times: user 11.6 s, sys: 313 ms, total: 11.9 s
Wall time: 11.9 s


In [241]:
dataloader_train = DataLoader(dataset_train, batch_size=hparam['batch_size'], shuffle=True)
dataloader_valid = DataLoader(dataset_valid, batch_size=hparam['batch_size'], shuffle=False)

## Finetuning

In [89]:
def count_parameters(model):
    """
    Conta o número de parâmetros treináveis em um modelo PyTorch.

    Args:
        model (torch.nn.Module): O modelo PyTorch a ser avaliado.

    Returns:
        int: O número de parâmetros treináveis do modelo.

    """
    # Retorna a soma do número de elementos em cada tensor de parâmetro que requer gradiente.
    # A propriedade "requires_grad" é definida como True para todos os tensores de parâmetro que 
    # precisam ser treinados, enquanto que para aqueles que não precisam, ela é definida como False.
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

In [225]:
from statistics import mean, stdev

In [268]:
type(dataloader_train)

torch.utils.data.dataloader.DataLoader

In [324]:
# We first define the evaluation function to measure accuracy and loss
def evaluate(model, dataloader, set_name):
    losses = []
    correct = 0
    model.eval()
    with torch.no_grad():
        for ndx, batch in tqdm(enumerate(dataloader), mininterval=0.5, desc=set_name, disable=False):
            input_ids = batch['input_ids'].to(hparam['device'])
            token_type_ids = batch['token_type_ids'].to(hparam['device'])
            attention_mask = batch['attention_mask'].to(hparam['device'])                                              
            labels = batch['labels'].to(hparam['device'])                                              
            outputs = model(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, labels=labels)
            loss_val = outputs.loss
            losses.append(loss_val.cpu().item())
            preds = outputs.logits.argmax(dim=1)
            correct += (preds == labels).sum().item()
            #if ndx < 2:
            #  print(f'Em evaluete. Batch {ndx}')
            #  print(f'loss_val: {loss_val} ')
            #  print(f'preds: {preds} \nlabels: {labels} ')
            #  print(f'correct: {correct}')
    if isinstance(dataloader,torch.utils.data.dataloader.DataLoader): 
        accuracy = correct / len(dataloader.dataset)
    elif isinstance(dataloader,list):  # usado para overfit em um batch
        accuracy = correct / len(dataloader)
    mean_loss = mean(losses)
    return accuracy, mean_loss

In [91]:
from torch import nn
from torch import optim
from tqdm.auto import tqdm
from transformers import get_linear_schedule_with_warmup

In [326]:
model = AutoModelForSequenceClassification.from_pretrained(hparam['model_name'], num_labels=2).to(hparam['device'])

loading configuration file https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/config.json from cache at /root/.cache/huggingface/transformers/ceb753d3f27a8c0d09184f35884666cda91b8ae610cd2a54d89793ac7663f1f9.13815020fd994b27db9974c0ce0ec4c47dfac6c8f11bf1a35a0a06d5b165665a
Model config BertConfig {
  "attention_probs_dropout_prob": 0.1,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 384,
  "initializer_range": 0.02,
  "intermediate_size": 1536,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.6.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}

loading weights file https://huggingface.co/microsoft/MiniLM-L12-H384-uncased/resolve/main/pytorch_model.bin from cache at /root/.cache/huggingface/transformers/b77424

Depois tentar definir:hparam[ hparam['dim_feedforward']=256

In [94]:
count_parameters(model)

33360770

In [327]:
hparam['learning_rate']=1e-4 # 3e-5 # 1e-3
hparam['num_params'] = count_parameters(model)
print(f"Number of model parameters: {hparam['num_params']}")
hparam['num_training_steps'] = hparam['num_epochs'] * len(dataloader_train)
hparam['amsgrad']=False
hparam['weight_decay'] = 1e-4
hparam['num_warmup_steps'] = int(hparam['num_training_steps']  * 0.1)


Number of model parameters: 33360770


In [336]:
hparam['num_steps_to_eval'] = 100
hparam['early_stop'] = 3

In [329]:
hparam['optimizer'] = torch.optim.Adam(model.parameters(), lr=hparam['learning_rate'], weight_decay= hparam['weight_decay'], amsgrad=hparam['amsgrad'])

In [330]:
hparam['scheduler'] = get_linear_schedule_with_warmup(hparam['optimizer'], hparam['num_warmup_steps'], hparam['num_training_steps'])

### Evaluating on the valid dataset before training

In [248]:
accuracy, mean_loss = evaluate(model=model, dataloader=dataloader_valid, set_name='Valid')
print(f'Em validação: loss: {mean_loss:0.3f}; accuracy: {accuracy:0.3f}')

Valid: 0it [00:00, ?it/s]

batch 0
loss_val: 0.6964688301086426 
preds: tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0], device='cuda:0') 
labels: tensor([1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
correct: 10
batch 1
loss_val: 0.6898707747459412 
preds: tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0], device='cuda:0') 
labels: tensor([0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0,
        0, 1, 0, 0, 0, 1, 0, 0], device='cuda:0') 
correct: 32
batch 2
loss_val: 0.6925822496414185 
preds: tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0], device='cuda:0') 
labels: tensor([1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0,
        1, 0, 0, 1, 0, 0, 1, 1], device='cuda:0') 
correct: 49
batch 3
loss_val: 0

### Treinamento

In [290]:
hparam['lista_tag_rastro_experiencia_treino'] =  gera_tag_rastro_experiencia_treino(parm_aula='aula2', hparam=hparam) 
hparam['lista_tag_rastro_experiencia_treino']

'aula2|max_seq_length 322|batch_size 32|learning_rate 0.0001|weight_decay 0.0001|amsgrad False'

In [None]:
def treina_modelo (model, hparam, parm_dataloader_train, parm_dataloader_valid):
  global path_treino

  rastro_neptune = NeptuneRastroRun(hparam, parm_lista_tag= gera_tag_rastro_experiencia_treino(parm_aula='aula2', hparam=hparam) )
  history = []
  n_examples = 0
  time_inicio_treino = time.time()
  qtd_epoch_sem_melhor_metrica = 0

  path_modelo = f'{path_treino}model_len_{hparam["max_seq_length"]}_ini_treino_{time.strftime("[%Y-%b-%d %H:%M:%S]")}.pt'
  print(f'Caminho para modelo: {path_modelo}')
  

  best_metrica_validacao = 0 # float('-inf')
  best_epoch = 0


  for epoch in tqdm(range(hparam['num_epochs']), desc='Epochs'):
    model.train()
    
    train_losses = []
    for batch in tqdm(parm_dataloader_train, mininterval=0.5, desc='Train', disable=False):
        hparam['optimizer'].zero_grad()
        # ipdb.set_trace(context=3)
        #input_ids = batch['input_ids'].to(hparam['device'])
        #token_type_ids = batch['token_type_ids'].to(hparam['device'])
        #attention_mask = batch['attention_mask'].to(hparam['device'])                                              
        #labels = batch['labels'].to(hparam['device'])                                              
        outputs = model(input_ids=batch['input_ids'], attention_mask=batch['attention_mask'], token_type_ids=batch['token_type_ids'], labels=batch['labels'])
        loss = outputs.loss
        loss.backward()
        hparam['optimizer'].step()
        hparam['scheduler'].step()
        n_examples += len(batch['input_ids'])  # Increment of batch size
        train_losses.append(loss.cpu().item())

    accuracy_valid, mean_loss_valid = evaluate(model=model, dataloader=parm_dataloader_valid, set_name='Valid')
    print(f'Epoch: {epoch + 1} Training loss: {mean(train_losses):0.2f} Em validação: loss: {mean_loss_valid:0.3f}; accuracy: {accuracy_valid:0.3f}')
    metrica_rastro = {"train/loss": mean(train_losses), 
                      "train/n_examples": n_examples, 
                      "train/learning_rate": hparam["optimizer"].param_groups[0]["lr"],
                      "valid/loss": mean_loss_valid,
                      "valid/accuracy": accuracy_valid}  
    history.append(metrica_rastro)
    rastro_neptune.salva_metrica(metrica_rastro)


    if accuracy_valid > best_metrica_validacao:
        best_model_dict = model.state_dict()
        best_metrica_validacao = accuracy_valid
        best_epoch = epoch + 1

        # salva a cada vez que não houver melhoria seguida da métrica
        if qtd_epoch_sem_melhor_metrica > 1:                    
          torch.save(model, path_modelo)    
          sufixo_msg += f"; modelo salvo em {path_modelo}"

        qtd_epoch_sem_melhor_metrica = 0
        
        # print(f'encontrado best model Epoch: {epoch + 1} ')
    elif hparam['early_stop'] <= (epoch + 1 - best_epoch):
        print(f"Parando por critério de early_stop na época {epoch + 1} sendo best_epoch {best_epoch} e ealy_stop {hparam['early_stop']}")
        break # for epoch
    else:
        qtd_epoch_sem_melhor_metrica +=1    

  # calculando tempo gasto e médio por step
  tempo_treino = time.time() - time_inicio_treino   
  rastro_neptune.run_neptune["context/tempo_treino"] = tempo_treino
  rastro_neptune.stop()
  return history

In [331]:
def treina_modelo (model, hparam, parm_dataloader_train, parm_dataloader_valid):
  rastro_neptune = NeptuneRastroRun(hparam, parm_lista_tag= gera_tag_rastro_experiencia_treino(parm_aula='aula2', hparam=hparam) )
  history = []
  n_examples = 0
  time_inicio_treino = time.time()
  for epoch in tqdm(range(hparam['num_epochs']), desc='Epochs'):
    model.train()
    
    train_losses = []
    for batch in tqdm(parm_dataloader_train, mininterval=0.5, desc='Train', disable=False):
        hparam['optimizer'].zero_grad()
        # ipdb.set_trace(context=3)
        input_ids = batch['input_ids'].to(hparam['device'])
        token_type_ids = batch['token_type_ids'].to(hparam['device'])
        attention_mask = batch['attention_mask'].to(hparam['device'])                                              
        labels = batch['labels'].to(hparam['device'])                                              
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, labels=labels)
        loss = outputs.loss
        loss.backward()
        hparam['optimizer'].step()
        hparam['scheduler'].step()
        n_examples += len(token_type_ids)  # Increment of batch size
        train_losses.append(loss.cpu().item())

    accuracy_valid, mean_loss_valid = evaluate(model=model, dataloader=parm_dataloader_valid, set_name='Valid')
    print(f'Epoch: {epoch + 1} Training loss: {mean(train_losses):0.2f} Em validação: loss: {mean_loss_valid:0.3f}; accuracy: {accuracy_valid:0.3f}')
    metrica_rastro = {"train/loss": mean(train_losses), 
                      "train/n_examples": n_examples, 
                      "train/learning_rate": hparam["optimizer"].param_groups[0]["lr"],
                      "valid/loss": mean_loss_valid,
                      "valid/accuracy": accuracy_valid}  
    history.append(metrica_rastro)
    rastro_neptune.salva_metrica(metrica_rastro)
  # calculando tempo gasto e médio por step
  tempo_treino = time.time() - time_inicio_treino   
  rastro_neptune.run_neptune["context/tempo_treino"] = tempo_treino
  rastro_neptune.stop()
  return history


In [250]:
%%time
# Training loop
for epoch in tqdm(range(2), desc='Epochs'):
    model.train()
    train_losses = []
    for batch in tqdm(dataloader_train, mininterval=0.5, desc='Train', disable=False):
        hparam['optimizer'].zero_grad()
        input_ids = batch['input_ids'].to(hparam['device'])
        token_type_ids = batch['token_type_ids'].to(hparam['device'])
        attention_mask = batch['attention_mask'].to(hparam['device'])                                              
        labels = batch['labels'].to(hparam['device'])                                              
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, labels=labels)
        loss = outputs.loss
        loss.backward()
        hparam['optimizer'].step()
        hparam['scheduler'].step()
        train_losses.append(loss.cpu().item())

    evaluate(model=model, dataloader=dataloader_valid, set_name='Valid')
    print(f'Epoch: {epoch + 1} Training loss: {mean(train_losses):0.2f} Em validação: loss: {mean_loss:0.3f}; accuracy: {accuracy:0.3f}')


Epochs:   0%|          | 0/2 [00:00<?, ?it/s]

Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

batch 0
loss_val: 0.2059391885995865 
preds: tensor([1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
labels: tensor([1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
correct: 30
batch 1
loss_val: 0.35299426317214966 
preds: tensor([0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0,
        0, 1, 0, 0, 1, 1, 1, 0], device='cuda:0') 
labels: tensor([0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0,
        0, 1, 0, 0, 0, 1, 0, 0], device='cuda:0') 
correct: 58
batch 2
loss_val: 0.13401946425437927 
preds: tensor([1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0,
        1, 0, 0, 1, 0, 0, 1, 1], device='cuda:0') 
labels: tensor([1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0,
        1, 0, 0, 1, 0, 0, 1, 1], device='cuda:0') 
correct: 88
batch 3
loss_val:

Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

batch 0
loss_val: 0.34177592396736145 
preds: tensor([1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
labels: tensor([1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
correct: 28
batch 1
loss_val: 0.33290427923202515 
preds: tensor([0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0,
        0, 1, 0, 0, 0, 1, 1, 0], device='cuda:0') 
labels: tensor([0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0,
        0, 1, 0, 0, 0, 1, 0, 0], device='cuda:0') 
correct: 57
batch 2
loss_val: 0.08669476956129074 
preds: tensor([1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0,
        1, 0, 0, 1, 0, 0, 0, 1], device='cuda:0') 
labels: tensor([1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0,
        1, 0, 0, 1, 0, 0, 1, 1], device='cuda:0') 
correct: 88
batch 3
loss_val

### Testando em poucos dados: um batch apenas. Esperado overfit loss próxima de zero.

In [318]:
hparam['num_epochs'] = 5

In [323]:
history =  treina_modelo (model, hparam,  [next(iter(dataloader_train))], [next(iter(dataloader_valid))])

https://app.neptune.ai/marcusborela/IA386DD/e/IAD-3


Epochs:   0%|          | 0/5 [00:00<?, ?it/s]

Train:   0%|          | 0/1 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Em evaluete. Batch 0
loss_val: 0.5209223628044128 
preds: tensor([1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
labels: tensor([1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
correct: 28
Epoch: 1 Training loss: 0.03 Em validação: loss: 0.521; accuracy: 28.000


Train:   0%|          | 0/1 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Em evaluete. Batch 0
loss_val: 0.5229379534721375 
preds: tensor([1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
labels: tensor([1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
correct: 28
Epoch: 2 Training loss: 0.01 Em validação: loss: 0.523; accuracy: 28.000


Train:   0%|          | 0/1 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Em evaluete. Batch 0
loss_val: 0.5241408944129944 
preds: tensor([1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
labels: tensor([1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
correct: 28
Epoch: 3 Training loss: 0.01 Em validação: loss: 0.524; accuracy: 28.000


Train:   0%|          | 0/1 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Em evaluete. Batch 0
loss_val: 0.5228933691978455 
preds: tensor([1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
labels: tensor([1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
correct: 28
Epoch: 4 Training loss: 0.02 Em validação: loss: 0.523; accuracy: 28.000


Train:   0%|          | 0/1 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Em evaluete. Batch 0
loss_val: 0.5244978070259094 
preds: tensor([1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
labels: tensor([1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0,
        1, 0, 1, 0, 1, 1, 1, 1], device='cuda:0') 
correct: 28
Epoch: 5 Training loss: 0.02 Em validação: loss: 0.524; accuracy: 28.000
Shutting down background jobs, please wait a moment...
Done!
Waiting for the remaining 11 operations to synchronize with Neptune. Do not kill this process.
All 11 operations synced, thanks for waiting!
Explore the metadata in the Neptune app:
https://app.neptune.ai/marcusborela/IA386DD/e/IAD-3/metadata


[{'train/loss': 0.03391477093100548,
  'train/n_examples': 32,
  'train/learning_rate': 3.5443037974683544e-05,
  'valid/loss': 0.5209223628044128,
  'valid/accuracy': 28.0},
 {'train/loss': 0.013791278935968876,
  'train/n_examples': 64,
  'train/learning_rate': 3.537974683544304e-05,
  'valid/loss': 0.5229379534721375,
  'valid/accuracy': 28.0},
 {'train/loss': 0.009572568349540234,
  'train/n_examples': 96,
  'train/learning_rate': 3.531645569620253e-05,
  'valid/loss': 0.5241408944129944,
  'valid/accuracy': 28.0},
 {'train/loss': 0.015526796691119671,
  'train/n_examples': 128,
  'train/learning_rate': 3.5253164556962027e-05,
  'valid/loss': 0.5228933691978455,
  'valid/accuracy': 28.0},
 {'train/loss': 0.018238654360175133,
  'train/n_examples': 160,
  'train/learning_rate': 3.518987341772152e-05,
  'valid/loss': 0.5244978070259094,
  'valid/accuracy': 28.0}]

### Treino do conjunto completo

In [332]:
hparam['num_epochs'] = 10

In [333]:
history = treina_modelo (model, hparam,  dataloader_train, dataloader_valid)

https://app.neptune.ai/marcusborela/IA386DD/e/IAD-4


Epochs:   0%|          | 0/10 [00:00<?, ?it/s]

Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Epoch: 1 Training loss: 0.43 Em validação: loss: 0.286; accuracy: 0.891


Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Epoch: 2 Training loss: 0.24 Em validação: loss: 0.259; accuracy: 0.901


Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Epoch: 3 Training loss: 0.15 Em validação: loss: 0.217; accuracy: 0.913


Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Epoch: 4 Training loss: 0.08 Em validação: loss: 0.246; accuracy: 0.924


Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Epoch: 5 Training loss: 0.05 Em validação: loss: 0.222; accuracy: 0.931


Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Epoch: 6 Training loss: 0.03 Em validação: loss: 0.248; accuracy: 0.932


Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Epoch: 7 Training loss: 0.02 Em validação: loss: 0.238; accuracy: 0.939


Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Epoch: 8 Training loss: 0.01 Em validação: loss: 0.292; accuracy: 0.935


Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Epoch: 9 Training loss: 0.01 Em validação: loss: 0.300; accuracy: 0.939


Train:   0%|          | 0/585 [00:00<?, ?it/s]

Valid: 0it [00:00, ?it/s]

Epoch: 10 Training loss: 0.00 Em validação: loss: 0.294; accuracy: 0.939
Shutting down background jobs, please wait a moment...
Done!
Waiting for the remaining 10 operations to synchronize with Neptune. Do not kill this process.
All 10 operations synced, thanks for waiting!
Explore the metadata in the Neptune app:
https://app.neptune.ai/marcusborela/IA386DD/e/IAD-4/metadata


In [334]:
path_modelo = f'{path_treino}model_len_{hparam["max_seq_length"]}_fim_treino_{time.strftime("[%Y-%b-%d %H:%M:%S]")}.pt'
print(f'Caminho para modelo: {path_modelo}')

Caminho para modelo: /content/drive/MyDrive/treinamento/202301_IA368DD/aula2/rerank_max_seq_322_text_model_len_322_fim_treino_[2023-Mar-13 15:16:12].pt


In [335]:
torch.save(model, path_modelo)    

In [343]:
hparam['max_seq_length'] = 322
model = torch.load('/content/drive/MyDrive/treinamento/202301_IA368DD/aula2/rerank_max_seq_322_text_model_len_322_fim_treino_[2023-Mar-13 15:16:12].pt')

#PAREI AQUI

# Reranking a partir da saída do BM25