# Organizando o ambiente

In [1]:
import os

In [2]:
DIRETORIO_TRABALHO = '/home/borela/fontes/deep_learning_em_buscas_unicamp/local/doc2query'


In [3]:
assert os.path.exists(DIRETORIO_TRABALHO), f"Path para {DIRETORIO_TRABALHO} não existe!"

In [4]:
from psutil import virtual_memory

In [5]:
def mostra_memoria(lista_mem=['cpu']):
  """
  Esta função exibe informações de memória da CPU e/ou GPU, conforme parâmetros fornecidos.

  Parâmetros:
  -----------
  lista_mem : list, opcional
      Lista com strings 'cpu' e/ou 'gpu'. 
      'cpu' - exibe informações de memória da CPU.
      'gpu' - exibe informações de memória da GPU (se disponível).
      O valor padrão é ['cpu'].

  Saída:
  -------
  A função não retorna nada, apenas exibe as informações na tela.

  Exemplo de uso:
  ---------------
  Para exibir informações de memória da CPU:
      mostra_memoria(['cpu'])

  Para exibir informações de memória da CPU e GPU:
      mostra_memoria(['cpu', 'gpu'])
  
  Autor: Marcus Vinícius Borela de Castro

  """  
  if 'cpu' in lista_mem:
    vm = virtual_memory()
    ram={}
    ram['total']=round(vm.total / 1e9,2)
    ram['available']=round(virtual_memory().available / 1e9,2)
    # ram['percent']=round(virtual_memory().percent / 1e9,2)
    ram['used']=round(virtual_memory().used / 1e9,2)
    ram['free']=round(virtual_memory().free / 1e9,2)
    ram['active']=round(virtual_memory().active / 1e9,2)
    ram['inactive']=round(virtual_memory().inactive / 1e9,2)
    ram['buffers']=round(virtual_memory().buffers / 1e9,2)
    ram['cached']=round(virtual_memory().cached/1e9 ,2)
    print(f"Your runtime RAM in gb: \n total {ram['total']}\n available {ram['available']}\n used {ram['used']}\n free {ram['free']}\n cached {ram['cached']}\n buffers {ram['buffers']}")
    print('/nGPU')
    gpu_info = !nvidia-smi
  if 'gpu' in lista_mem:
    gpu_info = '\n'.join(gpu_info)
    if gpu_info.find('failed') >= 0:
      print('Not connected to a GPU')
    else:
      print(gpu_info)


In [6]:
mostra_memoria(['cpu','gpu'])

Your runtime RAM in gb: 
 total 67.35
 available 59.09
 used 7.13
 free 44.36
 cached 14.39
 buffers 1.48
/nGPU
Sat Apr  8 22:01:39 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.39.01    Driver Version: 510.39.01    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  On   | 00000000:02:00.0 Off |                  N/A |
|  0%   49C    P8    26W / 370W |     61MiB / 24576MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                        

## Fixando as seeds

In [7]:
import random
import torch
import numpy as np

In [8]:
def inicializa_seed(num_semente:int=123):
  """
  Inicializa as sementes para garantir a reprodutibilidade dos resultados do modelo.
  Essa é uma prática recomendada, já que a geração de números aleatórios pode influenciar os resultados do modelo.
  Além disso, a função também configura as sementes da GPU para garantir a reprodutibilidade quando se utiliza aceleração por GPU. 
  
  Args:
      num_semente (int): número da semente a ser utilizada para inicializar as sementes das bibliotecas.
  
  References:
      http://nlp.seas.harvard.edu/2018/04/03/attention.html
      https://github.com/CyberZHG/torch-multi-head-attention/blob/master/torch_multi_head_attention/multi_head_attention.py#L15
  """
  # Define as sementes das bibliotecas random, numpy e pytorch
  random.seed(num_semente)
  np.random.seed(num_semente)
  torch.manual_seed(num_semente)
  
  # Define as sementes da GPU
  torch.backends.cudnn.deterministic = True
  torch.backends.cudnn.benchmark = False

  #torch.cuda.manual_seed(num_semente)
  #Cuda algorithms
  #torch.backends.cudnn.deterministic = True


In [9]:
num_semente=123
inicializa_seed(num_semente)

## Preparando para debug e display

In [10]:
import pandas as pd

In [11]:
mostra_memoria(('cpu','gpu'))

Your runtime RAM in gb: 
 total 67.35
 available 58.92
 used 7.3
 free 44.18
 cached 14.39
 buffers 1.48
/nGPU
Sat Apr  8 22:01:41 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.39.01    Driver Version: 510.39.01    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  On   | 00000000:02:00.0 Off |                  N/A |
|  0%   49C    P8    26W / 370W |     61MiB / 24576MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                         

In [12]:
#!pip install transformers -q

In [13]:
import transformers

  from .autonotebook import tqdm as notebook_tqdm


https://zohaib.me/debugging-in-google-collab-notebook/

In [14]:
# !pip install -Uqq ipdb
import ipdb
# %pdb off # desativa debug em exceção
# %pdb on  # ativa debug em exceção
# ipdb.set_trace(context=8)  para execução nesse ponto

In [15]:
def config_display():
  """
  Esta função configura as opções de display do Pandas.
  """

  # Configurando formato saída Pandas
  # define o número máximo de colunas que serão exibidas
  pd.options.display.max_columns = None

  # define a largura máxima de uma linha
  pd.options.display.width = 1000

  # define o número máximo de linhas que serão exibidas
  pd.options.display.max_rows = 100

  # define o número máximo de caracteres por coluna
  pd.options.display.max_colwidth = 50

  # se deve exibir o número de linhas e colunas de um DataFrame.
  pd.options.display.show_dimensions = True

  # número de dígitos após a vírgula decimal a serem exibidos para floats.
  pd.options.display.precision = 7


In [16]:
def config_debug():
  """
  Esta função configura as opções de debug do PyTorch e dos pacotes
  transformers e datasets.
  """

  # Define opções de impressão de tensores para o modo científico
  torch.set_printoptions(sci_mode=True) 
  """
    Significa que valores muito grandes ou muito pequenos são mostrados em notação científica.
    Por exemplo, em vez de imprimir o número 0.0000012345 como 0.0000012345, 
    ele seria impresso como 1.2345e-06. Isso é útil em situações em que os valores dos tensores 
    envolvidos nas operações são muito grandes ou pequenos, e a notação científica permite 
    uma melhor compreensão dos números envolvidos.  
  """

  # Habilita detecção de anomalias no autograd do PyTorch
  torch.autograd.set_detect_anomaly(True)
  """
    Permite identificar operações que podem causar problemas de estabilidade numérica, 
    como gradientes explodindo ou desaparecendo. Quando essa opção é ativada, 
    o PyTorch verifica se há operações que geram valores NaN ou infinitos nos tensores 
    envolvidos no cálculo do gradiente. Se for detectado um valor anômalo, o PyTorch 
    interrompe a execução e gera uma exceção, permitindo que o erro seja corrigido 
    antes que se torne um problema maior.

    É importante notar que a detecção de anomalias pode ter um impacto significativo 
    no desempenho, especialmente em modelos grandes e complexos. Por esse motivo,
    ela deve ser usada com cautela e apenas para depuração.
  """

  # Configura variável de ambiente para habilitar a execução síncrona (bloqueante) das chamadas da API do CUDA.
  os.environ['CUDA_LAUNCH_BLOCKING'] = '1'
  """
    o Python aguarda o término da execução de uma chamada da API do CUDA antes de executar a próxima chamada. 
    Isso é útil para depurar erros no código que envolve operações na GPU, pois permite que o erro seja capturado 
    no momento em que ocorre, e não depois de uma sequência de operações que pode tornar a origem do erro mais difícil de determinar.
    No entanto, é importante lembrar que esse modo de execução é significativamente mais lento do que a execução assíncrona, 
    que é o comportamento padrão do CUDA. Por isso, é recomendado utilizar esse comando apenas em situações de depuração 
    e removê-lo após a solução do problema.
  """

  # Define o nível de verbosity do pacote transformers para info
  transformers.utils.logging.set_verbosity_info() 
  
  
  """
    Define o nível de detalhamento das mensagens de log geradas pela biblioteca Hugging Face Transformers 
    para o nível info. Isso significa que a biblioteca irá imprimir mensagens de log informativas sobre
    o andamento da execução, tais como tempo de execução, tamanho de batches, etc.

    Essas informações podem ser úteis para entender o que está acontecendo durante a execução da tarefa 
    e auxiliar no processo de debug. É importante notar que, em alguns casos, a quantidade de informações
    geradas pode ser muito grande, o que pode afetar o desempenho do sistema e dificultar a visualização
    das informações relevantes. Por isso, é importante ajustar o nível de detalhamento de acordo com a 
    necessidade de cada tarefa.
  
    Caso queira reduzir a quantidade de mensagens, comentar a linha acima e 
      descomentar as duas linhas abaixo, para definir o nível de verbosity como error ou warning
  
    transformers.utils.logging.set_verbosity_error()
    transformers.utils.logging.set_verbosity_warning()
  """


  # Define o modo verbose do xmode, que é utilizado no debug
  %xmode Verbose 

  """
    Comando usado no Jupyter Notebook para controlar o modo de exibição das informações de exceções.
    O modo verbose é um modo detalhado que exibe informações adicionais ao imprimir as exceções.
    Ele inclui as informações de pilha de chamadas completa e valores de variáveis locais e globais 
    no momento da exceção. Isso pode ser útil para depurar e encontrar a causa de exceções em seu código.
    Ao usar %xmode Verbose, as informações de exceção serão impressas com mais detalhes e informações adicionais serão incluídas.

    Caso queira desabilitar o modo verbose e utilizar o modo plain, 
    comentar a linha acima e descomentar a linha abaixo:
    %xmode Plain
  """

  """
    Dica:
    1.  pdb (Python Debugger)
      Quando ocorre uma exceção em uma parte do código, o programa para a execução e exibe uma mensagem de erro 
      com informações sobre a exceção, como a linha do código em que ocorreu o erro e o tipo da exceção.

      Se você estiver depurando o código e quiser examinar o estado das variáveis ​​e executar outras operações 
      no momento em que a exceção ocorreu, pode usar o pdb (Python Debugger). Para isso, é preciso colocar o comando %debug 
      logo após ocorrer a exceção. Isso fará com que o programa pare na linha em que ocorreu a exceção e abra o pdb,
      permitindo que você explore o estado das variáveis, examine a pilha de chamadas e execute outras operações para depurar o código.


    2. ipdb
      O ipdb é um depurador interativo para o Python que oferece recursos mais avançados do que o pdb,
      incluindo a capacidade de navegar pelo código fonte enquanto depura.
      
      Você pode começar a depurar seu código inserindo o comando ipdb.set_trace() em qualquer lugar do 
      seu código onde deseja pausar a execução e começar a depurar. Quando a execução chegar nessa linha, 
      o depurador entrará em ação, permitindo que você examine o estado atual do seu programa e execute 
      comandos para investigar o comportamento.

      Durante a depuração, você pode usar comandos:
        next (para executar a próxima linha de código), 
        step (para entrar em uma função chamada na próxima linha de código) 
        continue (para continuar a execução normalmente até o próximo ponto de interrupção).

      Ao contrário do pdb, o ipdb é um depurador interativo que permite navegar pelo código fonte em que
      está trabalhando enquanto depura, permitindo que você inspecione variáveis, defina pontos de interrupção
      adicionais e até mesmo execute expressões Python no contexto do seu programa.
  """


In [17]:
config_display()

In [18]:
config_debug()

Exception reporting mode: Verbose


# Carga dos dados msmarco_triples.train.tiny.tsv

In [19]:
os.path.exists(f"{DIRETORIO_TRABALHO}/msmarco_triples.train.tiny.tsv")

True

In [23]:
if os.path.exists(f"{DIRETORIO_TRABALHO}/msmarco_triples.train.tiny.tsv"):
    !wget https://storage.googleapis.com/unicamp-dl/ia368dd_2023s1/msmarco/msmarco_triples.train.tiny.tsv
    !mv msmarco_triples.train.tiny.tsv {DIRETORIO_TRABALHO}

--2023-04-08 22:04:02--  https://storage.googleapis.com/unicamp-dl/ia368dd_2023s1/msmarco/msmarco_triples.train.tiny.tsv
Resolving storage.googleapis.com (storage.googleapis.com)... 172.217.162.208, 172.217.29.16, 142.250.219.240, ...
Connecting to storage.googleapis.com (storage.googleapis.com)|172.217.162.208|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 8076179 (7,7M) [text/tab-separated-values]
Saving to: ‘msmarco_triples.train.tiny.tsv’


2023-04-08 22:04:03 (31,7 MB/s) - ‘msmarco_triples.train.tiny.tsv’ saved [8076179/8076179]



In [24]:
df = pd.read_csv(f"{DIRETORIO_TRABALHO}/msmarco_triples.train.tiny.tsv", delimiter="\t", 
                 header=None, names=["query", "positive", "negative"])

In [25]:
df.shape

(11000, 3)

In [26]:
df.head()

Unnamed: 0,query,positive,negative
0,is a little caffeine ok during pregnancy,We donât know a lot about the effects of caf...,It is generally safe for pregnant women to eat...
1,what fruit is native to australia,Passiflora herbertiana. A rare passion fruit n...,"The kola nut is the fruit of the kola tree, a ..."
2,how large is the canadian military,The Canadian Armed Forces. 1 The first large-...,The Canadian Physician Health Institute (CPHI)...
3,types of fruit trees,Cherry. Cherry trees are found throughout the ...,"The kola nut is the fruit of the kola tree, a ..."
4,how many calories a day are lost breastfeeding,"Not only is breastfeeding better for the baby,...","However, you still need some niacin each day; ..."


In [27]:
df.dtypes


query       object
positive    object
negative    object
Length: 3, dtype: object

Verificando correção do arquivo!

In [28]:
print(df.isnull().sum())

query       0
positive    0
negative    0
Length: 3, dtype: int64


In [29]:
# !pip install -q ftfy
import ftfy

In [30]:
x = 'We donât know a lot about the effects'

In [31]:
ftfy.fix_text(x)

"We don't know a lot about the effects"

In [None]:
df.applymap(len).mean()

query        34.2251818
positive    352.8135455
negative    339.6689091
Length: 3, dtype: float64

In [None]:
# pois treinaremos doc2query apenas para geração de queries relevantes
del df['negative']

In [32]:
df['query'] = df['query'].apply(ftfy.fix_text)
df['positive'] = df['positive'].apply(ftfy.fix_text)


In [33]:
df.head()

Unnamed: 0,query,positive,negative
0,is a little caffeine ok during pregnancy,We don't know a lot about the effects of caffe...,It is generally safe for pregnant women to eat...
1,what fruit is native to australia,Passiflora herbertiana. A rare passion fruit n...,"The kola nut is the fruit of the kola tree, a ..."
2,how large is the canadian military,The Canadian Armed Forces. 1 The first large-...,The Canadian Physician Health Institute (CPHI)...
3,types of fruit trees,Cherry. Cherry trees are found throughout the ...,"The kola nut is the fruit of the kola tree, a ..."
4,how many calories a day are lost breastfeeding,"Not only is breastfeeding better for the baby,...","However, you still need some niacin each day; ..."


# Divisão em treino e validação

In [37]:
from sklearn.model_selection import train_test_split

In [38]:
X_train, X_valid, Y_train, Y_valid = train_test_split(df['positive'].values, 
                                                      df['query'].values,
                                                      test_size=1000, 
                                                      random_state=num_semente)

In [39]:
type(Y_valid), Y_valid.shape, Y_valid[0]

(numpy.ndarray, (1000,), 'how many fitbit steps equal a mile')

In [40]:
type(X_train), X_train.shape, X_train[0]

(numpy.ndarray,
 (10000,),
 'There are 40 weeks in a school year - and 12 weeks of holidays. Unless you live somewhere snowy and you have to take snow days. These can extend the length by another week or so. There are 40 weeks in a school year - and 12 weeks of holidays. Unless you live somewhere snowy and you have to take snow days.')

# Explorando o tokenizador do t5-base

In [41]:
from transformers import T5Tokenizer

In [42]:
tokenizer = T5Tokenizer.from_pretrained("t5-base")

loading file spiece.model from cache at /home/borela/.cache/huggingface/hub/models--t5-base/snapshots/fe6d9bf207cd3337512ca838a8b453f87a9178ef/spiece.model
loading file added_tokens.json from cache at None
loading file special_tokens_map.json from cache at None
loading file tokenizer_config.json from cache at None
loading configuration file config.json from cache at /home/borela/.cache/huggingface/hub/models--t5-base/snapshots/fe6d9bf207cd3337512ca838a8b453f87a9178ef/config.json
Model config T5Config {
  "_name_or_path": "t5-base",
  "architectures": [
    "T5ForConditionalGeneration"
  ],
  "d_ff": 3072,
  "d_kv": 64,
  "d_model": 768,
  "decoder_start_token_id": 0,
  "dense_act_fn": "relu",
  "dropout_rate": 0.1,
  "eos_token_id": 1,
  "feed_forward_proj": "relu",
  "initializer_factor": 1.0,
  "is_encoder_decoder": true,
  "is_gated_act": false,
  "layer_norm_epsilon": 1e-06,
  "model_type": "t5",
  "n_positions": 512,
  "num_decoder_layers": 12,
  "num_heads": 12,
  "num_layers": 1

In [43]:
tokenizer.pad_token_id,tokenizer.cls_token_id,tokenizer.sep_token_id

(0, None, None)

In [44]:
x='it is just a test!'
y='it is just a continuation!'

In [45]:
input_ids = tokenizer.encode_plus(x,y)['input_ids']
print(input_ids)

[34, 19, 131, 3, 9, 794, 55, 1, 34, 19, 131, 3, 9, 25192, 55, 1]


In [46]:
tokenizer.batch_decode(input_ids)

['it',
 'is',
 'just',
 '',
 'a',
 'test',
 '!',
 '</s>',
 'it',
 'is',
 'just',
 '',
 'a',
 'continuation',
 '!',
 '</s>']

In [47]:
input_ids = tokenizer([x,y])['input_ids']
print(input_ids)

[[34, 19, 131, 3, 9, 794, 55, 1], [34, 19, 131, 3, 9, 25192, 55, 1]]


In [48]:
tokenizer.eos_token, tokenizer.eos_token_id

('</s>', 1)

In [49]:
tokenizer.all_special_tokens[:4]

['</s>', '<unk>', '<pad>', '<extra_id_0>']

In [50]:
tokenizer.unk_token, tokenizer.unk_token_id

('<unk>', 2)

In [51]:
tokenizer.pad_token, tokenizer.pad_token_id

('<pad>', 0)

In [52]:
tokenizer.max_len_single_sentence, tokenizer.model_max_length

(511, 512)

# Criando dataset

In [53]:
from torch.utils.data import Dataset

In [80]:
class MyDataset(Dataset):
    """
      Classe para criar um dataset de texto e query.
    """  
    def __init__(self, texts: np.ndarray, queries:np.ndarray, tokenizer):
      """
      Inicializa um novo objeto MyDataset.

      Args:
          texts (np.ndarray): um array com as strings de texto. Cada linha deve ter 2 strings.
          tokenizer: um objeto tokenizer do Hugging Face Transformers.
          max_seq_length (int): o tamanho máximo da sequência a ser considerado.
      Raises:
          AssertionError: se os parâmetros não estiverem no formato esperado.
      """
      # Verifica se os parâmetros são do tipo esperado
      assert isinstance(texts, np.ndarray), f"Parâmetro texts deve ser do tipo np.ndarray e não {type(texts)}"
      assert isinstance(queries, np.ndarray), f"Parâmetro queries deve ser do tipo np.ndarray e não {type(queries)}"
      for row in texts:
          assert isinstance(row, str), f"Each element in texts.row must be a string e não {type(row)}"
          break

      self.max_seq_length = tokenizer.model_max_length

      # Salvar os dados dos tensores para adiantar o tempo de processamento
      self.tokenized_texts = tokenizer.batch_encode_plus(texts)
      self.tokenized_queries = tokenizer.batch_encode_plus(queries, return_attention_mask=False)      

    def __len__(self):
        """
          Retorna o tamanho do dataset (= tamanho do array texts)
        """
        return len(self.tokenized_texts["input_ids"])
    
    def __getitem__(self, index):
        """
          Retorna um dicionário com os dados do texto e sua classe correspondente, em um formato que pode 
          ser usado pelo dataloader do PyTorch para alimentar um modelo de aprendizado de máquina.
        """
        # print(f"getitem index={index} self.tokenized_texts['input_ids'][index] {self.tokenized_texts['input_ids'][index]}")
        saida = {"input_ids": self.tokenized_texts["input_ids"][index], 
                "attention_mask": self.tokenized_texts["attention_mask"][index], 
                "labels": self.tokenized_texts["input_ids"][index]} 
        # print(f"saida {saida}")
        return saida


#### Testando o MyDataset e o Dataloader

In [55]:
# Cria dados fictícios
texts = np.array(['This is the first text',
                  'This is text 2.1',
                  'This is text 3.1',
                  'This is text 4.1',
                  'This is text 5.1',
                  'This is text 6.1',
                  'This is text 7.1'])
queries = np.array(['This is the first query',
                  'This is query 2.1',
                  'This is query 3.1',
                  'This is query 4.1',
                  'This is query 5.1',
                  'This is query 6.1',
                  'This is query 7.1'])

In [56]:
texts.shape

(7,)

In [57]:
tokenizer.batch_encode_plus(texts)

{'input_ids': [[100, 19, 8, 166, 1499, 1], [100, 19, 1499, 3, 14489, 1], [100, 19, 1499, 3, 18495, 1], [100, 19, 1499, 3, 19708, 1], [100, 19, 1499, 3, 20519, 1], [100, 19, 1499, 3, 23769, 1], [100, 19, 1499, 3, 25059, 1]], 'attention_mask': [[1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]}

In [58]:
# Cria um objeto da classe MyDataset
dummy_dataset = MyDataset(texts=texts, queries=queries, tokenizer=tokenizer)

In [59]:
# Testa o método __len__()
assert len(dummy_dataset) == 7


In [60]:

# Testa o método __getitem__()
sample = dummy_dataset[0]


getitem index=0 self.tokenized_texts['input_ids'][index] [100, 19, 8, 166, 1499, 1]
saida {'input_ids': [100, 19, 8, 166, 1499, 1], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': [100, 19, 8, 166, 1499, 1]}


In [61]:
type(sample['input_ids'])

list

In [62]:

assert set(sample.keys()) == {'input_ids', 'attention_mask', 'labels'} # 
assert isinstance(sample['input_ids'], list)
assert isinstance(sample['attention_mask'], list)
assert isinstance(sample['labels'], list)


In [63]:
print(sample)

{'input_ids': [100, 19, 8, 166, 1499, 1], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': [100, 19, 8, 166, 1499, 1]}


## Explorando dataset e dataloaser

In [64]:
from torch.utils.data import DataLoader

In [65]:
dummy_loader = DataLoader(dummy_dataset, batch_size=3, shuffle=False, num_workers=0 )

In [66]:
first_batch = next(iter(dummy_loader))

getitem index=0 self.tokenized_texts['input_ids'][index] [100, 19, 8, 166, 1499, 1]
saida {'input_ids': [100, 19, 8, 166, 1499, 1], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': [100, 19, 8, 166, 1499, 1]}
getitem index=1 self.tokenized_texts['input_ids'][index] [100, 19, 1499, 3, 14489, 1]
saida {'input_ids': [100, 19, 1499, 3, 14489, 1], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': [100, 19, 1499, 3, 14489, 1]}
getitem index=2 self.tokenized_texts['input_ids'][index] [100, 19, 1499, 3, 18495, 1]
saida {'input_ids': [100, 19, 1499, 3, 18495, 1], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': [100, 19, 1499, 3, 18495, 1]}


In [67]:
first_batch

{'input_ids': [tensor([100, 100, 100]),
  tensor([19, 19, 19]),
  tensor([   8, 1499, 1499]),
  tensor([166,   3,   3]),
  tensor([ 1499, 14489, 18495]),
  tensor([1, 1, 1])],
 'attention_mask': [tensor([1, 1, 1]),
  tensor([1, 1, 1]),
  tensor([1, 1, 1]),
  tensor([1, 1, 1]),
  tensor([1, 1, 1]),
  tensor([1, 1, 1])],
 'labels': [tensor([100, 100, 100]),
  tensor([19, 19, 19]),
  tensor([   8, 1499, 1499]),
  tensor([166,   3,   3]),
  tensor([ 1499, 14489, 18495]),
  tensor([1, 1, 1])]}

In [81]:
# train_dataset = MyDataset(X_train, Y_train, tokenizer)
val_dataset = MyDataset(X_valid, Y_valid, tokenizer)

In [82]:
train_dataset = MyDataset(X_train, Y_train, tokenizer)

In [83]:
len(train_dataset),len(val_dataset)

(10000, 1000)

# Treinamento

## Metrics definition

Código fonte em https://github.com/huggingface/transformers/blob/main/examples/pytorch/translation/run_translation.py

In [71]:
# !pip install evaluate
import evaluate

In [72]:
# Metric
metric = evaluate.load("sacrebleu")

def postprocess_text(preds, labels):
    preds = [pred.strip() for pred in preds]
    labels = [[label.strip()] for label in labels]
    return preds, labels

def compute_metrics(eval_preds):
    preds, labels = eval_preds
    if isinstance(preds, tuple):
        preds = preds[0]
    decoded_preds = tokenizer.batch_decode(preds, skip_special_tokens=True)
    
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)

    # Some simple post-processing
    decoded_preds, decoded_labels = postprocess_text(decoded_preds, decoded_labels)

    result = metric.compute(predictions=decoded_preds, references=decoded_labels)
    result = {"bleu": result["score"]}

    return result

## Funções de apoio

In [73]:
from transformers import DataCollatorForSeq2Seq, T5ForConditionalGeneration

In [74]:
from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer

In [75]:
from transformers.optimization import Adafactor, AdafactorSchedule

In [76]:

steps=50
epochs=13

In [77]:

def train(model, batch_size, epochs=3):
  """
  Função auxiliar de treinamento. 
  Fonte versão base: colega Monique
  """ 
  global steps, diretorio, tokenizer, train_dataset, val_dataset

  print('batch size = ', batch_size)
  training_args = Seq2SeqTrainingArguments(output_dir=DIRETORIO_TRABALHO,
                                            overwrite_output_dir=True,
                                            per_device_train_batch_size=batch_size,
                                            per_device_eval_batch_size=batch_size,
                                            gradient_accumulation_steps=8,
                                            evaluation_strategy='steps',
                                            eval_steps=steps, logging_steps=steps, 
                                            save_steps=steps,
                                            predict_with_generate=True,
                                            fp16=True, 
                                            num_train_epochs=epochs,
                                            load_best_model_at_end=True,
                                            metric_for_best_model='bleu',
                                            save_total_limit = 2
                                          )

  #If you use mixed precision, you need all your tensors to have dimensions that are multiple of 8s to maximize the benefits of your tensor cores.
  #So pas_to_multiple_of=8 is a good value
  #Ref.: https://discuss.huggingface.co/t/whats-a-good-value-for-pad-to-multiple-of/1481

  #Se não usar o collator e tokenizar com parâmetros além da entrada, todo tipo de erro acontece.
  data_collator = DataCollatorForSeq2Seq( 
      tokenizer,
      model=model,
      label_pad_token_id=-100,
      pad_to_multiple_of=8 if training_args.fp16 else None,
  )

  trainer = Seq2SeqTrainer(model=model,
                          args=training_args,
                          train_dataset=train_dataset,
                          eval_dataset=val_dataset,
                          data_collator=data_collator,
                          tokenizer=tokenizer,
                          compute_metrics=compute_metrics
                          )

  train_results = trainer.train()
  return trainer


In [84]:
model = T5ForConditionalGeneration.from_pretrained("t5-base")
optimizer = Adafactor(model.parameters(), scale_parameter=True, relative_step=True, warmup_init=True)
lr_scheduler = AdafactorSchedule(optimizer)

loading configuration file config.json from cache at /home/borela/.cache/huggingface/hub/models--t5-base/snapshots/fe6d9bf207cd3337512ca838a8b453f87a9178ef/config.json
Model config T5Config {
  "architectures": [
    "T5ForConditionalGeneration"
  ],
  "d_ff": 3072,
  "d_kv": 64,
  "d_model": 768,
  "decoder_start_token_id": 0,
  "dense_act_fn": "relu",
  "dropout_rate": 0.1,
  "eos_token_id": 1,
  "feed_forward_proj": "relu",
  "initializer_factor": 1.0,
  "is_encoder_decoder": true,
  "is_gated_act": false,
  "layer_norm_epsilon": 1e-06,
  "model_type": "t5",
  "n_positions": 512,
  "num_decoder_layers": 12,
  "num_heads": 12,
  "num_layers": 12,
  "output_past": true,
  "pad_token_id": 0,
  "relative_attention_max_distance": 128,
  "relative_attention_num_buckets": 32,
  "task_specific_params": {
    "summarization": {
      "early_stopping": true,
      "length_penalty": 2.0,
      "max_length": 200,
      "min_length": 30,
      "no_repeat_ngram_size": 3,
      "num_beams": 4,
   

In [85]:
trainer = train(model, 8, 3)


PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).


batch size =  8


Using cuda_amp half precision backend
***** Running training *****
  Num examples = 10000
  Num Epochs = 3
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 64
  Gradient Accumulation steps = 8
  Total optimization steps = 468
  Number of trainable parameters = 222903552


In [None]:
metrics = trainer.evaluate()
print(metrics)

In [None]:
trainer.save_model()


In [None]:
trainer = train(model, 32, 12)

In [None]:
metrics = trainer.evaluate()
print(metrics)

In [None]:
trainer.save_model()
