<a href="https://colab.research.google.com/github/osmarbraz/coebert/blob/main/AjusteFinoCSTNews_v1_C_SB_KFold_Todos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Ajuste fino do conjunto de dados CSTNews usando BERT Transformers by HuggingFace e Lotes Inteligentes e Validação Cruzada para todos os Folds

Com base no modelo BERT pré-treinado realiza o ajuste fino para os dados CSTNews para classificar documentos coerentes e incoerentes.

- Realiza o ajuste fino nos dados de CSTNEWS de Márcio Dias.
- Realiza a avaliação do conjunto de teste para um determinado fold(10%).
- A seção 2 - parametrização define os argumentos da execução.

Notebook base: https://colab.research.google.com/drive/1KDeFAHvRFq3bY5onzj8Wgul3rRcrQNaC?usp=sharing

----------------------------

**Link biblioteca Transformers:**
https://github.com/huggingface/transformers


**Artigo original BERT:**
https://arxiv.org/pdf/1506.06724.pdf

**Artigo padding dinâmico:**
https://towardsdatascience.com/divide-hugging-face-transformers-training-time-by-2-or-more-21bf7129db9q-21bf7129db9e

# 1 Preparação do ambiente
Preparação do ambiente para execução do notebook.

## 1.1 Tempo inicial de processamento

In [None]:
# Import das bibliotecas
import time
import datetime

# Marca o tempo de início do processamento
inicioProcessamento = time.time()

In [None]:
print("  Tempo de início de processamento:  {:} (h:mm:ss)".format(inicioProcessamento))

  Tempo de início de processamento:  1621867157.1078568 (h:mm:ss)


## 1.2 Funções e classes auxiliares

Função auxiliar para formatar o tempo como `hh: mm: ss`

In [None]:
# Import das bibliotecas
import time
import datetime

def formataTempo(tempo):
    '''
    Pega a tempo em segundos e retorna uma string hh:mm:ss
    '''
    # Arredonda para o segundo mais próximo.
    tempoArredondado = int(round((tempo)))
    
    # Formata como hh:mm:ss
    return str(datetime.timedelta(seconds=tempoArredondado))

Calcula a média de uma lista tempo string no formato hh:mm:ss.

In [None]:
# Import das bibliotecas.
from cmath import rect, phase
from math import radians, degrees
  
def mediaAngulo(deg):
    return degrees(phase(sum(rect(1, radians(d)) for d in deg)/len(deg)))
 
def mediaTempo(tempos):
    '''
    Calcula a média de uma lista de tempo string no formato hh:mm:ss
    '''
    t = (tempo.split(':') for tempo in tempos)
    # Converte para segundos
    segundos = ((float(s) + int(m) * 60 + int(h) * 3600) for h, m, s in t)
    # Verifica se deu algum dia
    dia = 24 * 60 * 60
    # Converte para angulos
    paraAngulos = [s * 360. / dia for s in segundos]
    # Calcula a média dos angulos
    mediaComoAngulo = mediaAngulo(paraAngulos)
    media_segundos = mediaComoAngulo * dia / 360.
    if media_segundos < 0:
        media_segundos += dia
    # Recupera as horas e os minutos  
    h, m = divmod(media_segundos, 3600)
    # Recupera os minutos e os segundos
    m, s = divmod(m, 60)    
    return '{:02d}:{:02d}:{:02d}'.format(int(h), int(m), int(s))

Calcula a soma de uma lista de tempo string no formato hh:mm:ss

In [None]:
def somaTempo(tempos):
    '''
    Calcula a soma de uma lista de tempo string no formato hh:mm:ss
    '''
    t = (tempo.split(':') for tempo in tempos)
    # Converte para segundos
    segundos = ((float(s) + int(m) * 60 + int(h) * 3600) for h, m, s in t)
    # Soma os segundos
    soma_segundos = sum([s * 1. for s in segundos])
    # Recupera as horas e os minutos   
    h, m = divmod(soma_segundos, 3600)
    # Recupera os minutos e os segundos
    m, s = divmod(m, 60)    
    return '{:02d}:{:02d}:{:02d}'.format(int(h), int(m), int(s))

Em muitos dos meus loops for (de longa duração), imprimirei atualizações periódicas de progresso. Normalmente, eu escolho o intervalo de atualização manualmente, mas para este Notebook, defini uma função auxiliar para fazer essa escolha para mim :)

In [None]:
def obter_intervalo_atualizacao(total_iteracoes, numero_atualizacoes):
    '''
     Esta função tentará escolher um intervalo de atualização de progresso inteligente
     com base na magnitude das iterações totais.

     Parâmetros:
       `total_iteracoes` - O número de iterações no loop for.
       `numero_atualizacoes` - Quantas vezes queremos ver uma atualização sobre o
                               curso do loop for.
     '''
    
    # Divida o total de iterações pelo número desejado de atualizações. Provavelmente
    # este será um número feio.
    intervalo_exato = total_iteracoes / numero_atualizacoes

    # A função `arredondar` tem a capacidade de arredondar um número para, por exemplo, o
    # milésimo mais próximo: round (intervalo_exato, -3)
    #
    # Para determinar a magnitude para arredondar, encontre a magnitude do total,
    # e então vá uma magnitude abaixo disso.
    
    # Obtenha a ordem de magnitude do total.
    ordem_magnitude = len(str(total_iteracoes)) - 1
    
    # Nosso intervalo de atualização deve ser arredondado para uma ordem de magnitude menor.
    magnitude_arrendonda = ordem_magnitude - 1

    # Arredonde para baixo e lance para um int.
    intervalo_atualizacao = int(round(intervalo_exato, -magnitude_arrendonda))

    # Não permita que o intervalo seja zero!
    if intervalo_atualizacao == 0:
        intervalo_atualizacao = 1

    return intervalo_atualizacao

Classe(ModelArguments) de definição dos parâmetros do modelo

In [None]:
from dataclasses import dataclass, field
from typing import Dict, Optional
from typing import List

@dataclass
class ModelArguments:
    max_seq_len: Optional[int] = field(
        default=None,
        metadata={"help": "max seq len"},
    )    
    pretrained_model_name_or_path: str = field(
        default="neuralmind/bert-base-portuguese-cased",
        metadata={"help": "nome do modelo pré-treinado do BERT."},
    )
    do_lower_case: bool = field(
        default=False,
        metadata={"help": "define se o texto do modelo deve ser todo em minúsculo."},
    )
    num_labels: int = field(
        default=2,
        metadata={"help": "número de rótulos a serem classificados."},
    )
    output_attentions: bool = field(
        default=False,
        metadata={"help": "habilita se o modelo retorna os pesos de atenção."},
    )
    output_hidden_states: bool = field(
        default=False,
        metadata={"help": "habilita gerar as camadas ocultas do modelo."},
    )
    optimizer: str = field(
        default="AdamW",
        metadata={"help": "otimizador do modelo."},
    )
    use_wandb : bool = field(
        default=True,
        metadata={"help": "habilita o uso do wandb."},
    )
    salvar_modelo_wandb : bool = field(
        default=True,
        metadata={"help": "habilita o salvamento do modelo no wandb."},
    )
    salvar_modelo : bool = field(
        default=False,
        metadata={"help": "habilita o salvamento do modelo."},
    )
    salvar_avaliacao : bool = field(
        default=True,
        metadata={"help": "habilita o salvamento do resultado da avaliação."},
    )     
    salvar_classificacao : bool = field(
        default=False,
        metadata={"help": "habilita o salvamento da classificação."},
    )
    fold: int = field(
        default="1",
        metadata={"help": "fold a ser avaliado."},
    )

Remove tags de um documento(texto)

In [None]:
def remove_tags(documento):
    """Remove tags de um documento(texto)"""
    
    import re

    documentoLimpo = re.compile('<.*?>')
    return re.sub(documentoLimpo, '', documento)

Funções auxiliares de arquivos

In [None]:
# Gera um paragráfo com as linhas do arquivo especificado
def carregar(nomeArquivo):
    """Carrega um arquivo texto e retorna as linhas como um único parágrafo(texto)"""

    # Linha anterior    
    arquivo = open(nomeArquivo, 'r')
    
    paragrafo = ""
    for linha in arquivo:
        linha = linha.splitlines()
        linha = ' '.join(linha)
        # Remove as tags existentes no final das linhas
        linha = remove_tags(linha)
        if linha != "":
          paragrafo = paragrafo + linha.strip() + " "
    arquivo.close()
    # Remove os espaços em branco antes e depois do parágrafo
    return paragrafo.strip()

# Gera uma lista das linhas do arquivo especificado
def carregarLista(nomeArquivo):
    """Carrega um arquivo texto e retorna as linhas como uma lista de sentenças(texto)"""

    # Linha anterior    
    arquivo = open(nomeArquivo, 'r')
    
    sentencas = []
    for linha in arquivo:        
        linha = linha.splitlines()
        linha = ' '.join(linha)
        linha = remove_tags(linha)
        if linha != "":
          sentencas.append(linha.strip())
    arquivo.close()
    return sentencas    

def salvar(nomeArquivo,texto):                       
    """Salva um texto em um arquivo"""

    arquivo = open(nomeArquivo, 'w')
    arquivo.write(str(texto))
    arquivo.close()

## 1.3 Tratamento de logs

In [None]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

## 1.4 Identificando o ambiente Colab

In [None]:
# Se estiver executando no Google Colaboratory
import sys

# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = 'google.colab' in sys.modules

## 1.5 Biblioteca de limpeza de tela

In [None]:
from IPython.display import clear_output

## 1.6 Conecta ao Google Drive

É necessário existir a pasta '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/Resultados/' para receber os resutlados do notebook.

In [None]:
# Monta o Google Drive para esta instância de notebook.
from google.colab import drive

drive.mount('/content/drive')

Mounted at /content/drive


## 1.7 Instalação do wandb

Instalação

In [None]:
!pip install --upgrade wandb

Collecting wandb
[?25l  Downloading https://files.pythonhosted.org/packages/98/5f/45439b4767334b868e1c8c35b1b0ba3747d8c21be77b79f09eed7aa3c72b/wandb-0.10.30-py2.py3-none-any.whl (1.8MB)
[K     |▏                               | 10kB 19.2MB/s eta 0:00:01[K     |▍                               | 20kB 26.4MB/s eta 0:00:01[K     |▌                               | 30kB 20.7MB/s eta 0:00:01[K     |▊                               | 40kB 17.0MB/s eta 0:00:01[K     |█                               | 51kB 15.8MB/s eta 0:00:01[K     |█                               | 61kB 17.8MB/s eta 0:00:01[K     |█▎                              | 71kB 13.4MB/s eta 0:00:01[K     |█▌                              | 81kB 14.3MB/s eta 0:00:01[K     |█▋                              | 92kB 13.2MB/s eta 0:00:01[K     |█▉                              | 102kB 13.9MB/s eta 0:00:01[K     |██                              | 112kB 13.9MB/s eta 0:00:01[K     |██▏                             | 122kB 13

## 1.8 Instalação BERT da Hugging Face

Instala a interface pytorch para o BERT by Hugging Face. 

In [None]:
!pip install -U transformers==4.5.1

Collecting transformers==4.5.1
[?25l  Downloading https://files.pythonhosted.org/packages/d8/b2/57495b5309f09fa501866e225c84532d1fd89536ea62406b2181933fb418/transformers-4.5.1-py3-none-any.whl (2.1MB)
[K     |████████████████████████████████| 2.1MB 14.1MB/s 
Collecting sacremoses
[?25l  Downloading https://files.pythonhosted.org/packages/75/ee/67241dc87f266093c533a2d4d3d69438e57d7a90abb216fa076e7d475d4a/sacremoses-0.0.45-py3-none-any.whl (895kB)
[K     |████████████████████████████████| 901kB 54.5MB/s 
Collecting tokenizers<0.11,>=0.10.1
[?25l  Downloading https://files.pythonhosted.org/packages/ae/04/5b870f26a858552025a62f1649c20d29d2672c02ff3c3fb4c688ca46467a/tokenizers-0.10.2-cp37-cp37m-manylinux2010_x86_64.whl (3.3MB)
[K     |████████████████████████████████| 3.3MB 46.9MB/s 
Installing collected packages: sacremoses, tokenizers, transformers
Successfully installed sacremoses-0.0.45 tokenizers-0.10.2 transformers-4.5.1


## 1.9 Colaboratory

Usando Colab GPU para Treinamento


Uma GPU pode ser adicionada acessando o menu e selecionando:

`Edit -> Notebook Settings -> Hardware accelerator -> (GPU)`

Em seguida, execute a célula a seguir para confirmar que a GPU foi detectada.

In [None]:
# Importando a biblioteca
import tensorflow as tf

# Recupera o nome do dispositido da GPU.
device_name = tf.test.gpu_device_name()

# O nome do dispositivo deve ser parecido com o seguinte:
if device_name == '/device:GPU:0':
    print('Encontrei GPU em: {}'.format(device_name))
else:
    print('Dispositivo GPU não encontrado')
    #raise SystemError('Dispositivo GPU não encontrado')

Encontrei GPU em: /device:GPU:0


Nome da GPU

Para que a torch use a GPU, precisamos identificar e especificar a GPU como o dispositivo. Posteriormente, em nosso ciclo de treinamento, carregaremos dados no dispositivo.

Vale a pena observar qual GPU você recebeu. A GPU Tesla V100 é muito mais rápido que as outras GPUs, abaixo uma lista ordenada:
- 1o Tesla V100-SXM2-16GB(Pro)
- 2o Tesla P100-PCIE-16GB
- 3o Tesla T4
- 4o Tesla P4 (Não tem memória para execução 4 lotes de treino x 8 lotes de avaliação, somente 2 x 4)
- 5o Tesla K80 (Não tem memória para execução 4 lotes de treino x 8 lotes de avaliação, somente 2 x 4)

In [None]:
# Importando a biblioteca
import torch

# Se existe GPU disponível...
if torch.cuda.is_available():    

    # Diz ao PyTorch para usar GPU.    
    device = torch.device("cuda")

    print('Existem {} GPU(s) disponíveis.'.format(torch.cuda.device_count()))

    print('Iremos usar a GPU: {}'.format(torch.cuda.get_device_name(0)))

# Se não...
else:
    print('Sem GPU disponível, usando CPU.')
    device = torch.device("cpu")

Existem 1 GPU(s) disponíveis.
Iremos usar a GPU: Tesla P100-PCIE-16GB


Memória

Memória disponível no ambiente

In [None]:
# Importando as bibliotecas.
from psutil import virtual_memory

ram_gb = virtual_memory().total / 1e9
print('Seu ambiente de execução tem {: .1f} gigabytes de RAM disponível\n'.format(ram_gb))

if ram_gb < 20:
  print('Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> "Alterar tipo de tempo de execução"')
  print('e selecione High-RAM. Então, execute novamente está célula')
else:
  print('Você está usando um ambiente de execução de memória RAM alta!')

Seu ambiente de execução tem  13.6 gigabytes de RAM disponível

Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> "Alterar tipo de tempo de execução"
e selecione High-RAM. Então, execute novamente está célula


# 2 Parametrização

In [None]:
# Importando as bibliotecas.
from transformers import TrainingArguments

# Definição dos parâmetros de Treinamento.
training_args = TrainingArguments(
    # AjusteFinoCSTNews_v1_C_SB_KF = nome do notebook
    # E = número de épocas
    # lr = taxa de aprendizagem
    # b = lotes de treino e avaliação
    # f = número do fold
    output_dir = 'AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f',    
    save_steps = 0,    
    seed = 42,
    num_train_epochs = 4, # Intervalo de valores: 2, 3, 4
    learning_rate = 5e-5, # Intervalo de valores: 1e-5, 2e-5, 3e-5, 4e-5, 5e-5 
    gradient_accumulation_steps = 1,
    per_device_train_batch_size = 4, 
    per_device_eval_batch_size = 8,        
    evaluation_strategy = 'epoch'
)

# Definição dos parâmetros do Modelo.
model_args = ModelArguments(     
    max_seq_len = 512,
    pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip",
    #pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip",    
    #pretrained_model_name_or_path = 'bert-base-multilingual-cased',
    do_lower_case = False,   # default True
    num_labels = 2,
    output_attentions = False,    # default False
    output_hidden_states = False, # default False 
    optimizer = 'AdamW',
    use_wandb = True,
    salvar_modelo_wandb = False,
    salvar_modelo = False,
    salvar_avaliacao = True, # Salva o resultado classificações
    salvar_classificacao = True, # Salva o resultado da avaliação das classificações
    fold = 1 # Intervalo de valores: 1 a 10, É utilizado somente para logs. Use as variáveis das últimas linhas de bloco para definir um intervalo.
)

# Determina o intervalo de folds a ser avaliado
inicioFold = 1
fimFold = 10

In [None]:
# Verifica o nome do modelo BERT a ser utilizado
MODELO_BERT = 'SEM_MODELO_BERT'
if 'neuralmind' in model_args.pretrained_model_name_or_path:
  MODELO_BERT = '_BERTimbau'
else:
  if 'multilingual' in model_args.pretrained_model_name_or_path:
    MODELO_BERT = '_BERTmultilingual'

# Verifica o tamanho do modelo(default large)
TAMANHO_BERT = '_large'
if 'base' in model_args.pretrained_model_name_or_path:
  TAMANHO_BERT = '_base'

# 3 BERT

## 3.1 Arquivo do PyTorch Checkpoint

Lista de modelos da comunidade:
* https://huggingface.co/models

Português(https://github.com/neuralmind-ai/portuguese-bert):  
* **'neuralmind/bert-base-portuguese-cased'**
* **'neuralmind/bert-large-portuguese-cased'**

### Função download modelo

In [None]:
def downloadModelo(MODELO):
  # Importando as bibliotecas.
  import os

  # Variável para setar o arquivo.
  URL_MODELO = None

  if 'http' in MODELO:
    URL_MODELO = MODELO

  # Se a variável foi setada.
  if URL_MODELO:

    # Diretório descompactação.
    DIRETORIO_MODELO = '/content/modelo'

    # Recupera o nome do arquivo do modelo da url.
    arquivo = URL_MODELO.split("/")[-1]

    # Nome do arquivo do vocabulário.
    arquivo_vocab = "vocab.txt"

    # Caminho do arquivo na url.
    caminho = URL_MODELO[0:len(URL_MODELO)-len(arquivo)]

     # Verifica se a pasta de descompactação existe na pasta corrente
    if os.path.exists(DIRETORIO_MODELO):
      print("Apagando diretório existente do modelo!")
      # Apaga a pasta e os arquivos existentes
      !rm -rf $DIRETORIO_MODELO  
   
    # Baixa o arquivo do modelo.
    !wget $URL_MODELO
    
    # Descompacta o arquivo na pasta de descompactação.
    !unzip -o $arquivo -d $DIRETORIO_MODELO

    # Baixa o arquivo do vocabulário.
    # O vocabulário não está no arquivo compactado acima, mesma url mas arquivo diferente.
    URL_MODELO_VOCAB = caminho + arquivo_vocab
    !wget $URL_MODELO_VOCAB
    
    # Coloca o arquivo do vocabulário no diretório de descompactação.
    !mv $arquivo_vocab $DIRETORIO_MODELO
            
    # Move o arquivo para pasta de descompactação
    !mv $arquivo $DIRETORIO_MODELO
       
    print('Pasta do {} pronta!'.format(DIRETORIO_MODELO))
    
    # Lista a pasta corrente.
    !ls -la $DIRETORIO_MODELO
  else:
    print('Variável URL_MODELO não setada!')

### Download do modelo

In [None]:
downloadModelo(model_args.pretrained_model_name_or_path)

--2021-05-24 14:41:26--  https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip
Resolving neuralmind-ai.s3.us-east-2.amazonaws.com (neuralmind-ai.s3.us-east-2.amazonaws.com)... 52.219.102.2
Connecting to neuralmind-ai.s3.us-east-2.amazonaws.com (neuralmind-ai.s3.us-east-2.amazonaws.com)|52.219.102.2|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1244275810 (1.2G) [application/zip]
Saving to: ‘bert-large-portuguese-cased_pytorch_checkpoint.zip’


2021-05-24 14:42:05 (30.2 MB/s) - ‘bert-large-portuguese-cased_pytorch_checkpoint.zip’ saved [1244275810/1244275810]

Archive:  bert-large-portuguese-cased_pytorch_checkpoint.zip
  inflating: /content/modelo/config.json  
  inflating: /content/modelo/pytorch_model.bin  
--2021-05-24 14:42:18--  https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/vocab.txt
Resolving neuralmind-ai.s3.us-east-2.amazonaws.com (neuralm

## 3.2 Tokenizador(tokenizer) BERT

O tokenizador utiliza WordPiece, veja em [artigo original](https://arxiv.org/pdf/1609.08144.pdf).

Carregando o tokenizador da pasta '/content/modelo/' do diretório padrão se variável `URL_MODELO` setada.

**Caso contrário carrega da comunidade**

Por default(`do_lower_case=True`) todas as letras são colocadas para minúsculas. Para ignorar a conversão para minúsculo use o parâmetro `do_lower_case=False`. Esta opção também considera as letras acentuadas(ãçéí...), que são necessárias a língua portuguesa.

O parâmetro `do_lower_case` interfere na quantidade tokens a ser gerado apartir de um texto. Quando igual a `False` reduz a quantidade de tokens gerados.

### Função carrega tokenizador

In [None]:
def carregaTokenizador(MODELO):
  # Importando as bibliotecas do tokenizador.
  from transformers import BertTokenizer

  # Variável para setar o arquivo.
  URL_MODELO = None

  if 'http' in MODELO:
    URL_MODELO = MODELO

  # Se a variável URL_MODELO foi setada.
  if URL_MODELO:

    # Diretório descompactação.
    DIRETORIO_MODELO = '/content/modelo'

    # Carregando o Tokenizador.
    print('Carregando o tokenizador BERT do diretório {}...'.format(DIRETORIO_MODELO))

    tokenizer = BertTokenizer.from_pretrained(DIRETORIO_MODELO, 
                                              do_lower_case=model_args.do_lower_case)
    
  else:
    # Carregando o Tokenizador da comunidade.
    print('Carregando o tokenizador da comunidade...')
    
    tokenizer = BertTokenizer.from_pretrained(MODELO, 
                                              do_lower_case=model_args.do_lower_case)

  return tokenizer

### Carregando o tokenizador

In [None]:
tokenizer = carregaTokenizador(model_args.pretrained_model_name_or_path)

Carregando o tokenizador BERT do diretório /content/modelo...


## 3.3 Modelo(model) BERT

Se a variável `URL_MODELO` estiver setada carrega o modelo do diretório `content/modelo`.

Caso contrário carrega da comunidade.

Carregando o modelo da pasta '/content/modelo/' do diretório padrão.

A implementação do huggingface pytorch inclui um conjunto de interfaces projetadas para uma variedade de tarefas de PNL. Embora essas interfaces sejam todas construídas sobre um modelo treinado de BERT, cada uma possui diferentes camadas superiores e tipos de saída projetados para acomodar suas tarefas específicas de PNL.

A documentação para estas pode ser encontrada em [aqui](https://huggingface.co/transformers/v2.2.0/model_doc/bert.html).

Por default o modelo está em modo avaliação ou seja `model.eval()`.

-----------------------

Durante a avaliação do modelo, este retorna um número de diferentes objetos com base em como é configurado na chamada do método `from_pretrained`. 

Quando definimos `output_hidden_states = True` na chamada do método `from_pretrained`, retorno do modelo possui no terceiro item os estados ocultos(**hidden_states**) de todas as camadas.  Veja a documentação para mais detalhes: https://huggingface.co/transformers/model_doc/bert.html#bertmodel

Quando **`output_hidden_states = True`** model retorna:
- outputs[0] = last_hidden_state;
- outputs[1] = pooler_output; 
- outputs[2] = hidden_states.

Quando **`output_hidden_states = False`** ou não especificado model retorna:
- outputs[0] = last_hidden_state;
- outputs[1] = pooler_output.


**ATENÇÃO**: O parâmetro ´**output_hidden_states = True**´ habilita gerar as camadas ocultas do modelo. Caso contrário somente a última camada é mantida. Este parâmetro otimiza a memória mas não os resultados.


### Função carrega modelo

In [None]:
def carregaModelo(MODELO):

  # Importando as bibliotecas do Modelo
  from transformers import BertForSequenceClassification

  # Variável para setar o arquivo.
  URL_MODELO = None

  if 'http' in MODELO:
    URL_MODELO = MODELO

  # Se a variável URL_MODELO foi setada
  if URL_MODELO:

    # Diretório descompactação.
    DIRETORIO_MODELO = '/content/modelo'

    # Carregando o Modelo BERT
    print('Carregando o modelo BERT do diretório {}...'.format(DIRETORIO_MODELO))

    model = BertForSequenceClassification.from_pretrained(DIRETORIO_MODELO,   
                                                          num_labels = model_args.num_labels,
                                                          output_attentions = model_args.output_attentions,
                                                          output_hidden_states = model_args.output_hidden_states)
  else:
    # Carregando o Modelo BERT da comunidade
    print('Carregando o modelo BERT da comunidade ...')
    
    model = BertForSequenceClassification.from_pretrained(MODELO,
                                                          num_labels = model_args.num_labels,                                                       
                                                          output_attentions = model_args.output_attentions,
                                                          output_hidden_states = model_args.output_hidden_states)
  return model

# 4 Treino

## 4.1 Wandb

https://wandb.ai/osmar-braz/ajustefinocstnews_v1_c_sb_kfold/table?workspace=user-osmar-braz


### Função de inicialização wandb

In [None]:
def inicializacaoWandb():

  if model_args.use_wandb:

    # Importando a biblioteca.
    import wandb

    #Login via linha de comando
    !wandb login aded3bc0ea651fff536cc08ba69caf8ac4141cfd

    # Inicializando o registro do experimento.
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project="ajustefinocstnews_v1_c_sb_kfold", name=training_args.output_dir + str(model_args.fold))

    # Atualiza os parâmetros do modelo no wandb.
    wandb.config.update(model_args)
    # Atualiza os parâmetros de treinamento no wandb.
    wandb.config.update(training_args)

    # Registra os parämetros não literais do model_args.
    wandb.log({"max_seq_len": model_args.max_seq_len})
    wandb.log({"do_lower_case": model_args.do_lower_case})
    wandb.log({"output_hidden_states": model_args.output_hidden_states})    
    wandb.log({"fold": model_args.fold})

    return wandb

## 4.2 Colab GPU

Conecta o modelo carregado do BERT a GPU para reduzir o tempo de processamento.

### Função conecta GPU

In [None]:
def conectaGPU(model):
  # Associa a GPU ao modelo.
  model.to(device)

  # Se existe GPU disponível.
  if torch.cuda.is_available():    
    # Diga ao pytorch para rodar este modelo na GPU.
    print("Pytorch rodando o modelo na GPU")
    model.cuda()
  else:
    print("Pytorch rodando sem GPU")
    
  return model

## 4.3 Arquivo dos dados




### Função de download dos arquivos de dados

In [None]:
def downloadArquivoDados():

  # Cria o diretório para receber os arquivos de dados

  # Import das bibliotecas.
  import os

  # Diretório dos arquivos de dados.
  DIRETORIO = "/content/validacao_kfold"

  # Apaga o diretório e seus arquivos.
  !rm -rf "$DIRETORIO"

  # Verifica se o diretório existe
  if not os.path.exists(DIRETORIO):  
    # Cria o diretório
    os.makedirs(DIRETORIO)
    print('Diretório criado: {}'.format(DIRETORIO))
  else:
    print('Diretório já existe: {}'.format(DIRETORIO))

  # Download do arquivo de dados
  
  # Nome do arquivo a ser criado.
  NOME_ARQUIVO = 'CSTNEWS_MD_KFOLD_10.zip'

  # Apaga o arquivo.
  !rm $NOME_ARQUIVO

  # Realiza o download do arquivo da url especificada                       
  !wget -O $NOME_ARQUIVO  https://github.com/osmarbraz/coebert/blob/main/conjuntodedado/$NOME_ARQUIVO?raw=true

  # Descompactando os arquivos
  # Lista o diretório corrente e os arquivos.
  !pwd
  !ls -la

  # Descompacta o arquivo.
  !unzip -o $NOME_ARQUIVO -d $DIRETORIO

  # Lista os arquivos do diretório corrente.
  !ls -la  

### Download do arquivo de dados

In [None]:
downloadArquivoDados()

Diretório criado: /content/validacao_kfold
rm: cannot remove 'CSTNEWS_MD_KFOLD_10.zip': No such file or directory
--2021-07-12 20:22:21--  https://github.com/osmarbraz/coebert/blob/main/conjuntodedado/CSTNEWS_MD_KFOLD_10.zip?raw=true
Resolving github.com (github.com)... 140.82.112.3
Connecting to github.com (github.com)|140.82.112.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github.com/osmarbraz/coebert/raw/main/conjuntodedado/CSTNEWS_MD_KFOLD_10.zip [following]
--2021-07-12 20:22:21--  https://github.com/osmarbraz/coebert/raw/main/conjuntodedado/CSTNEWS_MD_KFOLD_10.zip
Reusing existing connection to github.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/osmarbraz/coebert/main/conjuntodedado/CSTNEWS_MD_KFOLD_10.zip [following]
--2021-07-12 20:22:21--  https://raw.githubusercontent.com/osmarbraz/coebert/main/conjuntodedado/CSTNEWS_MD_KFOLD_10.zip
Resolving raw.githubusercontent.com (raw.gi

### Carregando os dados do fold

### Função de carregamento dos dados de um fold

In [None]:
def carregamentoDadosFold(fold):

  # Import das bibliotecas.
  import pandas as pd

  # Diretório dos arquivos de dados.
  DIRETORIO = "/content/validacao_kfold"

  # Define o prefixo do nome dos arquivos dos folds
  PREFIXO_NOME_ARQUIVO_TREINO = "cstnews_md_train_f"
  PREFIXO_NOME_ARQUIVO_TESTE = "cstnews_md_test_f"

  # Nome dos arquivos.
  ARQUIVO_TREINO = DIRETORIO + "/" + PREFIXO_NOME_ARQUIVO_TREINO + str(fold) + ".csv"
  ARQUIVO_TESTE = DIRETORIO + "/" + PREFIXO_NOME_ARQUIVO_TESTE + str(fold) + ".csv" 

  print("Carregando arquivo de treino: {}".format(ARQUIVO_TREINO))
  print("Carregando arquivo de teste: {}".format(ARQUIVO_TESTE))

  # Carrega o dataset de treino e teste.
  dfdados_train = pd.read_csv(ARQUIVO_TREINO, sep=';')
  print('Qtde de dados de treino: {}'.format(len(dfdados_train)))
  dfdados_test = pd.read_csv(ARQUIVO_TESTE, sep=';')
  print('Qtde de dados de teste: {}'.format(len(dfdados_test)))

  return dfdados_train, dfdados_test

## 4.4 Análise

### Função descarte documentos muito grandes

In [None]:
def descarteDocumentosGrandes(tamanho_maximo_token, dfdados_train, dfdados_test):

  # Define o tamanho máximo para os tokens.
  tamanho_maximo = tamanho_maximo_token

  # Tokenize a codifica as setenças para o BERT.     
  dfdados_train['input_ids'] = dfdados_train['documento'].apply(lambda tokens: tokenizer.encode(tokens, add_special_tokens=True))
        
  dfdados_train = dfdados_train[dfdados_train['input_ids'].apply(len)<tamanho_maximo]

  print('Tamanho do dataset de treino: {}'.format(len(dfdados_train)))

  # Remove as colunas desnecessárias.
  dfdados_train = dfdados_train.drop(columns=['input_ids'])

  # Tokenize a codifica as setenças para o BERT.     
  dfdados_test['input_ids'] = dfdados_test['documento'].apply(lambda tokens: tokenizer.encode(tokens, add_special_tokens=True))

  # Corta os inputs para o tamanho máximo 512.
  dfdados_test = dfdados_test[dfdados_test['input_ids'].apply(len)<tamanho_maximo]

  print('Tamanho do dataset de teste: {}'.format(len(dfdados_test)))
  
  # Remove as colunas desnecessárias.
  dfdados_test = dfdados_test.drop(columns=['input_ids'])

  return dfdados_train, dfdados_test

### Descartando documentos muito grandes

### Seleciona as colunas de treino

### Seleciona as colunas de teste

### Conjunto de dados em Treinamento & Teste

## 4.5 Treinando o modelo de classificação

### Otimizador e Agendador de Taxas de Aprendizado/Optimizer & Learning Rate Scheduler



Agora que temos nosso modelo carregado, precisamos pegar os hiperparâmetros de treinamento no modelo armazenado.

Para fins de ajuste fino, os autores recomendam escolher entre os seguintes valores (no Apêndice A.3 do [artigo BERT](https://arxiv.org/pdf/1810.04805.pdf)):

> - **Tamanho do lote(Batch size):** 16, 32
- **Taxa de aprendizado (Adam):** 5e-5, 3e-5, 2e-5
- **Número de épocas:** 2, 3, 4

O parâmetro epsilon `eps = 1e-6` é" um número muito pequeno para impedir qualquer divisão por zero na implementação "(a partir de [aqui](https://machinelearningmastery.com/adam-optimization-algorithm-for-deep-learning/)).

Você pode encontrar a criação do otimizador do AdamW em `run_glue.py` [aqui](https://github.com/huggingface/transformers/blob/5bfcd0485ece086ebcbed2d008813037968a9e58/examples/run_glue.py#L109).

### Função carrega otimizador


In [None]:
def carregaOtimizador():

  '''
    Esta função carrega o otimizador utilizado no agendador de aprendizado.
  '''

  # Import das bibliotecas.
  from transformers import AdamW

  # Nota: AdamW é uma classe da biblioteca huggingface (ao contrário de pytorch).
  # Eu acredito que o 'W' significa 'Correção de redução de peso "
  optimizer = AdamW(model.parameters(),
                  lr = training_args.learning_rate, # (ou alfa) A taxa de aprendizado a ser usada. - default é 3e-5
                  # betas = (0.9, 0.999), # (beta1, beta2) - default é (0.9, 0.999)
                    # beta1 é taxa de decaimento exponencial para as estimativas do primeiro momento. 
                    # beta2 é taxa de decaimento exponencial para as estimativas do segundo momento. Este valor deve ser definido próximo a 1,0 em problemas com gradiente esparso (por exemplo, PNL e problemas de visão de computacional)
                  # eps = 1e-6, #  É um número muito pequeno para evitar qualquer divisão por zero na implementação - default é 1e-6.
                  # weight_decay = 0.0, # Correção de redução de peso. - default é 0.0
                    # A redução da taxa de aprendizagem também pode ser usada com Adam. A taxa de decaimento é atualizada a cada época para a demonstração da regressão logística.
                  # correct_bias = True #  Se não deve corrigir o viés(bias) no Adam mudar para False.- default é True
                )
  
  return optimizer

### Função carrega agendador

A função **get_linear_schedule_with_warmup** cria um agendador com uma taxa de aprendizado que diminua linearmente da taxa de aprendizagem inicial definido no otimizador até 0, após um período de aquecimento durante o qual ele aumenta linearmente de 0 para a taxa de aprendizagem inicial definido no otimizador.

Se `num_warmup_steps=0` e `weight_decay=0`(otimizador) não ocorre a etapa de aquecimento.

In [None]:
def carregaAgendador():

  '''
    Esta função carrega o agendador com um taxa de aprendizado que diminua linearmente até 0.
  '''

  # Import das bibliotecas.
  from transformers import get_linear_schedule_with_warmup

  # O número total de etapas de ajuste fino é [número de lotes] x [número de épocas].
  # (Observe que este não é o mesmo que o número de amostras de ajuste fino).
  total_etapas = len(documentos_treino) * training_args.num_train_epochs

  #Cria o agendador de taxa de aprendizagem.
  scheduler = get_linear_schedule_with_warmup(optimizer, # O otimizador para o qual agendar a taxa de aprendizado.
                                            num_warmup_steps = 0, # O número de etapas para a fase de aquecimento. Valor default value em run_glue.py
                                            num_training_steps = total_etapas) # O número total de etapas de treinamento.


  print("Total de etapas: {}".format(total_etapas))

  return scheduler

### função: cria_lotes_inteligentes

In [None]:
def cria_lotes_inteligentes(documentos, classes, documentoids, batch_size):
    '''
    Esta função combina todos os passos para preparar os lotes.
    '''
    print('Criando Lotes Inteligentes de {:,} amostras com tamanho de lote {:,}...\n'.format(len(documentos), batch_size))

    # ============================
    #   Tokenização & Truncamento
    # ============================

    input_ids_completos = []
    
    # Tokeniza todas as amostras de treinamento
    print('Tokenizando {:,} amostra...'.format(len(classes)))
    
    # Escolha o intervalo que o progresso será atualizado.
    intervalo_atualizacao = obter_intervalo_atualizacao(total_iteracoes=len(classes), numero_atualizacoes=10)
    
    # Para cada amostra de treinamento...
    for documento in documentos:
        
        # Relatório de progresso
        if ((len(input_ids_completos) % intervalo_atualizacao) == 0):
            print('  Tokenizado {:,} amostras.'.format(len(input_ids_completos)))

        # Tokeniza a amostra.
        input_ids = tokenizer.encode(text=documento,                    # Documento a ser codificado.
                                    add_special_tokens=True,            # Adiciona os ttokens especiais.
                                    max_length=model_args.max_seq_len,  # Tamanho do truncamento!
                                    truncation=True,                    # Faz o truncamento!
                                    padding=False)                      # Não preenche.
                
        # Adicione o resultado tokenizado à nossa lista.
        input_ids_completos.append(input_ids)
        
    print('FEITO.')
    print('{:>10,} amostras\n'.format(len(input_ids_completos)))

    # =========================
    #      Seleciona os Lotes
    # =========================    
    
    # Classifique as duas listas pelo comprimento da sequência de entrada.
    amostras = sorted(zip(input_ids_completos, classes, documentoids), key=lambda x: len(x[0]))

    print('{:>10,} amostras após classificação\n'.format(len(amostras)))

    import random

    # Lista de lotes que iremos construir.
    batch_ordered_documentos = []
    batch_ordered_classes = []
    batch_ordered_documentoids = []

    print('Criando lotes de tamanho {:}...'.format(batch_size))

    # Escolha um intervalo no qual imprimir atualizações de progresso.
    intervalo_atualizacao = obter_intervalo_atualizacao(total_iteracoes=len(amostras), numero_atualizacoes=10)
        
    # Faça um loop em todas as amostras de entrada ... 
    while len(amostras) > 0:
        
        # Mostra o progresso.
        if ((len(batch_ordered_documentos) % intervalo_atualizacao) == 0 \
            and not len(batch_ordered_documentos) == 0):
            print('  Selecionado {:,} lotes.'.format(len(batch_ordered_documentos)))
        
        # `to_take` é o tamanho real do nosso lote. Será `batch_size` até
        # chegamos ao último lote, que pode ser menor.
        to_take = min(batch_size, len(amostras))
        
        # Escolha um índice aleatório na lista de amostras restantes para começar o nosso lote.
        select = random.randint(0, len(amostras) - to_take)

        # Selecione um lote contíguo de amostras começando em `select`.
        #print ("Selecionando lote de {:} a {:}".format(select, select+to_take))
        batch = amostras[select:(select + to_take)]

        #print("Tamanho do lote:", len(batch))
        
        # Cada amostra é uma tupla --divida para criar uma lista separada de
        # sequências e uma lista de rótulos para este lote.
        batch_ordered_documentos.append([s[0] for s in batch])
        batch_ordered_classes.append([s[1] for s in batch])
        batch_ordered_documentoids.append([s[2] for s in batch])
        
        # Remova a amostra da lista
        del amostras[select:select + to_take]

    print('\n  FEITO - Selecionado {:,} lotes.\n'.format(len(batch_ordered_documentos)))

    # =========================
    #        Adicionando o preenchimento
    # =========================    

    print('Preenchendo sequências dentro de cada lote...')

    py_input_ids = []
    py_attention_masks = []
    py_labels = []
    list_documentoids = []

    # Para cada lote...
    for (batch_input_ids, batch_labels, batch_documentoids) in zip(batch_ordered_documentos, batch_ordered_classes, batch_ordered_documentoids):

        # Nova versão do lote, desta vez com sequências preenchidas e agora com
        # as máscaras de atenção definidas.
        batch_padded_input_ids = []
        batch_attention_masks = []
                
        # Primeiro, encontre a amostra mais longa do lote.
        # Observe que as sequências atualmente incluem os tokens especiais!
        max_size = max([len(input) for input in batch_input_ids])
        
        # Para cada entrada neste lote...
        for input in batch_input_ids:
                        
            # Quantos tokens pad precisam ser adicionados
            num_pads = max_size - len(input)

            # Adiciona `num_pads` do pad token(tokenizer.pad_token_id) até o final da sequência.
            padded_input = input + [tokenizer.pad_token_id] * num_pads

            # Define a máscara de atenção --é apenas um `1` para cada token real
            # e um `0` para cada token de preenchimento(pad).
            attention_mask = [1] * len(input) + [0] * num_pads
            
            # Adiciona o resultado preenchido ao lote.
            batch_padded_input_ids.append(padded_input)
            batch_attention_masks.append(attention_mask)
        
        # Nosso lote foi preenchido, portanto, precisamos salvar este lote atualizado.
        # Também precisamos que as entradas sejam tensores PyTorch, então faremos isso aqui.
        py_input_ids.append(torch.tensor(batch_padded_input_ids))
        py_attention_masks.append(torch.tensor(batch_attention_masks))
        py_labels.append(torch.tensor(batch_labels))
        list_documentoids.append(batch_documentoids)
    
    # Retorna o conjunto de dados em lotes inteligentes!
    return (py_input_ids, py_attention_masks, py_labels, list_documentoids)

### Função de Treinamento

In [None]:
# Import das bibliotecas
import random
import numpy as np
from tqdm.notebook import tqdm as tqdm_notebook

def realizaTreinamento(documentos_treino, classes_treino, documentoids_treino, EPOCAS = 4):
  
  print("\nRealizando Treinamento fold: {}".format(model_args.fold))

  # Defina o valor da semente em todos os lugares para torná-lo reproduzível.
  seed_val = training_args.seed

  random.seed(seed_val)
  np.random.seed(seed_val)
  torch.manual_seed(seed_val)
  torch.cuda.manual_seed_all(seed_val)

  # Atualize todos os lotes ʻintervalo_atualizacao`.
  intervalo_atualizacao = obter_intervalo_atualizacao(total_iteracoes=len(documentos_treino), numero_atualizacoes=10)

  # Medida do tempo total de treinamento.
  treinamento_t0 = time.time()

  # Limpa o cache da GPU.
  torch.cuda.empty_cache()

  # Coloque o modelo em modo de treinamento. 
  model.train()

  # Acumula as perdas do treinamento.
  train_losses = []

  if model_args.use_wandb:
    # Log das métricas com wandb.
    wandb.watch(model)

  # Barra de progresso da época.
  epoca_bar = tqdm_notebook(range(training_args.num_train_epochs), desc=f'Épocas', unit=f'épocas')

  # Para cada época.
  for epoca_i in epoca_bar:
    
    # ========================================
    #               Treinamento
    # ========================================
    
    # Execute uma passada completa sobre o conjunto de treinamento.

    # Recupera o lote inteligente
    (py_input_ids, py_attention_masks, py_labels, documentoids) = cria_lotes_inteligentes(documentos_treino, classes_treino, documentoids_treino, training_args.per_device_train_batch_size)

    # Medida de quanto tempo leva o período de treinamento.
    treinamento_epoca_t0 = time.time()

    # Acumula as perdas do treinamento da época.
    train_epoca_losses = []

    # Barras de progresso.    
    lote_treino_bar = tqdm_notebook(range(0, len(py_input_ids)), desc=f'Epoca {epoca_i+1}', unit=f'lotes', total=len(py_input_ids) )

    # Para cada lote dos dados de treinamento.
    for index in lote_treino_bar:      

        # Progresso é atualizado a cada lotes, por exemplo, 100 lotes.
        if index % intervalo_atualizacao == 0 and not index == 0:            
            # Calcula gasto o tempo em minutos.
            tempoGasto = formataTempo(time.time() - treinamento_epoca_t0)
                        
            # Calcule o tempo restante com base em nosso progresso.
            passos_por_segundo = (time.time() - treinamento_epoca_t0) / index
            segundos_restantes = passos_por_segundo * (len(py_input_ids) - index)
            tempoRestante = formataTempo(segundos_restantes)

            # Mostra o progresso.
            print('  Lote {:>7,}  de  {:>7,}.    Gasto: {:}.  Restante: {:}'.format(index, len(py_input_ids), tempoGasto, tempoRestante))

        # Descompacte este lote de treinamento de nosso dataloader.
        #
        # À medida que descompactamos o lote, também copiaremos cada tensor para a GPU usando o
        # o método `to`
        #
        # `lote` é uma lista contém três tensores pytorch:
        #   [0]: input ids 
        #   [1]: attention masks
        #   [2]: labels 

        # Recupera os tensores do lote e copia para a GPU usando o método `to` 
        d_input_ids = py_input_ids[index].to(device)
        d_input_mask = py_attention_masks[index].to(device)
        d_labels = py_labels[index].to(device)     
        
        # Sempre limpe quaisquer gradientes calculados anteriormente antes de realizar um
        # passe para trás. PyTorch não faz isso automaticamente porque
        # acumular os gradientes é "conveniente durante o treinamento de RNNs".
        # (source: https://stackoverflow.com/questions/48001598/why-do-we-need-to-call-zero-grad-in-pytorch)
        model.zero_grad()

        # Execute um passe para frente (avalie o modelo neste lote de treinamento).
        # A documentação para esta função `model` está aqui:
        # https://huggingface.co/transformers/v2.2.0/model_doc/bert.html#transformers.BertForSequenceClassification
        # Ele retorna diferentes números de parâmetros dependendo de quais argumentos
        # são fornecidos e quais sinalizadores estão definidos. Para nosso uso aqui, ele retorna
        # a perda (porque fornecemos rótulos) e os "logits" - o modelo de saídas antes da ativação.     

        # last_hidden_state = outputs[0], pooler_output = outputs[1], hidden_states = outputs[2]
        outputs = model(d_input_ids, 
                        token_type_ids=None, 
                        attention_mask=d_input_mask, 
                        labels=d_labels)
        
        # A perda(loss) é retornado em outputs[0] porque fornecemos rótulos(labels))                  
        loss = outputs[0]

        # E outputs[1] os "logits" - o modelo de saídas antes da ativação.
        # logits possui duas dimensões, a primeira do lote e a segunda do rótulo da predição                        
        # A função `.detach().cpu()` retira da gpu.
        logits = outputs[1].detach().cpu()
  
        # Acumule a perda de treinamento em todos os lotes da época para que possamos
        # calcular a perda média no final da época. `loss` é um tensor contendo um único valor.   
        # A função `.item ()` retorna apenas o valor Python do tensor.
        train_epoca_losses.append(loss.item())

        # Mostra a perda na barra de progresso.
        lote_treino_bar.set_postfix(loss=loss.item())

        if model_args.use_wandb:
          wandb.log({"train_batch_loss": loss.item()})

        # Execute uma passagem para trás para calcular os gradientes.
        # Todos os parâmetros do modelo deve ter sido setado para param.requires_grad = False
        loss.backward()            

        # Corte a norma dos gradientes para 1.0.
        # Isso ajuda a evitar o problema de "gradientes explosivos".
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
       
        # Atualize os parâmetros e dê um passo usando o gradiente calculado.
        # O otimizador dita a "regra de atualização" - como os parâmetros são
        # modificados com base em seus gradientes, taxa de aprendizagem, etc.
        optimizer.step()
                           
        # Atualize a taxa de aprendizagem.
        scheduler.step()

        del outputs

    # Média da perda do treinamento de todos os lotes da época.
    media_train_epoca_loss = np.mean(train_epoca_losses)

    # Acumule a perda de treinamento de todas as épocas para calcular a perda média do treinamento.    
    train_losses.append(media_train_epoca_loss)

    if model_args.use_wandb:
        wandb.log({"media_train_epoca_loss": media_train_epoca_loss})           
        
    # Medida de quanto tempo levou essa época.
    treinamento_epoca_total = formataTempo(time.time() - treinamento_epoca_t0)

    print("  Média perda(loss) do treinamento da época : {0:.8f}".format(media_train_epoca_loss))
    print("  Tempo de treinamento da época             : {:}".format(treinamento_epoca_total))    
    print("  Tempo parcial do treinamento              : {:} (h:mm:ss)".format(formataTempo(time.time()-treinamento_t0)))

    del py_input_ids
    del py_attention_masks
    del py_labels
    del train_epoca_losses
    del lote_treino_bar
  
  # Média da perda do treinamento de todas as épocas.
  media_train_loss = np.mean(train_losses)

  if model_args.use_wandb:
    wandb.log({"media_train_loss": media_train_loss})   

  print("  Média perda(loss) treinamento : {0:.8f}".format(media_train_loss))

  del train_losses
  del epoca_bar

  print("Treinamento completo!")

# 5 Avaliação

Avaliando o modelo treinado no conjunto de dados de teste.

## 5.1 Função de Avaliação

In [None]:
# Import das bibliotecas.
import torch
from tqdm.notebook import tqdm as tqdm_notebook

def realizaAvaliacao(documentos_teste, classes_teste, documentoids_teste):

  # Armazena o resultado da avaliação executada
  lista_resultado_avaliacao = []

  print("\nRealizando Avaliação fold: {}".format(model_args.fold))

  # Predição no conjunto de teste no modelo.
  print('Predizendo rótulos para {:,} documentos de teste...'.format(len(documentos_teste)))

  # Use nossa nova função para preparar completamente nosso conjunto de dados.
  (py_input_ids, py_attention_masks, py_labels, documentosids) = cria_lotes_inteligentes(documentos_teste, classes_teste, documentoids_teste, training_args.per_device_eval_batch_size)

  # Escolha um intervalo para imprimir atualizações de progresso.
  intervalo_atualizacao = obter_intervalo_atualizacao(total_iteracoes=len(py_input_ids), numero_atualizacoes=10)

  # Coloque o modelo em modo de avaliação.
  model.eval()

  # Acumula as perdas.
  test_losses = []

  totalacuracia = 0

  # Acumula os resultados dos testes.
  vp = [] # Verdadeiro positivo
  vn = [] # Verdadeiro negativo
  fp = [] # Falso positivo
  fn = [] # Falso negativo

  # Barra de progresso dos lotes de teste.
  lote_teste_bar = tqdm_notebook(range(0, len(py_input_ids)), desc=f'Lotes ', unit=f'lotes', total=len(py_input_ids))

  # Para cada lote dos dados de avaliação(teste).
  for index in lote_teste_bar:

    # Progresso é atualizado a cada lotes, por exemplo, 100 lotes.
    if index % intervalo_atualizacao == 0 and not index == 0:        
        # Calcula o tempo gasto em minutos.
        tempoGasto = formataTempo(time.time() - avaliacao_t0)
        
        # Calcula o tempo restante baseado no progresso.
        passos_por_segundo = (time.time() - avaliacao_t0) / index
        segundos_restantes = passos_por_segundo * (len(py_input_ids) - index)
        tempoRestante = formataTempo(segundos_restantes)

        # Mostra o progresso.
        print('  Lote {:>7,}  de  {:>7,}.    Gasto: {:}.  Restando: {:}'.format(index, len(py_input_ids), tempoGasto, tempoRestante))
    
    # Copia o lote para a GPU.
    d_input_ids = py_input_ids[index].to(device)
    d_input_mask = py_attention_masks[index].to(device)
    d_labels = py_labels[index].to(device)
    d_documentoids = documentosids[index]

    # Diga a pytorch para não se preocupar em construir o gráfico de computação durante
    # o passe para frente, já que isso só é necessário para backprop (treinamento).
    with torch.no_grad():
        # Obtenha a saída de "logits" pelo modelo. Os "logits" são a saída
        # valores antes de aplicar uma função de ativação como o softmax.        
        # Retorno de model quando ´last_hidden_state=True´ é setado:    
        # last_hidden_state = outputs[0], pooler_output = outputs[1], hidden_states = outputs[2]
        outputs = model(d_input_ids,
                        token_type_ids=None, 
                        attention_mask=d_input_mask, 
                        labels=d_labels)
        
    # A perda(loss) é retornado em outputs[0] porque fornecemos rótulos(labels). 
    # É útil para comparar com a perda do treinamento, quando é realizado a avaliação entre as épocas de treinamento.
    loss = outputs[0]

    # E outputs[1] os "logits" - o modelo de saídas antes da ativação.
    # logits possui duas dimensões, a primeira do lote e a segunda do rótulo da predição                        
    logits = outputs[1]
        
    # Acumule a perda da avaliação em todos os lotes para que possamos
    # calcular a perda média no final. `loss` é um tensor contendo um único valor.
    # A função '.cpu()' move loss para a cpu.
    # A função `.item ()` retorna apenas o valor Python do tensor.         
    test_losses.append(loss.cpu().item())

    # Recupera o índice do melhor resultado, maior valor dos tensores para coluna(1)
    _, classificacao = torch.max(logits, 1)

    # Verifica a classificação realizada e o rótulo previsto
    vp.append(((classificacao==1) & (d_labels==1)).sum().cpu().item())
    vn.append(((classificacao==0) & (d_labels==0)).sum().cpu().item())
    fp.append(((classificacao==1) & (d_labels==0)).sum().cpu().item())
    fn.append(((classificacao==0) & (d_labels==1)).sum().cpu().item())

    # Adiciona o documento de teste, o rótulo e a classificação realizada a lista de resultado
    for lote in range(len(d_labels)):
                
        lista_resultado_avaliacao.append([d_documentoids[lote],
                                d_labels[lote].cpu().item(), 
                                classificacao[lote].cpu().item()])

    del outputs

  # Soma as classificações realizadas
  vp_s, vn_s, fp_s, fn_s = sum(vp), sum(vn), sum(fp), sum(fn)
  
  # Acurácia indica uma performance geral do modelo. 
  # Dentre todas as classificações, quantas o modelo classificou corretamente(vp=1 e vn=0).
  acc = (vp_s+vn_s)/(vp_s+vn_s+fp_s+fn_s)

  # Recall(Revocação) avalia todas as situações da classe Positivo(vp=1) com o valor esperado e quantas estão corretas.
  if (vp_s+fn_s) != 0:
      rec = (vp_s)/(vp_s+fn_s)
  else:
      rec = 0
  
  # Precisão avalia as classificações da classe positivo(vp=1 e fp=0) que o modelo fez e quantas estão corretas.
  if (vp_s+fp_s) != 0:
      pre = (vp_s)/(vp_s+fp_s)
  else:
      pre = 0  

  # F1 é a média harmônica entre precisão e recall.
  if (pre + rec) != 0:  
    f1 = 2 * ((pre * rec)/(pre + rec))
  else:
    f1 = 0

  # Média da perda da avaliação  
  media_test_loss = np.mean(test_losses)

  if model_args.use_wandb:
    # Log do wandb
    wandb.log({"acuracia": acc})
    wandb.log({"vp": vp_s})
    wandb.log({"vn": vn_s})
    wandb.log({"fp": fp_s})
    wandb.log({"fn": fn_s})
    wandb.log({"media_test_loss": media_test_loss})

  del py_input_ids
  del py_attention_masks
  del py_labels
  del test_losses
  del lote_teste_bar

  return media_test_loss, acc, rec, pre, f1, vp_s, vn_s, fp_s, fn_s, lista_resultado_avaliacao

## 5.2 Salvando o resultado da classificação

In [None]:
def salvaResultadoClassificacao(lista_resultado_avaliacao):

  if model_args.salvar_classificacao:

    # Import das bibliotecas.
    import os
    import datetime

    # Recupera a hora do sistema.
    data_e_hora = datetime.datetime.now()

    # Nome arquivo resultado
    NOME_ARQUIVO_CLASSIFICACAO = training_args.output_dir + str(model_args.fold) + MODELO_BERT + TAMANHO_BERT 
  
    # Diretório para salvar o arquivo.
    DIRETORIO_CLASSIFICACAO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/"

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_CLASSIFICACAO):  
      # Cria o diretório
      os.makedirs(DIRETORIO_CLASSIFICACAO)
      print('Diretório criado: {}'.format(DIRETORIO_CLASSIFICACAO))
    else:
      print('Diretório já existe: {}'.format(DIRETORIO_CLASSIFICACAO))

    # Nome do arquivo a ser aberto.
    NOME_ARQUIVO_CLASSIFICACAO_COMPLETO = DIRETORIO_CLASSIFICACAO + NOME_ARQUIVO_CLASSIFICACAO + ".csv"

    # Gera todo o conteúdo a ser salvo no arquivo
    novoConteudo = ""        
    for resultado in lista_resultado_avaliacao:      
      novoConteudo = novoConteudo + data_e_hora.strftime("%d/%m/%Y %H:%M") + ";" + str(resultado[0]) + ";" + str(resultado[1]) + ";" + str(resultado[2]) + "\n"

    # Verifica se o arquivo existe.
    if os.path.isfile(NOME_ARQUIVO_CLASSIFICACAO_COMPLETO):
      print("Atualizando arquivo classificação: {}".format(NOME_ARQUIVO_CLASSIFICACAO_COMPLETO))
      # Abre o arquivo para leitura.
      arquivo = open(NOME_ARQUIVO_CLASSIFICACAO_COMPLETO,'r')
      # Leitura de todas as linhas do arquivo.
      conteudo = arquivo.readlines()
      # Conteúdo a ser adicionado.
      conteudo.append(novoConteudo)

      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_CLASSIFICACAO_COMPLETO,'w')
      # escreva o conteúdo criado anteriormente nele.
      arquivo.writelines(conteudo)  
      # Fecha o arquivo.
      arquivo.close()
    else:
      print("Criando arquivo classificação: {}".format(NOME_ARQUIVO_CLASSIFICACAO_COMPLETO))
      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_CLASSIFICACAO_COMPLETO,'w')
      arquivo.writelines('data;id;classe;predicao\n' + novoConteudo)  # escreva o conteúdo criado anteriormente nele.
      # Fecha o arquivo.
      arquivo.close()

## 5.3 Salvando o resultado da avaliação

### Salva o resultado da avaliação 

Salva o resultado da avaliação do conjunto de dados de teste do fold especificado.

In [None]:
def salvaResultadoAvaliacao():

  if model_args.salvar_avaliacao:

    # Import das bibliotecas.
    import os
    import datetime

    # Recupera a hora do sistema.
    data_e_hora = datetime.datetime.now()

    # Nome arquivo resultado
    NOME_ARQUIVO_AVALIACAO = training_args.output_dir + str(model_args.fold) + MODELO_BERT + TAMANHO_BERT 

    # Diretório para salvar o arquivo.
    DIRETORIO_AVALIACAO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/"

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_AVALIACAO):  
      # Cria o diretório
      os.makedirs(DIRETORIO_AVALIACAO)
      print('Diretório criado: {}'.format(DIRETORIO_AVALIACAO))
    else:
      print('Diretório já existe: {}'.format(DIRETORIO_AVALIACAO))

    # Nome do arquivo a ser aberto.
    NOME_ARQUIVO_AVALIACAO_COMPLETO = DIRETORIO_AVALIACAO + NOME_ARQUIVO_AVALIACAO + ".csv"

    # Conteúdo a ser adicionado.
    novoConteudo = NOME_ARQUIVO_AVALIACAO + ";" +  data_e_hora.strftime("%d/%m/%Y %H:%M") + ";"  + treinamento_total + ";"  + str(acc) + ";"  +  str(vp_s) + ";"  +  str(vn_s) + ";" +  str(fp_s) + ";" +  str(fn_s) + "\n"

    # Verifica se o arquivo existe.
    if os.path.isfile(NOME_ARQUIVO_AVALIACAO_COMPLETO):
      print("Atualizando arquivo resultado: {}".format(NOME_ARQUIVO_AVALIACAO_COMPLETO))
      # Abre o arquivo para leitura.
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'r')
      # Leitura de todas as linhas do arquivo.
      conteudo = arquivo.readlines()
      # Conteúdo a ser adicionado.
      conteudo.append(novoConteudo)

      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'w')
      # escreva o conteúdo criado anteriormente nele.
      arquivo.writelines(conteudo)  
      # Fecha o arquivo.
      arquivo.close()
    else:
      print("Criando arquivo resultado: {}".format(NOME_ARQUIVO_AVALIACAO_COMPLETO))
      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'w')
      arquivo.writelines('arquivo;data;tempo;acuracia;vp;vn;fp;fn\n' + novoConteudo)  # escreva o conteúdo criado anteriormente nele.
      # Fecha o arquivo.
      arquivo.close()

### Carrega e calcula a média da acurácia dos folds


In [None]:
def carregaResultadoAvaliacao():

  # Import das bibliotecas.
  import os
  import pandas as pd

  # Acumuladores.
  somaAcuracia = 0
  listaTempo = []
  contaFolds = 0

  # Nome arquivo resultado avaliação
  NOME_ARQUIVO_AVALIACAO = training_args.output_dir

  print("Média dos arquivos: ", NOME_ARQUIVO_AVALIACAO + "X" + TAMANHO_BERT)

  # Diretório para salvar o arquivo.
  DIRETORIO_AVALIACAO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/"

  # Verifica se o diretório dos resultados existem.
  if os.path.exists(DIRETORIO_AVALIACAO):
    # Percorre os arquivos de resultados.
    for f in range(10):  
      # Nome do arquivo a ser aberto.
      NOME_ARQUIVO_AVALIACAO_COMPLETO = DIRETORIO_AVALIACAO + NOME_ARQUIVO_AVALIACAO + str(f+1) + MODELO_BERT + TAMANHO_BERT + ".csv"    
      # Verifica se o arquivo existe.
      if os.path.isfile(NOME_ARQUIVO_AVALIACAO_COMPLETO):
        # Carrega os dados do arquivo  
        dados = pd.read_csv(NOME_ARQUIVO_AVALIACAO_COMPLETO, sep=';')
        # Mostra os dados do teste do fold.
        for index, linha in dados.iterrows():
        
          # Cálculo das estatísticas
          acc = (linha['vp']+linha['vn'])/(linha['vp']+linha['vn']+linha['fp']+linha['fn'])
          if (linha['vp']+linha['fn']) != 0:
              rec = (linha['vp'])/(linha['vp']+linha['fn'])
          else:
              rec = 0
          if (linha['vp']+linha['fp']) != 0:
              pre = (linha['vp'])/(linha['vp']+linha['fp'])
          else:  
              pre = 0
          if (pre + rec) != 0:  
              f1 = 2 * ((pre * rec)/(pre + rec))
          else:
              f1 = 0
          qtdeTestes = linha['vp']+linha['vn']+linha['fp']+linha['fn']
          print('Arquivo: {}, Data: {}, Tempo: {}, QtdeTeste: {:3d}, Acc: {:.8f}, Rec: {:.8f}, Pre: {:.8f}, F1:{:.8f}, vp: {:4d}; vn: {:4d}; fp: {:4d}; fn: {:4d}'.format( 
               linha['arquivo'], linha['data'], linha['tempo'], qtdeTestes, acc, rec, pre, f1, linha['vp'], linha['vn'], linha['fp'], linha['fn']))    
           
          # Guarda o tempo.
          listaTempo.append(str(linha['tempo']))

        # Procura a maior acurácia.
        somaAcuracia = somaAcuracia + dados['acuracia'].max()
        # Conta o número de folds.
        contaFolds = contaFolds + 1
    
    # Mostra a soma da acurácia . 
    print('Total acurácia                                       : {:.8f}'.format(somaAcuracia))
    # Mostra a quantidade de folds.
    print('Quantidade de folds                                  : {}'.format(contaFolds))  
    # Calcula a média.
    media = somaAcuracia/contaFolds
    print('A média da acurácia de {:2d} folds é                    : {:.8f}'.format(contaFolds, media))
    print('O tempo gasto na execução do treinamentoa {:2d} folds é : {}'.format(contaFolds, somaTempo(listaTempo)))
    print('A média de tempo de execução de {:2d} folds é           : {}'.format(contaFolds, mediaTempo(listaTempo)))
  else:
    print('Diretório com os resultados não encontrado')

## 5.4 Execução do treinamento e avaliação de todos os Folds

In [None]:
# Import das bibliotecas
import time
import datetime

# Percorre todos os folds do intervalo de inicioFold até fimFold
for ifold in range(inicioFold,fimFold+1):

  # Seta o parâmetro do fold
  model_args.fold = ifold
  print("\nProcessamendo do fold: {}".format(model_args.fold))
  
  # Marca o tempo de início do processamento
  inicioProcessamentof = time.time()

  print("  Tempo de início de processamento fold:  {:} (h:mm:ss)".format(inicioProcessamentof))

  # Carregando o modelo 
  model = carregaModelo(model_args.pretrained_model_name_or_path)
  
  # Inicializa o wandb para registro
  wandb = inicializacaoWandb()

  # Conecta o modelo a GPU
  model = conectaGPU(model)

  # Função de carregamento dos dados de um fold
  dfdados_train, dfdados_test = carregamentoDadosFold(model_args.fold)

  # Descartando documentos muito grandes
  dfdados_train, dfdados_test = descarteDocumentosGrandes(model_args.max_seq_len, dfdados_train, dfdados_test)
  
  # Pega as listas de documentos de treino e seus rótulos.
  documentos_treino = dfdados_train.documento.values
  classes_treino = dfdados_train.classe.values
  documentoids_treino = dfdados_train.id.values

  # Pega as listas de documentos teste e seus rótulos.
  documentos_teste = dfdados_test.documento.values
  classes_teste = dfdados_test.classe.values
  documentoids_teste = dfdados_test.id.values

  # Mostra o resultado dos dados carregados.
  print("Total do conjunto de dados          : {}.".format(len(documentos_treino) + len(documentos_teste)))
  print("Total do conjunto de dados de treino: {}.".format(len(documentos_treino)))
  print("Total do conjunto de dados de teste : {}.".format(len(documentos_teste)))

  #################  Treinamento

  # Carrega o otimizador
  optimizer = carregaOtimizador()

  # Carrega o agendador
  scheduler = carregaAgendador()

  # Registra o tempo inicial.
  treinamento_t0 = time.time()

  # Realiza o treinamento.
  realizaTreinamento(documentos_treino, classes_treino, documentoids_treino, training_args.num_train_epochs)
  
  # Medida de quanto tempo levou a execução do treinamento.
  treinamento_total = formataTempo(time.time() - treinamento_t0)

  print("  Tempo total treinamento       : {:}".format(treinamento_total))
  
  #################  Treinamento

  ################# Avaliação

  # Registra o tempo inicial.
  avaliacao_t0 = time.time()

  # Realiza a avaliação do modelo.
  media_test_loss, acc, rec, pre, f1, vp_s, vn_s, fp_s, fn_s, lista_resultado_avaliacao = realizaAvaliacao(documentos_teste, classes_teste, documentoids_teste)

  print('Avaliação loss: {:.8f}; Acc: {:.8f}; Rec: {:.8f}; Pre: {:.8f}, F1:{:.8f}, vp: {:3d}; vn: {:3d}; fp: {:3d}; fn: {:3d}'.format( 
        media_test_loss, acc, rec, pre, f1, vp_s, vn_s, fp_s, fn_s))      
    
  print("Acurácia do fold {}        : {:.8f}".format(model_args.fold, acc))  

  # Medida de quanto tempo levou a execução do treinamento e avaliação
  avaliacao_total = formataTempo(time.time() - avaliacao_t0)

  print("Tempo gasto na avaliação  : {:}".format(avaliacao_total))

  ################# Avaliação

  # Salva o resultado da classificação
  salvaResultadoClassificacao(lista_resultado_avaliacao)

  # Salva o resultado da avaliação
  salvaResultadoAvaliacao()

  # Apaga os dados
  del dfdados_train
  del dfdados_test
  del documentos_treino
  del classes_treino
  del documentoids_treino
  del documentos_teste
  del classes_teste
  del documentoids_teste
  del lista_resultado_avaliacao
  del optimizer
  del scheduler
  del model

  # Pega o tempo atual menos o tempo do início do processamento.
  finalProcessamentof = time.time()
  tempoTotalProcessamentof = formataTempo(finalProcessamentof - inicioProcessamentof)

  print("")
  print("  Tempo processamento fold: {:} (h:mm:ss)".format(tempoTotalProcessamentof))


Processamendo do fold: 6
  Tempo de início de processamento fold:  1621867346.1301177 (h:mm:ss)
Carregando o modelo BERT do diretório /content/modelo...


Some weights of the model checkpoint at /content/modelo were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at /

[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


[34m[1mwandb[0m: Currently logged in as: [33mosmar-braz[0m (use `wandb login --relogin` to force relogin)


Pytorch rodando o modelo na GPU
Carregando arquivo de treino: /content/validacao_kfold/cstnews_md_train_f6.csv
Carregando arquivo de teste: /content/validacao_kfold/cstnews_md_test_f6.csv
Qtde de dados de treino: 8964
Qtde de dados de teste: 996


2021-05-24 14:43:11,161 : INFO : NumExpr defaulting to 2 threads.


Tamanho do dataset de treino: 8964
Tamanho do dataset de teste: 996
Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.
Total de etapas: 35856

Realizando Treinamento fold: 6


HBox(children=(FloatProgress(value=0.0, description='Épocas', max=4.0, style=ProgressStyle(description_width='…

Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 1', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:26.  Restante: 0:08:06
  Lote   1,800  de    2,241.    Gasto: 0:10:55.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.70451532
  Tempo de treinamento da época             : 0:13:35
  Tempo parcial do treinamento              : 0:13:59 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 2', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:31.  Restante: 0:08:12
  Lote   1,800  de    2,241.    Gasto: 0:10:53.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.70420804
  Tempo de treinamento da época             : 0:13:35
  Tempo parcial do treinamento              : 0:27:58 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 3', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:30.  Restante: 0:08:12
  Lote   1,800  de    2,241.    Gasto: 0:10:55.  Restante: 0:02:41

  Média perda(loss) do treinamento da época : 0.70329479
  Tempo de treinamento da época             : 0:13:34
  Tempo parcial do treinamento              : 0:41:56 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 4', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:28.  Restante: 0:08:08
  Lote   1,800  de    2,241.    Gasto: 0:10:53.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.70070934
  Tempo de treinamento da época             : 0:13:35
  Tempo parcial do treinamento              : 0:55:55 (h:mm:ss)

  Média perda(loss) treinamento : 0.70318187
Treinamento completo!
  Tempo total treinamento       : 0:55:55

Realizando Avaliação fold: 6
Predizendo rótulos para 996 documentos de teste...
Criando Lotes Inteligentes de 996 amostras com tamanho de lote 8...

Tokenizando 996 amostra...
  Tokenizado 0 amostras.
  Tokenizado 100 amostras.
  Tokenizado 200 amostras.
  Tokenizado 300 amostras.
  Tokenizado 400 amostras.
  Tokenizado 500 amostras.
  Tokenizado 600 amostras.
  Tokenizado 700 amostras.
  Tokenizado 800 amostras.
  Tokenizado 900 amostras.
FEITO.
       996 amostras

       996 amostras após classificação

Criando lotes de tamanho 8...
  Selecionado 100 lotes.

  FEITO - S

HBox(children=(FloatProgress(value=0.0, description='Lotes ', max=125.0, style=ProgressStyle(description_width…

  Lote      10  de      125.    Gasto: 0:00:05.  Restando: 0:00:58
  Lote      20  de      125.    Gasto: 0:00:07.  Restando: 0:00:37
  Lote      30  de      125.    Gasto: 0:00:09.  Restando: 0:00:28
  Lote      40  de      125.    Gasto: 0:00:11.  Restando: 0:00:23
  Lote      50  de      125.    Gasto: 0:00:13.  Restando: 0:00:19
  Lote      60  de      125.    Gasto: 0:00:15.  Restando: 0:00:16
  Lote      70  de      125.    Gasto: 0:00:17.  Restando: 0:00:13
  Lote      80  de      125.    Gasto: 0:00:18.  Restando: 0:00:10
  Lote      90  de      125.    Gasto: 0:00:20.  Restando: 0:00:08
  Lote     100  de      125.    Gasto: 0:00:23.  Restando: 0:00:06
  Lote     110  de      125.    Gasto: 0:00:24.  Restando: 0:00:03
  Lote     120  de      125.    Gasto: 0:00:26.  Restando: 0:00:01

Avaliação loss: 0.69349298; Acc: 0.50000000; Rec: 0.00000000; Pre: 0.00000000, F1:0.00000000, vp:   0; vn: 498; fp:   0; fn: 498
Acurácia do fold 6        : 0.50000000
Tempo gasto na avaliação  :

Some weights of the model checkpoint at /content/modelo were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at /

[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


VBox(children=(Label(value=' 0.05MB of 0.05MB uploaded (0.00MB deduped)\r'), FloatProgress(value=1.0, max=1.0)…

0,1
max_seq_len,512
_runtime,3418
_timestamp,1621870777
_step,8978
do_lower_case,False
output_hidden_states,False
fold,6
train_batch_loss,0.69427
media_train_epoca_loss,0.70071
media_train_loss,0.70318


0,1
max_seq_len,▁
_runtime,▁▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
_timestamp,▁▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
_step,▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▆▇▇▇▇▇███
do_lower_case,▁
output_hidden_states,▁
fold,▁
train_batch_loss,▄▅▆▃▄▃▁▅▇█▅▂▅▂▂▂▅▆▄▂▄▂▂▅▆▅▄▆▃▆▄▃▄▅▆▄▃▅▃▅
media_train_epoca_loss,█▇▆▁
media_train_loss,▁


Pytorch rodando o modelo na GPU
Carregando arquivo de treino: /content/validacao_kfold/cstnews_md_train_f7.csv
Carregando arquivo de teste: /content/validacao_kfold/cstnews_md_test_f7.csv
Qtde de dados de treino: 8964
Qtde de dados de teste: 996
Tamanho do dataset de treino: 8964
Tamanho do dataset de teste: 996
Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.
Total de etapas: 35856

Realizando Treinamento fold: 7


HBox(children=(FloatProgress(value=0.0, description='Épocas', max=4.0, style=ProgressStyle(description_width='…

Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 1', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:25.  Restante: 0:08:05
  Lote   1,800  de    2,241.    Gasto: 0:10:54.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.66649846
  Tempo de treinamento da época             : 0:13:34
  Tempo parcial do treinamento              : 0:13:58 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 2', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:31.  Restante: 0:08:13
  Lote   1,800  de    2,241.    Gasto: 0:10:54.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.70147134
  Tempo de treinamento da época             : 0:13:35
  Tempo parcial do treinamento              : 0:27:58 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 3', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:30.  Restante: 0:08:12
  Lote   1,800  de    2,241.    Gasto: 0:10:56.  Restante: 0:02:41

  Média perda(loss) do treinamento da época : 0.70170581
  Tempo de treinamento da época             : 0:13:35
  Tempo parcial do treinamento              : 0:41:58 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 4', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:28.  Restante: 0:08:09
  Lote   1,800  de    2,241.    Gasto: 0:10:53.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.69844424
  Tempo de treinamento da época             : 0:13:35
  Tempo parcial do treinamento              : 0:55:57 (h:mm:ss)

  Média perda(loss) treinamento : 0.69202996
Treinamento completo!
  Tempo total treinamento       : 0:55:57

Realizando Avaliação fold: 7
Predizendo rótulos para 996 documentos de teste...
Criando Lotes Inteligentes de 996 amostras com tamanho de lote 8...

Tokenizando 996 amostra...
  Tokenizado 0 amostras.
  Tokenizado 100 amostras.
  Tokenizado 200 amostras.
  Tokenizado 300 amostras.
  Tokenizado 400 amostras.
  Tokenizado 500 amostras.
  Tokenizado 600 amostras.
  Tokenizado 700 amostras.
  Tokenizado 800 amostras.
  Tokenizado 900 amostras.
FEITO.
       996 amostras

       996 amostras após classificação

Criando lotes de tamanho 8...
  Selecionado 100 lotes.

  FEITO - S

HBox(children=(FloatProgress(value=0.0, description='Lotes ', max=125.0, style=ProgressStyle(description_width…

  Lote      10  de      125.    Gasto: 0:00:05.  Restando: 0:00:59
  Lote      20  de      125.    Gasto: 0:00:07.  Restando: 0:00:37
  Lote      30  de      125.    Gasto: 0:00:09.  Restando: 0:00:28
  Lote      40  de      125.    Gasto: 0:00:11.  Restando: 0:00:23
  Lote      50  de      125.    Gasto: 0:00:13.  Restando: 0:00:20
  Lote      60  de      125.    Gasto: 0:00:15.  Restando: 0:00:16
  Lote      70  de      125.    Gasto: 0:00:17.  Restando: 0:00:13
  Lote      80  de      125.    Gasto: 0:00:19.  Restando: 0:00:11
  Lote      90  de      125.    Gasto: 0:00:21.  Restando: 0:00:08
  Lote     100  de      125.    Gasto: 0:00:23.  Restando: 0:00:06
  Lote     110  de      125.    Gasto: 0:00:25.  Restando: 0:00:03
  Lote     120  de      125.    Gasto: 0:00:27.  Restando: 0:00:01

Avaliação loss: 0.69321932; Acc: 0.50000000; Rec: 0.00000000; Pre: 0.00000000, F1:0.00000000, vp:   0; vn: 498; fp:   0; fn: 498
Acurácia do fold 7        : 0.50000000
Tempo gasto na avaliação  :

Some weights of the model checkpoint at /content/modelo were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at /

[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


VBox(children=(Label(value=' 0.05MB of 0.05MB uploaded (0.00MB deduped)\r'), FloatProgress(value=1.0, max=1.0)…

0,1
max_seq_len,512
_runtime,3414
_timestamp,1621874216
_step,8978
do_lower_case,False
output_hidden_states,False
fold,7
train_batch_loss,0.72699
media_train_epoca_loss,0.69844
media_train_loss,0.69203


0,1
max_seq_len,▁
_runtime,▁▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
_timestamp,▁▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
_step,▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▆▇▇▇▇▇███
do_lower_case,▁
output_hidden_states,▁
fold,▁
train_batch_loss,▅▁█▆▇▇▆▆▇▇▇█▇▆█▇▇▆▇▇▇█▇▆▇▇▇▇██▇▇▇▇▇▇▇▆▇▆
media_train_epoca_loss,▁██▇
media_train_loss,▁


Pytorch rodando o modelo na GPU
Carregando arquivo de treino: /content/validacao_kfold/cstnews_md_train_f8.csv
Carregando arquivo de teste: /content/validacao_kfold/cstnews_md_test_f8.csv
Qtde de dados de treino: 8964
Qtde de dados de teste: 996
Tamanho do dataset de treino: 8964
Tamanho do dataset de teste: 996
Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.
Total de etapas: 35856

Realizando Treinamento fold: 8


HBox(children=(FloatProgress(value=0.0, description='Épocas', max=4.0, style=ProgressStyle(description_width='…

Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 1', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:27.  Restante: 0:08:07
  Lote   1,800  de    2,241.    Gasto: 0:10:57.  Restante: 0:02:41

  Média perda(loss) do treinamento da época : 0.70444954
  Tempo de treinamento da época             : 0:13:37
  Tempo parcial do treinamento              : 0:14:02 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 2', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:32.  Restante: 0:08:14
  Lote   1,800  de    2,241.    Gasto: 0:10:55.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.70421600
  Tempo de treinamento da época             : 0:13:37
  Tempo parcial do treinamento              : 0:28:03 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 3', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:31.  Restante: 0:08:13
  Lote   1,800  de    2,241.    Gasto: 0:10:57.  Restante: 0:02:41

  Média perda(loss) do treinamento da época : 0.70298897
  Tempo de treinamento da época             : 0:13:36
  Tempo parcial do treinamento              : 0:42:03 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 4', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:28.  Restante: 0:08:09
  Lote   1,800  de    2,241.    Gasto: 0:10:54.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.70147112
  Tempo de treinamento da época             : 0:13:37
  Tempo parcial do treinamento              : 0:56:04 (h:mm:ss)

  Média perda(loss) treinamento : 0.70328141
Treinamento completo!
  Tempo total treinamento       : 0:56:04

Realizando Avaliação fold: 8
Predizendo rótulos para 996 documentos de teste...
Criando Lotes Inteligentes de 996 amostras com tamanho de lote 8...

Tokenizando 996 amostra...
  Tokenizado 0 amostras.
  Tokenizado 100 amostras.
  Tokenizado 200 amostras.
  Tokenizado 300 amostras.
  Tokenizado 400 amostras.
  Tokenizado 500 amostras.
  Tokenizado 600 amostras.
  Tokenizado 700 amostras.
  Tokenizado 800 amostras.
  Tokenizado 900 amostras.
FEITO.
       996 amostras

       996 amostras após classificação

Criando lotes de tamanho 8...
  Selecionado 100 lotes.

  FEITO - S

HBox(children=(FloatProgress(value=0.0, description='Lotes ', max=125.0, style=ProgressStyle(description_width…

  Lote      10  de      125.    Gasto: 0:00:05.  Restando: 0:00:59
  Lote      20  de      125.    Gasto: 0:00:07.  Restando: 0:00:37
  Lote      30  de      125.    Gasto: 0:00:09.  Restando: 0:00:28
  Lote      40  de      125.    Gasto: 0:00:11.  Restando: 0:00:23
  Lote      50  de      125.    Gasto: 0:00:13.  Restando: 0:00:19
  Lote      60  de      125.    Gasto: 0:00:15.  Restando: 0:00:16
  Lote      70  de      125.    Gasto: 0:00:17.  Restando: 0:00:13
  Lote      80  de      125.    Gasto: 0:00:19.  Restando: 0:00:10
  Lote      90  de      125.    Gasto: 0:00:20.  Restando: 0:00:08
  Lote     100  de      125.    Gasto: 0:00:23.  Restando: 0:00:06
  Lote     110  de      125.    Gasto: 0:00:24.  Restando: 0:00:03
  Lote     120  de      125.    Gasto: 0:00:26.  Restando: 0:00:01

Avaliação loss: 0.69346119; Acc: 0.50000000; Rec: 0.00000000; Pre: 0.00000000, F1:0.00000000, vp:   0; vn: 498; fp:   0; fn: 498
Acurácia do fold 8        : 0.50000000
Tempo gasto na avaliação  :

Some weights of the model checkpoint at /content/modelo were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at /

[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


VBox(children=(Label(value=' 0.05MB of 0.05MB uploaded (0.00MB deduped)\r'), FloatProgress(value=1.0, max=1.0)…

0,1
max_seq_len,512
_runtime,3421
_timestamp,1621877651
_step,8978
do_lower_case,False
output_hidden_states,False
fold,8
train_batch_loss,0.67248
media_train_epoca_loss,0.70147
media_train_loss,0.70328


0,1
max_seq_len,▁
_runtime,▁▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
_timestamp,▁▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
_step,▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▆▇▇▇▇▇███
do_lower_case,▁
output_hidden_states,▁
fold,▁
train_batch_loss,█▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▃▂▂▂▂▂▁▂▂▂▂▂▃▂▂▂▂▂▂▂▂▂▁
media_train_epoca_loss,█▇▅▁
media_train_loss,▁


Pytorch rodando o modelo na GPU
Carregando arquivo de treino: /content/validacao_kfold/cstnews_md_train_f9.csv
Carregando arquivo de teste: /content/validacao_kfold/cstnews_md_test_f9.csv
Qtde de dados de treino: 8964
Qtde de dados de teste: 996
Tamanho do dataset de treino: 8964
Tamanho do dataset de teste: 996
Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.
Total de etapas: 35856

Realizando Treinamento fold: 9


HBox(children=(FloatProgress(value=0.0, description='Épocas', max=4.0, style=ProgressStyle(description_width='…

Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 1', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:26.  Restante: 0:08:06
  Lote   1,800  de    2,241.    Gasto: 0:10:55.  Restante: 0:02:41

  Média perda(loss) do treinamento da época : 0.69594668
  Tempo de treinamento da época             : 0:13:36
  Tempo parcial do treinamento              : 0:14:00 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 2', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:32.  Restante: 0:08:14
  Lote   1,800  de    2,241.    Gasto: 0:10:55.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.70072024
  Tempo de treinamento da época             : 0:13:37
  Tempo parcial do treinamento              : 0:28:02 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 3', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:32.  Restante: 0:08:14
  Lote   1,800  de    2,241.    Gasto: 0:10:58.  Restante: 0:02:41

  Média perda(loss) do treinamento da época : 0.70520155
  Tempo de treinamento da época             : 0:13:37
  Tempo parcial do treinamento              : 0:42:03 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 4', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:28.  Restante: 0:08:09
  Lote   1,800  de    2,241.    Gasto: 0:10:54.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.70115876
  Tempo de treinamento da época             : 0:13:37
  Tempo parcial do treinamento              : 0:56:04 (h:mm:ss)

  Média perda(loss) treinamento : 0.70075681
Treinamento completo!
  Tempo total treinamento       : 0:56:04

Realizando Avaliação fold: 9
Predizendo rótulos para 996 documentos de teste...
Criando Lotes Inteligentes de 996 amostras com tamanho de lote 8...

Tokenizando 996 amostra...
  Tokenizado 0 amostras.
  Tokenizado 100 amostras.
  Tokenizado 200 amostras.
  Tokenizado 300 amostras.
  Tokenizado 400 amostras.
  Tokenizado 500 amostras.
  Tokenizado 600 amostras.
  Tokenizado 700 amostras.
  Tokenizado 800 amostras.
  Tokenizado 900 amostras.
FEITO.
       996 amostras

       996 amostras após classificação

Criando lotes de tamanho 8...
  Selecionado 100 lotes.

  FEITO - S

HBox(children=(FloatProgress(value=0.0, description='Lotes ', max=125.0, style=ProgressStyle(description_width…

  Lote      10  de      125.    Gasto: 0:00:05.  Restando: 0:00:59
  Lote      20  de      125.    Gasto: 0:00:07.  Restando: 0:00:37
  Lote      30  de      125.    Gasto: 0:00:09.  Restando: 0:00:28
  Lote      40  de      125.    Gasto: 0:00:11.  Restando: 0:00:23
  Lote      50  de      125.    Gasto: 0:00:13.  Restando: 0:00:19
  Lote      60  de      125.    Gasto: 0:00:15.  Restando: 0:00:16
  Lote      70  de      125.    Gasto: 0:00:17.  Restando: 0:00:13
  Lote      80  de      125.    Gasto: 0:00:19.  Restando: 0:00:10
  Lote      90  de      125.    Gasto: 0:00:20.  Restando: 0:00:08
  Lote     100  de      125.    Gasto: 0:00:23.  Restando: 0:00:06
  Lote     110  de      125.    Gasto: 0:00:24.  Restando: 0:00:03
  Lote     120  de      125.    Gasto: 0:00:26.  Restando: 0:00:01

Avaliação loss: 0.69314941; Acc: 0.50000000; Rec: 0.00000000; Pre: 0.00000000, F1:0.00000000, vp:   0; vn: 498; fp:   0; fn: 498
Acurácia do fold 9        : 0.50000000
Tempo gasto na avaliação  :

Some weights of the model checkpoint at /content/modelo were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at /

[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


VBox(children=(Label(value=' 0.05MB of 0.05MB uploaded (0.00MB deduped)\r'), FloatProgress(value=1.0, max=1.0)…

0,1
max_seq_len,512
_runtime,3421
_timestamp,1621881085
_step,8978
do_lower_case,False
output_hidden_states,False
fold,9
train_batch_loss,0.70717
media_train_epoca_loss,0.70116
media_train_loss,0.70076


0,1
max_seq_len,▁
_runtime,▁▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
_timestamp,▁▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
_step,▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▆▇▇▇▇▇███
do_lower_case,▁
output_hidden_states,▁
fold,▁
train_batch_loss,▂▁▂▅█▂▃▂▂▂▂▂▃▁▃▂▂▂▁▂▂▂▂▂▁▂▂▂▂▂▂▂▂▂▂▂▂▂▃▂
media_train_epoca_loss,▁▅█▅
media_train_loss,▁


Pytorch rodando o modelo na GPU
Carregando arquivo de treino: /content/validacao_kfold/cstnews_md_train_f10.csv
Carregando arquivo de teste: /content/validacao_kfold/cstnews_md_test_f10.csv
Qtde de dados de treino: 8964
Qtde de dados de teste: 996
Tamanho do dataset de treino: 8964
Tamanho do dataset de teste: 996
Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.
Total de etapas: 35856

Realizando Treinamento fold: 10


HBox(children=(FloatProgress(value=0.0, description='Épocas', max=4.0, style=ProgressStyle(description_width='…

Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 1', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:26.  Restante: 0:08:06
  Lote   1,800  de    2,241.    Gasto: 0:10:55.  Restante: 0:02:41

  Média perda(loss) do treinamento da época : 0.70172719
  Tempo de treinamento da época             : 0:13:36
  Tempo parcial do treinamento              : 0:14:01 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 2', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:32.  Restante: 0:08:14
  Lote   1,800  de    2,241.    Gasto: 0:10:56.  Restante: 0:02:41

  Média perda(loss) do treinamento da época : 0.70487293
  Tempo de treinamento da época             : 0:13:38
  Tempo parcial do treinamento              : 0:28:02 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 3', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:31.  Restante: 0:08:14
  Lote   1,800  de    2,241.    Gasto: 0:10:58.  Restante: 0:02:41

  Média perda(loss) do treinamento da época : 0.70426897
  Tempo de treinamento da época             : 0:13:37
  Tempo parcial do treinamento              : 0:42:04 (h:mm:ss)
Criando Lotes Inteligentes de 8,964 amostras com tamanho de lote 4...

Tokenizando 8,964 amostra...
  Tokenizado 0 amostras.
  Tokenizado 900 amostras.
  Tokenizado 1,800 amostras.
  Tokenizado 2,700 amostras.
  Tokenizado 3,600 amostras.
  Tokenizado 4,500 amostras.
  Tokenizado 5,400 amostras.
  Tokenizado 6,300 amostras.
  Tokenizado 7,200 amostras.
  Tokenizado 8,100 amostras.
FEITO.
     8,964 amostras

     8,964 amostras após classificação

Criando lotes de tamanho 4...
  Selecionado 900 lotes.
  Selecionado 1,800 lotes.

  FEITO - Selecionado 2,241 lotes.

Preenchendo sequências dentro de cada lote...


HBox(children=(FloatProgress(value=0.0, description='Epoca 4', max=2241.0, style=ProgressStyle(description_wid…

  Lote     900  de    2,241.    Gasto: 0:05:29.  Restante: 0:08:10
  Lote   1,800  de    2,241.    Gasto: 0:10:55.  Restante: 0:02:40

  Média perda(loss) do treinamento da época : 0.70201063
  Tempo de treinamento da época             : 0:13:37
  Tempo parcial do treinamento              : 0:56:05 (h:mm:ss)

  Média perda(loss) treinamento : 0.70321993
Treinamento completo!
  Tempo total treinamento       : 0:56:05

Realizando Avaliação fold: 10
Predizendo rótulos para 996 documentos de teste...
Criando Lotes Inteligentes de 996 amostras com tamanho de lote 8...

Tokenizando 996 amostra...
  Tokenizado 0 amostras.
  Tokenizado 100 amostras.
  Tokenizado 200 amostras.
  Tokenizado 300 amostras.
  Tokenizado 400 amostras.
  Tokenizado 500 amostras.
  Tokenizado 600 amostras.
  Tokenizado 700 amostras.
  Tokenizado 800 amostras.
  Tokenizado 900 amostras.
FEITO.
       996 amostras

       996 amostras após classificação

Criando lotes de tamanho 8...
  Selecionado 100 lotes.

  FEITO - 

HBox(children=(FloatProgress(value=0.0, description='Lotes ', max=125.0, style=ProgressStyle(description_width…

  Lote      10  de      125.    Gasto: 0:00:05.  Restando: 0:00:58
  Lote      20  de      125.    Gasto: 0:00:07.  Restando: 0:00:38
  Lote      30  de      125.    Gasto: 0:00:09.  Restando: 0:00:29
  Lote      40  de      125.    Gasto: 0:00:11.  Restando: 0:00:23
  Lote      50  de      125.    Gasto: 0:00:13.  Restando: 0:00:20
  Lote      60  de      125.    Gasto: 0:00:15.  Restando: 0:00:16
  Lote      70  de      125.    Gasto: 0:00:17.  Restando: 0:00:13
  Lote      80  de      125.    Gasto: 0:00:19.  Restando: 0:00:11
  Lote      90  de      125.    Gasto: 0:00:21.  Restando: 0:00:08
  Lote     100  de      125.    Gasto: 0:00:23.  Restando: 0:00:06
  Lote     110  de      125.    Gasto: 0:00:25.  Restando: 0:00:03
  Lote     120  de      125.    Gasto: 0:00:27.  Restando: 0:00:01

Avaliação loss: 0.69318070; Acc: 0.50000000; Rec: 1.00000000; Pre: 0.50000000, F1:0.66666667, vp: 498; vn:   0; fp: 498; fn:   0
Acurácia do fold 10        : 0.50000000
Tempo gasto na avaliação  

In [None]:
carregaResultadoAvaliacao()

Média dos arquivos:  AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_fX_large
Arquivo: AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f1_BERTimbau_large, Data: 24/05/2021 00:02, Tempo: 0:34:53, QtdeTeste: 996, Acc: 0.50000000, Rec: 1.00000000, Pre: 0.50000000, F1:0.66666667, vp:  498; vn:    0; fp:  498; fn:    0
Arquivo: AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f2_BERTimbau_large, Data: 24/05/2021 00:38, Tempo: 0:35:00, QtdeTeste: 996, Acc: 0.50000000, Rec: 1.00000000, Pre: 0.50000000, F1:0.66666667, vp:  498; vn:    0; fp:  498; fn:    0
Arquivo: AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f3_BERTimbau_large, Data: 24/05/2021 01:14, Tempo: 0:35:23, QtdeTeste: 996, Acc: 0.50000000, Rec: 0.00000000, Pre: 0.00000000, F1:0.00000000, vp:    0; vn:  498; fp:    0; fn:  498
Arquivo: AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f4_BERTimbau_large, Data: 24/05/2021 01:51, Tempo: 0:35:23, QtdeTeste: 996, Acc: 0.50000000, Rec: 1.00000000, Pre: 0.50000000, F1:0.66666667, vp:  498; vn:    0; fp:  498;

# 6 Finalização

## 6.1 Salvando o Modelo para o wandb

In [None]:
if model_args.use_wandb and model_args.salvar_modelo_wandb:
  
    # Salva o modelo para o wandb    
    torch.save(model.state_dict(), os.path.join(wandb.run.dir, 'model_dict.pt'))

## 6.2 Salvando o Modelo Ajustado

Grava o modelo e o tokenizador no disco.

In [None]:
def salvaModelo():
  
  if model_args.salvar_modelo:
  
    # Import de bibliotecas.
    import os

    # Salvando as melhores práticas: se você usar nomes padrão para o modelo, você pode recarregá-lo usando from_pretrained ()

    # Diretório de salvamento do modelo.
    DIRETORIO_LOCAL_MODELO_AJUSTADO = '/content/modelo_ajustado/'

    # Cria o diretório de saída se necessário.
    if not os.path.exists(DIRETORIO_LOCAL_MODELO_AJUSTADO):
      os.makedirs(DIRETORIO_LOCAL_MODELO_AJUSTADO)

    print('Salvando o modelo para {}'.format(DIRETORIO_LOCAL_MODELO_AJUSTADO))

    # Salve um modelo treinado, configuração e tokenizer usando `save_pretrained ()`.
    # Eles podem então ser recarregados usando `from_pretrained ()`.
    model_to_save = model.module if hasattr(model, 'module') else model  # Cuide do treinamento distribuído/paralelo
    model_to_save.save_pretrained(DIRETORIO_LOCAL_MODELO_AJUSTADO)
    tokenizer.save_pretrained(DIRETORIO_LOCAL_MODELO_AJUSTADO)

    # Boa prática: salve seus argumentos de treinamento junto com o modelo treinado.
    torch.save (model_args, os.path.join (DIRETORIO_LOCAL_MODELO_AJUSTADO, 'mode_args.bin'))
    torch.save (training_args, os.path.join (DIRETORIO_LOCAL_MODELO_AJUSTADO, 'training_args.bin'))

Vamos verificar os tamanhos dos arquivos, por curiosidade.

In [None]:
if model_args.salvar_modelo:
  !ls -l --block-size=K /content/modelo_ajustado/

O maior arquivo é o peso do modelo, em torno de 416MB o base e 1.25G o large.

In [None]:
if model_args.salvar_modelo:
  !ls -l --block-size=M /content/modelo_ajustado/pytorch_model.bin

Para salvar seu modelo nas sessões do Colab Notebook, faça o download no seu computador local ou, idealmente, copie-o no seu Google Drive.

In [None]:
if model_args.salvar_modelo:

  # Importando as bibliotecas.
  import os
  
  # Diretório local de salvamento do modelo.
  DIRETORIO_LOCAL_MODELO_AJUSTADO = '/content/modelo_ajustado/'

  # Diretório remoto de salvamento do modelo.  
  DIRETORIO_REMOTO_MODELO_AJUSTADO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/modelo/modelo" + MODELO_BERT + TAMANHO_BERT

  # Verifica se o diretório existe
  if not os.path.exists(DIRETORIO_REMOTO_MODELO_AJUSTADO):  
    # Cria o diretório
    os.makedirs(DIRETORIO_REMOTO_MODELO_AJUSTADO)
    print('Diretório criado: {}'.format(DIRETORIO_REMOTO_MODELO_AJUSTADO))
  else:
    print('Diretório já existe: {}'.format(DIRETORIO_REMOTO_MODELO_AJUSTADO))

  ## Copia o arquivo do modelo para o diretório no Google Drive.
  !cp -r '$DIRETORIO_LOCAL_MODELO_AJUSTADO'* '$DIRETORIO_REMOTO_MODELO_AJUSTADO'

  print("Modelo copiado!")

## 6.3 Tempo final de processamento



In [None]:
 # Pega o tempo atual menos o tempo do início do processamento.
finalProcessamento = time.time()
tempoTotalProcessamento = formataTempo(finalProcessamento - inicioProcessamento)

print("")
print("  Tempo processamento: {:} (h:mm:ss)".format(tempoTotalProcessamento))


  Tempo processamento: 4:49:26 (h:mm:ss)


Executa o wandb para finalizar a execução anterior

In [None]:
if model_args.use_wandb:
    # Importando a biblioteca.
    import wandb
    
    # Inicializando o registro do experimento.
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project="ajustefinocstnews_v1_c_sb_kfold", name=training_args.output_dir + str(model_args.fold))

VBox(children=(Label(value=' 0.05MB of 0.05MB uploaded (0.00MB deduped)\r'), FloatProgress(value=1.0, max=1.0)…

0,1
max_seq_len,512
_runtime,3423
_timestamp,1621884521
_step,8978
do_lower_case,False
output_hidden_states,False
fold,10
train_batch_loss,0.70465
media_train_epoca_loss,0.70201
media_train_loss,0.70322


0,1
max_seq_len,▁
_runtime,▁▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
_timestamp,▁▁▁▁▂▂▂▂▂▂▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇███
_step,▁▁▁▂▂▂▂▂▂▃▃▃▃▃▃▄▄▄▄▄▅▅▅▅▅▅▆▆▆▆▆▆▇▇▇▇▇███
do_lower_case,▁
output_hidden_states,▁
fold,▁
train_batch_loss,▂█▂▁▂▂▁▂▂▂▂▁▂▂▂▁▂▂▂▁▁▁▁▂▁▁▃▂▂▂▂▂▂▂▂▂▂▂▂▁
media_train_epoca_loss,▁█▇▂
media_train_loss,▁
