#Ajuste fino do conjunto de dados CSTNews usando BERT Transformers by HuggingFace e Lotes Inteligentes e Validação Cruzada para todos os Folds

Com base no modelo BERT pré-treinado realiza o ajuste fino para os dados CSTNews para classificar documentos coerentes e incoerentes.

- Realiza o ajuste fino nos dados de CSTNEWS de Márcio Dias.
- Realiza a avaliação do conjunto de teste para um determinado fold(10%).
- A seção 2 - parametrização define os argumentos da execução.

Notebook base: https://colab.research.google.com/drive/1KDeFAHvRFq3bY5onzj8Wgul3rRcrQNaC?usp=sharing

----------------------------

**Link biblioteca Transformers:**
https://github.com/huggingface/transformers


**Artigo original BERT:**
https://arxiv.org/pdf/1506.06724.pdf

**Artigo padding dinâmico:**
https://towardsdatascience.com/divide-hugging-face-transformers-training-time-by-2-or-more-21bf7129db9q-21bf7129db9e

# 1 Preparação do ambiente
Preparação do ambiente para execução do notebook.

## 1.1 Tempo inicial de processamento

In [1]:
# Import das bibliotecas
import time
import datetime

# Marca o tempo de início do processamento
inicioProcessamento = time.time()

In [2]:
print("  Tempo de início de processamento:  {:} (h:mm:ss)".format(inicioProcessamento))

  Tempo de início de processamento:  1634027794.5626886 (h:mm:ss)


## 1.2 Tratamento de logs

In [3]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

## 1.3 Identificando o ambiente Colab

In [4]:
# Se estiver executando no Google Colaboratory
import sys

# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = 'google.colab' in sys.modules

## 1.4 Biblioteca de limpeza de tela

In [5]:
from IPython.display import clear_output

## 1.5 Conecta ao Google Drive

É necessário existir a pasta '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/Resultados/' para receber os resutlados do notebook.

In [6]:
# Monta o Google Drive para esta instância de notebook.
from google.colab import drive

drive.mount('/content/drive')

Mounted at /content/drive


## 1.6 Instalação do wandb

Instalação

In [7]:
!pip install --upgrade wandb

Collecting wandb
  Downloading wandb-0.12.4-py2.py3-none-any.whl (1.7 MB)
[K     |████████████████████████████████| 1.7 MB 12.8 MB/s 
[?25hCollecting subprocess32>=3.5.3
  Downloading subprocess32-3.5.4.tar.gz (97 kB)
[K     |████████████████████████████████| 97 kB 6.6 MB/s 
Collecting sentry-sdk>=1.0.0
  Downloading sentry_sdk-1.4.3-py2.py3-none-any.whl (139 kB)
[K     |████████████████████████████████| 139 kB 49.2 MB/s 
Collecting pathtools
  Downloading pathtools-0.1.2.tar.gz (11 kB)
Collecting shortuuid>=0.5.0
  Downloading shortuuid-1.0.1-py3-none-any.whl (7.5 kB)
Collecting GitPython>=1.0.0
  Downloading GitPython-3.1.24-py3-none-any.whl (180 kB)
[K     |████████████████████████████████| 180 kB 49.0 MB/s 
Collecting configparser>=3.8.1
  Downloading configparser-5.0.2-py3-none-any.whl (19 kB)
Collecting yaspin>=1.0.0
  Downloading yaspin-2.1.0-py3-none-any.whl (18 kB)
Collecting docker-pycreds>=0.4.0
  Downloading docker_pycreds-0.4.0-py2.py3-none-any.whl (9.0 kB)
Collecting

## 1.7 Instalação BERT da Hugging Face

Instala a interface pytorch para o BERT by Hugging Face. 

In [8]:
!pip install -U transformers==4.5.1

Collecting transformers==4.5.1
  Downloading transformers-4.5.1-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 12.8 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.46-py3-none-any.whl (895 kB)
[K     |████████████████████████████████| 895 kB 40.6 MB/s 
Collecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3 MB)
[K     |████████████████████████████████| 3.3 MB 49.9 MB/s 
Installing collected packages: tokenizers, sacremoses, transformers
Successfully installed sacremoses-0.0.46 tokenizers-0.10.3 transformers-4.5.1


## 1.8 Recupera o cohebert do Github

In [9]:
!git clone https://github.com/osmarbraz/cohebert_v1.git

Cloning into 'cohebert_v1'...
remote: Enumerating objects: 4786, done.[K
remote: Counting objects: 100% (418/418), done.[K
remote: Compressing objects: 100% (270/270), done.[K
remote: Total 4786 (delta 283), reused 260 (delta 143), pack-reused 4368[K
Receiving objects: 100% (4786/4786), 28.78 MiB | 10.51 MiB/s, done.
Resolving deltas: 100% (3037/3037), done.


In [10]:
#Muda o diretório corrente para a pasta clonada
import sys
sys.path.append('./cohebert_v1/cohebert')

In [11]:
# Import de bibliotecas
from util.utilmodulo import *
from util.utiltempo import *
from util.utilarquivo import *

## 1.9 Colaboratory

Usando Colab GPU para Treinamento


Uma GPU pode ser adicionada acessando o menu e selecionando:

`Edit -> Notebook Settings -> Hardware accelerator -> (GPU)`

Em seguida, execute a célula a seguir para confirmar que a GPU foi detectada.

In [12]:
# Importando a biblioteca
import tensorflow as tf

# Recupera o nome do dispositido da GPU.
device_name = tf.test.gpu_device_name()

# O nome do dispositivo deve ser parecido com o seguinte:
if device_name == '/device:GPU:0':
    print('Encontrei GPU em: {}'.format(device_name))
else:
    print('Dispositivo GPU não encontrado')
    #raise SystemError('Dispositivo GPU não encontrado')

Encontrei GPU em: /device:GPU:0


Nome da GPU

Para que a torch use a GPU, precisamos identificar e especificar a GPU como o dispositivo. Posteriormente, em nosso ciclo de treinamento, carregaremos os dados no dispositivo.

Vale a pena observar qual GPU você recebeu. A GPU Tesla V100 é muito mais rápido que as outras GPUs, abaixo uma lista ordenada:
- 1o Tesla V100-SXM2-16GB(Pro)
- 2o Tesla P100-PCIE-16GB
- 3o Tesla T4
- 4o Tesla P4 (Não tem memória para execução 4 lotes de treino x 8 lotes de avaliação, somente 2 x 4)
- 5o Tesla K80 (Não tem memória para execução 4 lotes de treino x 8 lotes de avaliação, somente 2 x 4)

In [13]:
# Biblioteca cohebert
from bert.bertmodulo import *

device = getDeviceGPU()

2021-10-12 08:38:12,830 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 08:38:27,886 : INFO : Iremos usar a GPU: Tesla K80.


# 2 Parametrização

In [14]:
# Biblioteca cohebert
from transformers import TrainingArguments

# Definição dos parâmetros de Treinamento.
training_args = TrainingArguments(
    # AjusteFinoCSTNews_v1_C_SB_KF = nome do notebook
    # E = número de épocas
    # lr = taxa de aprendizagem
    # b = lotes de treino e avaliação
    # f = número do fold
    output_dir = 'cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f',    
    save_steps = 0,    
    seed = 42,
    num_train_epochs = 1, # Intervalo de valores: 2, 3, 4
    learning_rate = 1e-5, # Intervalo de valores: 1e-5, 2e-5, 3e-5, 4e-5, 5e-5 
    gradient_accumulation_steps = 1,
    per_device_train_batch_size = 4, 
    per_device_eval_batch_size = 8,        
    evaluation_strategy = 'epoch'
)

# Import de bibliotecas
from bert.bertarguments import ModeloArgumentosClassificacao

# Definição dos parâmetros do Modelo
model_args = ModeloArgumentosClassificacao(     
    max_seq_len = 512,
    #pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip",
    pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip",    
    #pretrained_model_name_or_path = 'bert-base-multilingual-cased',
    do_lower_case = False,   # default True
    num_labels = 2,
    output_attentions = False,    # default False
    output_hidden_states = False, # default False 
    optimizer = 'AdamW',
    use_wandb = False,
    salvar_modelo_wandb = False,
    salvar_modelo = False,
    salvar_avaliacao = True, # Salva o resultado classificações
    salvar_classificacao = True, # Salva o resultado da avaliação das classificações
    fold = 1 # Intervalo de valores: 1 a 10, É utilizado somente para logs. Use as variáveis das últimas linhas de bloco para definir o intervalo de folds a serem gerados.
)

# Determina o intervalo de folds a ser avaliado
inicioFold = 1
fimFold = 10

# 3 BERT

## Carrega o modelo e tokenizador BERT

Lista de modelos da comunidade:
* https://huggingface.co/models

Português(https://github.com/neuralmind-ai/portuguese-bert):  
* **'neuralmind/bert-base-portuguese-cased'**
* **'neuralmind/bert-large-portuguese-cased'**

In [15]:
# Import de bibliotecas
from bert.bertmodulo import *

# Carrega o modelo e tokenizador do BERT
# model, tokenizer = carregaBERT(model_args)

# O BERT será carregado para cada fold

# 4.Wandb

https://wandb.ai/osmar-braz/ajustefinocstnews_v1_c_sb_kfold/table?workspace=user-osmar-braz


## Função de inicialização wandb

In [16]:
def inicializacaoWandb():

  if model_args.use_wandb:

    # Importando a biblioteca.
    import wandb

    #Login via linha de comando
    !wandb login aded3bc0ea651fff536cc08ba69caf8ac4141cfd

    # Inicializando o registro do experimento.
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project="ajustefinocstnews_v1_c_sb_kfold", name=training_args.output_dir + str(model_args.fold))

    # Atualiza os parâmetros do modelo no wandb.
    wandb.config.update(model_args)
    # Atualiza os parâmetros de treinamento no wandb.
    wandb.config.update(training_args)

    # Registra os parämetros não literais do model_args.
    wandb.log({"max_seq_len": model_args.max_seq_len})
    wandb.log({"do_lower_case": model_args.do_lower_case})
    wandb.log({"output_hidden_states": model_args.output_hidden_states})    
    wandb.log({"fold": model_args.fold})

    return wandb

# 5 Treinamento e avaliação

Treinando e avaliando o conjunto de dados.

## 5.1 Execução do treinamento e avaliação de todos os Folds

In [17]:
# Import das bibliotecas
import time
import datetime

# Biblioteca cohebert
from bert.bertmodulo import *
from conjuntodedados.dadoscstnewsclassificacaokfold import *
from experimento.classificacaobinaria  import *
from experimento.classificacaobinariakfold import *

# Percorre todos os folds do intervalo de inicioFold até fimFold
for ifold in range(inicioFold, fimFold+1):

  # Seta o parâmetro do fold
  model_args.fold = ifold
  print("\nProcessamendo do fold: {}".format(model_args.fold))
  
  # Marca o tempo de início do processamento
  inicioProcessamentof = time.time()

  print("  Tempo de início de processamento fold:  {:} (h:mm:ss)".format(formataTempo(inicioProcessamentof)))

  # Carrega o modelo e tokenizador do BERT
  model, tokenizer = carregaBERT(model_args)

  # Inicializa o wandb para registro
  wandb = inicializacaoWandb()

  # Função de carregamento dos dados de um fold
  dfdados_train, dfdados_test = getConjuntoDeDadosClassificacaoFold(model_args, tokenizer, ORIGEM=None)

  # Pega as listas de documentos de treino e seus rótulos.
  documentos_treino = dfdados_train.documento.values
  classes_treino = dfdados_train.classe.values
  documentoids_treino = dfdados_train.id.values

  # Pega as listas de documentos teste e seus rótulos.
  documentos_teste = dfdados_test.documento.values
  classes_teste = dfdados_test.classe.values
  documentoids_teste = dfdados_test.id.values

  # Mostra o resultado dos dados carregados.
  print("Total do conjunto de dados          : {}.".format(len(documentos_treino) + len(documentos_teste)))
  print("Total do conjunto de dados de treino: {}.".format(len(documentos_treino)))
  print("Total do conjunto de dados de teste : {}.".format(len(documentos_teste)))

  #################  Treinamento

  # Registra o tempo inicial.
  treinamento_t0 = time.time()

  # Realiza o treinamento.
  model = realizaTreinamento(model_args, training_args, model, tokenizer, documentos_treino, classes_treino, documentoids_treino, wandb)
  
  # Medida de quanto tempo levou a execução do treinamento.
  treinamento_total = formataTempo(time.time() - treinamento_t0)

  print("  Tempo total treinamento       : {:}".format(treinamento_total))
  
  #################  Treinamento

  ################# Avaliação

  # Registra o tempo inicial.
  avaliacao_t0 = time.time()

  # Realiza a avaliação do modelo.
  media_test_loss, acc, rec, pre, f1, vp_s, vn_s, fp_s, fn_s, lista_resultado_avaliacao = realizaAvaliacao(model_args, training_args, model, tokenizer, documentos_teste, classes_teste, documentoids_teste, wandb)

  print('Avaliação loss: {:.8f}; Acc: {:.8f}; Rec: {:.8f}; Pre: {:.8f}, F1:{:.8f}, vp: {:3d}; vn: {:3d}; fp: {:3d}; fn: {:3d}'.format( 
        media_test_loss, acc, rec, pre, f1, vp_s, vn_s, fp_s, fn_s))      
    
  print("Acurácia do fold {}        : {:.8f}".format(model_args.fold, acc))  

  # Medida de quanto tempo levou a execução do treinamento e avaliação
  avaliacao_total = formataTempo(time.time() - avaliacao_t0)

  print("Tempo gasto na avaliação  : {:}".format(avaliacao_total))

  ################# Avaliação

  # Salva o resultado da classificação  
  # Diretório para salvar o arquivo de classificação.
  DIRETORIO_CLASSIFICACAO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/"
  salvaResultadoClassificacao(model_args, training_args, DIRETORIO_CLASSIFICACAO, lista_resultado_avaliacao)
  
  # Salva o resultado da avaliação
  # Diretório para salvar o arquivo.
  DIRETORIO_AVALIACAO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/"  
  salvaResultadoAvaliacao(model_args, training_args, DIRETORIO_AVALIACAO, acc, rec, pre, f1, vp_s, vn_s, fp_s, fn_s, treinamento_total)
  
  # Apaga os dados
  del dfdados_train
  del dfdados_test
  del documentos_treino
  del classes_treino
  del documentoids_treino
  del documentos_teste
  del classes_teste
  del documentoids_teste
  del lista_resultado_avaliacao  
  del model

  # Pega o tempo atual menos o tempo do início do processamento.
  finalProcessamentof = time.time()
  tempoTotalProcessamentof = formataTempo(finalProcessamentof - inicioProcessamentof)

  print("")
  print("Tempo processamento fold: {:} (h:mm:ss)".format(tempoTotalProcessamentof))


Processamendo do fold: 1
  Tempo de início de processamento fold:  18912 days, 8:38:29 (h:mm:ss)


2021-10-12 08:38:29,290 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-12 08:38:48,756 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-12 08:38:49,147 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-12 08:38:49,205 : INFO : Usando modelo BERT pré-treinado.
2021-10-12 08:38:49,206 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.


Épocas:   0%|          | 0/1 [00:00<?, ?épocas/s]

2021-10-12 08:39:28,206 : INFO : Tokenizando 8,964 amostra.
2021-10-12 08:39:59,346 : INFO : Tokenização concluída.
2021-10-12 08:39:59,347 : INFO :      8,964 amostras.
2021-10-12 08:39:59,362 : INFO :      8,964 amostras após classificação.
2021-10-12 08:39:59,364 : INFO : Criando lotes de tamanho 4.
2021-10-12 08:39:59,383 : INFO : Lote criado - Selecionado 2,241 lotes.


Epoca 1:   0%|          | 0/2241 [00:00<?, ?lotes/s]

2021-10-12 08:54:46,038 : INFO :   Média perda(loss) do treinamento da época : 0.31837873.
2021-10-12 08:54:46,048 : INFO :   Tempo de treinamento da época             : 0:14:46.
2021-10-12 08:54:46,050 : INFO :   Tempo parcial do treinamento              : 0:15:18 (h:mm:ss).
2021-10-12 08:54:46,063 : INFO :   Média perda(loss) treinamento : 0.31837873.
2021-10-12 08:54:46,074 : INFO : Treinamento completo!
2021-10-12 08:54:46,078 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 08:54:46,080 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-12 08:54:46,083 : INFO : Realizando Avaliação fold: 1.
2021-10-12 08:54:46,085 : INFO : Predizendo rótulos para 996 documentos de teste.
2021-10-12 08:54:46,088 : INFO : Tokenizando 996 amostra.


  Tempo total treinamento       : 0:15:18


2021-10-12 08:54:49,536 : INFO : Tokenização concluída.
2021-10-12 08:54:49,538 : INFO :        996 amostras.
2021-10-12 08:54:49,543 : INFO :        996 amostras após classificação.
2021-10-12 08:54:49,546 : INFO : Criando lotes de tamanho 8.
2021-10-12 08:54:49,550 : INFO : Lote criado - Selecionado 125 lotes.


Lotes :   0%|          | 0/125 [00:00<?, ?lotes/s]

Avaliação loss: 0.17629199; Acc: 0.96084337; Rec: 1.00000000; Pre: 0.92737430, F1:0.96231884, vp: 498; vn: 459; fp:  39; fn:   0
Acurácia do fold 1        : 0.96084337
Tempo gasto na avaliação  : 0:00:33


2021-10-12 08:55:20,974 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/.
2021-10-12 08:55:25,407 : INFO : Atualizando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f1_BERTimbau_base.csv.
2021-10-12 08:55:25,947 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/.
2021-10-12 08:55:29,159 : INFO : Atualizando arquivo resultado: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f1_BERTimbau_base.csv.
2021-10-12 08:55:29,673 : INFO : Apagando diretório existente do modelo!



Tempo processamento fold: 0:17:01 (h:mm:ss)

Processamendo do fold: 2
  Tempo de início de processamento fold:  18912 days, 8:55:30 (h:mm:ss)


2021-10-12 08:55:30,243 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-12 08:55:51,101 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-12 08:55:51,478 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-12 08:55:51,542 : INFO : Usando modelo BERT pré-treinado.
2021-10-12 08:55:51,543 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.


Épocas:   0%|          | 0/1 [00:00<?, ?épocas/s]

2021-10-12 08:56:30,082 : INFO : Tokenizando 8,964 amostra.
2021-10-12 08:57:01,288 : INFO : Tokenização concluída.
2021-10-12 08:57:01,290 : INFO :      8,964 amostras.
2021-10-12 08:57:01,310 : INFO :      8,964 amostras após classificação.
2021-10-12 08:57:01,311 : INFO : Criando lotes de tamanho 4.
2021-10-12 08:57:01,330 : INFO : Lote criado - Selecionado 2,241 lotes.


Epoca 1:   0%|          | 0/2241 [00:00<?, ?lotes/s]

2021-10-12 09:11:47,856 : INFO :   Média perda(loss) do treinamento da época : 0.33769834.
2021-10-12 09:11:47,865 : INFO :   Tempo de treinamento da época             : 0:14:46.
2021-10-12 09:11:47,868 : INFO :   Tempo parcial do treinamento              : 0:15:18 (h:mm:ss).
2021-10-12 09:11:47,883 : INFO :   Média perda(loss) treinamento : 0.33769834.
2021-10-12 09:11:47,901 : INFO : Treinamento completo!
2021-10-12 09:11:47,905 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 09:11:47,908 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-12 09:11:47,910 : INFO : Realizando Avaliação fold: 2.
2021-10-12 09:11:47,913 : INFO : Predizendo rótulos para 996 documentos de teste.
2021-10-12 09:11:47,916 : INFO : Tokenizando 996 amostra.


  Tempo total treinamento       : 0:15:19


2021-10-12 09:11:51,404 : INFO : Tokenização concluída.
2021-10-12 09:11:51,410 : INFO :        996 amostras.
2021-10-12 09:11:51,412 : INFO :        996 amostras após classificação.
2021-10-12 09:11:51,418 : INFO : Criando lotes de tamanho 8.
2021-10-12 09:11:51,420 : INFO : Lote criado - Selecionado 125 lotes.


Lotes :   0%|          | 0/125 [00:00<?, ?lotes/s]

2021-10-12 09:12:20,756 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/.
2021-10-12 09:12:20,765 : INFO : Atualizando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f2_BERTimbau_base.csv.


Avaliação loss: 0.22517974; Acc: 0.95180723; Rec: 0.98795181; Pre: 0.92134831, F1:0.95348837, vp: 492; vn: 456; fp:  42; fn:   6
Acurácia do fold 2        : 0.95180723
Tempo gasto na avaliação  : 0:00:33


2021-10-12 09:12:21,424 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/.
2021-10-12 09:12:21,430 : INFO : Atualizando arquivo resultado: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f2_BERTimbau_base.csv.
2021-10-12 09:12:21,928 : INFO : Apagando diretório existente do modelo!



Tempo processamento fold: 0:16:52 (h:mm:ss)

Processamendo do fold: 3
  Tempo de início de processamento fold:  18912 days, 9:12:22 (h:mm:ss)


2021-10-12 09:12:22,529 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-12 09:12:43,943 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-12 09:12:44,333 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-12 09:12:44,402 : INFO : Usando modelo BERT pré-treinado.
2021-10-12 09:12:44,404 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.


Épocas:   0%|          | 0/1 [00:00<?, ?épocas/s]

2021-10-12 09:13:23,116 : INFO : Tokenizando 8,964 amostra.
2021-10-12 09:13:54,337 : INFO : Tokenização concluída.
2021-10-12 09:13:54,338 : INFO :      8,964 amostras.
2021-10-12 09:13:54,588 : INFO :      8,964 amostras após classificação.
2021-10-12 09:13:54,595 : INFO : Criando lotes de tamanho 4.
2021-10-12 09:13:54,612 : INFO : Lote criado - Selecionado 2,241 lotes.


Epoca 1:   0%|          | 0/2241 [00:00<?, ?lotes/s]

2021-10-12 09:28:40,118 : INFO :   Média perda(loss) do treinamento da época : 0.34449146.
2021-10-12 09:28:40,120 : INFO :   Tempo de treinamento da época             : 0:14:45.
2021-10-12 09:28:40,126 : INFO :   Tempo parcial do treinamento              : 0:15:18 (h:mm:ss).
2021-10-12 09:28:40,146 : INFO :   Média perda(loss) treinamento : 0.34449146.
2021-10-12 09:28:40,149 : INFO : Treinamento completo!
2021-10-12 09:28:40,152 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 09:28:40,155 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-12 09:28:40,157 : INFO : Realizando Avaliação fold: 3.
2021-10-12 09:28:40,160 : INFO : Predizendo rótulos para 996 documentos de teste.
2021-10-12 09:28:40,163 : INFO : Tokenizando 996 amostra.


  Tempo total treinamento       : 0:15:18


2021-10-12 09:28:43,700 : INFO : Tokenização concluída.
2021-10-12 09:28:43,701 : INFO :        996 amostras.
2021-10-12 09:28:43,704 : INFO :        996 amostras após classificação.
2021-10-12 09:28:43,707 : INFO : Criando lotes de tamanho 8.
2021-10-12 09:28:43,712 : INFO : Lote criado - Selecionado 125 lotes.


Lotes :   0%|          | 0/125 [00:00<?, ?lotes/s]

2021-10-12 09:29:13,300 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/.
2021-10-12 09:29:13,317 : INFO : Atualizando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f3_BERTimbau_base.csv.


Avaliação loss: 0.22158452; Acc: 0.94678715; Rec: 1.00000000; Pre: 0.90381125, F1:0.94947569, vp: 498; vn: 445; fp:  53; fn:   0
Acurácia do fold 3        : 0.94678715
Tempo gasto na avaliação  : 0:00:33


2021-10-12 09:29:13,775 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/.
2021-10-12 09:29:13,777 : INFO : Atualizando arquivo resultado: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f3_BERTimbau_base.csv.
2021-10-12 09:29:14,273 : INFO : Apagando diretório existente do modelo!



Tempo processamento fold: 0:16:52 (h:mm:ss)

Processamendo do fold: 4
  Tempo de início de processamento fold:  18912 days, 9:29:14 (h:mm:ss)


2021-10-12 09:29:14,875 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-12 09:29:35,976 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-12 09:29:36,356 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-12 09:29:36,421 : INFO : Usando modelo BERT pré-treinado.
2021-10-12 09:29:36,423 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.


Épocas:   0%|          | 0/1 [00:00<?, ?épocas/s]

2021-10-12 09:30:14,954 : INFO : Tokenizando 8,964 amostra.
2021-10-12 09:30:46,002 : INFO : Tokenização concluída.
2021-10-12 09:30:46,004 : INFO :      8,964 amostras.
2021-10-12 09:30:46,024 : INFO :      8,964 amostras após classificação.
2021-10-12 09:30:46,025 : INFO : Criando lotes de tamanho 4.
2021-10-12 09:30:46,047 : INFO : Lote criado - Selecionado 2,241 lotes.


Epoca 1:   0%|          | 0/2241 [00:00<?, ?lotes/s]

2021-10-12 09:45:32,822 : INFO :   Média perda(loss) do treinamento da época : 0.34913546.
2021-10-12 09:45:32,833 : INFO :   Tempo de treinamento da época             : 0:14:46.
2021-10-12 09:45:32,842 : INFO :   Tempo parcial do treinamento              : 0:15:19 (h:mm:ss).
2021-10-12 09:45:32,858 : INFO :   Média perda(loss) treinamento : 0.34913546.
2021-10-12 09:45:32,864 : INFO : Treinamento completo!
2021-10-12 09:45:32,869 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 09:45:32,872 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-12 09:45:32,873 : INFO : Realizando Avaliação fold: 4.
2021-10-12 09:45:32,875 : INFO : Predizendo rótulos para 996 documentos de teste.
2021-10-12 09:45:32,877 : INFO : Tokenizando 996 amostra.


  Tempo total treinamento       : 0:15:19


2021-10-12 09:45:36,358 : INFO : Tokenização concluída.
2021-10-12 09:45:36,360 : INFO :        996 amostras.
2021-10-12 09:45:36,362 : INFO :        996 amostras após classificação.
2021-10-12 09:45:36,368 : INFO : Criando lotes de tamanho 8.
2021-10-12 09:45:36,373 : INFO : Lote criado - Selecionado 125 lotes.


Lotes :   0%|          | 0/125 [00:00<?, ?lotes/s]

2021-10-12 09:46:05,856 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/.
2021-10-12 09:46:05,870 : INFO : Atualizando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f4_BERTimbau_base.csv.


Avaliação loss: 0.23268313; Acc: 0.94176707; Rec: 0.99196787; Pre: 0.90145985, F1:0.94455067, vp: 494; vn: 444; fp:  54; fn:   4
Acurácia do fold 4        : 0.94176707
Tempo gasto na avaliação  : 0:00:33


2021-10-12 09:46:06,362 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/.
2021-10-12 09:46:06,376 : INFO : Atualizando arquivo resultado: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f4_BERTimbau_base.csv.
2021-10-12 09:46:06,868 : INFO : Apagando diretório existente do modelo!



Tempo processamento fold: 0:16:53 (h:mm:ss)

Processamendo do fold: 5
  Tempo de início de processamento fold:  18912 days, 9:46:07 (h:mm:ss)


2021-10-12 09:46:07,444 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-12 09:46:27,971 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-12 09:46:28,349 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-12 09:46:28,422 : INFO : Usando modelo BERT pré-treinado.
2021-10-12 09:46:28,424 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.


Épocas:   0%|          | 0/1 [00:00<?, ?épocas/s]

2021-10-12 09:47:07,124 : INFO : Tokenizando 8,964 amostra.
2021-10-12 09:47:38,232 : INFO : Tokenização concluída.
2021-10-12 09:47:38,234 : INFO :      8,964 amostras.
2021-10-12 09:47:38,252 : INFO :      8,964 amostras após classificação.
2021-10-12 09:47:38,255 : INFO : Criando lotes de tamanho 4.
2021-10-12 09:47:38,279 : INFO : Lote criado - Selecionado 2,241 lotes.


Epoca 1:   0%|          | 0/2241 [00:00<?, ?lotes/s]

2021-10-12 10:02:28,602 : INFO :   Média perda(loss) do treinamento da época : 0.38959993.
2021-10-12 10:02:28,607 : INFO :   Tempo de treinamento da época             : 0:14:50.
2021-10-12 10:02:28,609 : INFO :   Tempo parcial do treinamento              : 0:15:22 (h:mm:ss).
2021-10-12 10:02:28,627 : INFO :   Média perda(loss) treinamento : 0.38959993.
2021-10-12 10:02:28,630 : INFO : Treinamento completo!
2021-10-12 10:02:28,634 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 10:02:28,636 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-12 10:02:28,638 : INFO : Realizando Avaliação fold: 5.
2021-10-12 10:02:28,640 : INFO : Predizendo rótulos para 996 documentos de teste.
2021-10-12 10:02:28,642 : INFO : Tokenizando 996 amostra.


  Tempo total treinamento       : 0:15:22


2021-10-12 10:02:32,162 : INFO : Tokenização concluída.
2021-10-12 10:02:32,165 : INFO :        996 amostras.
2021-10-12 10:02:32,175 : INFO :        996 amostras após classificação.
2021-10-12 10:02:32,176 : INFO : Criando lotes de tamanho 8.
2021-10-12 10:02:32,181 : INFO : Lote criado - Selecionado 125 lotes.


Lotes :   0%|          | 0/125 [00:00<?, ?lotes/s]

2021-10-12 10:03:01,800 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/.
2021-10-12 10:03:01,814 : INFO : Atualizando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f5_BERTimbau_base.csv.


Avaliação loss: 0.30154023; Acc: 0.92771084; Rec: 1.00000000; Pre: 0.87368421, F1:0.93258427, vp: 498; vn: 426; fp:  72; fn:   0
Acurácia do fold 5        : 0.92771084
Tempo gasto na avaliação  : 0:00:33


2021-10-12 10:03:02,325 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/.
2021-10-12 10:03:02,341 : INFO : Atualizando arquivo resultado: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f5_BERTimbau_base.csv.
2021-10-12 10:03:02,928 : INFO : Apagando diretório existente do modelo!



Tempo processamento fold: 0:16:56 (h:mm:ss)

Processamendo do fold: 6
  Tempo de início de processamento fold:  18912 days, 10:03:03 (h:mm:ss)


2021-10-12 10:03:03,513 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-12 10:03:24,313 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-12 10:03:24,698 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-12 10:03:24,769 : INFO : Usando modelo BERT pré-treinado.
2021-10-12 10:03:24,770 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.


Épocas:   0%|          | 0/1 [00:00<?, ?épocas/s]

2021-10-12 10:04:03,816 : INFO : Tokenizando 8,964 amostra.
2021-10-12 10:04:35,038 : INFO : Tokenização concluída.
2021-10-12 10:04:35,040 : INFO :      8,964 amostras.
2021-10-12 10:04:35,071 : INFO :      8,964 amostras após classificação.
2021-10-12 10:04:35,072 : INFO : Criando lotes de tamanho 4.
2021-10-12 10:04:35,096 : INFO : Lote criado - Selecionado 2,241 lotes.


Epoca 1:   0%|          | 0/2241 [00:00<?, ?lotes/s]

2021-10-12 10:19:25,632 : INFO :   Média perda(loss) do treinamento da época : 0.34882351.
2021-10-12 10:19:25,636 : INFO :   Tempo de treinamento da época             : 0:14:50.
2021-10-12 10:19:25,642 : INFO :   Tempo parcial do treinamento              : 0:15:22 (h:mm:ss).
2021-10-12 10:19:25,662 : INFO :   Média perda(loss) treinamento : 0.34882351.
2021-10-12 10:19:25,671 : INFO : Treinamento completo!
2021-10-12 10:19:25,675 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 10:19:25,677 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-12 10:19:25,679 : INFO : Realizando Avaliação fold: 6.
2021-10-12 10:19:25,685 : INFO : Predizendo rótulos para 996 documentos de teste.
2021-10-12 10:19:25,695 : INFO : Tokenizando 996 amostra.


  Tempo total treinamento       : 0:15:23


2021-10-12 10:19:29,214 : INFO : Tokenização concluída.
2021-10-12 10:19:29,215 : INFO :        996 amostras.
2021-10-12 10:19:29,217 : INFO :        996 amostras após classificação.
2021-10-12 10:19:29,223 : INFO : Criando lotes de tamanho 8.
2021-10-12 10:19:29,230 : INFO : Lote criado - Selecionado 125 lotes.


Lotes :   0%|          | 0/125 [00:00<?, ?lotes/s]

2021-10-12 10:19:58,841 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/.
2021-10-12 10:19:58,860 : INFO : Atualizando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f6_BERTimbau_base.csv.


Avaliação loss: 0.28072817; Acc: 0.94176707; Rec: 0.98594378; Pre: 0.90590406, F1:0.94423077, vp: 491; vn: 447; fp:  51; fn:   7
Acurácia do fold 6        : 0.94176707
Tempo gasto na avaliação  : 0:00:33


2021-10-12 10:19:59,335 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/.
2021-10-12 10:19:59,343 : INFO : Atualizando arquivo resultado: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f6_BERTimbau_base.csv.
2021-10-12 10:19:59,799 : INFO : Apagando diretório existente do modelo!



Tempo processamento fold: 0:16:57 (h:mm:ss)

Processamendo do fold: 7
  Tempo de início de processamento fold:  18912 days, 10:20:00 (h:mm:ss)


2021-10-12 10:20:00,369 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-12 10:20:33,106 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-12 10:20:33,493 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-12 10:20:33,616 : INFO : Usando modelo BERT pré-treinado.
2021-10-12 10:20:33,619 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.


Épocas:   0%|          | 0/1 [00:00<?, ?épocas/s]

2021-10-12 10:21:12,301 : INFO : Tokenizando 8,964 amostra.
2021-10-12 10:21:43,215 : INFO : Tokenização concluída.
2021-10-12 10:21:43,217 : INFO :      8,964 amostras.
2021-10-12 10:21:43,242 : INFO :      8,964 amostras após classificação.
2021-10-12 10:21:43,244 : INFO : Criando lotes de tamanho 4.
2021-10-12 10:21:43,266 : INFO : Lote criado - Selecionado 2,241 lotes.


Epoca 1:   0%|          | 0/2241 [00:00<?, ?lotes/s]

2021-10-12 10:36:31,384 : INFO :   Média perda(loss) do treinamento da época : 0.34888404.
2021-10-12 10:36:31,393 : INFO :   Tempo de treinamento da época             : 0:14:48.
2021-10-12 10:36:31,396 : INFO :   Tempo parcial do treinamento              : 0:15:20 (h:mm:ss).
2021-10-12 10:36:31,418 : INFO :   Média perda(loss) treinamento : 0.34888404.
2021-10-12 10:36:31,426 : INFO : Treinamento completo!
2021-10-12 10:36:31,432 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 10:36:31,435 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-12 10:36:31,439 : INFO : Realizando Avaliação fold: 7.
2021-10-12 10:36:31,441 : INFO : Predizendo rótulos para 996 documentos de teste.
2021-10-12 10:36:31,445 : INFO : Tokenizando 996 amostra.


  Tempo total treinamento       : 0:15:20


2021-10-12 10:36:35,035 : INFO : Tokenização concluída.
2021-10-12 10:36:35,037 : INFO :        996 amostras.
2021-10-12 10:36:35,047 : INFO :        996 amostras após classificação.
2021-10-12 10:36:35,049 : INFO : Criando lotes de tamanho 8.
2021-10-12 10:36:35,056 : INFO : Lote criado - Selecionado 125 lotes.


Lotes :   0%|          | 0/125 [00:00<?, ?lotes/s]

2021-10-12 10:37:05,115 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/.
2021-10-12 10:37:05,134 : INFO : Atualizando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f7_BERTimbau_base.csv.


Avaliação loss: 0.30045545; Acc: 0.93273092; Rec: 0.99397590; Pre: 0.88550984, F1:0.93661306, vp: 495; vn: 434; fp:  64; fn:   3
Acurácia do fold 7        : 0.93273092
Tempo gasto na avaliação  : 0:00:34


2021-10-12 10:37:05,652 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/.
2021-10-12 10:37:05,663 : INFO : Atualizando arquivo resultado: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f7_BERTimbau_base.csv.
2021-10-12 10:37:06,124 : INFO : Apagando diretório existente do modelo!



Tempo processamento fold: 0:17:06 (h:mm:ss)

Processamendo do fold: 8
  Tempo de início de processamento fold:  18912 days, 10:37:06 (h:mm:ss)


2021-10-12 10:37:06,701 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-12 10:37:27,960 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-12 10:37:28,347 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-12 10:37:28,414 : INFO : Usando modelo BERT pré-treinado.
2021-10-12 10:37:28,416 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.


Épocas:   0%|          | 0/1 [00:00<?, ?épocas/s]

2021-10-12 10:38:07,440 : INFO : Tokenizando 8,964 amostra.
2021-10-12 10:38:38,721 : INFO : Tokenização concluída.
2021-10-12 10:38:38,722 : INFO :      8,964 amostras.
2021-10-12 10:38:38,741 : INFO :      8,964 amostras após classificação.
2021-10-12 10:38:38,747 : INFO : Criando lotes de tamanho 4.
2021-10-12 10:38:38,770 : INFO : Lote criado - Selecionado 2,241 lotes.


Epoca 1:   0%|          | 0/2241 [00:00<?, ?lotes/s]

2021-10-12 10:53:26,638 : INFO :   Média perda(loss) do treinamento da época : 0.35429034.
2021-10-12 10:53:26,647 : INFO :   Tempo de treinamento da época             : 0:14:47.
2021-10-12 10:53:26,653 : INFO :   Tempo parcial do treinamento              : 0:15:20 (h:mm:ss).
2021-10-12 10:53:26,668 : INFO :   Média perda(loss) treinamento : 0.35429034.
2021-10-12 10:53:26,671 : INFO : Treinamento completo!
2021-10-12 10:53:26,679 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 10:53:26,682 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-12 10:53:26,684 : INFO : Realizando Avaliação fold: 8.
2021-10-12 10:53:26,690 : INFO : Predizendo rótulos para 996 documentos de teste.
2021-10-12 10:53:26,699 : INFO : Tokenizando 996 amostra.


  Tempo total treinamento       : 0:15:20


2021-10-12 10:53:30,176 : INFO : Tokenização concluída.
2021-10-12 10:53:30,180 : INFO :        996 amostras.
2021-10-12 10:53:30,184 : INFO :        996 amostras após classificação.
2021-10-12 10:53:30,187 : INFO : Criando lotes de tamanho 8.
2021-10-12 10:53:30,191 : INFO : Lote criado - Selecionado 125 lotes.


Lotes :   0%|          | 0/125 [00:00<?, ?lotes/s]

2021-10-12 10:53:59,762 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/.
2021-10-12 10:53:59,785 : INFO : Atualizando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f8_BERTimbau_base.csv.


Avaliação loss: 0.32802413; Acc: 0.92269076; Rec: 0.95582329; Pre: 0.89642185, F1:0.92517007, vp: 476; vn: 443; fp:  55; fn:  22
Acurácia do fold 8        : 0.92269076
Tempo gasto na avaliação  : 0:00:33


2021-10-12 10:54:00,332 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/.
2021-10-12 10:54:00,340 : INFO : Atualizando arquivo resultado: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f8_BERTimbau_base.csv.
2021-10-12 10:54:00,778 : INFO : Apagando diretório existente do modelo!



Tempo processamento fold: 0:16:55 (h:mm:ss)

Processamendo do fold: 9
  Tempo de início de processamento fold:  18912 days, 10:54:01 (h:mm:ss)


2021-10-12 10:54:01,351 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-12 10:54:21,340 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-12 10:54:21,716 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-12 10:54:21,792 : INFO : Usando modelo BERT pré-treinado.
2021-10-12 10:54:21,794 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.


Épocas:   0%|          | 0/1 [00:00<?, ?épocas/s]

2021-10-12 10:55:00,424 : INFO : Tokenizando 8,964 amostra.
2021-10-12 10:55:31,324 : INFO : Tokenização concluída.
2021-10-12 10:55:31,326 : INFO :      8,964 amostras.
2021-10-12 10:55:31,348 : INFO :      8,964 amostras após classificação.
2021-10-12 10:55:31,349 : INFO : Criando lotes de tamanho 4.
2021-10-12 10:55:31,379 : INFO : Lote criado - Selecionado 2,241 lotes.


Epoca 1:   0%|          | 0/2241 [00:00<?, ?lotes/s]

2021-10-12 11:10:20,144 : INFO :   Média perda(loss) do treinamento da época : 0.34691441.
2021-10-12 11:10:20,150 : INFO :   Tempo de treinamento da época             : 0:14:48.
2021-10-12 11:10:20,154 : INFO :   Tempo parcial do treinamento              : 0:15:20 (h:mm:ss).
2021-10-12 11:10:20,175 : INFO :   Média perda(loss) treinamento : 0.34691441.
2021-10-12 11:10:20,179 : INFO : Treinamento completo!
2021-10-12 11:10:20,185 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 11:10:20,188 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-12 11:10:20,190 : INFO : Realizando Avaliação fold: 9.
2021-10-12 11:10:20,191 : INFO : Predizendo rótulos para 996 documentos de teste.
2021-10-12 11:10:20,193 : INFO : Tokenizando 996 amostra.


  Tempo total treinamento       : 0:15:20


2021-10-12 11:10:23,734 : INFO : Tokenização concluída.
2021-10-12 11:10:23,737 : INFO :        996 amostras.
2021-10-12 11:10:23,740 : INFO :        996 amostras após classificação.
2021-10-12 11:10:23,745 : INFO : Criando lotes de tamanho 8.
2021-10-12 11:10:23,758 : INFO : Lote criado - Selecionado 125 lotes.


Lotes :   0%|          | 0/125 [00:00<?, ?lotes/s]

2021-10-12 11:10:53,499 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/.
2021-10-12 11:10:53,520 : INFO : Criando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f9_BERTimbau_base.csv.
2021-10-12 11:10:53,539 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/.
2021-10-12 11:10:53,546 : INFO : Criando arquivo resultado: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f9_BERTimbau_base.csv.
2021-10-12 11:10:53,561 : INFO : Apagando diretório existente do modelo!


Avaliação loss: 0.24035900; Acc: 0.94578313; Rec: 0.99598394; Pre: 0.90510949, F1:0.94837476, vp: 496; vn: 446; fp:  52; fn:   2
Acurácia do fold 9        : 0.94578313
Tempo gasto na avaliação  : 0:00:33

Tempo processamento fold: 0:16:53 (h:mm:ss)

Processamendo do fold: 10
  Tempo de início de processamento fold:  18912 days, 11:10:54 (h:mm:ss)


2021-10-12 11:10:54,126 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-12 11:11:15,051 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-12 11:11:15,433 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-12 11:11:15,506 : INFO : Usando modelo BERT pré-treinado.
2021-10-12 11:11:15,508 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 8964.
Total do conjunto de dados de teste : 996.


Épocas:   0%|          | 0/1 [00:00<?, ?épocas/s]

2021-10-12 11:11:54,651 : INFO : Tokenizando 8,964 amostra.
2021-10-12 11:12:25,773 : INFO : Tokenização concluída.
2021-10-12 11:12:25,774 : INFO :      8,964 amostras.
2021-10-12 11:12:26,353 : INFO :      8,964 amostras após classificação.
2021-10-12 11:12:26,355 : INFO : Criando lotes de tamanho 4.
2021-10-12 11:12:26,379 : INFO : Lote criado - Selecionado 2,241 lotes.


Epoca 1:   0%|          | 0/2241 [00:00<?, ?lotes/s]

2021-10-12 11:27:13,304 : INFO :   Média perda(loss) do treinamento da época : 0.35850091.
2021-10-12 11:27:13,313 : INFO :   Tempo de treinamento da época             : 0:14:47.
2021-10-12 11:27:13,316 : INFO :   Tempo parcial do treinamento              : 0:15:19 (h:mm:ss).
2021-10-12 11:27:13,335 : INFO :   Média perda(loss) treinamento : 0.35850091.
2021-10-12 11:27:13,338 : INFO : Treinamento completo!
2021-10-12 11:27:13,343 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-12 11:27:13,346 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-12 11:27:13,348 : INFO : Realizando Avaliação fold: 10.
2021-10-12 11:27:13,350 : INFO : Predizendo rótulos para 996 documentos de teste.
2021-10-12 11:27:13,352 : INFO : Tokenizando 996 amostra.


  Tempo total treinamento       : 0:15:19


2021-10-12 11:27:16,922 : INFO : Tokenização concluída.
2021-10-12 11:27:16,926 : INFO :        996 amostras.
2021-10-12 11:27:16,930 : INFO :        996 amostras após classificação.
2021-10-12 11:27:16,932 : INFO : Criando lotes de tamanho 8.
2021-10-12 11:27:16,936 : INFO : Lote criado - Selecionado 125 lotes.


Lotes :   0%|          | 0/125 [00:00<?, ?lotes/s]

2021-10-12 11:27:46,840 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/.
2021-10-12 11:27:46,854 : INFO : Criando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Classificacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f10_BERTimbau_base.csv.
2021-10-12 11:27:46,882 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/.
2021-10-12 11:27:46,890 : INFO : Criando arquivo resultado: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f10_BERTimbau_base.csv.


Avaliação loss: 0.16585237; Acc: 0.95983936; Rec: 0.99196787; Pre: 0.93207547, F1:0.96108949, vp: 494; vn: 462; fp:  36; fn:   4
Acurácia do fold 10        : 0.95983936
Tempo gasto na avaliação  : 0:00:33

Tempo processamento fold: 0:16:53 (h:mm:ss)


### Carrega e calcula a acurácia médias das execuções


In [18]:
# Biblioteca cohebert
from experimento.classificacaobinariakfold import *

# Diretório para salvar o arquivo.
DIRETORIO_AVALIACAO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/Avaliacao/"

carregaResultadoAvaliacao(model_args, training_args, DIRETORIO_AVALIACAO)

2021-10-12 11:27:46,923 : INFO : Média dos arquivos: cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f X _base.
2021-10-12 11:27:46,941 : INFO : Arquivo: cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f1_BERTimbau_base, Data: 18/09/2021 00:21, Tempo: 0:14:20, QtdeTeste: 996, Acc: 0.95080321, Rec: 0.97389558, Pre: 0.93090211, F1:0.95191364, vp:  485; vn:  462; fp:   36; fn:   13
2021-10-12 11:27:46,944 : INFO : Arquivo: cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f1_BERTimbau_base, Data: 21/09/2021 02:16, Tempo: 0:15:04, QtdeTeste: 996, Acc: 0.92771084, Rec: 0.98192771, Pre: 0.88586957, F1:0.93142857, vp:  489; vn:  435; fp:   63; fn:    9
2021-10-12 11:27:46,946 : INFO : Arquivo: cohebert_AjusteFinoCSTNews_v1_C_SB_KF_E_4_lr_5_b_4_8_f1_BERTimbau_base, Data: 12/10/2021 08:55, Tempo: 0:15:18, QtdeTeste: 996, Acc: 0.96084337, Rec: 1.00000000, Pre: 0.92737430, F1:0.96231884, vp:  498; vn:  459; fp:   39; fn:    0
2021-10-12 11:27:46,957 : INFO : Arquivo: cohebert_AjusteF

# 6 Finalização

## 6.1 Salvando o Modelo para o wandb

In [19]:
if model_args.use_wandb and model_args.salvar_modelo_wandb:
  
    # Salva o modelo para o wandb    
    torch.save(model.state_dict(), os.path.join(wandb.run.dir, 'model_dict.pt'))

## 6.2 Salvando o Modelo Ajustado

Grava o modelo e o tokenizador no disco.

In [20]:
def salvaModelo(model_args):
  
    if model_args.salvar_modelo:
  
        # Import de bibliotecas.
        import os

        # Salvando as melhores práticas: se você usar nomes padrão para o modelo, você pode recarregá-lo usando from_pretrained ()

        # Diretório de salvamento do modelo.
        DIRETORIO_LOCAL_MODELO_AJUSTADO = '/content/modelo_ajustado/'

        # Cria o diretório de saída se necessário.
        if not os.path.exists(DIRETORIO_LOCAL_MODELO_AJUSTADO):
            os.makedirs(DIRETORIO_LOCAL_MODELO_AJUSTADO)

        print('Salvando o modelo para {}'.format(DIRETORIO_LOCAL_MODELO_AJUSTADO))

        # Salve um modelo treinado, configuração e tokenizer usando `save_pretrained ()`.
        # Eles podem então ser recarregados usando `from_pretrained ()`.
        model_to_save = model.module if hasattr(model, 'module') else model  # Cuide do treinamento distribuído/paralelo
        model_to_save.save_pretrained(DIRETORIO_LOCAL_MODELO_AJUSTADO)
        tokenizer.save_pretrained(DIRETORIO_LOCAL_MODELO_AJUSTADO)

        # Boa prática: salve seus argumentos de treinamento junto com o modelo treinado.
        torch.save (model_args, os.path.join (DIRETORIO_LOCAL_MODELO_AJUSTADO, 'model_args.bin'))
        torch.save (training_args, os.path.join (DIRETORIO_LOCAL_MODELO_AJUSTADO, 'training_args.bin'))

In [21]:
salvaModelo(model_args)

Vamos verificar os tamanhos dos arquivos.

In [22]:
if model_args.salvar_modelo:
  !ls -l --block-size=K /content/modelo_ajustado/

O maior arquivo é o peso do modelo, em torno de 416MB o base e 1.25G o large.

In [23]:
if model_args.salvar_modelo:
  !ls -l --block-size=M /content/modelo_ajustado/pytorch_model.bin

Para salvar seu modelo nas sessões do Colab Notebook, faça o download no seu computador local ou, idealmente, copie-o no seu Google Drive.

In [24]:
if model_args.salvar_modelo:

  # Importando as bibliotecas.
  import os

  # Import de bibliotecas
  from bert.bertmodulo import *

  # Verifica o nome do modelo BERT a ser utilizado
  MODELO_BERT = getNomeModeloBERT(model_args)

  # Verifica o tamanho do modelo(default large)
  TAMANHO_BERT =  getTamanhoBERT(model_args)
  
  # Diretório local de salvamento do modelo.
  DIRETORIO_LOCAL_MODELO_AJUSTADO = '/content/modelo_ajustado/'

  # Diretório remoto de salvamento do modelo.  
  DIRETORIO_REMOTO_MODELO_AJUSTADO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/kfold/modelo/modelo" + MODELO_BERT + TAMANHO_BERT

  # Verifica se o diretório existe
  if not os.path.exists(DIRETORIO_REMOTO_MODELO_AJUSTADO):  
    # Cria o diretório
    os.makedirs(DIRETORIO_REMOTO_MODELO_AJUSTADO)
    print('Diretório criado: {}'.format(DIRETORIO_REMOTO_MODELO_AJUSTADO))
  else:
    print('Diretório já existe: {}'.format(DIRETORIO_REMOTO_MODELO_AJUSTADO))

  ## Copia o arquivo do modelo para o diretório no Google Drive.
  !cp -r '$DIRETORIO_LOCAL_MODELO_AJUSTADO'* '$DIRETORIO_REMOTO_MODELO_AJUSTADO'

  print("Modelo copiado!")

## 6.3 Tempo final de processamento



In [25]:
 # Pega o tempo atual menos o tempo do início do processamento.
finalProcessamento = time.time()
tempoTotalProcessamento = formataTempo(finalProcessamento - inicioProcessamento)

print("")
print("  Tempo processamento: {:} (h:mm:ss)".format(tempoTotalProcessamento))


  Tempo processamento: 2:51:13 (h:mm:ss)


Executa o wandb para finalizar a execução anterior

In [26]:
if model_args.use_wandb:
    # Importando a biblioteca.
    import wandb
    
    # Inicializando o registro do experimento.
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project="ajustefinocstnews_v1_c_sb_kfold", name=training_args.output_dir + str(model_args.fold))