#Ajuste fino do conjunto de dados CSTNews usando BERT e validação com os dados do OnlineEduc 1.0


Realiza o ajuste do MCL BERT pré-treinado usando o conjunto de dados CSTNews e a avaliação com o conjunto de dados OnlineEduc 1.0.

- Realiza o ajuste fino com os dados do CSTNEWS.
- A validação irá ocorre com os dados do OnlineEduc 1.0.
- Utiliza Lotes Inteligentes para otimizar o tempo de execução de treinamento e avaliação.
- Salva o modelo ajustado para reaproveitamento,
- A seção 2 - parametrização define os argumentos da execução.
----------------------------

**Link biblioteca Transformers:**
https://github.com/huggingface/transformers

**Artigo original BERT:**
https://arxiv.org/pdf/1506.06724.pdf

**Artigo padding dinâmico:**
https://towardsdatascience.com/divide-hugging-face-transformers-training-time-by-2-or-more-21bf7129db9q-21bf7129db9e

# 1 Preparação do ambiente
Preparação do ambiente para execução do notebook.

## 1.1 Tempo inicial de processamento

In [None]:
import time
import datetime

# Marca o tempo de início do processamento
inicioProcessamento = time.time()

In [None]:
print("  Tempo de início de processamento:  {:} (h:mm:ss)".format(inicioProcessamento))

  Tempo de início de processamento:  1633123430.7594464 (h:mm:ss)


## 1.2 Tratamento de logs

In [None]:
# Biblioteca de logging
import logging

# Formato da mensagem
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

## 1.3 Identificando o ambiente Colab

In [None]:
# Se estiver executando no Google Colaboratory
import sys

# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = 'google.colab' in sys.modules

## 1.4 Biblioteca de limpeza de tela

In [None]:
from IPython.display import clear_output

## 1.5 Conecta ao Google Drive

É necessário existir a pasta '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS_MD_CV_10/Resultados/' para receber os resutlados do notebook.

In [None]:
# Monta o Google Drive para esta instância de notebook.
from google.colab import drive

drive.mount('/content/drive')

Mounted at /content/drive


## 1.6 Instalação do wandb

Instalação

In [None]:
!pip install --upgrade wandb

Collecting wandb
  Downloading wandb-0.12.3-py2.py3-none-any.whl (1.7 MB)
[?25l[K     |▏                               | 10 kB 23.4 MB/s eta 0:00:01[K     |▍                               | 20 kB 28.7 MB/s eta 0:00:01[K     |▋                               | 30 kB 30.5 MB/s eta 0:00:01[K     |▉                               | 40 kB 21.4 MB/s eta 0:00:01[K     |█                               | 51 kB 16.0 MB/s eta 0:00:01[K     |█▏                              | 61 kB 11.6 MB/s eta 0:00:01[K     |█▍                              | 71 kB 13.0 MB/s eta 0:00:01[K     |█▋                              | 81 kB 14.2 MB/s eta 0:00:01[K     |█▉                              | 92 kB 12.2 MB/s eta 0:00:01[K     |██                              | 102 kB 13.3 MB/s eta 0:00:01[K     |██▏                             | 112 kB 13.3 MB/s eta 0:00:01[K     |██▍                             | 122 kB 13.3 MB/s eta 0:00:01[K     |██▋                             | 133 kB 13.3 MB/s eta 

Login via linha de comando

In [None]:
!wandb login aded3bc0ea651fff536cc08ba69caf8ac4141cfd

[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


## 1.7 Instalação BERT da Hugging Face

Instala a interface pytorch para o BERT by Hugging Face. 

In [None]:
!pip install -U transformers==4.5.1

Collecting transformers==4.5.1
  Downloading transformers-4.5.1-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 11.1 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.46-py3-none-any.whl (895 kB)
[K     |████████████████████████████████| 895 kB 51.5 MB/s 
Collecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3 MB)
[K     |████████████████████████████████| 3.3 MB 38.7 MB/s 
Installing collected packages: tokenizers, sacremoses, transformers
Successfully installed sacremoses-0.0.46 tokenizers-0.10.3 transformers-4.5.1


## 1.8 Recupera o cohebert do Github

In [None]:
!git clone https://github.com/osmarbraz/cohebert_v1.git

Cloning into 'cohebert_v1'...
remote: Enumerating objects: 4782, done.[K
remote: Counting objects: 100% (414/414), done.[K
remote: Compressing objects: 100% (266/266), done.[K
remote: Total 4782 (delta 282), reused 257 (delta 143), pack-reused 4368[K
Receiving objects: 100% (4782/4782), 28.72 MiB | 17.12 MiB/s, done.
Resolving deltas: 100% (3036/3036), done.


In [None]:
#Muda o diretório corrente para a pasta clonada
import sys
sys.path.append('./cohebert_v1/cohebert')

In [None]:
# Biblioteca cohebert
from util.utilmodulo import *
from util.utiltempo import *
from util.utilarquivo import *

## 1.9 Colaboratory

Usando Colab GPU para Treinamento


Uma GPU pode ser adicionada acessando o menu e selecionando:

`Edit -> Notebook Settings -> Hardware accelerator -> (GPU)`

Em seguida, execute a célula a seguir para confirmar que a GPU foi detectada.

In [None]:
# Importando a biblioteca
import tensorflow as tf

# Recupera o nome do dispositido da GPU.
device_name = tf.test.gpu_device_name()

# O nome do dispositivo deve ser parecido com o seguinte:
if device_name == '/device:GPU:0':
    print('Encontrei GPU em: {}'.format(device_name))
else:
    print('Dispositivo GPU não encontrado')
    #raise SystemError('Dispositivo GPU não encontrado')

Encontrei GPU em: /device:GPU:0


Nome da GPU

Para que a torch use a GPU, precisamos identificar e especificar a GPU como o dispositivo. Posteriormente, em nosso ciclo de treinamento, carregaremos os dados no dispositivo.

Vale a pena observar qual GPU você recebeu. A GPU Tesla V100 é muito mais rápido que as outras GPUs, abaixo uma lista ordenada:
- 1o Tesla V100-SXM2-16GB(Pro)
- 2o Tesla P100-PCIE-16GB
- 3o Tesla T4
- 4o Tesla P4 (Não tem memória para execução 4 lotes de treino x 8 lotes de avaliação, somente 2 x 4)
- 5o Tesla K80 (Não tem memória para execução 4 lotes de treino x 8 lotes de avaliação, somente 2 x 4)

In [None]:
# Import de bibliotecas
from bert.bertmodulo import *

device = getDeviceGPU()

2021-10-01 21:24:46,274 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-01 21:24:46,285 : INFO : Iremos usar a GPU: Tesla K80.


# 2 Parametrização

In [None]:
# Biblioteca cohebert
from transformers import TrainingArguments

# Definição dos parâmetros de Treinamento
training_args = TrainingArguments(
    # AjusteFinoMoodle_v1_C_SB_HT = nome do notebook
    # E = número de épocas
    # lr = taxa de aprendizagem
    # b = lotes de treino e avaliação    
    output_dir = 'AjusteFinoCSTNews_AvaliacaoOnlineeduc_v1_C_SB_HT_E_4_lr_1_b_4_8',  
    save_steps = 0,    
    seed = 42,
    num_train_epochs = 4, # Intervalo de valores: 2, 3, 4
    learning_rate = 1e-5, # Intervalo de valores: 1e-5, 2e-5, 3e-5, 4e-5, 5e-5 
    gradient_accumulation_steps = 1,
    per_device_train_batch_size = 4, 
    per_device_eval_batch_size = 8,        
    evaluation_strategy = 'epoch'
)

# Biblioteca cohebert
from bert.bertarguments import ModeloArgumentosClassificacao

# Definição dos parâmetros do Modelo
model_args = ModeloArgumentosClassificacao(     
    max_seq_len = 512,
    #pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip",
    pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip",    
    #pretrained_model_name_or_path = 'bert-base-multilingual-cased',
    do_lower_case = False,   # default True
    num_labels = 2,
    output_attentions = False,    # default False
    output_hidden_states = False, # default False
    optimizer = 'AdamW',
    use_wandb = False,
    salvar_modelo_wandb = False,    
    salvar_modelo = False,
    salvar_classificacao = True, # Salva o resultado da classificação
    salvar_avaliacao = True # Salva o resultado da avaliação das classificações
)

# 3 BERT

## Carrega o modelo e tokenizador BERT

Lista de modelos da comunidade:
* https://huggingface.co/models

Português(https://github.com/neuralmind-ai/portuguese-bert):  
* **'neuralmind/bert-base-portuguese-cased'**
* **'neuralmind/bert-large-portuguese-cased'**

In [None]:
# Biblioteca cohebert
from bert.bertmodulo import *

# Carrega o modelo e tokenizador BERT
model, tokenizer = carregaBERT(model_args)

2021-10-01 21:24:46,857 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-01 21:25:08,070 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-01 21:25:08,444 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-01 21:25:08,515 : INFO : Usando modelo BERT pré-treinado.
2021-10-01 21:25:08,517 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para classificação.
Some weights of the model checkpoint at cohebert_v1/modeloBERT were not used when initializing BertForSequenceClassification: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClas

# 4 Treino

## 4.1 wandb

https://wandb.ai/osmar-braz/ajustefinocstnews_v1_c_sb_holdout/table?workspace=user-osmar-braz

### Função de inicialização wandb

In [None]:
def inicializacaoWandb():

  if model_args.use_wandb:

    # Importando a biblioteca.
    import wandb

    # Inicializando o registro do experimento.
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project="ajustefinocstnews_avaliacaomoodle_v1_c_sb", name=training_args.output_dir)

    # Atualiza os parâmetros de treinamento no wandb.
    wandb.config.update(training_args)
    # Atualiza os parâmetros do modelo no wandb.
    wandb.config.update(model_args)

    # Registra os parämetros não literais do model_args.
    wandb.log({"max_seq_len": model_args.max_seq_len})
    wandb.log({"do_lower_case": model_args.do_lower_case})
    wandb.log({"output_hidden_states": model_args.output_hidden_states})

    return wandb

### Inicialização wandb



In [None]:
wandb = inicializacaoWandb()

## 4.2 Colab GPU

Conecta o modelo carregado do BERT a GPU para reduzir o tempo de processamento.

### Conectando GPU ao modelo

In [None]:
# Import de bibliotecas
from bert.bertmodulo import *

model = conectaGPU(model, device)

2021-10-01 21:25:20,715 : INFO : Pytorch rodando o modelo na GPU.


## 4.3 Arquivo dos dados de treino CSTNews

### Carregamento dos dados

In [None]:
# Import de bibliotecas
from conjuntodedados.dadoscstnewsclassificacaoholdout import *

# Carrega os dados
dfdados = getConjuntoDeDadosClassificacao(model_args, tokenizer, None)

print("Tamanho do conjunto de dados de treino: {}.".format(len(dfdados)))

2021-10-01 21:25:21,339 : INFO : Realizando o download do CSTNews do meu OneDrive.
2021-10-01 21:25:22,852 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-10-01 21:25:46,553 : INFO : Geração de pares de documentos concluído: 5020.
2021-10-01 21:26:03,725 : INFO : NumExpr defaulting to 2 threads.
2021-10-01 21:26:03,739 : INFO : Quantidade de dados anterior: 5020.
2021-10-01 21:26:03,740 : INFO : Nova quantidade de dados    : 4980.
2021-10-01 21:26:03,772 : INFO : Quantidade de registros removidos: 40.


Tamanho do conjunto de dados de treino: 9960.


### Divisão do conjunto de dados

Não tem divisão pois iremos utilizar todo o conjunto para treinamento.

In [None]:
# Import de bibliotecas
from conjuntodedados.dadoscstnewsclassificacaoholdout import *

#dfdados_train, dfdados_test = divisaoConjuntoDados(dfdados, percentualDivisao=0.3, classeStratify='classe'):
 
dfdados_train = dfdados

Vamos extrair os dados do arquivo do TensorFlow, para termos apenas tipos simples de Python.

Não foi usada a classe tensorflow_datasets, portanto não foi necessária a extração, somente a divisão em listas separadas.

### Seleciona as colunas de treino

In [None]:
# Import das bibliotecas.
import numpy as np

# Pega as listas de documentos e seus rótulos para o treino
documentos_treino = dfdados_train.documento.values
classes_treino = dfdados_train.classe.values
documentoids_treino = dfdados_train.id.values

# Mostra algumas estatísticas.
print('{:,} Amostras de Treino.'.format(len(documentos_treino)))
print('{:,} Rótulos de Treino.'.format(len(classes_treino)))
print('Rótulos: {}.'.format(np.unique(classes_treino)))

9,960 Amostras de Treino.
9,960 Rótulos de Treino.
Rótulos: [0 1].


## 4.4 Análise dos dados de treino

Usaremos os pandas para analisar o conjunto de dados e examinar algumas de suas propriedades e pontos de dados.

Atributos da lista:
0. "arquivo"
1. "documento"
2. "classe" (1-Original, 0-Permutado)


In [None]:
dfdados_train.sample(5)

Unnamed: 0,id,documento,classe
309,C33_Extrato_2_Perm_14.txt,"Depois de Lula, foi a vez do presidente americ...",0
7137,C23_Extrato_5_Perm_8.txt,"O ministro do Ambiente, Hilary Benn, afirmou q...",0
7488,C9_Extrato_2.txt,O superintendente regional da Polícia Federal ...,1
8266,C45_Extrato_3.txt,A polícia de São Paulo afirmou ontem ter detid...,1
5315,C23_Extrato_6_Perm_17.txt,O degelo da neve também influi no aumento do n...,0


In [None]:
# Mostra o número de documento de treino.
print('Número de documentos de treino: {:,}\n'.format(dfdados_train.shape[0]))

# Informações do DataFrame.
print(dfdados_train.info())

Número de documentos de treino: 9,960

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9960 entries, 0 to 9959
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         9960 non-null   object
 1   documento  9960 non-null   object
 2   classe     9960 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 233.6+ KB
None


### Distribuição das classes

O dataset está bem balanceado, o que nos conduz a utilizar acurácia como métrica.

In [None]:
dfdados_train.groupby('classe').count()

Unnamed: 0_level_0,id,documento
classe,Unnamed: 1_level_1,Unnamed: 2_level_1
0,4980,4980
1,4980,4980


In [None]:
# Informações do DataFrame.
print(dfdados_train.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9960 entries, 0 to 9959
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         9960 non-null   object
 1   documento  9960 non-null   object
 2   classe     9960 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 233.6+ KB
None


### Conjunto de dados em Treinamento

In [None]:
# Mostra o resultado dos dados carregados.
print("Total do conjunto de dados          : {}.".format(len(dfdados)))
print("Total do conjunto de dados de treino: {}.".format(len(documentos_treino)))

Total do conjunto de dados          : 9960.
Total do conjunto de dados de treino: 9960.


## 4.5 Arquivo dos dados avaliacao OnlineEduc 1.0

### Carregamento dos dados

In [None]:
# Import de bibliotecas
from conjuntodedados.dadosonlineeducclassificacaoholdout import *
                       
# Carrega os dados
dfdados = getConjuntoDeDadosClassificacao(model_args, tokenizer)         

print("Tamanho do conjunto de dados de avaliação: {}.".format(len(dfdados)))

2021-10-01 21:26:04,584 : INFO : Realizando a cópia do arquivo de dados do OnlineEduc 1.0 do Google Drive.
2021-10-01 21:26:10,840 : INFO : Geração de pares concluído: 11220.
2021-10-01 21:26:30,644 : INFO : Quantidade de dados anterior: 11220.
2021-10-01 21:26:30,645 : INFO : Nova quantidade de dados    : 11220.
2021-10-01 21:26:30,690 : INFO : Quantidade de registros removidos: 0.


Tamanho do conjunto de dados de avaliação: 22440.


### Divisão do conjunto de dados

In [None]:
 #dfdados_train, dfdados_test = divisaoConjuntoDados(dfdados)
 dfdados_test = dfdados

Vamos extrair os dados do arquivo do TensorFlow, para termos apenas tipos simples de Python.

Não foi usada a classe tensorflow_datasets, portanto não foi necessária a extração, somente a divisão em listas separadas.

### Seleciona as colunas de teste

In [None]:
# Import das bibliotecas.
import numpy as np

# Pega as listas de documentos e seus rótulos para o treino
documentos_teste = dfdados_test.documento.values
classes_teste = dfdados_test.classe.values
documentoids_teste = dfdados_test.id.values

# Mostra algumas estatísticas.
print('{:,} Amostras de Teste.'.format(len(documentos_teste)))
print('{:,} Rótulos de Teste.'.format(len(classes_teste)))
print('Rótulos: {}.'.format(np.unique(classes_teste)))

22,440 Amostras de Teste.
22,440 Rótulos de Teste.
Rótulos: [0 1].


## 4.6 Análise dos dados de teste

Usaremos os pandas para analisar o conjunto de dados e examinar algumas de suas propriedades e pontos de dados.

Atributos da lista:
0. "arquivo"
1. "documento"
2. "classe" (1-Original, 0-Permutado)


In [None]:
dfdados_test.sample(5)

Unnamed: 0,id,documento,classe
9614,Documento_51455.txt,Quando falamos em educação damos enfoque ao pr...,1
18104,Documento_34070.txt,"Olá Miqueias e Ana Amélia, Que bom ver a apres...",1
7163,Documento_86177_Perm_1.txt,"Olá, Adriana! Abraços, Morgana Tudo bem? Qualq...",0
11967,Documento_121175_Perm_3.txt,"Mas o fato é de que ""nada será como antes"", pa...",0
4450,Documento_52454.txt,8. Mostre que as implica ̧c ̃oes abaixo s ̃ao ...,1


In [None]:
# Mostra o número de documento de treino.
print("Número de documentos de teste: {:,}.".format(dfdados_test.shape[0]))

# Informações do DataFrame.
print(dfdados_test.info())

Número de documentos de teste: 22,440.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22440 entries, 0 to 22439
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         22440 non-null  object
 1   documento  22440 non-null  object
 2   classe     22440 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 526.1+ KB
None


### Distribuição das classes

O dataset está bem balanceado, o que nos conduz a utilizar acurácia como métrica.

In [None]:
dfdados_test.groupby('classe').count()

Unnamed: 0_level_0,id,documento
classe,Unnamed: 1_level_1,Unnamed: 2_level_1
0,11220,11220
1,11220,11220


In [None]:
# Informações do DataFrame.
print(dfdados_test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22440 entries, 0 to 22439
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         22440 non-null  object
 1   documento  22440 non-null  object
 2   classe     22440 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 526.1+ KB
None


### Conjunto de dados em Teste

In [None]:
# Mostra o resultado dos dados carregados.
print("Total do conjunto de dados          : {}.".format(len(dfdados)))
print("Total do conjunto de dados de teste : {}.".format(len(documentos_teste)))

Total do conjunto de dados          : 22440.
Total do conjunto de dados de teste : 22440.


## 4.7 Otimizador e Agendador de Taxas de Aprendizado/Optimizer & Learning Rate Scheduler



Agora que temos nosso modelo carregado, precisamos pegar os hiperparâmetros de treinamento no modelo armazenado.

Para fins de ajuste fino, os autores recomendam escolher entre os seguintes valores (no Apêndice A.3 do [artigo BERT](https://arxiv.org/pdf/1810.04805.pdf)):

> - **Tamanho do lote(Batch size):** 16, 32
- **Taxa de aprendizado (Adam):** 5e-5, 3e-5, 2e-5
- **Número de épocas:** 2, 3, 4

O parâmetro epsilon `eps = 1e-6` é" um número muito pequeno para impedir qualquer divisão por zero na implementação "(a partir de [aqui](https://machinelearningmastery.com/adam-optimization-algorithm-for-deep-learning/)).

Você pode encontrar a criação do otimizador do AdamW em `run_glue.py` [aqui](https://github.com/huggingface/transformers/blob/5bfcd0485ece086ebcbed2d008813037968a9e58/examples/run_glue.py#L109).

### Carregando o otimizador

In [None]:
# Biblioteca cohebert
from bert.bertmodulo import *
from experimento.classificacaobinaria  import *
from experimento.classificacaobinariaholdout  import *

# Carrega o otimizador do BERT
optimizer = carregaOtimizador(training_args, model)

2021-10-01 21:26:32,286 : INFO : Otimizador carregado.


### Carregando o agendador

A função **get_linear_schedule_with_warmup** cria um agendador com uma taxa de aprendizado que diminua linearmente da taxa de aprendizagem inicial definido no otimizador até 0, após um período de aquecimento durante o qual ele aumenta linearmente de 0 para a taxa de aprendizagem inicial definido no otimizador.

Se `num_warmup_steps=0` e `weight_decay=0`(otimizador) não ocorre a etapa de aquecimento.

In [None]:
# Biblioteca cohebert
from bert.bertmodulo import *
from experimento.classificacaobinaria  import *
from experimento.classificacaobinariaholdout  import *

# Carrega o agendador do BERT
scheduler = carregaAgendador(training_args, optimizer, len(documentos_treino))

2021-10-01 21:26:32,302 : INFO : Total de etapas do agendador: 39840.


# 5 Treinando o modelo de classificação

Treinando o modelo e o conjunto de dados.

## 5.1 Execução do Treinamento

In [None]:
# Import das bibliotecas
import time
import datetime

# Bibliotecas cohebert
from bert.bertmodulo import *
from experimento.classificacaobinaria  import *
from experimento.classificacaobinariaholdout  import *

# Registra o tempo inicial.
treinamento_t0 = time.time()

# Realiza o treinamento.
model = realizaTreinamento(model_args, training_args, model, tokenizer, documentos_treino, classes_treino, documentoids_treino, wandb)
  
# Medida de quanto tempo levou a execução do treinamento.
treinamento_total = formataTempo(time.time() - treinamento_t0)

print("Tempo total treinamento       : {:}".format(treinamento_total))

2021-10-01 21:26:32,324 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-01 21:26:32,325 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-01 21:26:32,327 : INFO : Realizando Treinamento fold: 1
2021-10-01 21:26:32,335 : INFO : Otimizador carregado.
2021-10-01 21:26:32,338 : INFO : Total de etapas do agendador: 39840.


Épocas:   0%|          | 0/4 [00:00<?, ?épocas/s]

2021-10-01 21:26:32,398 : INFO : Tokenizando 9,960 amostra.
2021-10-01 21:27:06,038 : INFO : Tokenização concluída.
2021-10-01 21:27:06,040 : INFO :      9,960 amostras.
2021-10-01 21:27:06,055 : INFO :      9,960 amostras após classificação.
2021-10-01 21:27:06,056 : INFO : Criando lotes de tamanho 4.
2021-10-01 21:27:06,074 : INFO : Lote criado - Selecionado 2,490 lotes.


Epoca 1:   0%|          | 0/2490 [00:00<?, ?lotes/s]

2021-10-01 21:42:33,014 : INFO :   Média perda(loss) do treinamento da época : 0.31855803.
2021-10-01 21:42:33,016 : INFO :   Tempo de treinamento da época             : 0:15:26.
2021-10-01 21:42:33,020 : INFO :   Tempo parcial do treinamento              : 0:16:01 (h:mm:ss).
2021-10-01 21:42:33,047 : INFO : Tokenizando 9,960 amostra.
2021-10-01 21:43:07,123 : INFO : Tokenização concluída.
2021-10-01 21:43:07,125 : INFO :      9,960 amostras.
2021-10-01 21:43:07,135 : INFO :      9,960 amostras após classificação.
2021-10-01 21:43:07,138 : INFO : Criando lotes de tamanho 4.
2021-10-01 21:43:07,155 : INFO : Lote criado - Selecionado 2,490 lotes.


Epoca 2:   0%|          | 0/2490 [00:00<?, ?lotes/s]

2021-10-01 21:58:24,702 : INFO :   Média perda(loss) do treinamento da época : 0.15811913.
2021-10-01 21:58:24,711 : INFO :   Tempo de treinamento da época             : 0:15:17.
2021-10-01 21:58:24,714 : INFO :   Tempo parcial do treinamento              : 0:31:52 (h:mm:ss).
2021-10-01 21:58:24,729 : INFO : Tokenizando 9,960 amostra.
2021-10-01 21:58:57,811 : INFO : Tokenização concluída.
2021-10-01 21:58:57,813 : INFO :      9,960 amostras.
2021-10-01 21:58:57,832 : INFO :      9,960 amostras após classificação.
2021-10-01 21:58:57,833 : INFO : Criando lotes de tamanho 4.
2021-10-01 21:58:57,851 : INFO : Lote criado - Selecionado 2,490 lotes.


Epoca 3:   0%|          | 0/2490 [00:00<?, ?lotes/s]

2021-10-01 22:14:16,011 : INFO :   Média perda(loss) do treinamento da época : 0.11739567.
2021-10-01 22:14:16,022 : INFO :   Tempo de treinamento da época             : 0:15:18.
2021-10-01 22:14:16,024 : INFO :   Tempo parcial do treinamento              : 0:47:44 (h:mm:ss).
2021-10-01 22:14:16,040 : INFO : Tokenizando 9,960 amostra.
2021-10-01 22:14:50,288 : INFO : Tokenização concluída.
2021-10-01 22:14:50,290 : INFO :      9,960 amostras.
2021-10-01 22:14:50,477 : INFO :      9,960 amostras após classificação.
2021-10-01 22:14:50,478 : INFO : Criando lotes de tamanho 4.
2021-10-01 22:14:50,495 : INFO : Lote criado - Selecionado 2,490 lotes.


Epoca 4:   0%|          | 0/2490 [00:00<?, ?lotes/s]

2021-10-01 22:30:10,357 : INFO :   Média perda(loss) do treinamento da época : 0.08554547.
2021-10-01 22:30:10,365 : INFO :   Tempo de treinamento da época             : 0:15:19.
2021-10-01 22:30:10,369 : INFO :   Tempo parcial do treinamento              : 1:03:38 (h:mm:ss).
2021-10-01 22:30:10,385 : INFO :   Média perda(loss) treinamento : 0.16990458.
2021-10-01 22:30:10,388 : INFO : Treinamento completo!


Tempo total treinamento       : 1:03:38


# 6 Avaliação

Avaliando o modelo treinado no conjunto de dados de teste.

## 6.1 Execução da Avaliação

In [None]:
# Import das bibliotecas
import time
import datetime

# Bibliotecas cohebert
from bert.bertmodulo import *
from experimento.classificacaobinaria  import *
from experimento.classificacaobinariaholdout  import *

# Registra o tempo inicial.
avaliacao_t0 = time.time()

# Realiza a avaliação do modelo.
media_test_loss, acc, rec, pre, f1, vp_s, vn_s, fp_s, fn_s, lista_resultado_avaliacao = realizaAvaliacao(model_args, training_args, model, tokenizer, documentos_teste, classes_teste, documentoids_teste, wandb)

print("Avaliação loss           : {:.8f}; Acc: {:.8f}; Rec: {:.8f}; Pre: {:.8f}, F1:{:.8f}, vp: {:3d}; vn: {:3d}; fp: {:3d}; fn: {:3d}".format( 
        media_test_loss, acc, rec, pre, f1, vp_s, vn_s, fp_s, fn_s))      

print("Acurácia                 : {:.8f}".format(acc))  

# Medida de quanto tempo levou a execução do treinamento e avaliação
avaliacao_total = formataTempo(time.time() - avaliacao_t0)

print("Tempo gasto na avaliação : {:}".format(avaliacao_total))

2021-10-01 22:30:10,420 : INFO : Existem 1 GPU(s) disponíveis.
2021-10-01 22:30:10,421 : INFO : Iremos usar a GPU: Tesla K80.
2021-10-01 22:30:10,423 : INFO : Realizando Avaliação fold: 1.
2021-10-01 22:30:10,427 : INFO : Predizendo rótulos para 22,440 documentos de teste.
2021-10-01 22:30:10,429 : INFO : Tokenizando 22,440 amostra.
2021-10-01 22:30:50,083 : INFO : Tokenização concluída.
2021-10-01 22:30:50,085 : INFO :     22,440 amostras.
2021-10-01 22:30:50,106 : INFO :     22,440 amostras após classificação.
2021-10-01 22:30:50,109 : INFO : Criando lotes de tamanho 8.
2021-10-01 22:30:50,134 : INFO : Lote criado - Selecionado 2,805 lotes.


Lotes :   0%|          | 0/2805 [00:00<?, ?lotes/s]

Avaliação loss           : 1.50040438; Acc: 0.75138146; Rec: 0.65240642; Pre: 0.81342371, F1:0.72407142, vp: 7320; vn: 9541; fp: 1679; fn: 3900
Acurácia                 : 0.75138146
Tempo gasto na avaliação : 0:06:03


## 6.2 Salvando o resultado da classificação

In [None]:
# Bibliotecas cohebert
from experimento.classificacaobinariaholdout  import *

# Diretório para salvar o arquivo de classificação.
DIRETORIO_CLASSIFICACAO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/cruzado/Classificacao/"

salvaResultadoClassificacao(model_args, training_args, DIRETORIO_CLASSIFICACAO, lista_resultado_avaliacao)

2021-10-01 22:36:15,057 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/cruzado/Classificacao/.
2021-10-01 22:36:34,892 : INFO : Criando arquivo classificação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/cruzado/Classificacao/AjusteFinoCSTNews_AvaliacaoOnlineeduc_v1_C_SB_HT_E_4_lr_1_b_4_8_BERTimbau_base_5.csv.


## 6.3 Salvando o resultado da avaliação

### Salva o resultado da avaliação 

Salva o resultado da avaliação do conjunto de dados de teste.

In [None]:
# Bibliotecas cohebert
from experimento.classificacaobinariaholdout  import *

# Diretório para salvar o arquivo.
DIRETORIO_AVALIACAO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/cruzado/Avaliacao/"

salvaResultadoAvaliacao(model_args, training_args, DIRETORIO_AVALIACAO, acc, rec, pre, f1, vp_s, vn_s, fp_s, fn_s, treinamento_total)

2021-10-01 22:36:35,096 : INFO : Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/cruzado/Avaliacao/.
2021-10-01 22:36:35,327 : INFO : Atualizando arquivo resultado avaliação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/cruzado/Avaliacao/AjusteFinoCSTNews_AvaliacaoOnlineeduc_v1_C_SB_HT_E_4_lr_1_b_4_8_BERTimbau_base.csv.


### Carrega e calcula a acurácia médias das execuções


In [None]:
# Bibliotecas cohebert
from experimento.classificacaobinariaholdout  import *

# Diretório para salvar o arquivo.
DIRETORIO_AVALIACAO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/cruzado/Avaliacao/"

carregaResultadoAvaliacao(model_args, training_args, DIRETORIO_AVALIACAO)

2021-10-01 22:36:36,030 : INFO : Arquivo: AjusteFinoCSTNews_AvaliacaoOnlineeduc_v1_C_SB_HT_E_4_lr_1_b_4_8_BERTimbau_base, Data: 29/09/2021 18:09, Tempo:1:06:07, QtdeTeste: 22440, Acc: 0.69202317, Rec: 0.55436720, Pre: 0.76497356, F1:0.64286083, vp: 6220; vn: 9309; fp: 1911; fn: 5000
2021-10-01 22:36:36,032 : INFO : Arquivo: AjusteFinoCSTNews_AvaliacaoOnlineeduc_v1_C_SB_HT_E_4_lr_1_b_4_8_BERTimbau_base, Data: 30/09/2021 12:02, Tempo:1:04:20, QtdeTeste: 22440, Acc: 0.67887701, Rec: 0.44563280, Pre: 0.83528233, F1:0.58119261, vp: 5000; vn: 10234; fp:  986; fn: 6220
2021-10-01 22:36:36,034 : INFO : Arquivo: AjusteFinoCSTNews_AvaliacaoOnlineeduc_v1_C_SB_HT_E_4_lr_1_b_4_8_BERTimbau_base, Data: 30/09/2021 13:21, Tempo:1:07:33, QtdeTeste: 22440, Acc: 0.69389483, Rec: 0.52049911, Pre: 0.79683449, F1:0.62968354, vp: 5840; vn: 9731; fp: 1489; fn: 5380
2021-10-01 22:36:36,038 : INFO : Arquivo: AjusteFinoCSTNews_AvaliacaoOnlineeduc_v1_C_SB_HT_E_4_lr_1_b_4_8_BERTimbau_base, Data: 01/10/2021 20:59, T

# 7 Finalização

## 7.1 Salvando o Modelo para o wandb

In [None]:
def salvaModeloWandb():
  
  if model_args.use_wandb and model_args.salvar_modelo_wandb:
  
    # Salva o modelo para o wandb    
    torch.save(model.state_dict(), os.path.join(wandb.run.dir, 'model_dict.pt'))

In [None]:
salvaModeloWandb()

## 7.2 Salvando o Modelo Ajustado

Esta primeira célula (obtida de `run_glue.py` [aqui](https://github.com/huggingface/transformers/blob/35ff345fc9df9e777b27903f11fa213e4052595b/examples/run_glue.py#L495)) grava o modelo e o tokenizador no disco.

In [None]:
def salvaModelo(model_args):
  
  if model_args.salvar_modelo:
  
    # Import de bibliotecas.
    import os

    # Salvando as melhores práticas: se você usar nomes padrão para o modelo, você pode recarregá-lo usando from_pretrained ()

    # Diretório de salvamento do modelo.
    output_dir = "/content/modelo_ajustado/"

    # Cria o diretório de saída se necessário.
    if not os.path.exists(output_dir):
      os.makedirs(output_dir)

    print("Salvando o modelo para {}.".format(output_dir))

    # Salve um modelo treinado, configuração e tokenizer usando `save_pretrained ()`.
    # Eles podem então ser recarregados usando `from_pretrained ()`.
    model_to_save = model.module if hasattr(model, 'module') else model  # Cuide do treinamento distribuído/paralelo
    model_to_save.save_pretrained(output_dir)
    tokenizer.save_pretrained(output_dir)

    # Boa prática: salve seus argumentos de treinamento junto com o modelo treinado.
    torch.save (model_args, os.path.join (output_dir, 'model_args.bin'))
    torch.save (training_args, os.path.join (output_dir, 'training_args.bin'))

In [None]:
salvaModelo(model_args)

Vamos verificar os tamanhos dos arquivos, por curiosidade.

In [None]:
if model_args.salvar_modelo:
  !ls -l --block-size=K /content/modelo_ajustado/

O maior arquivo é o peso do modelo, em torno de 416MB o base e 1.25G o large.

In [None]:
if model_args.salvar_modelo:
  !ls -l --block-size=M /content/modelo_ajustado/pytorch_model.bin

Para salvar seu modelo nas sessões do Colab Notebook, faça o download no seu computador local ou, idealmente, copie-o no seu Google Drive.

In [None]:
if model_args.salvar_modelo:

  # Importando as bibliotecas.
  import os

  # Verifica o nome do modelo BERT a ser utilizado
  MODELO_BERT = getNomeModeloBERT(model_args)

  # Verifica o tamanho do modelo(default large)
  TAMANHO_BERT =  getTamanhoBERT(model_args)
  
  # Diretório local de salvamento do modelo.
  DIRETORIO_LOCAL_MODELO_AJUSTADO = "/content/modelo_ajustado/"

  # Diretório remoto de salvamento do modelo.  
  DIRETORIO_REMOTO_MODELO_AJUSTADO = "/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/cruzado/modelo/modelo" + MODELO_BERT + TAMANHO_BERT

  # Verifica se o diretório existe
  if not os.path.exists(DIRETORIO_REMOTO_MODELO_AJUSTADO):  
    # Cria o diretório
    os.makedirs(DIRETORIO_REMOTO_MODELO_AJUSTADO)
    print("Diretório criado: {}".format(DIRETORIO_REMOTO_MODELO_AJUSTADO))
  else:
    print("Diretório já existe: {}".format(DIRETORIO_REMOTO_MODELO_AJUSTADO))

  ## Copia o arquivo do modelo para o diretório no Google Drive.
  !cp -r '$DIRETORIO_LOCAL_MODELO_AJUSTADO'* '$DIRETORIO_REMOTO_MODELO_AJUSTADO'

  print("Modelo copiado!")

## 7.3 Tempo final de processamento

Tempo processamento:  1:34:52 (h:mm:ss)

In [None]:
 # Pega o tempo atual menos o tempo do início do processamento.
finalProcessamento = time.time()
tempoTotalProcessamento = formataTempo(finalProcessamento - inicioProcessamento)

print("")
print("  Tempo processamento:  {:} (h:mm:ss)".format(tempoTotalProcessamento))


  Tempo processamento:  1:12:45 (h:mm:ss)


Executa o wandb para finalizar a execução anterior

In [None]:
if model_args.use_wandb:
  
    # Importando a biblioteca
    import wandb

    # Inicializando o registro do experimento
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project="ajustefinocstnews_avaliacaomoodle_v1_c_sb", name=training_args.output_dir)