# Avaliação de Medidas (In)Coerência do conjunto de dados CSTNews usando BERT Pré-treinado

Este notebook, realiza testes de medidas de (in)coerência entre pares de documentos do conjunto de dados CSTNews 5.0 modificado por Marcio Dias analisar a coerência de sumários multidocumentos utilizando BERT Pré-treinado. 

O conjunto de dados foi construído a partir de 251 documentos oriundos do córpus CSTNews 5.0. O CSTNews é formado por textos jornalisticos de domínos váriados produzidos por (Aleixo e Pardo, 2008). Somente postagens que possuem de 4 sentenças foram selecionadas. Pois é necessário no mínimo 4 sentenças para gerar 20 permutações. 
Dois documentos(C3_Extrato_6 e C33_Extrato_6) foram removidos do conjunto de dados apesar de estarem na faixa de 4 a 20 sentenças, pois ao a realizar a formatação para a entrada no BERT eles geram mais de 512 tokens.    

Para cada documento as sentenças foram permutadas em até 20 vezes para um criar um conjunto de sentenças formadas por estas permutações.

Ao final a base de dados é formada por pares de documento, sendo um documento original(DO) e uma de suas 20 permutações(permDoc). O conjunto de dados total é formado por 4.980 pares de documentos. 

A medida de um documento(D) é realizada pela média da medida dos pares de sentenças. Todo o documento é submetido ao BERT e os embeddings da concatenação das 4 últimas camadas é recuperado. Cada documento é analisado pelas medidas **Ccos**, **Ceuc** e **Cman**. Estas medidas de documento utilizam as medidas de sentenças adjancetes.Cada par de sentenças do documento é analisado utilizando os embedding da sentença
(**Si**) e os embeddings da sentença(**Sj**) no documento.

As seguintes medidas de (in)coerência foram calculadas entre os embeddings das sentenças **Si** e **Sj**:
- **Scos(Si,Sj)** - Similaridade do cosseno entre a média dos embeddings Si e Sj.
- **Seuc(Si,Sj)** - Distância Euclidiana(L2) - usando a média dos embeddings Si e Sj das camadas especificadas
- **Sman(Si,Sj)** - Distância de Manhattan(L1) - usando a média dos embeddings Si e Sj das camadas especificadas

As medidas são avalidas considerando a concatenação das 4 últimas do modelo BERT.

Características dos testes:
 - A avaliação das medidas são realizadas utilizando a implementação BERT da biblioteca Huggingface e os MCL BERT **Pré-treinado** no formato cased:
  - BERTimbau de tamanho Large 
  - BERTimbau de tamanho Base 
  - BERT Multilingue
  
 - Não é realizado ajuste fino do modelo.

Utilizando o MCL BERT multilingual os documentos C33_Extrato_6.txt, C3_Extrato_6.txt e C27_Extrato_6.txt possuem mais de 512 tokens.

Utilizando o MCL BERTimbau base e large os documentos C33_Extrato_6.txt e C3_Extrato_6.txt possuem mais de 512 tokens.

Observação alguns documentos possuem quantidades diferentes sentenças entre o original e sua versão permutada:
-  o documento C33_Extrato_1.txt possui 10 sentenças, mas nos documentos  permutados ocorrem 11 sentenças.
- o documento C49_Extrato_1.txt possui 6 sentenças, mas nos documentos permutados ocorrem 8 sentenças.
- o documento C34_Extrato_4.txt possui 6 sentenças, mas nos documentos permutados ocorrem 8 sentenças.
- o documento C49_Extrato_3.txt possui 5 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C33_Extrato_5.txt possui 11 sentenças, mas nos documentos permutados ocorrem 14 sentenças.
- o documento C49_Extrato_2.txt possui 4 sentenças, mas nos documentos permutados ocorrem 6 sentenças.
- o documento C20_Extrato_4.txt possui 6 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C44_Extrato_4.txt possui 6 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C44_Extrato_3.txt possui 6 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C34_Extrato_3.txt possui 8 sentenças, mas nos documentos permutados ocorrem 10 sentenças.
- o documento C26_Extrato_4.txt possui 7 sentenças, mas nos documentos permutados ocorrem 9 sentenças.


----------------------------
**CSTNews 5.0:** https://sites.icmc.usp.br/taspardo/sucinto/files/CSTNews%205.0.zip

**Trabalho Marcio Dias:** https://sites.icmc.usp.br/taspardo/Summary%20coherence%20models.zip

**Link biblioteca Transformers:**
https://github.com/huggingface/transformers

**Artigo original BERT:**
https://arxiv.org/pdf/1506.06724.pdf

# 1 Preparação do ambiente
Preparação do ambiente para execução do exemplo.

## 1.1 Tempo inicial de processamento

In [2]:
import time
import datetime

#marca o tempo de início do processamento.
inicioProcessamento = time.time()

## 1.2 Tratamento de logs

In [3]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

## 1.3  Identificando o ambiente Colab

In [4]:
# Se estiver executando no Google Colaboratory.
import sys

# Retorna true ou false se estiver no Google Colaboratory.
IN_COLAB = 'google.colab' in sys.modules

## 1.4 Biblioteca de limpeza de tela

In [5]:
from IPython.display import clear_output

## 1.5 Conecta ao Google Drive

Usa a pasta mapeada para recuperar o conjunto de dados do OnlineEduc e salvar os resultados do cálculo de medidas.

In [6]:
 # import necessário
from google.colab import drive

# Monta o drive na pasta especificada
drive.mount('/content/drive')     

Mounted at /content/drive


## 1.6 Instalação do wandb

Instalação

In [7]:
!pip install --upgrade wandb

Collecting wandb
  Downloading wandb-0.12.1-py2.py3-none-any.whl (1.7 MB)
[K     |████████████████████████████████| 1.7 MB 28.4 MB/s 
[?25hCollecting subprocess32>=3.5.3
  Downloading subprocess32-3.5.4.tar.gz (97 kB)
[K     |████████████████████████████████| 97 kB 6.9 MB/s 
[?25hCollecting shortuuid>=0.5.0
  Downloading shortuuid-1.0.1-py3-none-any.whl (7.5 kB)
Collecting GitPython>=1.0.0
  Downloading GitPython-3.1.18-py3-none-any.whl (170 kB)
[K     |████████████████████████████████| 170 kB 49.6 MB/s 
Collecting sentry-sdk>=1.0.0
  Downloading sentry_sdk-1.3.1-py2.py3-none-any.whl (133 kB)
[K     |████████████████████████████████| 133 kB 57.3 MB/s 
[?25hCollecting docker-pycreds>=0.4.0
  Downloading docker_pycreds-0.4.0-py2.py3-none-any.whl (9.0 kB)
Collecting configparser>=3.8.1
  Downloading configparser-5.0.2-py3-none-any.whl (19 kB)
Collecting pathtools
  Downloading pathtools-0.1.2.tar.gz (11 kB)
Collecting gitdb<5,>=4.0.1
  Downloading gitdb-4.0.7-py3-none-any.whl (63 k

## 1.7 Instalação BERT da Hugging Face

Instala a interface pytorch para o BERT by Hugging Face. 

In [8]:
!pip install -U transformers==4.5.1

Collecting transformers==4.5.1
  Downloading transformers-4.5.1-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 31.1 MB/s 
[?25hCollecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3 MB)
[K     |████████████████████████████████| 3.3 MB 43.2 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.45-py3-none-any.whl (895 kB)
[K     |████████████████████████████████| 895 kB 44.4 MB/s 
Installing collected packages: tokenizers, sacremoses, transformers
Successfully installed sacremoses-0.0.45 tokenizers-0.10.3 transformers-4.5.1


## 1.8 Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [9]:
# Instala o spacy
!pip install -U spacy==2.3.5

Collecting spacy==2.3.5
  Downloading spacy-2.3.5-cp37-cp37m-manylinux2014_x86_64.whl (10.4 MB)
[K     |████████████████████████████████| 10.4 MB 26.4 MB/s 
Collecting thinc<7.5.0,>=7.4.1
  Downloading thinc-7.4.5-cp37-cp37m-manylinux2014_x86_64.whl (1.0 MB)
[K     |████████████████████████████████| 1.0 MB 56.1 MB/s 
Installing collected packages: thinc, spacy
  Attempting uninstall: thinc
    Found existing installation: thinc 7.4.0
    Uninstalling thinc-7.4.0:
      Successfully uninstalled thinc-7.4.0
  Attempting uninstall: spacy
    Found existing installation: spacy 2.2.4
    Uninstalling spacy-2.2.4:
      Successfully uninstalled spacy-2.2.4
Successfully installed spacy-2.3.5 thinc-7.4.5


## 1.9 Recupera o coerenciaBERT do Github

In [10]:
tokengit = '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'
nomeusuario = 'osmarbraz'
repositorio = 'coerenciabert.git'
!git clone https://{tokengit}@github.com/{nomeusuario}/{repositorio}

fatal: destination path 'coerenciabert' already exists and is not an empty directory.


In [11]:
#Muda o diretório corrente para a pasta clonada
import sys
sys.path.append('./coerenciabert/coerencia')

In [12]:
# Biblioteca coerenciaBERT
from util.utilmodulo import *
from util.utiltempo import *
from util.utilarquivo import *

# 2 Parametrização

In [13]:
# Biblioteca coerenciaBERT
from bert.bertarguments import ModeloArgumentosMedida

# Definição dos parâmetros do Modelo para o cálculo de Medida
model_args = ModeloArgumentosMedida(     
    max_seq_len = 512,
    #pretrained_model_name_or_path = 'neuralmind/bert-large-portuguese-cased',
    pretrained_model_name_or_path = 'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip',
    #pretrained_model_name_or_path = 'neuralmind/bert-base-portuguese-cased',
    #pretrained_model_name_or_path = 'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip',       
    #pretrained_model_name_or_path = 'bert-base-multilingual-cased',
    modelo_spacy = 'pt_core_news_lg',
    versao_spacy = '2.3.0',
    do_lower_case = False,   # default True
    output_attentions = False,    # default False
    output_hidden_states = True, # default False
    use_wandb = False,
    salvar_modelo_wandb = False,    
    salvar_medicao = False, #Salva o resultado da medição
    salvar_avaliacao = False, # Salva o resultado da avaliação das medições
    usar_mcl_ajustado = False, # Especifica se deve ser carregado um MCL ajustado ou pré-treinado. Necessário especificar o tipo do modelo em pretrained_model_name_or_path.
    estrategia_pooling = 0, # 0 - MEAN estratégia média / 1 - MAX  estratégia maior
    palavra_relevante = 0 # 0 - Considera todas as palavras das sentenças / 1 - Desconsidera as stopwords / 2 - Considera somente as palavras substantivas
)

# 3 spaCy

## 3.1 Carrega o modelo do spacy

https://spacy.io/models/pt

In [14]:
# Biblioteca coerenciaBERT
from spacynlp.spacymodulo import *

# Carrega o modelo
nlp = carregaSpacy(model_args)

2021-09-08 08:45:54,068 : INFO : Download do arquivo do modelo do spaCy.
2021-09-08 08:45:54,318 : INFO : Download do arquivo: coerenciabert/pt_core_news_lg-2.3.0.tar.gz.


  0%|          | 0.00/577M [00:00<?, ?B/s]

2021-09-08 08:46:13,448 : INFO : Descompactando o arquivo do modelo do spaCy.
2021-09-08 08:46:26,647 : INFO : spaCy carregado.


# 4 Avaliação

## 4.1 Wandb

https://wandb.ai/osmar-braz/medidacoerenciacstnews_v1/table?workspace=user-osmar-braz

### Função de inicialização wandb

In [15]:
def inicializacaoWandb():

  if model_args.use_wandb:

    # Importando a biblioteca.
    import wandb

    #Login via linha de comando
    !wandb login aded3bc0ea651fff536cc08ba69caf8ac4141cfd

    # Inicializando o registro do experimento.
    # Na execução só pode existir de um init para que não gere dois registros no wandb.
    wandb.init(project='medidacoerenciacstnews_v1', name='medidacoerenciacstnews_v1')

    # Atualiza os parâmetros do modelo no wandb.
    wandb.config.update(model_args)

    # Registra os parämetros não literais do model_args.
    wandb.log({'max_seq_len': model_args.max_seq_len})
    wandb.log({'do_lower_case': model_args.do_lower_case})
    wandb.log({'output_hidden_states': model_args.output_hidden_states})    
    
    return wandb

## 4.2 Cálculo de todas as medidas dos modelos

- Total de Pares : 4980

**BERTimbau base**
- Pares Corretos Ccos: 3126
- Acurácia:  62.77108433734939

- Pares Corretos Ceuc: 3196
- Acurácia:  64.17670682730923

- Pares Corretos Cman: 3148
- Acurácia:  63.212851405622494

**BERTimbau base ajustado**
- Pares Corretos Ccos: 4621
- Acurácia:  92.79116465863454

- Pares Corretos Ceuc: 4828
- Acurácia:  96.94779116465864

- Pares Corretos Cman: 4835
- Acurácia:  97.08835341365462


**BERTimbau large**
- Pares Corretos Ccos: 3132
- Acurácia:  62.89156626506024

- Pares Corretos Ceuc: 3132
- Acurácia:  62.89156626506024

- Pares Corretos Cman: 3133
- Acurácia:  62.911646586345384
  

**BERT multilingual-cased**
- Pares Corretos Ccos: 2896
- Acurácia:  58.387096774193544

- Pares Corretos Ceuc: 2891
- Acurácia:  58.28629032258065

- Pares Corretos Cman: 2893
- Acurácia:  58.32661290322581

### Procedimento de cálculo de todos os modelos

In [16]:
# Biblioteca coerenciaBERT
from conjuntodedados.dadoscstnewsmedida import *
from bert.bertmodulo import *
from experimento.calculomedida  import *

def procedimentoCalculaMedida(modelo_pretreinado, estrategia_pooling, palavra_relevante):

  # Import das bibliotecas
  import time
  import datetime

  # Seta o parâmetro do modelo pré-treinado
  model_args.pretrained_model_name_or_path = modelo_pretreinado
  # Seta o parâmetro da estratégia
  model_args.estrategia_pooling = estrategia_pooling
  # Seta o parâmetro de relevância
  model_args.palavra_relevante = palavra_relevante

  print("Processamendo do modelo pré-treinado: {} e estrategia pooling {} e com palavra relevante {}".format(modelo_pretreinado,estrategia_pooling,palavra_relevante))
      
  # Marca o tempo de início do processamento
  tempoInicioTeste = time.time()
  print("Tempo início processamento: {:} (h:mm:ss)".format(formataTempo(tempoInicioTeste)))
  
  # Carrega o Spacy
  nlp = carregaSpacy(model_args)

  # Carrega o modelo e o tokenizador do bert
  model, tokenizer = carregaBERT(model_args)
      
  # Carrega o conjunto de dados
  dfdados = getConjuntoDeDadosMedida(model_args, tokenizer, None)

  # Inicializa o wandb para registro
  wandb = inicializacaoWandb()

  # Calcula as medidas dos documentos do conjunto de dados
  lista_medidas_documentos_salvar, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman = calculaMedidasDocumentosConjuntoDeDados(model_args, dfdados, model, tokenizer, nlp, wandb)
  
  # Pega o tempo atual menos o tempo do início do processamento.
  tempoFinalTeste = time.time()
  tempoTotalProcessamento = formataTempo(tempoFinalTeste - tempoInicioTeste)

  # Nome base do arquivo de medidas
  NOME_BASE = 'MedicaoCoerenciaCSTNews_v1'  
  # Diretório para salvar o arquivo.
  DIRETORIO_MEDICAO = '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/'
  # Salva o resultado da classificação
  salvaResultadoMedicao(model_args, NOME_BASE, DIRETORIO_MEDICAO, lista_medidas_documentos_salvar)

  # Nome base do arquivo de medidas
  NOME_BASE = 'MedicaoCoerenciaCSTNews_v1'  
  # Diretório para salvar o arquivo de resultado.
  DIRETORIO_AVALIACAO = '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Avaliacao/'
  # Salva o resultado da avaliação
  salvaResultadoAvaliacao(model_args, NOME_BASE, DIRETORIO_AVALIACAO, tempoTotalProcessamento, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman)

  print("Tempo processamento:  {:} (h:mm:ss)".format(tempoTotalProcessamento))

  # Apaga os objetos
  del tokenizer
  del model
  del lista_medidas_documentos_salvar

  # Esvazia o buffer dos embeddings originais
  limpaBufferEmbedding()

### Executa o procedimento para todos os parâmetros

In [None]:
# Import das bibliotecas
from tqdm.notebook import tqdm as tqdm_notebook

# Definição dos parâmetros a serem avaliados
# Nomes dos modelos pré-treinados a serem avaliados
NOME_MODELO_PRETREINADO = ['https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip',
                           'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip',
                           'bert-base-multilingual-cased']

# Estratégias pooling a serem avaliadas
ESTRATEGIA_POOLING = [0, 1] # (0 - MEAN, 1 - MAX)

# Estratégias de palavras relevantes das sentenças a serem avaliadas
PALAVRA_RELEVANTE_STR = ['TODAS_AS_PALAVRAS', 'SEM_STOPWORDS', 'SOMENTE_SUBSTANTIVOS']
PALAVRA_RELEVANTE = [0, 1, 2] # (0 - ALL, 1 - CLEAN, 2 - NOUN) - 'TAP,SSW,SBT'

# Barra de progresso modelos pré-treinados do BERT
modelo_pretreinado_bar = tqdm_notebook(range(0,len(NOME_MODELO_PRETREINADO)), desc=f'Modelos', unit=f'modelo')

# Percorre todos os modelo pré-treiandos do BERT a serem avaliados
for modelo_pretreinado_i in modelo_pretreinado_bar:

  # Barra de progresso estratégias de pooling
  estrategia_pooling_bar = tqdm_notebook(range(len(ESTRATEGIA_POOLING)), desc=f'Estratégias Pooling', unit=f'estratégia')

  # Percorre todos as estratégias de pooling  a serem avaliadas
  for estrategia_pooling_i in estrategia_pooling_bar:

    # Barra de progresso palavras relevantes
    palavra_relevante_bar = tqdm_notebook(range(len(PALAVRA_RELEVANTE)), desc=f'Palavras relevantes', unit=f'relavante')

    # Percorre todos as estratégias de palavras relevantes a serem avaliadas
    for palavra_relevante_i in palavra_relevante_bar:

      # Passa os parâmetros para o procedimento cálculo das medidas para o modelo, estratégia de pooling e de palavras relevantes
      procedimentoCalculaMedida(NOME_MODELO_PRETREINADO[modelo_pretreinado_i], ESTRATEGIA_POOLING[estrategia_pooling_i], PALAVRA_RELEVANTE[palavra_relevante_i])      

Modelos:   0%|          | 0/3 [00:00<?, ?modelo/s]

Estratégias Pooling:   0%|          | 0/2 [00:00<?, ?estratégia/s]

Palavras relevantes:   0%|          | 0/3 [00:00<?, ?relavante/s]

Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 0 e com palavra relevante 0
Tempo início processamento: 18878 days, 8:46:32 (h:mm:ss)


2021-09-08 08:46:39,040 : INFO : spaCy carregado.
2021-09-08 08:46:39,294 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-09-08 08:46:53,778 : INFO : Download do arquivo: coerenciabert/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-09-08 08:46:53,877 : INFO : Diretório coerenciabert/modeloBERT do modelo BERT pronta!
2021-09-08 08:46:53,938 : INFO : Usando modelo BERT pré-treinado.
2021-09-08 08:46:53,940 : INFO : Carregando o modelo BERT do diretório coerenciabert/modeloBERT para cálculo de medidas.
2021-09-08 08:46:56,413 : INFO : Carregando o tokenizador BERT do diretório coerenciabert/modeloBERT.
2021-09-08 08:46:56,461 : INFO : Realizando o download do CSTNews meu OneDrive.
2021-09-08 08:46:57,681 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-09-08 08:47:16,220 : INFO : Geração de pares de documentos concluído: 5020.
2021-09-08 08:47:33,811 : INFO : NumExpr defaulting to 2 threads.
2021-09-08 08:47:33,827 : INFO : Quantidade de dados anterior: 5020.
2021-09-08 08:47:33,829 : INFO : Nova quantidade de dados    : 4980.
2021-09-08 08:47:33,862 : INFO : Quantidade de registros removidos: 40.


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

2021-09-08 10:00:38,610 : INFO : Total de Pares: 4980.
2021-09-08 10:00:38,612 : INFO : Pares Corretos Ccos: 3126.
2021-09-08 10:00:38,614 : INFO : Percentual acertos Ccos: 62.77108433734939.
2021-09-08 10:00:38,616 : INFO : Pares Corretos Ceuc: 3196.
2021-09-08 10:00:38,618 : INFO : Percentual acertos Ceuc: 64.17670682730923.
2021-09-08 10:00:38,620 : INFO : Pares Corretos Cman: 3148.
2021-09-08 10:00:38,621 : INFO : Percentual acertos Cman: 63.212851405622494.
2021-09-08 10:00:38,622 : INFO : Cálculo de medida de documentos terminado!


Tempo processamento:  1:14:06 (h:mm:ss)
Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 0 e com palavra relevante 1
Tempo início processamento: 18878 days, 10:00:39 (h:mm:ss)


2021-09-08 10:00:45,965 : INFO : spaCy carregado.
2021-09-08 10:00:45,967 : INFO : Apagando diretório existente do modelo!
2021-09-08 10:00:46,212 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-09-08 10:01:01,613 : INFO : Download do arquivo: coerenciabert/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-09-08 10:01:01,716 : INFO : Diretório coerenciabert/modeloBERT do modelo BERT pronta!
2021-09-08 10:01:01,777 : INFO : Usando modelo BERT pré-treinado.
2021-09-08 10:01:01,778 : INFO : Carregando o modelo BERT do diretório coerenciabert/modeloBERT para cálculo de medidas.
2021-09-08 10:01:03,705 : INFO : Carregando o tokenizador BERT do diretório coerenciabert/modeloBERT.
2021-09-08 10:01:03,749 : INFO : Realizando o download do CSTNews meu OneDrive.
2021-09-08 10:01:05,047 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-09-08 10:01:25,634 : INFO : Geração de pares de documentos concluído: 5020.
2021-09-08 10:01:43,195 : INFO : Quantidade de dados anterior: 5020.
2021-09-08 10:01:43,197 : INFO : Nova quantidade de dados    : 4980.
2021-09-08 10:01:43,226 : INFO : Quantidade de registros removidos: 40.


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

2021-09-08 11:16:48,824 : INFO : Total de Pares: 4980.
2021-09-08 11:16:48,827 : INFO : Pares Corretos Ccos: 3007.
2021-09-08 11:16:48,829 : INFO : Percentual acertos Ccos: 60.381526104417674.
2021-09-08 11:16:48,830 : INFO : Pares Corretos Ceuc: 3094.
2021-09-08 11:16:48,832 : INFO : Percentual acertos Ceuc: 62.1285140562249.
2021-09-08 11:16:48,834 : INFO : Pares Corretos Cman: 3060.
2021-09-08 11:16:48,836 : INFO : Percentual acertos Cman: 61.44578313253012.
2021-09-08 11:16:48,837 : INFO : Cálculo de medida de documentos terminado!


Tempo processamento:  1:16:10 (h:mm:ss)
Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 0 e com palavra relevante 2
Tempo início processamento: 18878 days, 11:16:49 (h:mm:ss)


2021-09-08 11:16:55,945 : INFO : spaCy carregado.
2021-09-08 11:16:55,947 : INFO : Apagando diretório existente do modelo!
2021-09-08 11:16:56,201 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-09-08 11:17:10,781 : INFO : Download do arquivo: coerenciabert/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-09-08 11:17:10,887 : INFO : Diretório coerenciabert/modeloBERT do modelo BERT pronta!
2021-09-08 11:17:10,950 : INFO : Usando modelo BERT pré-treinado.
2021-09-08 11:17:10,952 : INFO : Carregando o modelo BERT do diretório coerenciabert/modeloBERT para cálculo de medidas.
2021-09-08 11:17:12,915 : INFO : Carregando o tokenizador BERT do diretório coerenciabert/modeloBERT.
2021-09-08 11:17:12,960 : INFO : Realizando o download do CSTNews meu OneDrive.
2021-09-08 11:17:14,211 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-09-08 11:17:34,963 : INFO : Geração de pares de documentos concluído: 5020.
2021-09-08 11:17:52,614 : INFO : Quantidade de dados anterior: 5020.
2021-09-08 11:17:52,617 : INFO : Nova quantidade de dados    : 4980.
2021-09-08 11:17:52,648 : INFO : Quantidade de registros removidos: 40.


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

2021-09-08 12:38:35,907 : INFO : Total de Pares: 4980.
2021-09-08 12:38:35,909 : INFO : Pares Corretos Ccos: 2799.
2021-09-08 12:38:35,911 : INFO : Percentual acertos Ccos: 56.20481927710843.
2021-09-08 12:38:35,912 : INFO : Pares Corretos Ceuc: 2708.
2021-09-08 12:38:35,913 : INFO : Percentual acertos Ceuc: 54.37751004016064.
2021-09-08 12:38:35,932 : INFO : Pares Corretos Cman: 2680.
2021-09-08 12:38:35,933 : INFO : Percentual acertos Cman: 53.81526104417671.
2021-09-08 12:38:35,934 : INFO : Cálculo de medida de documentos terminado!


Tempo processamento:  1:21:47 (h:mm:ss)


Palavras relevantes:   0%|          | 0/3 [00:00<?, ?relavante/s]

Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 1 e com palavra relevante 0
Tempo início processamento: 18878 days, 12:38:36 (h:mm:ss)


2021-09-08 12:38:43,111 : INFO : spaCy carregado.
2021-09-08 12:38:43,113 : INFO : Apagando diretório existente do modelo!
2021-09-08 12:38:43,414 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-09-08 12:38:58,095 : INFO : Download do arquivo: coerenciabert/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-09-08 12:38:58,230 : INFO : Diretório coerenciabert/modeloBERT do modelo BERT pronta!
2021-09-08 12:38:58,291 : INFO : Usando modelo BERT pré-treinado.
2021-09-08 12:38:58,296 : INFO : Carregando o modelo BERT do diretório coerenciabert/modeloBERT para cálculo de medidas.
2021-09-08 12:39:00,316 : INFO : Carregando o tokenizador BERT do diretório coerenciabert/modeloBERT.
2021-09-08 12:39:00,375 : INFO : Realizando o download do CSTNews meu OneDrive.
2021-09-08 12:39:01,741 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-09-08 12:39:28,376 : INFO : Geração de pares de documentos concluído: 5020.
2021-09-08 12:39:46,238 : INFO : Quantidade de dados anterior: 5020.
2021-09-08 12:39:46,239 : INFO : Nova quantidade de dados    : 4980.
2021-09-08 12:39:46,272 : INFO : Quantidade de registros removidos: 40.


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

2021-09-08 13:54:08,854 : INFO : Total de Pares: 4980.
2021-09-08 13:54:08,857 : INFO : Pares Corretos Ccos: 2995.
2021-09-08 13:54:08,859 : INFO : Percentual acertos Ccos: 60.14056224899599.
2021-09-08 13:54:08,861 : INFO : Pares Corretos Ceuc: 3037.
2021-09-08 13:54:08,863 : INFO : Percentual acertos Ceuc: 60.98393574297189.
2021-09-08 13:54:08,865 : INFO : Pares Corretos Cman: 3034.
2021-09-08 13:54:08,866 : INFO : Percentual acertos Cman: 60.92369477911647.
2021-09-08 13:54:08,867 : INFO : Cálculo de medida de documentos terminado!


Tempo processamento:  1:15:32 (h:mm:ss)
Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 1 e com palavra relevante 1
Tempo início processamento: 18878 days, 13:54:09 (h:mm:ss)


2021-09-08 13:54:16,601 : INFO : spaCy carregado.
2021-09-08 13:54:16,603 : INFO : Apagando diretório existente do modelo!
2021-09-08 13:54:16,925 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-09-08 13:54:31,974 : INFO : Download do arquivo: coerenciabert/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-09-08 13:54:32,079 : INFO : Diretório coerenciabert/modeloBERT do modelo BERT pronta!
2021-09-08 13:54:32,143 : INFO : Usando modelo BERT pré-treinado.
2021-09-08 13:54:32,144 : INFO : Carregando o modelo BERT do diretório coerenciabert/modeloBERT para cálculo de medidas.
2021-09-08 13:54:34,188 : INFO : Carregando o tokenizador BERT do diretório coerenciabert/modeloBERT.
2021-09-08 13:54:34,235 : INFO : Realizando o download do CSTNews meu OneDrive.
2021-09-08 13:54:35,119 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-09-08 13:54:56,607 : INFO : Geração de pares de documentos concluído: 5020.
2021-09-08 13:55:14,444 : INFO : Quantidade de dados anterior: 5020.
2021-09-08 13:55:14,448 : INFO : Nova quantidade de dados    : 4980.
2021-09-08 13:55:14,478 : INFO : Quantidade de registros removidos: 40.


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

# 5 Finalização

## 5.1 Tempo final de processamento



In [None]:
 # Pega o tempo atual menos o tempo do início do processamento.
finalProcessamento = time.time()
tempoTotalProcessamento = formataTempo(finalProcessamento - inicioProcessamento)

print('')
print('  Tempo processamento:  {:} (h:mm:ss)'.format(tempoTotalProcessamento))

Executa o wandb para finalizar a execução anterior

In [None]:
if model_args.use_wandb:
    # Importando a biblioteca
    import wandb

    # Inicializando o registro do experimento
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project='medidacoerenciacstnews_v1', name='medidacoerenciacstnews_v1')