# Avaliação de Medidas (In)Coerência do conjunto de dados CSTNews usando BERT Pré-treinado

Este notebook, realiza testes de medidas de (in)coerência entre pares de documentos do conjunto de dados CSTNews 5.0 modificado por Marcio Dias analisar a coerência de sumários multidocumentos utilizando BERT Pré-treinado. 

O conjunto de dados foi construído a partir de 251 documentos oriundos do córpus CSTNews 5.0. O CSTNews é formado por textos jornalisticos de domínos váriados produzidos por (Aleixo e Pardo, 2008). Somente postagens que possuem de 4 sentenças foram selecionadas. Pois é necessário no mínimo 4 sentenças para gerar 20 permutações. 
Dois documentos(C3_Extrato_6 e C33_Extrato_6) foram removidos do conjunto de dados apesar de estarem na faixa de 4 a 20 sentenças, pois ao a realizar a formatação para a entrada no BERT eles geram mais de 512 tokens.    

Para cada documento as sentenças foram permutadas em até 20 vezes para um criar um conjunto de sentenças formadas por estas permutações.

Ao final a base de dados é formada por pares de documento, sendo um documento original(DO) e uma de suas 20 permutações(permDoc). O conjunto de dados total é formado por 4.980 pares de documentos. 

A medida de (in)coerência **Cm(D)** de um documento(D) é define a coerência e incoerência como a média de alguma função **m** de distância ou similaridade, respectivamente, entre pares de sentenças (**Si e Sj**). A função **Scos** utiliza a similaridade do cosseno e as funções **Seuc** e **Sman** utilizam distância Euclidiana e Manhattan entre os embeddings de sentenças adjacentes (**Si**) e (**Sj**) no documento.

As seguintes funções de similaridade e distância foram calculadas entre os embeddings das sentenças **Si** e **Sj**:
- **Scos(Si,Sj)** - Similaridade do cosseno entre a média dos embeddings Si e Sj.
- **Seuc(Si,Sj)** - Distância Euclidiana(L2) - usando a média dos embeddings Si e Sj das camadas especificadas
- **Sman(Si,Sj)** - Distância de Manhattan(L1) - usando a média dos embeddings Si e Sj das camadas especificadas

Características dos testes:
 - A avaliação das medidas de (in)coerência são realizadas utilizando a implementação BERT da biblioteca Huggingface e os MCL BERT **Pré-treinado** no formato cased:
  - BERTimbau de tamanho Large 
  - BERTimbau de tamanho Base 
  - BERT Multilingue
- Não é realizado ajuste fino do modelo.
- Todo o documento é submetido ao BERT e os embeddings da concatenação das 4 últimas camadas é recuperado.

Utilizando o MCL BERT multilingual os documentos C33_Extrato_6.txt, C3_Extrato_6.txt e C27_Extrato_6.txt possuem mais de 512 tokens.

Utilizando o MCL BERTimbau base e large os documentos C33_Extrato_6.txt e C3_Extrato_6.txt por possuir mais de 512 tokens.

----------------------------
**CSTNews 5.0:** https://sites.icmc.usp.br/taspardo/sucinto/files/CSTNews%205.0.zip

**Trabalho Marcio Dias:** https://sites.icmc.usp.br/taspardo/Summary%20coherence%20models.zip

**Link biblioteca Transformers:**
https://github.com/huggingface/transformers

**Artigo original BERT:**
https://arxiv.org/pdf/1506.06724.pdf

# 1 Preparação do ambiente
Preparação do ambiente para execução do exemplo.

## 1.1 Tempo inicial de processamento

In [None]:
import time
import datetime

#marca o tempo de início do processamento.
inicioProcessamento = time.time()

## 1.2 Tratamento de logs

In [None]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

## 1.3  Identificando o ambiente Colab

In [None]:
# Se estiver executando no Google Colaboratory.
import sys

# Retorna true ou false se estiver no Google Colaboratory.
IN_COLAB = 'google.colab' in sys.modules

## 1.4 Biblioteca de limpeza de tela

In [None]:
from IPython.display import clear_output

## 1.5 Conecta ao Google Drive

Usa a pasta mapeada para recuperar o conjunto de dados do OnlineEduc e salvar os resultados do cálculo de medidas.

In [None]:
 # Import necessário
from google.colab import drive

# Monta o drive na pasta especificada
drive.mount('/content/drive')     

Mounted at /content/drive


## 1.6 Instalação do wandb

Instalação

In [None]:
!pip install --upgrade wandb

Collecting wandb
  Downloading wandb-0.12.4-py2.py3-none-any.whl (1.7 MB)
[K     |████████████████████████████████| 1.7 MB 5.2 MB/s 
[?25hCollecting sentry-sdk>=1.0.0
  Downloading sentry_sdk-1.4.3-py2.py3-none-any.whl (139 kB)
[K     |████████████████████████████████| 139 kB 33.6 MB/s 
[?25hCollecting docker-pycreds>=0.4.0
  Downloading docker_pycreds-0.4.0-py2.py3-none-any.whl (9.0 kB)
Collecting pathtools
  Downloading pathtools-0.1.2.tar.gz (11 kB)
Collecting yaspin>=1.0.0
  Downloading yaspin-2.1.0-py3-none-any.whl (18 kB)
Collecting shortuuid>=0.5.0
  Downloading shortuuid-1.0.1-py3-none-any.whl (7.5 kB)
Collecting subprocess32>=3.5.3
  Downloading subprocess32-3.5.4.tar.gz (97 kB)
[K     |████████████████████████████████| 97 kB 5.7 MB/s 
Collecting GitPython>=1.0.0
  Downloading GitPython-3.1.24-py3-none-any.whl (180 kB)
[K     |████████████████████████████████| 180 kB 47.0 MB/s 
[?25hCollecting configparser>=3.8.1
  Downloading configparser-5.0.2-py3-none-any.whl (19 kB)

## 1.7 Instalação BERT da Hugging Face

Instala a interface pytorch para o BERT by Hugging Face. 

In [None]:
!pip install -U transformers==4.5.1

Collecting transformers==4.5.1
  Downloading transformers-4.5.1-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 5.4 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.46-py3-none-any.whl (895 kB)
[K     |████████████████████████████████| 895 kB 37.6 MB/s 
Collecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3 MB)
[K     |████████████████████████████████| 3.3 MB 33.3 MB/s 
Installing collected packages: tokenizers, sacremoses, transformers
Successfully installed sacremoses-0.0.46 tokenizers-0.10.3 transformers-4.5.1


## 1.8 Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [None]:
# Instala o spacy
!pip install -U spacy==2.3.5

Collecting spacy==2.3.5
  Downloading spacy-2.3.5-cp37-cp37m-manylinux2014_x86_64.whl (10.4 MB)
[K     |████████████████████████████████| 10.4 MB 4.5 MB/s 
Collecting thinc<7.5.0,>=7.4.1
  Downloading thinc-7.4.5-cp37-cp37m-manylinux2014_x86_64.whl (1.0 MB)
[K     |████████████████████████████████| 1.0 MB 42.0 MB/s 
Installing collected packages: thinc, spacy
  Attempting uninstall: thinc
    Found existing installation: thinc 7.4.0
    Uninstalling thinc-7.4.0:
      Successfully uninstalled thinc-7.4.0
  Attempting uninstall: spacy
    Found existing installation: spacy 2.2.4
    Uninstalling spacy-2.2.4:
      Successfully uninstalled spacy-2.2.4
Successfully installed spacy-2.3.5 thinc-7.4.5


## 1.9 Recupera o cohebert do Github

In [None]:
!git clone https://github.com/osmarbraz/cohebert_v1.git

Cloning into 'cohebert_v1'...
remote: Enumerating objects: 4786, done.[K
remote: Counting objects: 100% (418/418), done.[K
remote: Compressing objects: 100% (267/267), done.[K
remote: Total 4786 (delta 283), reused 265 (delta 146), pack-reused 4368[K
Receiving objects: 100% (4786/4786), 28.78 MiB | 17.71 MiB/s, done.
Resolving deltas: 100% (3038/3038), done.


In [None]:
#Muda o diretório corrente para a pasta clonada
import sys
sys.path.append('./cohebert_v1/cohebert')

In [None]:
# Biblioteca cohebert
from util.utilmodulo import *
from util.utiltempo import *
from util.utilarquivo import *

# 2 Parametrização

In [None]:
# Biblioteca cohebert
from bert.bertarguments import ModeloArgumentosMedida

# Definição dos parâmetros do Modelo para o cálculo de Medida
model_args = ModeloArgumentosMedida(     
    max_seq_len = 512,
    #pretrained_model_name_or_path = 'neuralmind/bert-large-portuguese-cased',
    pretrained_model_name_or_path = 'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip',
    #pretrained_model_name_or_path = 'neuralmind/bert-base-portuguese-cased',
    #pretrained_model_name_or_path = 'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip',       
    #pretrained_model_name_or_path = 'bert-base-multilingual-cased',
    modelo_spacy = 'pt_core_news_lg',
    versao_spacy = '2.3.0',
    do_lower_case = False,   # default True
    output_attentions = False,    # default False
    output_hidden_states = True, # default False
    use_wandb = False,
    salvar_modelo_wandb = False,    
    salvar_medicao = False, #Salva o resultado da medição
    salvar_avaliacao = False, # Salva o resultado da avaliação das medições
    usar_mcl_ajustado = False, # Especifica se deve ser carregado um MCL ajustado ou pré-treinado. Necessário especificar o tipo do modelo em pretrained_model_name_or_path.
    estrategia_pooling = 0, # 0 - MEAN estratégia média / 1 - MAX  estratégia maior
    palavra_relevante = 0 # 0 - Considera todas as palavras das sentenças / 1 - Desconsidera as stopwords / 2 - Considera somente as palavras substantivas
)

# 3 spaCy

## 3.1 Carrega o modelo do spacy

https://spacy.io/models/pt

In [None]:
# Biblioteca cohebert
from spacynlp.spacymodulo import *

# Carrega o modelo
nlp = carregaSpacy(model_args)

2021-10-16 08:22:36,768 : INFO : Download do arquivo do modelo do spaCy.
2021-10-16 08:22:37,107 : INFO : Download do arquivo: cohebert_v1/pt_core_news_lg-2.3.0.tar.gz.


  0%|          | 0.00/577M [00:00<?, ?B/s]

2021-10-16 08:22:55,346 : INFO : Descompactando o arquivo do modelo do spaCy.
2021-10-16 08:23:08,517 : INFO : spaCy carregado.


# 4 Avaliação

## 4.1 Wandb

https://wandb.ai/osmar-braz/medidacoerenciacstnews_v1/table?workspace=user-osmar-braz

### Função de inicialização wandb

In [None]:
def inicializacaoWandb():

  if model_args.use_wandb:

    # Importando a biblioteca.
    import wandb

    #Login via linha de comando
    !wandb login aded3bc0ea651fff536cc08ba69caf8ac4141cfd

    # Inicializando o registro do experimento.
    # Na execução só pode existir de um init para que não gere dois registros no wandb.
    wandb.init(project='medidacoerenciacstnews_v1', name='medidacoerenciacstnews_v1')

    # Atualiza os parâmetros do modelo no wandb.
    wandb.config.update(model_args)

    # Registra os parämetros não literais do model_args.
    wandb.log({'max_seq_len': model_args.max_seq_len})
    wandb.log({'do_lower_case': model_args.do_lower_case})
    wandb.log({'output_hidden_states': model_args.output_hidden_states})    
    
    return wandb

## 4.2 Cálculo de todas as medidas dos modelos

- Total de Pares : 4980

**BERTimbau base**
- Pares Corretos Ccos: 3126
- Acurácia:  62.77108433734939

- Pares Corretos Ceuc: 3196
- Acurácia:  64.17670682730923

- Pares Corretos Cman: 3148
- Acurácia:  63.212851405622494

**BERTimbau base ajustado**
- Pares Corretos Ccos: 4621
- Acurácia:  92.79116465863454

- Pares Corretos Ceuc: 4828
- Acurácia:  96.94779116465864

- Pares Corretos Cman: 4835
- Acurácia:  97.08835341365462


**BERTimbau large**
- Pares Corretos Ccos: 3132
- Acurácia:  62.89156626506024

- Pares Corretos Ceuc: 3132
- Acurácia:  62.89156626506024

- Pares Corretos Cman: 3133
- Acurácia:  62.911646586345384
  

**BERT multilingual-cased**
- Pares Corretos Ccos: 2896
- Acurácia:  58.387096774193544

- Pares Corretos Ceuc: 2891
- Acurácia:  58.28629032258065

- Pares Corretos Cman: 2893
- Acurácia:  58.32661290322581

### Procedimento de cálculo de todos os modelos

In [None]:
# Biblioteca cohebert
from conjuntodedados.dadoscstnewsmedida import *
from bert.bertmodulo import *
from experimento.calculomedida  import *

def procedimentoCalculaMedida(modelo_pretreinado, estrategia_pooling, palavra_relevante):

  # Import das bibliotecas
  import time
  import datetime

  # Seta o parâmetro do modelo pré-treinado
  model_args.pretrained_model_name_or_path = modelo_pretreinado
  # Seta o parâmetro da estratégia
  model_args.estrategia_pooling = estrategia_pooling
  # Seta o parâmetro de relevância
  model_args.palavra_relevante = palavra_relevante

  print("Processamendo do modelo pré-treinado: {} e estrategia pooling {} e com palavra relevante {}".format(modelo_pretreinado,estrategia_pooling,palavra_relevante))
      
  # Marca o tempo de início do processamento
  tempoInicioTeste = time.time()
  print("Tempo início processamento: {:} (h:mm:ss)".format(formataTempo(tempoInicioTeste)))
  
  # Carrega o Spacy
  nlp = carregaSpacy(model_args)

  # Carrega o modelo e o tokenizador do bert
  model, tokenizer = carregaBERT(model_args)
  
  # Carrega o conjunto de dados
  dfdados = getConjuntoDeDadosMedida(model_args, tokenizer, None)
  
  # Inicializa o wandb para registro
  wandb = inicializacaoWandb()

  print("antes")
  # Calcula as medidas dos documentos do conjunto de dados
  lista_medidas_documentos_salvar, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman = calculaMedidasDocumentosConjuntoDeDados(model_args, dfdados, model, tokenizer, nlp, wandb)
  print("depois")
  
  # Pega o tempo atual menos o tempo do início do processamento.
  tempoFinalTeste = time.time()
  tempoTotalProcessamento = formataTempo(tempoFinalTeste - tempoInicioTeste)

  # Nome base do arquivo de medidas
  NOME_BASE = 'MedicaoCoerenciaCSTNews_v1'  
  # Diretório para salvar o arquivo.
  DIRETORIO_MEDICAO = '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/'
  # Salva o resultado da classificação
  salvaResultadoMedicao(model_args, NOME_BASE, DIRETORIO_MEDICAO, lista_medidas_documentos_salvar)

  # Nome base do arquivo de medidas
  NOME_BASE = 'MedicaoCoerenciaCSTNews_v1'  
  # Diretório para salvar o arquivo de resultado.
  DIRETORIO_AVALIACAO = '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Avaliacao/'
  # Salva o resultado da avaliação
  salvaResultadoAvaliacao(model_args, NOME_BASE, DIRETORIO_AVALIACAO, tempoTotalProcessamento, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman)

  print("Tempo processamento:  {:} (h:mm:ss)".format(tempoTotalProcessamento))

  # Apaga os objetos
  del tokenizer
  del model
  del lista_medidas_documentos_salvar

  # Esvazia o buffer dos embeddings originais
  limpaBufferEmbedding()

### Executa o procedimento para todos os parâmetros

In [None]:
# Import das bibliotecas
from tqdm.notebook import tqdm as tqdm_notebook

# Definição dos parâmetros a serem avaliados
# Nomes dos modelos pré-treinados a serem avaliados
NOME_MODELO_PRETREINADO = ['https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip',
                           'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip',
                           'bert-base-multilingual-cased']

# Estratégias pooling a serem avaliadas
ESTRATEGIA_POOLING = [0, 1] # (0 - MEAN, 1 - MAX)

# Estratégias de palavras relevantes das sentenças a serem avaliadas
PALAVRA_RELEVANTE_STR = ['TODAS_AS_PALAVRAS', 'SEM_STOPWORDS', 'SOMENTE_SUBSTANTIVOS']
PALAVRA_RELEVANTE = [0, 1, 2] # (0 - ALL, 1 - CLEAN, 2 - NOUN) - 'TAP,SSW,SBT'

# Barra de progresso modelos pré-treinados do BERT
modelo_pretreinado_bar = tqdm_notebook(range(0,len(NOME_MODELO_PRETREINADO)), desc=f'Modelos', unit=f'modelo')

# Percorre todos os modelo pré-treiandos do BERT a serem avaliados
for modelo_pretreinado_i in modelo_pretreinado_bar:

  # Barra de progresso estratégias de pooling
  estrategia_pooling_bar = tqdm_notebook(range(len(ESTRATEGIA_POOLING)), desc=f'Estratégias Pooling', unit=f'estratégia')

  # Percorre todos as estratégias de pooling  a serem avaliadas
  for estrategia_pooling_i in estrategia_pooling_bar:

    # Barra de progresso palavras relevantes
    palavra_relevante_bar = tqdm_notebook(range(len(PALAVRA_RELEVANTE)), desc=f'Palavras relevantes', unit=f'relavante')

    # Percorre todos as estratégias de palavras relevantes a serem avaliadas
    for palavra_relevante_i in palavra_relevante_bar:

      # Passa os parâmetros para o procedimento cálculo das medidas para o modelo, estratégia de pooling e de palavras relevantes
      procedimentoCalculaMedida(NOME_MODELO_PRETREINADO[modelo_pretreinado_i], ESTRATEGIA_POOLING[estrategia_pooling_i], PALAVRA_RELEVANTE[palavra_relevante_i])      

Modelos:   0%|          | 0/3 [00:00<?, ?modelo/s]

Estratégias Pooling:   0%|          | 0/2 [00:00<?, ?estratégia/s]

Palavras relevantes:   0%|          | 0/3 [00:00<?, ?relavante/s]

Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 0 e com palavra relevante 0
Tempo início processamento: 18916 days, 8:23:37 (h:mm:ss)


2021-10-16 08:23:42,463 : INFO : spaCy carregado.
2021-10-16 08:23:42,761 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-16 08:24:00,283 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-16 08:24:00,432 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-16 08:24:00,495 : INFO : Usando modelo BERT pré-treinado.
2021-10-16 08:24:00,497 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para cálculo de medidas.
2021-10-16 08:24:02,932 : INFO : Carregando o tokenizador BERT do diretório cohebert_v1/modeloBERT.
2021-10-16 08:24:02,976 : INFO : Realizando o download do CSTNews do meu OneDrive.
2021-10-16 08:24:04,845 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-10-16 08:24:29,941 : INFO : Geração de pares de documentos concluído: 5020.
2021-10-16 08:24:48,215 : INFO : NumExpr defaulting to 2 threads.
2021-10-16 08:24:48,232 : INFO : Quantidade de dados anterior: 5020.
2021-10-16 08:24:48,234 : INFO : Nova quantidade de dados    : 4980.
2021-10-16 08:24:48,279 : INFO : Quantidade de registros removidos: 40.


antes


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

2021-10-16 09:45:21,724 : INFO : Total de Pares: 4980.
2021-10-16 09:45:21,731 : INFO : Pares Corretos Ccos: 3126.
2021-10-16 09:45:21,734 : INFO : Percentual acertos Ccos: 62.77108433734939.
2021-10-16 09:45:21,736 : INFO : Pares Corretos Ceuc: 3196.
2021-10-16 09:45:21,737 : INFO : Percentual acertos Ceuc: 64.17670682730923.
2021-10-16 09:45:21,739 : INFO : Pares Corretos Cman: 3148.
2021-10-16 09:45:21,740 : INFO : Percentual acertos Cman: 63.212851405622494.
2021-10-16 09:45:21,742 : INFO : Cálculo de medida de documentos terminado!


depois
Tempo processamento:  1:21:45 (h:mm:ss)
Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 0 e com palavra relevante 1
Tempo início processamento: 18916 days, 9:45:23 (h:mm:ss)


2021-10-16 09:45:29,479 : INFO : spaCy carregado.
2021-10-16 09:45:29,483 : INFO : Apagando diretório existente do modelo!
2021-10-16 09:45:29,820 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-16 09:45:47,930 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-16 09:45:48,069 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-16 09:45:48,138 : INFO : Usando modelo BERT pré-treinado.
2021-10-16 09:45:48,139 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para cálculo de medidas.
2021-10-16 09:45:50,270 : INFO : Carregando o tokenizador BERT do diretório cohebert_v1/modeloBERT.
2021-10-16 09:45:50,310 : INFO : Realizando o download do CSTNews do meu OneDrive.
2021-10-16 09:45:51,993 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-10-16 09:46:18,307 : INFO : Geração de pares de documentos concluído: 5020.
2021-10-16 09:46:35,917 : INFO : Quantidade de dados anterior: 5020.
2021-10-16 09:46:35,924 : INFO : Nova quantidade de dados    : 4980.
2021-10-16 09:46:35,956 : INFO : Quantidade de registros removidos: 40.


antes


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

2021-10-16 11:10:36,122 : INFO : Total de Pares: 4980.
2021-10-16 11:10:36,125 : INFO : Pares Corretos Ccos: 3007.
2021-10-16 11:10:36,127 : INFO : Percentual acertos Ccos: 60.381526104417674.
2021-10-16 11:10:36,130 : INFO : Pares Corretos Ceuc: 3094.
2021-10-16 11:10:36,134 : INFO : Percentual acertos Ceuc: 62.1285140562249.
2021-10-16 11:10:36,135 : INFO : Pares Corretos Cman: 3060.
2021-10-16 11:10:36,136 : INFO : Percentual acertos Cman: 61.44578313253012.
2021-10-16 11:10:36,138 : INFO : Cálculo de medida de documentos terminado!


depois
Tempo processamento:  1:25:14 (h:mm:ss)
Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 0 e com palavra relevante 2
Tempo início processamento: 18916 days, 11:10:37 (h:mm:ss)


2021-10-16 11:10:44,085 : INFO : spaCy carregado.
2021-10-16 11:10:44,088 : INFO : Apagando diretório existente do modelo!
2021-10-16 11:10:44,454 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-16 11:11:03,390 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-16 11:11:03,513 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-16 11:11:03,591 : INFO : Usando modelo BERT pré-treinado.
2021-10-16 11:11:03,593 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para cálculo de medidas.
2021-10-16 11:11:05,766 : INFO : Carregando o tokenizador BERT do diretório cohebert_v1/modeloBERT.
2021-10-16 11:11:05,812 : INFO : Realizando o download do CSTNews do meu OneDrive.
2021-10-16 11:11:07,507 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-10-16 11:11:33,120 : INFO : Geração de pares de documentos concluído: 5020.
2021-10-16 11:11:51,311 : INFO : Quantidade de dados anterior: 5020.
2021-10-16 11:11:51,313 : INFO : Nova quantidade de dados    : 4980.
2021-10-16 11:11:51,356 : INFO : Quantidade de registros removidos: 40.


antes


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

2021-10-16 12:43:10,979 : INFO : Total de Pares: 4980.
2021-10-16 12:43:10,982 : INFO : Pares Corretos Ccos: 2799.
2021-10-16 12:43:10,985 : INFO : Percentual acertos Ccos: 56.20481927710843.
2021-10-16 12:43:10,986 : INFO : Pares Corretos Ceuc: 2708.
2021-10-16 12:43:10,996 : INFO : Percentual acertos Ceuc: 54.37751004016064.
2021-10-16 12:43:11,011 : INFO : Pares Corretos Cman: 2680.
2021-10-16 12:43:11,013 : INFO : Percentual acertos Cman: 53.81526104417671.
2021-10-16 12:43:11,015 : INFO : Cálculo de medida de documentos terminado!


depois
Tempo processamento:  1:32:34 (h:mm:ss)


Palavras relevantes:   0%|          | 0/3 [00:00<?, ?relavante/s]

Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 1 e com palavra relevante 0
Tempo início processamento: 18916 days, 12:43:12 (h:mm:ss)


2021-10-16 12:43:17,857 : INFO : spaCy carregado.
2021-10-16 12:43:17,860 : INFO : Apagando diretório existente do modelo!
2021-10-16 12:43:18,221 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-16 12:43:37,739 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-16 12:43:37,881 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-16 12:43:37,964 : INFO : Usando modelo BERT pré-treinado.
2021-10-16 12:43:37,966 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para cálculo de medidas.
2021-10-16 12:43:40,130 : INFO : Carregando o tokenizador BERT do diretório cohebert_v1/modeloBERT.
2021-10-16 12:43:40,190 : INFO : Realizando o download do CSTNews do meu OneDrive.
2021-10-16 12:43:41,743 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-10-16 12:44:07,319 : INFO : Geração de pares de documentos concluído: 5020.
2021-10-16 12:44:25,206 : INFO : Quantidade de dados anterior: 5020.
2021-10-16 12:44:25,212 : INFO : Nova quantidade de dados    : 4980.
2021-10-16 12:44:25,245 : INFO : Quantidade de registros removidos: 40.


antes


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

2021-10-16 14:07:21,967 : INFO : Total de Pares: 4980.
2021-10-16 14:07:21,970 : INFO : Pares Corretos Ccos: 2995.
2021-10-16 14:07:21,973 : INFO : Percentual acertos Ccos: 60.14056224899599.
2021-10-16 14:07:21,975 : INFO : Pares Corretos Ceuc: 3037.
2021-10-16 14:07:21,977 : INFO : Percentual acertos Ceuc: 60.98393574297189.
2021-10-16 14:07:21,978 : INFO : Pares Corretos Cman: 3034.
2021-10-16 14:07:21,980 : INFO : Percentual acertos Cman: 60.92369477911647.
2021-10-16 14:07:21,981 : INFO : Cálculo de medida de documentos terminado!


depois
Tempo processamento:  1:24:10 (h:mm:ss)
Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 1 e com palavra relevante 1
Tempo início processamento: 18916 days, 14:07:23 (h:mm:ss)


2021-10-16 14:07:29,275 : INFO : spaCy carregado.
2021-10-16 14:07:29,280 : INFO : Apagando diretório existente do modelo!
2021-10-16 14:07:29,613 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-16 14:07:48,705 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-16 14:07:48,847 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-16 14:07:48,936 : INFO : Usando modelo BERT pré-treinado.
2021-10-16 14:07:48,939 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para cálculo de medidas.
2021-10-16 14:07:51,106 : INFO : Carregando o tokenizador BERT do diretório cohebert_v1/modeloBERT.
2021-10-16 14:07:51,152 : INFO : Realizando o download do CSTNews do meu OneDrive.
2021-10-16 14:07:52,955 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-10-16 14:08:18,859 : INFO : Geração de pares de documentos concluído: 5020.
2021-10-16 14:08:36,913 : INFO : Quantidade de dados anterior: 5020.
2021-10-16 14:08:36,916 : INFO : Nova quantidade de dados    : 4980.
2021-10-16 14:08:36,955 : INFO : Quantidade de registros removidos: 40.


antes


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

2021-10-16 15:32:16,822 : INFO : Total de Pares: 4980.
2021-10-16 15:32:16,826 : INFO : Pares Corretos Ccos: 2913.
2021-10-16 15:32:16,829 : INFO : Percentual acertos Ccos: 58.49397590361446.
2021-10-16 15:32:16,831 : INFO : Pares Corretos Ceuc: 2967.
2021-10-16 15:32:16,833 : INFO : Percentual acertos Ceuc: 59.57831325301205.
2021-10-16 15:32:16,834 : INFO : Pares Corretos Cman: 2945.
2021-10-16 15:32:16,836 : INFO : Percentual acertos Cman: 59.13654618473896.
2021-10-16 15:32:16,837 : INFO : Cálculo de medida de documentos terminado!


depois
Tempo processamento:  1:24:54 (h:mm:ss)
Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 1 e com palavra relevante 2
Tempo início processamento: 18916 days, 15:32:17 (h:mm:ss)


2021-10-16 15:32:23,927 : INFO : spaCy carregado.
2021-10-16 15:32:23,929 : INFO : Apagando diretório existente do modelo!
2021-10-16 15:32:24,234 : INFO : Download do arquivo: bert-base-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/406M [00:00<?, ?B/s]

2021-10-16 15:32:42,297 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-16 15:32:42,428 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-16 15:32:42,518 : INFO : Usando modelo BERT pré-treinado.
2021-10-16 15:32:42,519 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para cálculo de medidas.
2021-10-16 15:32:44,630 : INFO : Carregando o tokenizador BERT do diretório cohebert_v1/modeloBERT.
2021-10-16 15:32:44,687 : INFO : Realizando o download do CSTNews do meu OneDrive.
2021-10-16 15:32:46,234 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-10-16 15:33:11,597 : INFO : Geração de pares de documentos concluído: 5020.
2021-10-16 15:33:29,605 : INFO : Quantidade de dados anterior: 5020.
2021-10-16 15:33:29,607 : INFO : Nova quantidade de dados    : 4980.
2021-10-16 15:33:29,646 : INFO : Quantidade de registros removidos: 40.


antes


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

2021-10-16 17:05:19,249 : INFO : Total de Pares: 4980.
2021-10-16 17:05:19,253 : INFO : Pares Corretos Ccos: 2751.
2021-10-16 17:05:19,255 : INFO : Percentual acertos Ccos: 55.24096385542169.
2021-10-16 17:05:19,257 : INFO : Pares Corretos Ceuc: 2910.
2021-10-16 17:05:19,260 : INFO : Percentual acertos Ceuc: 58.43373493975904.
2021-10-16 17:05:19,261 : INFO : Pares Corretos Cman: 2853.
2021-10-16 17:05:19,262 : INFO : Percentual acertos Cman: 57.28915662650602.
2021-10-16 17:05:19,263 : INFO : Cálculo de medida de documentos terminado!


depois
Tempo processamento:  1:33:02 (h:mm:ss)


Estratégias Pooling:   0%|          | 0/2 [00:00<?, ?estratégia/s]

Palavras relevantes:   0%|          | 0/3 [00:00<?, ?relavante/s]

Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 0 e com palavra relevante 0
Tempo início processamento: 18916 days, 17:05:20 (h:mm:ss)


2021-10-16 17:05:26,430 : INFO : spaCy carregado.
2021-10-16 17:05:26,432 : INFO : Apagando diretório existente do modelo!
2021-10-16 17:05:26,778 : INFO : Download do arquivo: bert-large-portuguese-cased_pytorch_checkpoint.zip.


  0%|          | 0.00/1.24G [00:00<?, ?B/s]

2021-10-16 17:06:21,303 : INFO : Download do arquivo: cohebert_v1/modeloBERT/vocab.txt.


  0%|          | 0.00/210k [00:00<?, ?B/s]

2021-10-16 17:06:21,443 : INFO : Diretório cohebert_v1/modeloBERT do modelo BERT pronta!
2021-10-16 17:06:21,631 : INFO : Usando modelo BERT pré-treinado.
2021-10-16 17:06:21,637 : INFO : Carregando o modelo BERT do diretório cohebert_v1/modeloBERT para cálculo de medidas.
2021-10-16 17:06:28,418 : INFO : Carregando o tokenizador BERT do diretório cohebert_v1/modeloBERT.
2021-10-16 17:06:28,475 : INFO : Realizando o download do CSTNews do meu OneDrive.
2021-10-16 17:06:30,120 : INFO : Download do arquivo: Summarycoherencemodels.zip.


  0%|          | 0.00/498M [00:00<?, ?B/s]

2021-10-16 17:07:16,784 : INFO : Geração de pares de documentos concluído: 5020.
2021-10-16 17:07:34,805 : INFO : Quantidade de dados anterior: 5020.
2021-10-16 17:07:34,809 : INFO : Nova quantidade de dados    : 4980.
2021-10-16 17:07:34,846 : INFO : Quantidade de registros removidos: 40.


antes


Pares documentos:   0%|          | 0/4980 [00:00<?, ?par/s]

# 5 Finalização

## 5.1 Tempo final de processamento



In [None]:
 # Pega o tempo atual menos o tempo do início do processamento.
finalProcessamento = time.time()
tempoTotalProcessamento = formataTempo(finalProcessamento - inicioProcessamento)

print('')
print('  Tempo processamento:  {:} (h:mm:ss)'.format(tempoTotalProcessamento))

Executa o wandb para finalizar a execução anterior

In [None]:
if model_args.use_wandb:
    # Importando a biblioteca
    import wandb

    # Inicializando o registro do experimento
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project='medidacoerenciacstnews_v1', name='medidacoerenciacstnews_v1')