# Avaliação de Medidas (In)Coerência do conjunto de dados CSTNews usando BERT Pré-treinado

Este notebook, realiza testes de medidas de (in)coerência entre pares de documentos do conjunto de dados CSTNews 5.0 modificado por Marcio Dias analisar a coerência de sumários multidocumentos utilizando BERT Pré-treinado. 

O conjunto de dados foi construído a partir de 251 documentos oriundos do córpus CSTNews 5.0. O CSTNews é formado por textos jornalisticos de domínos váriados produzidos por (Aleixo e Pardo, 2008). Somente postagens que possuem de 4 sentenças foram selecionadas. Pois é necessário no mínimo 4 sentenças para gerar 20 permutações. 
Dois documentos(C3_Extrato_6 e C33_Extrato_6) foram removidos do conjunto de dados apesar de estarem na faixa de 4 a 20 sentenças, pois ao a realizar a formatação para a entrada no BERT eles geram mais de 512 tokens.    

Para cada documento as sentenças foram permutadas em até 20 vezes para um criar um conjunto de sentenças formadas por estas permutações.

Ao final a base de dados é formada por pares de documento, sendo um documento original(DO) e uma de suas 20 permutações(permDoc). O conjunto de dados total é formado por 4.980 pares de documentos. 

A medida de um documento(D) é realizada pela média da medida dos pares de sentenças. Todo o documento é submetido ao BERT e os embeddings da concatenação das 4 últimas camadas é recuperado. Cada documento é analisado pelas medidas **Ccos**, **Ceuc** e **Cman**. Estas medidas de documento utilizam as medidas de sentenças adjancetes.Cada par de sentenças do documento é analisado utilizando os embedding da sentença
(**Si**) e os embeddings da sentença(**Sj**) no documento.

As seguintes medidas de (in)coerência foram calculadas entre os embeddings das sentenças **Si** e **Sj**:
- **Scos(Si,Sj)** - Similaridade do cosseno entre a média dos embeddings Si e Sj.
- **Seuc(Si,Sj)** - Distância euclidiana - usando a média dos embeddings Si e Sj das camadas especificadas
- **Sman(Si,Sj)** - Distância de manhattan - usando a média dos embeddings Si e Sj das camadas especificadas

As medidas são avalidas considerando a concatenação das 4 últimas do modelo BERT.

Características dos testes:
 - A avaliação das medidas são realizadas utilizando a implementação BERT da biblioteca Huggingface e os MCL BERT **Pré-treinado** no formato cased:
  - BERTimbau de tamanho Large 
  - BERTimbau de tamanho Base 
  - BERT Multilingue
  
 - Não é realizado ajuste fino do modelo.

Utilizando o MCL BERT multilingual os documentos C33_Extrato_6.txt, C3_Extrato_6.txt e C27_Extrato_6.txt possuem mais de 512 tokens.

Utilizando o MCL BERTimbau base e large os documentos C33_Extrato_6.txt e C3_Extrato_6.txt possuem mais de 512 tokens.

Observação alguns documentos possuem quantidades diferentes sentenças entre o original e sua versão permutada:
-  o documento C33_Extrato_1.txt possui 10 sentenças, mas nos documentos  permutados ocorrem 11 sentenças.
- o documento C49_Extrato_1.txt possui 6 sentenças, mas nos documentos permutados ocorrem 8 sentenças.
- o documento C34_Extrato_4.txt possui 6 sentenças, mas nos documentos permutados ocorrem 8 sentenças.
- o documento C49_Extrato_3.txt possui 5 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C33_Extrato_5.txt possui 11 sentenças, mas nos documentos permutados ocorrem 14 sentenças.
- o documento C49_Extrato_2.txt possui 4 sentenças, mas nos documentos permutados ocorrem 6 sentenças.
- o documento C20_Extrato_4.txt possui 6 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C44_Extrato_4.txt possui 6 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C44_Extrato_3.txt possui 6 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C34_Extrato_3.txt possui 8 sentenças, mas nos documentos permutados ocorrem 10 sentenças.
- o documento C26_Extrato_4.txt possui 7 sentenças, mas nos documentos permutados ocorrem 9 sentenças.


----------------------------
**CSTNews 5.0:** https://sites.icmc.usp.br/taspardo/sucinto/files/CSTNews%205.0.zip

**Trabalho Marcio Dias:** https://sites.icmc.usp.br/taspardo/Summary%20coherence%20models.zip

**Link biblioteca Transformers:**
https://github.com/huggingface/transformers

**Artigo original BERT:**
https://arxiv.org/pdf/1506.06724.pdf

# 1 Preparação do ambiente
Preparação do ambiente para execução do exemplo.

## 1.1 Tempo inicial de processamento

In [1]:
import time
import datetime

#marca o tempo de início do processamento.
inicioProcessamento = time.time()

## 1.2 Tratamento de logs

In [2]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

## 1.3  Identificando o ambiente Colab

In [3]:
# Se estiver executando no Google Colaboratory.
import sys

# Retorna true ou false se estiver no Google Colaboratory.
IN_COLAB = 'google.colab' in sys.modules

## 1.4 Biblioteca de limpeza de tela

In [4]:
from IPython.display import clear_output

## 1.5 Conecta ao Google Drive

Usa a pasta mapeada para recuperar o conjunto de dados do OnlineEduc e salvar os resultados do cálculo de medidas.

In [5]:
  # import necessário
from google.colab import drive

# Monta o drive na pasta especificada
drive.mount('/content/drive')     

Mounted at /content/drive


## 1.6 Instalação do wandb

Instalação

In [6]:
!pip install --upgrade wandb

Collecting wandb
[?25l  Downloading https://files.pythonhosted.org/packages/89/eb/cb124dd42e205a2d5fd832add322292a731580acb5bce3a0daf423de5f02/wandb-0.11.0-py2.py3-none-any.whl (1.8MB)
[K     |████████████████████████████████| 1.8MB 5.0MB/s 
[?25hCollecting docker-pycreds>=0.4.0
  Downloading https://files.pythonhosted.org/packages/f5/e8/f6bd1eee09314e7e6dee49cbe2c5e22314ccdb38db16c9fc72d2fa80d054/docker_pycreds-0.4.0-py2.py3-none-any.whl
Collecting urllib3>=1.26.5
[?25l  Downloading https://files.pythonhosted.org/packages/5f/64/43575537846896abac0b15c3e5ac678d787a4021e906703f1766bfb8ea11/urllib3-1.26.6-py2.py3-none-any.whl (138kB)
[K     |████████████████████████████████| 143kB 27.0MB/s 
Collecting shortuuid>=0.5.0
  Downloading https://files.pythonhosted.org/packages/25/a6/2ecc1daa6a304e7f1b216f0896b26156b78e7c38e1211e9b798b4716c53d/shortuuid-1.0.1-py3-none-any.whl
Collecting sentry-sdk>=0.4.0
[?25l  Downloading https://files.pythonhosted.org/packages/ce/41/75fad31fff378871c462

## 1.7 Instalação BERT da Hugging Face

Instala a interface pytorch para o BERT by Hugging Face. 

In [7]:
!pip install -U transformers==4.5.1

Collecting transformers==4.5.1
[?25l  Downloading https://files.pythonhosted.org/packages/d8/b2/57495b5309f09fa501866e225c84532d1fd89536ea62406b2181933fb418/transformers-4.5.1-py3-none-any.whl (2.1MB)
[K     |████████████████████████████████| 2.1MB 5.3MB/s 
Collecting sacremoses
[?25l  Downloading https://files.pythonhosted.org/packages/75/ee/67241dc87f266093c533a2d4d3d69438e57d7a90abb216fa076e7d475d4a/sacremoses-0.0.45-py3-none-any.whl (895kB)
[K     |████████████████████████████████| 901kB 32.2MB/s 
[?25hCollecting tokenizers<0.11,>=0.10.1
[?25l  Downloading https://files.pythonhosted.org/packages/d4/e2/df3543e8ffdab68f5acc73f613de9c2b155ac47f162e725dcac87c521c11/tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3MB)
[K     |████████████████████████████████| 3.3MB 36.5MB/s 
Collecting urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1
[?25l  Downloading https://files.pythonhosted.org/packages/56/aa/4ef5aa67a9a62505db124

## 1.8 Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [8]:
# Instala o spacy
!pip install -U spacy==2.3.5

Collecting spacy==2.3.5
[?25l  Downloading https://files.pythonhosted.org/packages/95/89/1539c4024c339650c222b0b2ca2b3e3f13523b7a02671f8001b7b1cee6f2/spacy-2.3.5-cp37-cp37m-manylinux2014_x86_64.whl (10.4MB)
[K     |████████████████████████████████| 10.4MB 5.1MB/s 
Collecting thinc<7.5.0,>=7.4.1
[?25l  Downloading https://files.pythonhosted.org/packages/9a/92/71ab278f865f7565c37ed6917d0f23342e4f9a0633013113bd435cf0a691/thinc-7.4.5-cp37-cp37m-manylinux2014_x86_64.whl (1.0MB)
[K     |████████████████████████████████| 1.1MB 36.9MB/s 
Installing collected packages: thinc, spacy
  Found existing installation: thinc 7.4.0
    Uninstalling thinc-7.4.0:
      Successfully uninstalled thinc-7.4.0
  Found existing installation: spacy 2.2.4
    Uninstalling spacy-2.2.4:
      Successfully uninstalled spacy-2.2.4
Successfully installed spacy-2.3.5 thinc-7.4.5


## 1.9 Recupera o coebert do Github

In [9]:
tokengit = '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'
nomeusuario = 'osmarbraz'
repositorio = 'coebert_v1.git'
!git clone https://{tokengit}@github.com/{nomeusuario}/{repositorio}

Cloning into 'coebert_v1'...
remote: Enumerating objects: 2859, done.[K
remote: Counting objects: 100% (966/966), done.[K
remote: Compressing objects: 100% (503/503), done.[K
remote: Total 2859 (delta 451), reused 874 (delta 404), pack-reused 1893[K
Receiving objects: 100% (2859/2859), 23.05 MiB | 16.28 MiB/s, done.
Resolving deltas: 100% (1702/1702), done.


In [10]:
#Muda o diretório corrente para a pasta clonada
import sys
sys.path.append('./coebert_v1/coebert')

In [11]:
#Import de bibliotecas
from util.utilmodulo import *
from util.utiltempo import *
from util.utilarquivo import *

# 2 Parametrização

In [12]:
# Import de bibliotecas
from bert.bertarguments import ModeloArgumentosMedida

# Definição dos parâmetros do Modelo para o cálculo de Medida
model_args = ModeloArgumentosMedida(     
    max_seq_len = 512,
    #pretrained_model_name_or_path = 'neuralmind/bert-large-portuguese-cased',
    pretrained_model_name_or_path = 'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip',
    #pretrained_model_name_or_path = 'neuralmind/bert-base-portuguese-cased',
    #pretrained_model_name_or_path = 'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip',       
    #pretrained_model_name_or_path = 'bert-base-multilingual-cased',
    modelo_spacy = 'pt_core_news_lg',
    versao_spacy = '2.3.0',
    do_lower_case = False,   # default True
    output_attentions = False,    # default False
    output_hidden_states = True, # default False
    use_wandb = False,
    salvar_modelo_wandb = False,    
    salvar_medicao = False, #Salva o resultado da medição
    salvar_avaliacao = False, # Salva o resultado da avaliação das medições
    usar_mcl_ajustado = False, # Especifica se deve ser carregado um MCL ajustado ou pré-treinado. Necessário especificar o tipo do modelo em pretrained_model_name_or_path.
    estrategia_pooling = 0, # 0 - MEAN estratégia média / 1 - MAX  estratégia maior
    palavra_relevante = 0 # 0 - Considera todas as palavras das sentenças / 1 - Desconsidera as stopwords / 2 - Considera somente as palavras substantivas
)

# 3 spaCy

## 3.1 Carrega o modelo do spacy

https://spacy.io/models/pt

In [13]:
# Import de bibliotecas
from spacynlp.spacymodulo import *

# Carrega o modelo
nlp = carregaSpacy(model_args)

Download do arquivo do modelo do spaCy.
Descompactando o arquivo do modelo do spaCy.
spaCy carregado.


# 4 BERT

## Carrega o modelo e tokenizador BERT

In [14]:
# Import de bibliotecas
from bert.bertmodulo import *

# Carrega o modelo e tokenizador do BERT
#model, tokenizer = carregaBERT(model_args)

# 5 Conjunto de dados

É utilizando um arquivo de entrada compactado. Este arquivo compactado possui diversos arquivos contendo os experimentos realizados. Iremos utilizar os arquivos do experimento ''Modelo de Relações Discursivas.zip'. Este arquivo descompactado possui duas pastas de interesse, uma chamada 'Sumarios_Humanos' e outra 'Sumrios_Humanos_Permutados'. 

A pasta 'Sumarios_Humanos' contêm os arquivos dos documentos originais onde cada linha representa uma sentença do documento. O nome de cada arquivo original é formado um caracter 'C_', um número que identifica o conteúdo, o literal 'Extrato_' e um número que identifica o sumário. Os documentos permutados estão na pasta 'Sumarios_Humanos_Permutados' e cada linha representa uma sentença do documento. O nome de cada arquivo de documento permutado é formado um caracter 'C_', um número que identifica o conteúdo, o literal 'Extrato_', um número que identifica o sumário, o literal 'Perm_' e um número que indica a permutação.

## 5.1 Carregamento do arquivo



In [15]:
# Import de bibliotecas
from conjuntodedados.dadoscstnewsmedida import *

# Carrega os dados
#dfdados = getConjuntoDeDadosMedida(model_args, None, tokenizer)

#print(len(dfdados))

# 6 Avaliação

## 6.1 Wandb

https://wandb.ai/osmar-braz/medidacoerenciacstnews_v1/table?workspace=user-osmar-braz

### Função de inicialização wandb

In [16]:
def inicializacaoWandb():

  if model_args.use_wandb:

    # Importando a biblioteca.
    import wandb

    #Login via linha de comando
    !wandb login aded3bc0ea651fff536cc08ba69caf8ac4141cfd

    # Inicializando o registro do experimento.
    # Na execução só pode existir de um init para que não gere dois registros no wandb.
    wandb.init(project='medidacoerenciacstnews_v1', name='medidacoerenciacstnews_v1')

    # Atualiza os parâmetros do modelo no wandb.
    wandb.config.update(model_args)

    # Registra os parämetros não literais do model_args.
    wandb.log({'max_seq_len': model_args.max_seq_len})
    wandb.log({'do_lower_case': model_args.do_lower_case})
    wandb.log({'output_hidden_states': model_args.output_hidden_states})    
    
    return wandb

## 6.2 Funções processamento medidas

### Função de execução do cálculo das medidas dos documentos do conjunto de dados



In [17]:
# Import de bibliotecas
from medidor.medidor import *

def calculaMedidasDocumentosConjuntoDeDados(dfdados, model, tokenizer, nlp, model_args, wandb):

  # Import das bibliotecas
  from tqdm.notebook import tqdm as tqdm_notebook

  # Contadores de ocorrência de coerência
  contaCcos = 0
  contaCeuc = 0
  contaCman = 0
  conta = 0

  # Lista para o salvamento das medidas
  lista_medidas_documentos_salvar = []

  # Barras de progresso.    
  dfdado_bar = tqdm_notebook(dfdados.iterrows(), desc=f'Pares documentos', unit=f'par', total=len(dfdados))

  # Percorre as pares de documento carregadas do arquivo
  for (i, linha) in dfdado_bar:
   
      # Conta os pares
      conta = conta + 1

      # Calcula as medidas do documento original    
      original = linha['sentencasOriginais']    
      Ccos, Ceuc, Cman = getMedidasCoerenciaDocumento(original, modelo=model, tokenizador=tokenizer, nlp=nlp, camada=listaTipoCamadas[4], tipoDocumento='o', estrategia_pooling=model_args.estrategia_pooling, palavra_relevante=model_args.palavra_relevante)
                      
      # Calcula a smedidas do documento permutado
      permutado = linha['sentencasPermutadas']
      Ccosp, Ceucp, Cmanp = getMedidasCoerenciaDocumento(permutado, modelo=model, tokenizador=tokenizer, nlp=nlp, camada=listaTipoCamadas[4], tipoDocumento='p', estrategia_pooling=model_args.estrategia_pooling, palavra_relevante=model_args.palavra_relevante)
      
      # Verifica a medida de coerência Scos(similaridade do cosseno) das sentenças do documento original com as sentenças do documento permutado.
      # Quanto maior o valor de Scos mais as orações do documentos são coerentes
      if Ccos >= Ccosp:
          contaCcos = contaCcos + 1

      # Verifica a medida de incoerência Seuc(distância euclidiana) das sentenças do documento original com as sentenças do documento permutado.
      # Quanto maior o valor de Scos mais as orações do documentos são coerentes
      if Ceuc <= Ceucp:
          contaCeuc = contaCeuc + 1

      # Verifica a medida de incoerência Sman(distância de manhattan) das sentenças do documento original com as sentenças do documento permutado.
      # Quanto maior o valor de Scos mais as orações do documentos são coerentes
      if Cman <= Cmanp:
          contaCman = contaCman + 1        

      # Guarda as medidas em uma lista para salvar em arquivo
      # Guarda as medidas dos documentos originais
      lista_medidas_documentos_salvar.append([linha[0], Ccos,  Ceuc,  Cman])
      # Guarda as medidas dos documentos permutados
      lista_medidas_documentos_salvar.append([linha[3], Ccosp, Ceucp, Cmanp])

      #clear_output(wait=True)
      #print ('Processando:', (i+1), '/', len(dfdados))

  print ('Total de Pares :',str(conta))

  if model_args.use_wandb:
    wandb.log({'pares_doc': conta})

  print ('\nPares Corretos Ccos:',str(contaCcos))
  acuraciaCcos = float(contaCcos)/float(conta)
  print ('Acurácia: ',str(acuraciaCcos*100))

  if model_args.use_wandb:
    wandb.log({'acuracia_ccos': acuraciaCcos})

  print ('\nPares Corretos Ceuc:',str(contaCeuc))
  acuraciaCeuc = float(contaCeuc)/float(conta)
  print ('Acurácia: ',str(acuraciaCeuc*100))

  if model_args.use_wandb:
    wandb.log({'acuracia_ceuc': acuraciaCeuc})  

  print ('\nPares Corretos Cman:',str(contaCman))
  acuraciaCman = float(contaCman)/float(conta)
  print ('Acurácia: ',str(acuraciaCman*100))

  if model_args.use_wandb:
    wandb.log({'acuracia_cman': acuraciaCman})  

  print ('\nTERMINADO!')

  return lista_medidas_documentos_salvar, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman

### Salvando o resultado da medição

In [18]:
def salvaResultadoMedicao(lista_medidas_documentos_salvar):

  if model_args.salvar_medicao:

    # Import das bibliotecas.
    import os
    import datetime

    # Recupera a hora do sistema.
    data_e_hora = datetime.datetime.now()

    AJUSTADO = '_pretreinado'
    if model_args.usar_mcl_ajustado == True:
        AJUSTADO = '_ajustado'

    ESTRATEGIA_POOLING = '_mean'
    if model_args.estrategia_pooling == 1:
      ESTRATEGIA_POOLING = '_max'

    PALAVRA_RELEVANTE = '_tap'
    if model_args.palavra_relevante == 1:
      PALAVRA_RELEVANTE = '_ssw'       
    else:
      if model_args.palavra_relevante == 2:
        PALAVRA_RELEVANTE = '_ssb'   

    # Nome arquivo resultado
    NOME_ARQUIVO_MEDICAO = 'MedicaoCoerenciaCSTNews_v1' + AJUSTADO + ESTRATEGIA_POOLING + PALAVRA_RELEVANTE + getNomeModeloBERT(model_args) + getTamanhoBERT(model_args)

    # Diretório para salvar o arquivo.
    DIRETORIO_MEDICAO = '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/'

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_MEDICAO):  
      # Cria o diretório
      os.makedirs(DIRETORIO_MEDICAO)
      print('Diretório criado: {}'.format(DIRETORIO_MEDICAO))
    else:
      print('Diretório já existe: {}'.format(DIRETORIO_MEDICAO))

    # Nome do arquivo a ser aberto.
    NOME_ARQUIVO_MEDICAO_COMPLETO = DIRETORIO_MEDICAO + NOME_ARQUIVO_MEDICAO + '.csv'

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_MEDICAO):  
      # Cria o diretório
      os.makedirs(DIRETORIO_MEDICAO)
      print('Diretório criado: {}'.format(DIRETORIO_MEDICAO))
    else:
      print('Diretório já existe: {}'.format(DIRETORIO_MEDICAO))

    # Nome do arquivo a ser aberto.
    NOME_ARQUIVO_MEDICAO_COMPLETO = DIRETORIO_MEDICAO + NOME_ARQUIVO_MEDICAO + '.csv'

    # Gera todo o conteúdo a ser salvo no arquivo
    novoConteudo = ''        
    for resultado in lista_medidas_documentos_salvar:            
      novoConteudo = novoConteudo + data_e_hora.strftime('%d/%m/%Y %H:%M') + ';' + str(resultado[0]) + ';' + str(resultado[1]) + ';'  + str(resultado[2]) + ';'  + str(resultado[3]) + '\n'

    # Verifica se o arquivo existe.
    if os.path.isfile(NOME_ARQUIVO_MEDICAO_COMPLETO):
      print('Atualizando arquivo medição: {}'.format(NOME_ARQUIVO_MEDICAO_COMPLETO))
      # Abre o arquivo para leitura.
      arquivo = open(NOME_ARQUIVO_MEDICAO_COMPLETO,'r')
      # Leitura de todas as linhas do arquivo.
      conteudo = arquivo.readlines()
      # Conteúdo a ser adicionado.
      conteudo.append(novoConteudo)

      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_MEDICAO_COMPLETO,'w')
      # escreva o conteúdo criado anteriormente nele.
      arquivo.writelines(conteudo)  
      # Fecha o arquivo.
      arquivo.close()
    else:
      print('Criando arquivo medição: {}'.format(NOME_ARQUIVO_MEDICAO_COMPLETO))
      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_MEDICAO_COMPLETO,'w')
      arquivo.writelines('data;arquivo;ccos;ceuc;cman\n' + novoConteudo)  # escreva o conteúdo criado anteriormente nele.
      # Fecha o arquivo.
      arquivo.close()

### Salvando o resultado da avaliação

In [19]:
def salvaResultadoAvaliacao(tempoTotalProcessamento, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman):

  if model_args.salvar_avaliacao:

    # Import das bibliotecas.
    import os

    # Recupera a hora do sistema.
    data_e_hora = datetime.datetime.now()

    AJUSTADO = '_pretreinado'
    if model_args.usar_mcl_ajustado == True:
        AJUSTADO = '_ajustado'

    ESTRATEGIA_POOLING = '_mean'
    if model_args.estrategia_pooling == 1:
      ESTRATEGIA_POOLING = '_max'

    PALAVRA_RELEVANTE = '_tap'
    if model_args.palavra_relevante == 1:
        PALAVRA_RELEVANTE = '_ssw'       
    else:
      if model_args.palavra_relevante == 2:
        PALAVRA_RELEVANTE = '_ssb' 
    
    # Nome arquivo resultado
    NOME_ARQUIVO_AVALIACAO = 'MedicaoCoerenciaCSTNews_v1' + AJUSTADO + ESTRATEGIA_POOLING + PALAVRA_RELEVANTE + getNomeModeloBERT(model_args) + getTamanhoBERT(model_args)

    # Diretório para salvar o arquivo de resultado.
    DIRETORIO_AVALIACAO = '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Avaliacao/'

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_AVALIACAO):  
      # Cria o diretório
      os.makedirs(DIRETORIO_AVALIACAO)
      print('Diretório criado: {}'.format(DIRETORIO_AVALIACAO))
    else:
      print('Diretório já existe: {}'.format(DIRETORIO_AVALIACAO))

    # Nome do arquivo a ser aberto.
    NOME_ARQUIVO_AVALIACAO_COMPLETO = DIRETORIO_AVALIACAO + NOME_ARQUIVO_AVALIACAO + '.csv'

    # Conteúdo a ser adicionado.
    novoConteudo = NOME_ARQUIVO_AVALIACAO + ';' + data_e_hora.strftime('%d/%m/%Y %H:%M') + ';' + tempoTotalProcessamento + ';'  + str(conta) + ';'  + str(acuraciaCcos) + ';' + str(contaCcos) + ';' + str(acuraciaCeuc) + ';' + str(contaCeuc) + ';' + str(acuraciaCman) + ';' + str(contaCman) + '\n'

    # Verifica se o arquivo existe.
    if os.path.isfile(NOME_ARQUIVO_AVALIACAO_COMPLETO):
      print('Atualizando arquivo resultado avaliação: {}'.format(NOME_ARQUIVO_AVALIACAO_COMPLETO))
      # Abre o arquivo para leitura.
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'r')
      # Leitura de todas as linhas do arquivo.
      conteudo = arquivo.readlines()
      # Conteúdo a ser adicionado.
      conteudo.append(novoConteudo)

      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'w')
      # escreva o conteúdo criado anteriormente nele.
      arquivo.writelines(conteudo)  
      # Fecha o arquivo.
      arquivo.close()
    else:
      print('Criando arquivo resultado avaliação: {}'.format(NOME_ARQUIVO_AVALIACAO_COMPLETO))
      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'w')
      arquivo.writelines('arquivo;data;tempo;conta;ccos;contaccos;ceuc;contaceuc;cman;contacman\n' + novoConteudo)  # escreva o conteúdo criado anteriormente nele.
      # Fecha o arquivo.
      arquivo.close()

## 6.3 Cálculo de todas as medidas dos modelos

- Total de Pares : 4980

**BERTimbau base**
- Pares Corretos Ccos: 3126
- Acurácia:  62.77108433734939

- Pares Corretos Ceuc: 3196
- Acurácia:  64.17670682730923

- Pares Corretos Cman: 3148
- Acurácia:  63.212851405622494

**BERTimbau base ajustado**
- Pares Corretos Ccos: 4621
- Acurácia:  92.79116465863454

- Pares Corretos Ceuc: 4828
- Acurácia:  96.94779116465864

- Pares Corretos Cman: 4835
- Acurácia:  97.08835341365462


**BERTimbau large**
- Pares Corretos Ccos: 3132
- Acurácia:  62.89156626506024

- Pares Corretos Ceuc: 3132
- Acurácia:  62.89156626506024

- Pares Corretos Cman: 3133
- Acurácia:  62.911646586345384
  

**BERT multilingual-cased**
- Pares Corretos Ccos: 2896
- Acurácia:  58.387096774193544

- Pares Corretos Ceuc: 2891
- Acurácia:  58.28629032258065

- Pares Corretos Cman: 2893
- Acurácia:  58.32661290322581

### Procedimento de cálculo de todos os modelos

In [20]:
def procedimentoCalculaMedida(modelo_pretreinado, estrategia_pooling, palavra_relevante):

  # Import das bibliotecas
  import time
  import datetime

  # Seta o parâmetro do modelo pré-treinado
  model_args.pretrained_model_name_or_path = modelo_pretreinado
  # Seta o parâmetro da estratégia
  model_args.estrategia_pooling = estrategia_pooling
  # Seta o parâmetro de relevância
  model_args.palavra_relevante = palavra_relevante

  print('\nProcessamendo do modelo pré-treinado: {} e estrategia pooling {} e com palavra relevante {}'.format(modelo_pretreinado,estrategia_pooling,palavra_relevante))
      
  # Marca o tempo de início do processamento
  tempoInicioTeste = time.time()
  print('\nTempo início processamento: {:} (h:mm:ss)'.format(formataTempo(tempoInicioTeste)))
  
  # Carrega o Spacy
  nlp = carregaSpacy(model_args)

  # Carrega o modelo e o tokenizador do bert
  model, tokenizer = carregaBERT(model_args)
      
  # Carrega o conjunto de dados dados
  dfdados = getConjuntoDeDadosMedida(model_args, None, tokenizer)

  # Inicializa o wandb para registro
  wandb = inicializacaoWandb()

  # Calcula as medidas dos documentos do conjunto de dados
  lista_medidas_documentos_salvar, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman = calculaMedidasDocumentosConjuntoDeDados(dfdados, model, tokenizer, nlp, model_args, wandb)
  
  # Pega o tempo atual menos o tempo do início do processamento.
  tempoFinalTeste = time.time()
  tempoTotalProcessamento = formataTempo(tempoFinalTeste - tempoInicioTeste)

  # Salva o resultado da classificação
  salvaResultadoMedicao(lista_medidas_documentos_salvar)
      
  # Salva o resultado da avaliação
  salvaResultadoAvaliacao(tempoTotalProcessamento, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman)

  print('\nTempo processamento:  {:} (h:mm:ss)'.format(tempoTotalProcessamento))

  # Apaga as variáveis
  del tokenizer
  del model
  del lista_medidas_documentos_salvar
  # Esvazia o buffer dos embeddings originais
  limpaBufferEmbedding()

### Executa o procedimento para todos os parâmetros

In [None]:
# Import das bibliotecas
from tqdm.notebook import tqdm as tqdm_notebook

# Definição dos parâmetros a serem avaliados
# Nomes dos modelos pré-treinados a serem avaliados
NOME_MODELO_PRETREINADO = ['https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip',
                'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip',
                'bert-base-multilingual-cased']

# Estratégias pooling a serem avaliadas
ESTRATEGIA_POOLING = [0, 1] # (0 - MEAN, 1 - MAX)

# Estratégias de palavras relevantes das sentenças a serem avaliadas
PALAVRA_RELEVANTE_STR = ['TODAS_AS_PALAVRAS', 'SEM_STOPWORDS', 'SOMENTE_SUBSTANTIVOS']
PALAVRA_RELEVANTE = [0, 1, 2] # (0 - ALL, 1 - CLEAN, 2 - NOUN) - 'TAP,SSW,SBT'

# Barra de progresso modelos pré-treinados do BERT
modelo_pretreinado_bar = tqdm_notebook(range(0,len(NOME_MODELO_PRETREINADO)), desc=f'Modelos', unit=f'modelo')

# Percorre todos os modelo pré-treiandos do BERT a serem avaliados
for modelo_pretreinado_i in modelo_pretreinado_bar:

  # Barra de progresso estratégias de pooling
  estrategia_pooling_bar = tqdm_notebook(range(len(ESTRATEGIA_POOLING)), desc=f'Estratégias Pooling', unit=f'estratégia')

  # Percorre todos as estratégias de pooling  a serem avaliadas
  for estrategia_pooling_i in estrategia_pooling_bar:

    # Barra de progresso palavras relevantes
    palavra_relevante_bar = tqdm_notebook(range(len(PALAVRA_RELEVANTE)), desc=f'Palavras relevantes', unit=f'relavante')

    # Percorre todos as estratégias de palavras relevantes a serem avaliadas
    for palavra_relevante_i in palavra_relevante_bar:

      # Passa os parâmetros para o procedimento cálculo das medidas para o modelo, estratégia de pooling e de palavras relevantes
      procedimentoCalculaMedida(NOME_MODELO_PRETREINADO[modelo_pretreinado_i], ESTRATEGIA_POOLING[estrategia_pooling_i], PALAVRA_RELEVANTE[palavra_relevante_i])      

HBox(children=(FloatProgress(value=0.0, description='Modelos', max=3.0, style=ProgressStyle(description_width=…

HBox(children=(FloatProgress(value=0.0, description='Estratégias Pooling', max=2.0, style=ProgressStyle(descri…

HBox(children=(FloatProgress(value=0.0, description='Palavras relevantes', max=3.0, style=ProgressStyle(descri…


Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 0 e com palavra relevante 0

Tempo início processamento: 18824 days, 8:32:27 (h:mm:ss)
spaCy carregado.
Pasta do /content/modelo pronta!
Usando modelo pré-treinado de download ou comunidade
Carregando o modelo BERT do diretório /content/modelo pára classificação.
Carregando o tokenizador BERT do diretório /content/modelo...
Realizando o download do meu OneDrive.
Geraçao de pares de documentos concluído: 5020


2021-07-16 08:33:25,040 : INFO : NumExpr defaulting to 2 threads.


HBox(children=(FloatProgress(value=0.0, description='Pares documentos', max=4980.0, style=ProgressStyle(descri…


Total de Pares : 4980

Pares Corretos Ccos: 3126
Acurácia:  62.77108433734939

Pares Corretos Ceuc: 3196
Acurácia:  64.17670682730923

Pares Corretos Cman: 3148
Acurácia:  63.212851405622494

TERMINADO!

Tempo processamento:  1:14:15 (h:mm:ss)

Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 0 e com palavra relevante 1

Tempo início processamento: 18824 days, 9:46:43 (h:mm:ss)
spaCy carregado.
Apagando diretório existente do modelo!
Pasta do /content/modelo pronta!
Usando modelo pré-treinado de download ou comunidade
Carregando o modelo BERT do diretório /content/modelo pára classificação.
Carregando o tokenizador BERT do diretório /content/modelo...
Realizando o download do meu OneDrive.
Geraçao de pares de documentos concluído: 5020


HBox(children=(FloatProgress(value=0.0, description='Pares documentos', max=4980.0, style=ProgressStyle(descri…


Total de Pares : 4980

Pares Corretos Ccos: 3007
Acurácia:  60.381526104417674

Pares Corretos Ceuc: 3094
Acurácia:  62.1285140562249

Pares Corretos Cman: 3060
Acurácia:  61.44578313253012

TERMINADO!

Tempo processamento:  1:17:32 (h:mm:ss)

Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 0 e com palavra relevante 2

Tempo início processamento: 18824 days, 11:04:16 (h:mm:ss)
spaCy carregado.
Apagando diretório existente do modelo!
Pasta do /content/modelo pronta!
Usando modelo pré-treinado de download ou comunidade
Carregando o modelo BERT do diretório /content/modelo pára classificação.
Carregando o tokenizador BERT do diretório /content/modelo...
Realizando o download do meu OneDrive.
Geraçao de pares de documentos concluído: 5020


HBox(children=(FloatProgress(value=0.0, description='Pares documentos', max=4980.0, style=ProgressStyle(descri…


Total de Pares : 4980

Pares Corretos Ccos: 2799
Acurácia:  56.20481927710843

Pares Corretos Ceuc: 2708
Acurácia:  54.37751004016064

Pares Corretos Cman: 2680
Acurácia:  53.81526104417671

TERMINADO!

Tempo processamento:  1:26:28 (h:mm:ss)



HBox(children=(FloatProgress(value=0.0, description='Palavras relevantes', max=3.0, style=ProgressStyle(descri…


Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 1 e com palavra relevante 0

Tempo início processamento: 18824 days, 12:30:45 (h:mm:ss)
spaCy carregado.
Apagando diretório existente do modelo!
Pasta do /content/modelo pronta!
Usando modelo pré-treinado de download ou comunidade
Carregando o modelo BERT do diretório /content/modelo pára classificação.
Carregando o tokenizador BERT do diretório /content/modelo...
Realizando o download do meu OneDrive.
Geraçao de pares de documentos concluído: 5020


HBox(children=(FloatProgress(value=0.0, description='Pares documentos', max=4980.0, style=ProgressStyle(descri…


Total de Pares : 4980

Pares Corretos Ccos: 2995
Acurácia:  60.14056224899599

Pares Corretos Ceuc: 3037
Acurácia:  60.98393574297189

Pares Corretos Cman: 3034
Acurácia:  60.92369477911647

TERMINADO!

Tempo processamento:  1:18:18 (h:mm:ss)

Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 1 e com palavra relevante 1

Tempo início processamento: 18824 days, 13:49:03 (h:mm:ss)
spaCy carregado.
Apagando diretório existente do modelo!
Pasta do /content/modelo pronta!
Usando modelo pré-treinado de download ou comunidade
Carregando o modelo BERT do diretório /content/modelo pára classificação.
Carregando o tokenizador BERT do diretório /content/modelo...
Realizando o download do meu OneDrive.
Geraçao de pares de documentos concluído: 5020


HBox(children=(FloatProgress(value=0.0, description='Pares documentos', max=4980.0, style=ProgressStyle(descri…


Total de Pares : 4980

Pares Corretos Ccos: 2913
Acurácia:  58.49397590361446

Pares Corretos Ceuc: 2967
Acurácia:  59.57831325301205

Pares Corretos Cman: 2945
Acurácia:  59.13654618473896

TERMINADO!

Tempo processamento:  1:19:19 (h:mm:ss)

Processamendo do modelo pré-treinado: https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip e estrategia pooling 1 e com palavra relevante 2

Tempo início processamento: 18824 days, 15:08:22 (h:mm:ss)
spaCy carregado.
Apagando diretório existente do modelo!
Pasta do /content/modelo pronta!
Usando modelo pré-treinado de download ou comunidade
Carregando o modelo BERT do diretório /content/modelo pára classificação.
Carregando o tokenizador BERT do diretório /content/modelo...
Realizando o download do meu OneDrive.
Geraçao de pares de documentos concluído: 5020


HBox(children=(FloatProgress(value=0.0, description='Pares documentos', max=4980.0, style=ProgressStyle(descri…

# 7 Finalização

## 7.1 Tempo final de processamento



In [None]:
 # Pega o tempo atual menos o tempo do início do processamento.
finalProcessamento = time.time()
tempoTotalProcessamento = formataTempo(finalProcessamento - inicioProcessamento)

print('')
print('  Tempo processamento:  {:} (h:mm:ss)'.format(tempoTotalProcessamento))

Executa o wandb para finalizar a execução anterior

In [None]:
if model_args.use_wandb:
    # Importando a biblioteca
    import wandb

    # Inicializando o registro do experimento
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project='medidacoerenciacstnews_v1', name='medidacoerenciacstnews_v1')