<a href="https://colab.research.google.com/github/osmarbraz/coebert/blob/main/MedidaCoerenciaCSTNews_v1_pretreinado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Avaliação de Medidas (In)Coerência do conjunto de dados CSTNews usando BERT Pré-treinado

Este notebook, realiza testes de medidas de (in)coerência entre pares de documentos do conjunto de dados CSTNews 5.0 modificado por Marcio Dias analisar a coerência de sumários multidocumentos utilizando BERT Pré-treinado. 

O conjunto de dados foi construído a partir de 251 documentos oriundos do córpus CSTNews 5.0. O CSTNews é formado por textos jornalisticos de domínos váriados produzidos por (Aleixo e Pardo, 2008). Somente postagens que possuem de 4 sentenças foram selecionadas. Pois é necessário no mínimo 4 sentenças para gerar 20 permutações. 
Dois documentos(C3_Extrato_6 e C33_Extrato_6) foram removidos do conjunto de dados apesar de estarem na faixa de 4 a 20 sentenças, pois ao a realizar a formatação para a entrada no BERT eles geram mais de 512 tokens.    

Para cada documento as sentenças foram permutadas em até 20 vezes para um criar um conjunto de sentenças formadas por estas permutações.

Ao final a base de dados é formada por pares de documento, sendo um documento original(DO) e uma de suas 20 permutações(permDoc). O conjunto de dados total é formado por 4.980 pares de documentos. 

A medida de um documento(D) é realizada pela média da medida dos pares de sentenças. Todo o documento é submetido ao BERT e os embeddings da concatenação das 4 últimas camadas é recuperado. Cada documento é analisado pelas medidas **Ccos**, **Ceuc** e **Cman**. Estas medidas de documento utilizam as medidas de sentenças adjancetes.Cada par de sentenças do documento é analisado utilizando os embedding da sentença
(**Si**) e os embeddings da sentença(**Sj**) no documento.

As seguintes medidas de (in)coerência foram calculadas entre os embeddings das sentenças **Si** e **Sj**:
- **Scos(Si,Sj)** - Similaridade do cosseno entre a média dos embeddings Si e Sj.
- **Seuc(Si,Sj)** - Distância euclidiana - usando a média dos embeddings Si e Sj das camadas especificadas
- **Sman(Si,Sj)** - Distância de manhattan - usando a média dos embeddings Si e Sj das camadas especificadas

As medidas são avalidas considerando a concatenação das 4 últimas do modelo BERT.

Características dos testes:
 - A avaliação das medidas são realizadas utilizando a implementação BERT da biblioteca Huggingface e os MCL BERT **Pré-treinado** no formato cased:
  - BERTimbau de tamanho Large 
  - BERTimbau de tamanho Base 
  - BERT Multilingue
  
 - Não é realizado ajuste fino do modelo.

Utilizando o MCL BERT multilingual os documentos C33_Extrato_6.txt, C3_Extrato_6.txt e C27_Extrato_6.txt possuem mais de 512 tokens.

Utilizando o MCL BERTimbau base e large os documentos C33_Extrato_6.txt e C3_Extrato_6.txt possuem mais de 512 tokens.

Observação alguns documentos possuem quantidades diferentes sentenças entre o original e sua versão permutada:
-  o documento C33_Extrato_1.txt possui 10 sentenças, mas nos documentos  permutados ocorrem 11 sentenças.
- o documento C49_Extrato_1.txt possui 6 sentenças, mas nos documentos permutados ocorrem 8 sentenças.
- o documento C34_Extrato_4.txt possui 6 sentenças, mas nos documentos permutados ocorrem 8 sentenças.
- o documento C49_Extrato_3.txt possui 5 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C33_Extrato_5.txt possui 11 sentenças, mas nos documentos permutados ocorrem 14 sentenças.
- o documento C49_Extrato_2.txt possui 4 sentenças, mas nos documentos permutados ocorrem 6 sentenças.
- o documento C20_Extrato_4.txt possui 6 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C44_Extrato_4.txt possui 6 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C44_Extrato_3.txt possui 6 sentenças, mas nos documentos permutados ocorrem 7 sentenças.
- o documento C34_Extrato_3.txt possui 8 sentenças, mas nos documentos permutados ocorrem 10 sentenças.
- o documento C26_Extrato_4.txt possui 7 sentenças, mas nos documentos permutados ocorrem 9 sentenças.


----------------------------
**CSTNews 5.0:** https://sites.icmc.usp.br/taspardo/sucinto/files/CSTNews%205.0.zip

**Trabalho Marcio Dias:** https://sites.icmc.usp.br/taspardo/Summary%20coherence%20models.zip

**Link biblioteca Transformers:**
https://github.com/huggingface/transformers

**Artigo original BERT:**
https://arxiv.org/pdf/1506.06724.pdf

# 1 Preparação do ambiente
Preparação do ambiente para execução do exemplo.

## 1.1 Tempo inicial de processamento

In [None]:
import time
import datetime

#marca o tempo de início do processamento.
inicioProcessamento = time.time()

## 1.2 Funções e classes auxiliares

Função auxiliar para formatar o tempo como hh: mm: ss

In [None]:
# Import das bibliotecas
import time
import datetime

def formataTempo(tempo):
    '''
    Pega a tempo em segundos e retorna uma string hh:mm:ss
    '''
    # Arredonda para o segundo mais próximo.
    tempoArredondado = int(round((tempo)))
    
    # Formata como hh:mm:ss
    return str(datetime.timedelta(seconds=tempoArredondado))

Classe(ModelArguments) de definição dos parâmetros do modelo

In [None]:
# Import das bibliotecas.
from dataclasses import dataclass, field
from typing import Dict, Optional
from typing import List

@dataclass
class ModelArguments:
    max_seq_len: Optional[int] = field(
        default=None,
        metadata={'help': 'max seq len'},
    )    
    pretrained_model_name_or_path: str = field(
        default='neuralmind/bert-base-portuguese-cased',
        metadata={'help': 'nome do modelo pré-treinado do BERT.'},
    )
    modelo_spacy: str = field(
        default='pt_core_news_lg',
        metadata={'help': 'nome do modelo do spaCy.'},
    )
    do_lower_case: bool = field(
        default=False,
        metadata={'help': 'define se o texto do modelo deve ser todo em minúsculo.'},
    )  
    output_attentions: bool = field(
        default=False,
        metadata={'help': 'habilita se o modelo retorna os pesos de atenção.'},
    )
    output_hidden_states: bool = field(
        default=False,
        metadata={'help': 'habilita gerar as camadas ocultas do modelo.'},
    )
    use_wandb : bool = field(
        default=True,
        metadata={'help': 'habilita o uso do wandb.'},
    )
    salvar_modelo_wandb : bool = field(
        default=True,
        metadata={'help': 'habilita o salvamento do modelo no wandb.'},
    )
    salvar_avaliacao : bool = field(
        default=True,
        metadata={'help': 'habilita o salvamento do resultado da avaliação.'},
    )     
    salvar_medicao : bool = field(
        default=False,
        metadata={'help': 'habilita o salvamento da medicao.'},
    )
    usar_mcl_ajustado : bool = field(
        default=False,
        metadata={'help': 'habilita o carragamento de mcl ajustado.'},
    )
    estrategia_medida: int = field(
        default=0, # 0 - MEAN estratégia média / 1 - MAX  estratégia maior
        metadata={'help': 'Estratégia de cálculo da médida dos embeddings.'},
    )
    filtro_palavra: int = field(
        default=0, # 0 - Considera todas as palavras das sentenças / 1 - Desconsidera as stopwords / 2 - Considera somente as palavras substantivas
        metadata={'help': 'Define o filtro de palavras das sentenças para gerar os embeddings.'},
    )

Remove tags de um documento(texto)

In [None]:
def remove_tags(documento):
    '''
    Remove tags de um documento(texto)
    '''
    
    import re

    documentoLimpo = re.compile('<.*?>')
    return re.sub(documentoLimpo, '', documento)

Funções auxiliares de arquivos

In [None]:
# Gera um paragráfo com as linhas do arquivo especificado
def carregar(nomeArquivo):
    '''
    Carrega um arquivo texto e retorna as linhas como um único parágrafo(texto)
    '''

    # Linha anterior    
    arquivo = open(nomeArquivo, 'r')
    
    paragrafo = ''
    for linha in arquivo:
        linha = linha.splitlines()
        linha = ' '.join(linha)
        # Remove as tags existentes no final das linhas
        linha = remove_tags(linha)
        if linha != '':
          paragrafo = paragrafo + linha.strip() + ' '
    arquivo.close()
    # Remove os espaços em branco antes e depois do parágrafo
    return paragrafo.strip()

# Gera uma lista das linhas do arquivo especificado
def carregarLista(nomeArquivo):
    '''
    Carrega um arquivo texto e retorna as linhas como uma lista de sentenças(texto)
    '''

    # Linha anterior    
    arquivo = open(nomeArquivo, 'r')
    
    sentencas = []
    for linha in arquivo:        
        linha = linha.splitlines()
        linha = ' '.join(linha)
        linha = remove_tags(linha)
        if linha != '':
          sentencas.append(linha.strip())
    arquivo.close()
    return sentencas    

def salvar(nomeArquivo,texto):                       
    '''
    Salva um texto em um arquivo
    '''

    arquivo = open(nomeArquivo, 'w')
    arquivo.write(str(texto))
    arquivo.close()

## 1.3 Tratamento de logs

In [None]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

## 1.4  Identificando o ambiente Colab

In [None]:
# Se estiver executando no Google Colaboratory.
import sys

# Retorna true ou false se estiver no Google Colaboratory.
IN_COLAB = 'google.colab' in sys.modules

## 1.5 Biblioteca de limpeza de tela

In [None]:
from IPython.display import clear_output

## 1.6 Conecta ao Google Drive

In [None]:
  # import necessário
from google.colab import drive

# Monta o drive na pasta especificada
drive.mount('/content/drive')     

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## 1.7 Instalação do wandb

Instalação

In [None]:
!pip install --upgrade wandb

Requirement already up-to-date: wandb in /usr/local/lib/python3.7/dist-packages (0.10.31)


## 1.8 Instalação BERT da Hugging Face

Instala a interface pytorch para o BERT by Hugging Face. 

In [None]:
!pip install -U transformers==4.5.1

Requirement already up-to-date: transformers==4.5.1 in /usr/local/lib/python3.7/dist-packages (4.5.1)


## 1.9 Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [None]:
# Instala o spacy
!pip install -U spacy==2.3.5

Requirement already up-to-date: spacy==2.3.5 in /usr/local/lib/python3.7/dist-packages (2.3.5)


## 1.10 Colaboratory

Usando Colab GPU para Treinamento


Uma GPU pode ser adicionada acessando o menu e selecionando:

`Edit -> Notebook Settings -> Hardware accelerator -> (GPU)`

Em seguida, execute a célula a seguir para confirmar que a GPU foi detectada.

In [None]:
# Importando a biblioteca
import tensorflow as tf

# Recupera o nome do dispositido da GPU.
device_name = tf.test.gpu_device_name()

# O nome do dispositivo deve ser parecido com o seguinte:
if device_name == '/device:GPU:0':
    print('Encontrei GPU em: {}'.format(device_name))
else:
    print('Dispositivo GPU não encontrado')
    #raise SystemError('Dispositivo GPU não encontrado')

Dispositivo GPU não encontrado


Nome da GPU

Para que a torch use a GPU, precisamos identificar e especificar a GPU como o dispositivo. Posteriormente, em nosso ciclo de treinamento, carregaremos dados no dispositivo.

Vale a pena observar qual GPU você recebeu. A GPU Tesla P100 é muito mais rápido que as outras GPUs, abaixo uma lista ordenada:
- 1o Tesla P100
- 2o Tesla T4
- 3o Tesla P4 (Não tem memória para execução 4 x 8, somente 2 x 4)
- 4o Tesla K80 (Não tem memória para execução 4 x 8, somente 2 x 4)

In [None]:
# Importando a biblioteca
import torch

# Se existe GPU disponível...
if torch.cuda.is_available():    

    # Diz ao PyTorch para usar GPU.    
    device = torch.device('cuda')

    print('Existem {} GPU(s) disponíveis.'.format(torch.cuda.device_count()))

    print('Iremos usar a GPU: {}'.format(torch.cuda.get_device_name(0)))

# Se não...
else:
    print('Sem GPU disponível, usando CPU.')
    device = torch.device('cpu')

Sem GPU disponível, usando CPU.


Memória

Memória disponível no ambiente

In [None]:
# Importando as bibliotecas.
from psutil import virtual_memory

ram_gb = virtual_memory().total / 1e9
print('Seu ambiente de execução tem {: .1f} gigabytes de RAM disponível\n'.format(ram_gb))

if ram_gb < 20:
  print('Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> Alterar tipo de tempo de execução')
  print('e selecione High-RAM. Então, execute novamente está célula')
else:
  print('Você está usando um ambiente de execução de memória RAM alta!')

Seu ambiente de execução tem  13.6 gigabytes de RAM disponível

Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> Alterar tipo de tempo de execução
e selecione High-RAM. Então, execute novamente está célula


## 1.11 Funções auxiliares das medidas

### Imports

In [None]:
# Import das bibliotecas.
import numpy as np
import torch

import matplotlib.pyplot as plt
%matplotlib inline

### getDocumentoLista

Recebe uma lista de sentenças e faz a concatenação em uma string

In [None]:
def getDocumentoLista(listaDocumento):
  stringDocumento = ''  
  # Concatena as sentenças do documento
  for sentenca in listaDocumento:                
      stringDocumento = stringDocumento + sentenca

### getListaSentencasDocumento

Retorna uma lista com as sentenças de um documento. Utiliza o spacy para dividir o documento em sentenças.

In [None]:
def getListaSentencasDocumento(documento):
  # Aplica tokenização de sentença do spacy no documento
  doc = nlp(documento) 

  # Lista para as sentenças
  lista = []
  # Percorre as sentenças
  for sentenca in doc.sents: 
      # Adiciona as sentenças a lista
      lista.append(str(sentenca))

  return lista

### encontrarIndiceSubLista

Localiza os índices de início e fim de uma sublista em uma lista.

In [None]:
# Localiza os índices de início e fim de uma sublista em uma lista
def encontrarIndiceSubLista(lista, sublista):
    # https://en.wikipedia.org/wiki/Boyer%E2%80%93Moore%E2%80%93Horspool_algorithm
    h = len(lista)
    n = len(sublista)
    skip = {sublista[i]: n - i - 1 for i in range(n - 1)}
    i = n - 1
    while i < h:
        for j in range(n):
            if lista[i - j] != sublista[-j - 1]:
                i += skip.get(lista[i], n)
                break
        else:
            indiceInicio = i - n + 1
            indiceFim = indiceInicio + len(sublista)-1
            return indiceInicio, indiceFim
    return -1, -1

###removeStopWords

Remove as stopwords de um documento.

In [None]:
def removeStopWord(documento, stopwords):
  # Remoção das stop words do documento
  documentoSemStopwords = [palavra for palavra in documento.split() if palavra.lower() not in stopwords]

  # Concatena o documento sem os stopwords
  documentoLimpo = ' '.join(documentoSemStopwords)

  # Retorna o documento
  return documentoLimpo

### retornaSaliente

Retorna somente os palavras do documento ou sentença do tipo especificado.

In [None]:
def retornaSaliente(documento, tipoSaliente='NOUN'):
  
  # Realiza o parsing no spacy
  doc = nlp(documento)

  # Retorna a lista das palavras salientes
  documentoComSubstantivos = [token.text for token in doc if token.pos_ == tipoSaliente]

  # Concatena o documento com os substantivos
  documentoConcatenado = ' '.join(documentoComSubstantivos)

  # Retorna o documento
  return documentoConcatenado

### Medidas de similaridade 


Similaridade do cosseno dos embeddgins das sentenças.

In [None]:
# Import das bibliotecas.
from scipy.spatial.distance import cosine

def similaridadeCoseno(documento1, documento2):
  similaridade = 1 - cosine(documento1, documento2)
  return similaridade

### Medidas de distância 

Distância euclidiana entre os embeddings das sentenças.

Possui outros nomes como distância L2 ou norma L2.

In [None]:
# Import das bibliotecas.
from scipy.spatial.distance import euclidean

def distanciaEuclidiana(sentenca1, sentenca2):
  distancia = euclidean(sentenca1, sentenca2)

  return distancia

Distância Manhattan entre os embeddings das sentenças.

Possui outros nomes como distância Cityblock, distância L1, norma L1 e métrica do táxi.

In [None]:
# Import das bibliotecas.
from scipy.spatial.distance import cityblock

def distanciaManhattan(sentenca1, sentenca2):
  distancia = cityblock(sentenca1, sentenca2)

  return distancia

### getDocumentoTokenizado

In [None]:
def getDocumentoTokenizado(documento, tokenizador):

    # Adiciona os tokens especiais.
    documentoMarcado = '[CLS] ' + documento + ' [SEP]'

    # Documento tokenizado
    documentoTokenizado = tokenizador.tokenize(documentoMarcado)

    return documentoTokenizado

### getEmbeddingsTodasCamadas

Retorna os embeddings de todas as camadas de um documento.

In [None]:
# Constantes para padronizar o acesso aos dados do modelo do BERT.
TEXTO_TOKENIZADO = 0
INPUT_IDS = 1
ATTENTION_MASK = 2
TOKEN_TYPE_IDS = 3
OUTPUTS = 4
OUTPUTS_LAST_HIDDEN_STATE = 0
OUTPUTS_POOLER_OUTPUT = 1
OUTPUTS_HIDDEN_STATES = 2
 
def getEmbeddingsTodasCamadas(documento, modelo, tokenizador):
   
    # Documento tokenizado
    documentoTokenizado = getDocumentoTokenizado(documento, tokenizador)

    #print('O documento (', documento, ') tem tamanho = ', len(documentoTokenizado), ' = ', documentoTokenizado)

    # Recupera a quantidade tokens do documento tokenizado.
    qtdeTokens = len(documentoTokenizado)

    #tokeniza o documento e retorna os tensores.
    dicCodificado = tokenizador.encode_plus(
                        documento,                          # Documento a ser codificado.
                        add_special_tokens = True,      # Adiciona os tokens especiais '[CLS]' e '[SEP]'
                        max_length = qtdeTokens,        # Define o tamanho máximo para preencheer ou truncar.
                        truncation = True,              # Trunca o documento por max_length
                        padding = 'max_length',         # Preenche o documento até max_length
                        return_attention_mask = True,   # Constrói a máscara de atenção.
                        return_tensors = 'pt'           # Retorna os dados como tensores pytorch.
                   )
    
    # Ids dos tokens de entrada mapeados em seus índices do vocabuário.
    input_ids =  dicCodificado['input_ids']

    # Máscara de atenção de cada um dos tokens como pertencentes à sentença '1'.
    attention_mask = dicCodificado['attention_mask']

    # Recupera os tensores dos segmentos.
    token_type_ids = dicCodificado['token_type_ids']

    # Roda o documento através do BERT, e coleta todos os estados ocultos produzidos.
    # das 12 camadas. 
    with torch.no_grad():

        # Passe para a frente, calcule as previsões outputs.     
        outputs = modelo(input_ids=input_ids, 
                        attention_mask=attention_mask)

        # A avaliação do modelo retorna um número de diferentes objetos com base em
        # como é configurado na chamada do método `from_pretrained` anterior. Nesse caso,
        # porque definimos `output_hidden_states = True`, o terceiro item será o
        # estados ocultos(hidden_states) de todas as camadas. Veja a documentação para mais detalhes:
        # https://huggingface.co/transformers/model_doc/bert.html#bertmodel

        # Retorno de model quando ´output_hidden_states=True´ é setado:    
        # outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
        
        # 0-documento_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
    return documentoTokenizado, input_ids, attention_mask, token_type_ids, outputs

### getEmbeddingsTodasCamadasBuffer

Cria um buffer com os embeddings de sentenças para economizar no processamento.

In [None]:
def getEmbeddingsTodasCamadasBuffer1(S, modelo, tokenizador):
   return getEmbeddingsTodasCamadas(S, modelo, tokenizador)

In [None]:
buffer_embeddings = {}

def getEmbeddingsTodasCamadasBuffer(S, modelo, tokenizador):
    # Se está no dicionário retorna o embedding
    if S in buffer_embeddings:
        return buffer_embeddings.get(S)
    else:
        # Gera o embedding
        totalCamada = getEmbeddingsTodasCamadas(S, modelo, tokenizador)
        buffer_embeddings.update({S: totalCamada})
        return totalCamada

In [None]:
def limpaBufferEmbedding():
    buffer_embeddings.clear()

### getEmbeddingCamada

Retorna os embeddings das camadas especificas.

In [None]:
def getEmbeddingPrimeiraCamada(sentencaEmbedding):
  # Cada elemento do vetor sentencaEmbeddinging é formado por:  
  # 0-documento_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
  #[4]outpus e [2]hidden_states 
  #[OUTPUTS]outpus e [OUTPUTS_HIDDEN_STATES]hidden_states      
  
  # Retorna todas a primeira(-1) camada
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> x <768 ou 1024>)  
  resultado = sentencaEmbedding[OUTPUTS][OUTPUTS_HIDDEN_STATES][0]
  # Saída: (<1(lote)> x <qtde_tokens> x <768 ou 1024>)  
  #print('resultado=',resultado.size())

  return resultado

def getEmbeddingPenultimaCamada(sentencaEmbedding):
  # Cada elemento do vetor sentencaEmbedding é formado por:  
  # 0-documento_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
  #[4]outpus e [2]hidden_states 
  #[OUTPUTS]outpus e [OUTPUTS_HIDDEN_STATES]hidden_states      
  
  # Retorna todas a penúltima(-2) camada
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> x <768 ou 1024>)  
  resultado = sentencaEmbedding[OUTPUTS][OUTPUTS_HIDDEN_STATES][-2]
  # Saída: (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  #print('resultado=',resultado.size())

  return resultado

def getEmbeddingUltimaCamada(sentencaEmbedding):
  # Cada elemento do vetor sentencaEmbedding é formado por:  
  # 0-documento_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
  #[4]outpus e [2]hidden_states 
  #[OUTPUTS]outpus e [OUTPUTS_HIDDEN_STATES]hidden_states      
  
  # Retorna todas a última(-1) camada
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> x <768 ou 1024>)  
  resultado = sentencaEmbedding[OUTPUTS][OUTPUTS_HIDDEN_STATES][-1]
  # Saída: (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  #print('resultado=',resultado.size())
  
  return resultado    

def getEmbeddingSoma4UltimasCamadas(sentencaEmbedding):
  # Cada elemento do vetor sentencaEmbedding é formado por:  
  # 0-documento_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
  #[4]outpus e [2]hidden_states 
  #[OUTPUTS]outpus e [OUTPUTS_HIDDEN_STATES]hidden_states      
  
  # Retorna todas as 4 últimas camadas
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  embeddingCamadas = sentencaEmbedding[OUTPUTS][OUTPUTS_HIDDEN_STATES][-4:]
  # Saída: List das camadas(4) (<1(lote)> x <qtde_tokens> x <768 ou 1024>)  

  # Usa o método `stack` para criar uma nova dimensão no tensor 
  # com a concateção dos tensores dos embeddings.        
  # Entrada: List das camadas(4) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  resultadoStack = torch.stack(embeddingCamadas, dim=0)
  # Saída: <4> x <1(lote)> x <qtde_tokens> x <768 ou 1024>
  #print('resultadoStack=',resultadoStack.size())
  
  # Realiza a soma dos embeddings de todos os tokens para as camadas
  # Entrada: <4> x <1(lote)> x <qtde_tokens> x <768 ou 1024>
  resultado = torch.sum(resultadoStack, dim=0)
  # Saida: <1(lote)> x <qtde_tokens> x <768 ou 1024>
  #print('resultado=',resultado.size())

  return resultado

def getEmbeddingConcat4UltimasCamadas(sentencaEmbedding):
  # Cada elemento do vetor sentencaEmbedding é formado por:  
  # 0-documento_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
  #[4]outpus e [2]hidden_states 
  #[OUTPUTS]outpus e [OUTPUTS_HIDDEN_STATES]hidden_states      
    
  # Cria uma lista com os tensores a serem concatenados
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> x <768 ou 1024>)  
  # Lista com os tensores a serem concatenados
  listaConcat = []
  # Percorre os 4 últimos
  for i in [-1,-2,-3,-4]:
      # Concatena da lista
      listaConcat.append(sentencaEmbedding[OUTPUTS][OUTPUTS_HIDDEN_STATES][i])
  # Saída: Entrada: List das camadas(4) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  #print('listaConcat=',len(listaConcat))

  # Realiza a concatenação dos embeddings de todos as camadas
  # Saída: Entrada: List das camadas(4) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  resultado = torch.cat(listaConcat, dim=-1)
  # Saída: Entrada: (<1(lote)> x <qtde_tokens> <3072 ou 4096>)  
  # print('resultado=',resultado.size())
  
  return resultado   

def getEmbeddingSomaTodasAsCamada(sentencaEmbedding):
  # Cada elemento do vetor sentencaEmbedding é formado por:  
  # 0-documento_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
  #[4]outpus e [2]hidden_states 
  #[OUTPUTS]outpus e [OUTPUTS_HIDDEN_STATES]hidden_states      
  
  # Retorna todas as camadas descontando a primeira(0)
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> x <768 ou 1024>)  
  embeddingCamadas = sentencaEmbedding[OUTPUTS][OUTPUTS_HIDDEN_STATES][1:]
  # Saída: List das camadas(12 ou 24) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  

  # Usa o método `stack` para criar uma nova dimensão no tensor 
  # com a concateção dos tensores dos embeddings.        
  # Entrada: List das camadas(12 ou 24) (<1(lote)> x <qtde_tokens> x <768 ou 1024>)  
  resultadoStack = torch.stack(embeddingCamadas, dim=0)
  # Saída: <12 ou 24> x <1(lote)> x <qtde_tokens> x <768 ou 1024>
  #print('resultadoStack=',resultadoStack.size())
  
  # Realiza a soma dos embeddings de todos os tokens para as camadas
  # Entrada: <12 ou 24> x <1(lote)> x <qtde_tokens> x <768 ou 1024>
  resultado = torch.sum(resultadoStack, dim=0)
  # Saida: <1(lote)> x <qtde_tokens> x <768 ou 1024>
  # print('resultado=',resultado.size())
  
  return resultado

### getResultadoEmbeddings

Retorna o resultado da operação sobre os embeddings das camadas de acordo com tipo de camada especificada.

In [None]:
def getResultadoEmbeddings(sentencaEmbedding, camada):
  # Cada elemento do vetor sentencaEmbedding é formado por:  
  # 0-documento_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
  #[4]outpus e [2]hidden_states 
  #[OUTPUTS]outpus e [OUTPUTS_HIDDEN_STATES]hidden_states      
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> x <768 ou 1024>) 

  resultadoEmbeddingCamadas = None
  
  if camada[LISTATIPOCAMADA_ID] == PRIMEIRA_CAMADA:
      resultadoEmbeddingCamadas = getEmbeddingPrimeiraCamada(sentencaEmbedding)
      #print('resultadoEmbeddingCamadas1=',resultadoEmbeddingCamadas.size())
  else:
    if camada[LISTATIPOCAMADA_ID] == PENULTIMA_CAMADA:
      resultadoEmbeddingCamadas = getEmbeddingPenultimaCamada(sentencaEmbedding)
      #print('resultadoEmbeddingCamadas1=',resultadoEmbeddingCamadas.size())
    else:
      if camada[LISTATIPOCAMADA_ID] == ULTIMA_CAMADA:
        resultadoEmbeddingCamadas = getEmbeddingUltimaCamada(sentencaEmbedding)
        #print('resultadoEmbeddingCamadas2=',resultadoEmbeddingCamadas.size())
      else:
          if camada[LISTATIPOCAMADA_ID] == SOMA_4_ULTIMAS_CAMADAS:
            resultadoEmbeddingCamadas = getEmbeddingSoma4UltimasCamadas(sentencaEmbedding)            
            #print('resultadoEmbeddingCamadas3=',resultadoEmbeddingCamadas.size())
          else:
              if camada[LISTATIPOCAMADA_ID] == CONCAT_4_ULTIMAS_CAMADAS:
                resultadoEmbeddingCamadas = getEmbeddingConcat4UltimasCamadas(sentencaEmbedding)
                #print('resultadoEmbeddingCamadas4=',resultadoEmbeddingCamadas.size())
              else:
                  if camada[LISTATIPOCAMADA_ID] == TODAS_AS_CAMADAS:
                      resultadoEmbeddingCamadas = getEmbeddingSomaTodasAsCamada(sentencaEmbedding)
                      #print('resultadoEmbeddingCamadas5=',resultadoEmbeddingCamadas.size())
  # Saída: <1> x <qtde_tokens> x <768 ou 1024>
  
  # Verifica se a primeira dimensão é 1 para remover
  # Entrada: <1> x <qtde_tokens> x <768 ou 1024>
  if resultadoEmbeddingCamadas.shape[0] == 1:
      # Remove a dimensão 0 caso seja de tamanho 1.
      # Usa o método 'squeeze' para remover a primeira dimensão(0) pois possui tamanho 1
      # Entrada: <1> x <qtde_tokens> x <768 ou 1024>
      resultadoEmbeddingCamadas = torch.squeeze(resultadoEmbeddingCamadas, dim=0)     
  #print('resultadoEmbeddingCamadas2=', resultadoEmbeddingCamadas.size())    
   # Saída: <qtde_tokens> x <768 ou 1024>
  
  # Retorna o resultados dos embeddings dos tokens da sentença  
  return resultadoEmbeddingCamadas

### getMedidasSentencasEmbeddingMEAN

Retorna as medidas de duas sentenças Si e Sj utilizando a estratégia MEAN.

- Entrada
  - **embeddingSi** - os embeddings da primeira sentença
  - **embeddingSj** - os embeddings da segunda sentença

- Saída
  - **Scos** - Similaridade do coseno - usando a média dos embeddings Si e Sj das camadas especificadas
  - **Seuc** - Distância euclidiana - usando a média dos embeddings Si e Sj das camadas especificadas
  - **Sman** - Distância de manhattan - usando a média dos embeddings Si e Sj das camadas especificadas

In [None]:
def getMedidasSentencasEmbeddingMEAN(embeddingSi, embeddingSj):
 
  #print('embeddingSi=', embeddingSi.shape) 
  #print('embeddingSj=', embeddingSj.shape)
  
  # As operações de subtração(sub), mul(multiplicação/produto), soma(sum), cosseno(similaridade), euclediana(diferença) e manhattan(diferença)
  # Necessitam que os embeddings tenha a mesmo número de dimensões.
  
  # Calcula a média dos embeddings para os tokens de Si, removendo a primeira dimensão.
  # Entrada: <qtde_tokens> x <768 ou 1024>  
  mediaEmbeddingSi = torch.mean(embeddingSi, dim=0)    
  # Saída: <768 ou 1024>
  #print('mediaCamadasSi=', mediaCamadasSi.shape)
  
  # Calcula a média dos embeddings para os tokens de Sj, removendo a primeira dimensão.
  # Entrada: <qtde_tokens> x <768 ou 1024>  
  mediaEmbeddingSj = torch.mean(embeddingSj, dim=0)    
  # Saída: <768 ou 1024>
  #print('mediaCamadasSj=', mediaCamadasSj.shape)
    
  # Similaridade do cosseno entre os embeddings Si e Sj
  # Entrada: (<768 ou 1024>) x (<768 ou 1024>)
  Scos = similaridadeCoseno(mediaEmbeddingSi, mediaEmbeddingSj)
  # Saída: Número real

  # Distância euclidiana entre os embeddings Si e Sj
  # Entrada: (<768 ou 1024>) x (<768 ou 1024>)
  Seuc = distanciaEuclidiana(mediaEmbeddingSi, mediaEmbeddingSj)
  # Saída: Número real

  # Distância de manhattan entre os embeddings Si e Sj
  # Entrada: (<768 ou 1024>) x (<768 ou 1024>)
  Sman = distanciaManhattan(mediaEmbeddingSi, mediaEmbeddingSj)
  # Saída: Número real
   
  # Retorno das medidas das sentenças  
  return mediaEmbeddingSi, mediaEmbeddingSj, Scos, Seuc, Sman

### getMedidasSentencasEmbeddingMAX

Retorna as medidas de duas sentenças Si e Sj utilizando a estratégia MAX.

- Entrada
  - **embeddingSi** - os embeddings da primeira sentença
  - **embeddingSj** - os embeddings da segunda sentença

- Saída
  - **Scos** - Similaridade do coseno - usando o maior dos embeddings Si e Sj das camadas especificadas
  - **Seuc** - Distância euclidiana - usando o maior dos embeddings Si e Sj das camadas especificadas
  - **Sman** - Distância de manhattan - usando o maior dos embeddings Si e Sj das camadas especificadas

In [None]:
def getMedidasSentencasEmbeddingMAX(embeddingSi, embeddingSj):
 
  #print('embeddingSi=', embeddingSi.shape) 
  #print('embeddingSj=', embeddingSj.shape)
  
  # As operações de subtração(sub), mul(multiplicação/produto), soma(sum), cosseno(similaridade), euclediana(diferença) e manhattan(diferença)
  # Necessitam que os embeddings tenha a mesmo número de dimensões.
  
  # Encontra os maiores embeddings os tokens de Si, removendo a primeira dimensão.
  # Entrada: <qtde_tokens> x <768 ou 1024>  
  maiorEmbeddingSi, linha = torch.max(embeddingSi, dim=0)    
  # Saída: <768 ou 1024>
  #print('maiorEmbeddingSi=', maiorEmbeddingSi.shape)
  
  # Encontra os maiores embeddings os tokens de Sj, removendo a primeira dimensão.
  # Entrada: <qtde_tokens> x <768 ou 1024>  
  maiorEmbeddingSj, linha = torch.max(embeddingSj, dim=0)    
  # Saída: <768 ou 1024>
  #print('maiorEmbeddingSj=', maiorEmbeddingSj.shape)
    
  # Similaridade do cosseno entre os embeddings Si e Sj
  # Entrada: (<768 ou 1024>) x (<768 ou 1024>)
  Scos = similaridadeCoseno(maiorEmbeddingSi, maiorEmbeddingSj)
  # Saída: Número real

  # Distância euclidiana entre os embeddings Si e Sj
  # Entrada: (<768 ou 1024>) x (<768 ou 1024>)
  Seuc = distanciaEuclidiana(maiorEmbeddingSi, maiorEmbeddingSj)
  # Saída: Número real

  # Distância de manhattan entre os embeddings Si e Sj
  # Entrada: (<768 ou 1024>) x (<768 ou 1024>)
  Sman = distanciaManhattan(maiorEmbeddingSi, maiorEmbeddingSj)
  # Saída: Número real
   
  # Retorno das medidas das sentenças
  return maiorEmbeddingSi, maiorEmbeddingSj, Scos, Seuc, Sman

### getMedidasSentencasEmbedding

Realiza o cálculo da medida do documento de acordo com a estratégia.

In [None]:
def getMedidasSentencasEmbedding(embeddingSi, embeddingSj):
  if model_args.estrategia_medida == 0:
    return getMedidasSentencasEmbeddingMEAN(embeddingSi, embeddingSj)
  else:
    return getMedidasSentencasEmbeddingMAX(embeddingSi, embeddingSj)

### getEmbeddingSentencaEmbeddingDocumentoComTodasPalavras

Retorna os embeddings de uma sentença com todas as palavras a partir dos embeddings do documento.

In [None]:
def getEmbeddingSentencaEmbeddingDocumentoComTodasPalavras(embeddingDocumento, documento, sentenca, tokenizador):
        
  # Tokeniza o documento
  documentoTokenizado = getDocumentoTokenizado(documento, tokenizador)
  #print(documentoTokenizado)

  # Tokeniza a sentença
  sentencaTokenizada = getDocumentoTokenizado(sentenca, tokenizador)
  #print(sentencaTokenizada)
  # Remove os tokens de início e fim da sentença
  sentencaTokenizada.remove('[CLS]')
  sentencaTokenizada.remove('[SEP]')    
  #print(len(sentencaTokenizada))
  
  # Localiza os índices dos tokens da sentença no documento
  inicio, fim = encontrarIndiceSubLista(documentoTokenizado,sentencaTokenizada)
  #print(inicio,fim) 
 
  # Recupera os embeddings dos tokens da sentença a partir dos embeddings do documento
  embeddingSentenca = embeddingDocumento[inicio:fim+1]
  #print('embeddingSentenca=', embeddingSentenca.shape)
  
  # Retorna o embedding da sentença no documento
  return embeddingSentenca

### getEmbeddingSentencaEmbeddingDocumentoSemStopWord

Retorna os embeddings de uma sentença sem stopwords a partir dos embeddings do documento.

In [None]:
def getEmbeddingSentencaEmbeddingDocumentoSemStopWord(embeddingDocumento, documento, sentenca, tokenizador):
      
  # Tokeniza o documento
  documentoTokenizado = getDocumentoTokenizado(documento, tokenizador)  
  #print(documentoTokenizado)
  
  # Remove as stopword da sentença
  sentencaSemStopWord = removeStopWord(sentenca, spacy_stopwords)

  # Tokeniza a sentença sem stopword
  sentencaTokenizadaSemStopWord = getDocumentoTokenizado(sentencaSemStopWord, tokenizador)
  #print(sentencaTokenizadaSemStopWord)

  # Remove os tokens de início e fim da sentença
  sentencaTokenizadaSemStopWord.remove('[CLS]')
  sentencaTokenizadaSemStopWord.remove('[SEP]')    
  #print(len(sentencaTokenizadaSemStopWord))

  # Tokeniza a sentença
  sentencaTokenizada = getDocumentoTokenizado(sentenca, tokenizador)
  
  # Remove os tokens de início e fim da sentença
  sentencaTokenizada.remove('[CLS]')
  sentencaTokenizada.remove('[SEP]')  
  #print(sentencaTokenizada)
  #print(len(sentencaTokenizada))

  # Localiza os índices dos tokens da sentença no documento
  inicio, fim = encontrarIndiceSubLista(documentoTokenizado,sentencaTokenizada)
  #print('Sentença inicia em:', inicio, 'até', fim) 
   
  # Recupera os embeddings dos tokens da sentença a partir dos embeddings do documento
  embeddingSentenca = embeddingDocumento[inicio:fim+1]
  #print('embeddingSentenca=', embeddingSentenca.shape)

  # Lista com os tensores selecionados
  listaTokensSelecionados = []
  # Localizar os embeddings dos tokens da sentença tokenizada sem stop word na sentença 
  # Procura somente no intervalo da sentença
  for i, tokenSentença in enumerate(sentencaTokenizada):
    for tokenSentencaSemStopWord in sentencaTokenizadaSemStopWord: 
      if tokenSentença == tokenSentencaSemStopWord:
        #embeddingSentencaSemStopWord = torch.cat((embeddingSentencaSemStopWord, embeddingSentenca[i:i+1]), dim=0)
        listaTokensSelecionados.append(embeddingSentenca[i:i+1])
  
  embeddingSentencaSemStopWord = None

  if len(listaTokensSelecionados) != 0:
    # Concatena os vetores da lista pela dimensão 0
    embeddingSentencaSemStopWord = torch.cat(listaTokensSelecionados, dim=0)
    #print("embeddingSentencaSemStopWord:",embeddingSentencaSemStopWord.shape)

  # Retorna o embedding da sentença no documento
  return embeddingSentencaSemStopWord

### getEmbeddingSentencaEmbeddingDocumentoSomenteSaliente

Retorna os embeddings de uma sentença somente com as palavras salientes a partir dos embeddings do documento.

In [None]:
def getEmbeddingSentencaEmbeddingDocumentoSomenteSaliente(embeddingDocumento, documento, sentenca, tokenizador, tipoSaliente='NOUN'):
  
  # Tokeniza o documento
  documentoTokenizado = getDocumentoTokenizado(documento, tokenizador)  
  #print(documentoTokenizado)
  
  # Retorna as palavras salientes da sentença do tipo especificado
  sentencaSomenteSaliente = retornaSaliente(sentenca,tipoSaliente)

  # Tokeniza a sentença 
  sentencaTokenizadaSomenteSaliente = getDocumentoTokenizado(sentencaSomenteSaliente, tokenizador)

  # Remove os tokens de início e fim da sentença
  sentencaTokenizadaSomenteSaliente.remove('[CLS]')
  sentencaTokenizadaSomenteSaliente.remove('[SEP]')  
  #print(sentencaTokenizadaSomenteSaliente)
  #print(len(sentencaTokenizadaSomenteSaliente))

  # Tokeniza a sentença
  sentencaTokenizada = getDocumentoTokenizado(sentenca, tokenizador)
  
  # Remove os tokens de início e fim da sentença
  sentencaTokenizada.remove('[CLS]')
  sentencaTokenizada.remove('[SEP]')  
  #print(sentencaTokenizada)
  #print(len(sentencaTokenizada))

  # Localiza os índices dos tokens da sentença no documento
  inicio, fim = encontrarIndiceSubLista(documentoTokenizado,sentencaTokenizada)
  #print('Sentença inicia em:', inicio, 'até', fim) 
   
  # Recupera os embeddings dos tokens da sentença a partir dos embeddings do documento
  embeddingSentenca = embeddingDocumento[inicio:fim+1]
  #print('embeddingSentenca=', embeddingSentenca.shape)

  # Lista com os tensores selecionados
  listaTokensSelecionados = []
  # Localizar os embeddings dos tokens da sentença tokenizada sem stop word na sentença 
  # Procura somente no intervalo da sentença
  for i, tokenSentenca in enumerate(sentencaTokenizada):
    for tokenSentencaSomenteSaliente in sentencaTokenizadaSomenteSaliente: 
      if tokenSentenca == tokenSentencaSomenteSaliente:        
        listaTokensSelecionados.append(embeddingSentenca[i:i+1])
  
  embeddingSentencaComSubstantivo = None

  if len(listaTokensSelecionados) != 0:
    # Concatena os vetores da lista pela dimensão 0  
    embeddingSentencaComSubstantivo = torch.cat(listaTokensSelecionados, dim=0)
    #print("embeddingSentencaComSubstantivo:",embeddingSentencaComSubstantivo.shape)

  # Retorna o embedding da sentença do documento
  return embeddingSentencaComSubstantivo

### getEmbeddingSentencaEmbeddingDocumento

Retorna os embeddings de uma sentença com todas as palavras, sem stopwords ou somente com palavra substantivas a partir dos embeddings do documentos.

In [None]:
def getEmbeddingSentencaEmbeddingDocumento(embeddingDocumento, documento, sentenca, tokenizador, filtro=0):
  if filtro == 0:
    return getEmbeddingSentencaEmbeddingDocumentoComTodasPalavras(embeddingDocumento, documento, sentenca, tokenizador)
  else:
    if filtro == 1:
        return getEmbeddingSentencaEmbeddingDocumentoSemStopWord(embeddingDocumento, documento, sentenca, tokenizador)
    else:
      if filtro == 2:
        return getEmbeddingSentencaEmbeddingDocumentoSomenteSaliente(embeddingDocumento, documento, sentenca, tokenizador, tipoSaliente='NOUN')

### getMedidasCoerenciaDocumento

Retorna a médida das medidas das sentenças do documento.

Considera somente sentenças com alguma palavra.

In [None]:
def getMedidasCoerenciaDocumento(documento, modelo, tokenizador, camada, tipoDocumento='p', filtro=0):

  # Quantidade de sentenças no documento
  n = len(documento)
  # Divisor da quantidade de documentos
  divisor = n - 1

  # Documento é uma lista com as sentenças
  #print('camada=',camada)
  #print('Documento=', documento)
    
  # Junta a lista de sentenças em um documento(string)
  stringDocumento = ' '.join(documento)

  # Envia o documento ao MCL e recupera os embeddings de todas as camadas
  # Se for o documento original pega do buffer para evitar a repetição
  if tipoDocumento == 'o':
      # Retorna os embeddings de todas as camadas do documento
      # O embedding possui os seguintes valores        
      # 0-documento_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
      totalCamadasDocumento =  getEmbeddingsTodasCamadasBuffer(stringDocumento, modelo, tokenizador)      
      # Saída: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> <768 ou 1024>) 
  else:
      # Retorna os embeddings de todas as camadas do documento
      # O embedding possui os seguintes valores        
      # 0-documento_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
      totalCamadasDocumento =  getEmbeddingsTodasCamadas(stringDocumento, modelo, tokenizador)      
      # Saída: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> <768 ou 1024>) 

  # Recupera os embeddings dos tokens das camadas especificadas de acordo com a estratégia especificada para camada  
  embeddingDocumento = getResultadoEmbeddings(totalCamadasDocumento, camada=camada)
  #print('embeddingDocumento=', embeddingDocumento.shape)
  
  # Acumuladores das medidas entre as sentenças  
  somaScos = 0
  somaSeuc = 0
  somaSman = 0

  # Seleciona os pares de sentença a serem avaliados
  posSi = 0
  posSj = posSi + 1

  #Enquanto o indíce da sentneça posSj(2a sentença) não chegou ao final da quantidade de sentenças
  while posSj <= (n-1):  

      # Seleciona as sentenças do documento  
      Si = documento[posSi]
      Sj = documento[posSj]

      # Recupera os embedding das sentenças Si e Sj do embedding do documento      
      embeddingSi = getEmbeddingSentencaEmbeddingDocumento(embeddingDocumento, stringDocumento, Si, tokenizador, filtro=filtro)                                
      embeddingSj = getEmbeddingSentencaEmbeddingDocumento(embeddingDocumento, stringDocumento, Sj, tokenizador, filtro=filtro)

      # Verifica se os embeddings sentenças estão preenchidos
      if embeddingSi != None and embeddingSj != None:

        # Recupera as medidas entre Si e Sj     
        ajustadoEmbeddingSi, ajustadoEmbeddingSj, Scos, Seuc, Sman = getMedidasSentencasEmbedding(embeddingSi, embeddingSj)
     
        # Acumula as medidas
        somaScos = somaScos + Scos
        somaSeuc = somaSeuc + Seuc
        somaSman = somaSman + Sman

         # avança para o próximo par de sentenças
        posSi = posSj
        posSj = posSj + 1
      else:
        # Reduz um da quantidade de sentenças pois uma delas está vazia
        divisor = divisor - 1
        # Se embeddingSi igual a None avanca pos1 e pos2
        if embeddingSi == None:
          # Avança a posição da sentença posSi para a posSj
          posSi = posSj
          # Avança para a próxima sentença de posSj
          posSj = posSj + 1        
        else:          
          # Se embeddingSj = None avança somente posJ para a próxima sentença
          if embeddingSj == None:
            posSj = posSj + 1

  # Calcula a medida 
  Ccos =  0
  Ceuc =  0
  Cman =  0

  if divisor != 0:
    Ccos = float(somaScos)/float(divisor)
    Ceuc = float(somaSeuc)/float(divisor)
    Cman = float(somaSman)/float(divisor)
  
  return Ccos, Ceuc, Cman

### listaTipoCamadas

Define uma lista com as camadas a serem analisadas nos teste.

Cada elemento da lista 'listaTipoCamadas' é chamado de camada sendo formado por:
  - camada[0] = Índice da camada
  - camada[1] = Um inteiro com o índice da camada a ser avaliada. Pode conter valores negativos.
  - camada[2] = Operação para n camadas, CONCAT ou SUM.
  - camada[3] = Nome do tipo camada

Os nomes do tipo da camada pré-definidos.
  - 0 - Primeira                    
  - 1 - Penúltima
  - 2 - Última
  - 3 - Soma 4 últimas
  - 4 - Concat 4 últimas
  - 5 - Todas

In [None]:
#Constantes para facilitar o acesso os tipos de camadas
PRIMEIRA_CAMADA = 0
PENULTIMA_CAMADA = 1
ULTIMA_CAMADA = 2
SOMA_4_ULTIMAS_CAMADAS = 3
CONCAT_4_ULTIMAS_CAMADAS = 4
TODAS_AS_CAMADAS = 5

# Índice dos campos da camada
LISTATIPOCAMADA_ID = 0
LISTATIPOCAMADA_CAMADA = 1
LISTATIPOCAMADA_OPERACAO = 2
LISTATIPOCAMADA_NOME = 3

# BERT Large possui 25 camadas(1a camada com os tokens de entrada e 24 camadas dos transformers)
# BERT Large possui 13 camadas(1a camada com os tokens de entrada e 24 camadas dos transformers)
# O índice da camada com valor positivo indica uma camada específica
# O índica com um valor negativo indica as camadas da posição com base no fim descontado o valor indice até o fim.
listaTipoCamadas = [
                      [ PRIMEIRA_CAMADA,           1, '-',      'Primeira'],                      
                      [ PENULTIMA_CAMADA,         -2, '-',      'Penúltima'],
                      [ ULTIMA_CAMADA,            -1, '-',      'Última'],
                      [ SOMA_4_ULTIMAS_CAMADAS,   -4, 'SUM',    'Soma 4 últimas'],
                      [ CONCAT_4_ULTIMAS_CAMADAS, -4, 'CONCAT', 'Concat 4 últimas'],                      
                      [ TODAS_AS_CAMADAS,          24, 'SUM',    'Todas']
                    ]

# listaTipoCamadas e suas referências:
# 0 - Primeira            listaTipoCamadas[PRIMEIRA_CAMADA]
# 1 - Penúltima           listaTipoCamadas[PENULTIMA_CAMADA]
# 2 - Última              listaTipoCamadas[ULTIMA_CAMADA]
# 3 - Soma 4 últimas      listaTipoCamadas[SOMA_4_ULTIMAS_CAMADAS]
# 4 - Concat 4 últimas    listaTipoCamadas[CONCAT_4_ULTIMAS_CAMADAS]
# 5 - Todas               listaTipoCamadas[TODAS_AS_CAMADAS]


###comparaMedidasCamadasSentencas

Facilita a exibição dos valores de comparação de duas orações

In [None]:
def comparaMedidasCamadasSentencas(Si, Sj, modelo, tokenizador, camada):
  
  # Recupera os embeddings da sentença 1 e sentença 2
  embeddingSi, embeddingSj, Scos, Seuc, Sman = getMedidasCamadasSentencas(Si, Sj, modelo, tokenizador, camada)

  print('  ->Mostra comparação da ' + camada[LISTATIPOCAMADA_NOME]+ ' camada(s)')    
  print('   Cosseno(SixSj)     = %.8f' % Scos)
  print('   Euclidiana(SixSj)  = %.8f' % Seuc)
  print('   Manhattan(SixSj)   = %.8f' % Sman)

# 2 Parametrização

In [None]:
# Definição dos parâmetros do Modelo
model_args = ModelArguments(     
    max_seq_len = 512,
    #pretrained_model_name_or_path = 'neuralmind/bert-large-portuguese-cased',
    #pretrained_model_name_or_path = 'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip',
    #pretrained_model_name_or_path = 'neuralmind/bert-base-portuguese-cased',
    pretrained_model_name_or_path = 'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip',       
    #pretrained_model_name_or_path = 'bert-base-multilingual-cased',
    modelo_spacy = 'pt_core_news_lg',
    do_lower_case = False,   # default True
    output_attentions = False,    # default False
    output_hidden_states = True, # default False
    use_wandb = True,
    salvar_modelo_wandb = False,    
    salvar_medicao = True, #Salva o resultado da medição
    salvar_avaliacao = True, # Salva o resultado da avaliação das medições
    usar_mcl_ajustado = False, # Especifica se deve ser carregado um MCL ajustado ou pré-treinado. Necessário especificar o tipo do modelo em pretrained_model_name_or_path.
    estrategia_medida = 0, # 0 - MEAN estratégia média / 1 - MAX  estratégia maior
    filtro_palavra = 0 # 0 - Considera todas as palavras das sentenças / 1 - Desconsidera as stopwords / 2 - Considera somente as palavras substantivas
)

Recupera a descrição do modelo para nomes de arquivos e diretórios.

In [None]:
def getNomeModeloBERT():
  # Verifica o nome do modelo(default BERT)
  MODELO_BERT = 'SEM_MODELO_BERT'
  if 'neuralmind' in model_args.pretrained_model_name_or_path:
    MODELO_BERT = '_BERTimbau'
  else:
    if 'multilingual' in model_args.pretrained_model_name_or_path:
      MODELO_BERT = '_BERTmultilingual'
  return MODELO_BERT

def getTamanhoBERT():
  # Verifica o tamanho do modelo(default large)
  TAMANHO_BERT = '_large'
  if 'base' in model_args.pretrained_model_name_or_path:
    TAMANHO_BERT = '_base'
  return TAMANHO_BERT  

# 3 spaCy

## 3.1 Download arquivo modelo

https://spacy.io/models/pt

In [None]:
# Definição do nome do arquivo do modelo
ARQUIVOMODELOSPACY = model_args.modelo_spacy

# Definição da versão da spaCy
VERSAOSPACY = '-2.3.0'

In [None]:
# Realiza o download do arquivo do modelo para o diretório corrente
!wget https://github.com/explosion/spacy-models/releases/download/{ARQUIVOMODELOSPACY}{VERSAOSPACY}/{ARQUIVOMODELOSPACY}{VERSAOSPACY}.tar.gz

--2021-06-10 15:02:30--  https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-2.3.0/pt_core_news_lg-2.3.0.tar.gz
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github-releases.githubusercontent.com/84940268/a899e480-ab07-11ea-831b-b5aa9cc04510?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20210610%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20210610T150230Z&X-Amz-Expires=300&X-Amz-Signature=ee62958e6b6a033872023741ae41e3aaa0c58f984c4c871b4ee1aef0e6e70384&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=84940268&response-content-disposition=attachment%3B%20filename%3Dpt_core_news_lg-2.3.0.tar.gz&response-content-type=application%2Foctet-stream [following]
--2021-06-10 15:02:30--  https://github-releases.githubusercontent.com/84940268/a899e480-ab07-11ea-831b-b5aa9cc04510?X-Amz-Algorithm=AWS4-HMAC-

## 3.2 Descompacta o arquivo do modelo

In [None]:
# Descompacta o arquivo do modelo
!tar -xvf  /content/{ARQUIVOMODELOSPACY}{VERSAOSPACY}.tar.gz

pt_core_news_lg-2.3.0/
pt_core_news_lg-2.3.0/PKG-INFO
pt_core_news_lg-2.3.0/setup.py
pt_core_news_lg-2.3.0/setup.cfg
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/dependency_links.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/PKG-INFO
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/SOURCES.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/requires.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/top_level.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/not-zip-safe
pt_core_news_lg-2.3.0/pt_core_news_lg/
pt_core_news_lg-2.3.0/pt_core_news_lg/__init__.py
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/cfg
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/moves
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/model
pt_core_news_lg-2.3.0/pt_core_news_l

In [None]:
# Coloca a pasta do modelo descompactado em uma pasta de nome mais simples
!mv /content/{ARQUIVOMODELOSPACY}{VERSAOSPACY}/{ARQUIVOMODELOSPACY}/{ARQUIVOMODELOSPACY}{VERSAOSPACY} /content/{ARQUIVOMODELOSPACY}

## 3.3 Carrega o modelo

In [None]:
# Importando as bibliotecas.
import spacy

# Caminho completo do modelo do spaCy
CAMINHOMODELOSPACY = '/content/' + ARQUIVOMODELOSPACY

# Necessário 'tagger' para encontrar os substantivos
nlp = spacy.load(CAMINHOMODELOSPACY, disable=['tokenizer', 'lemmatizer', 'ner', 'parser', 'textcat', 'custom'])

## 3.4 Recupera os stopwords do spaCy

In [None]:
# Recupera as stop words
spacy_stopwords = nlp.Defaults.stop_words

Lista dos stopwords

In [None]:
print('Quantidade de stopwords:', len(spacy_stopwords))

print(spacy_stopwords)

Quantidade de stopwords: 413
{'nesta', 'sim', 'sete', 'ao', 'logo', 'dos', 'aquelas', 'sob', 'não', 'vós', 'meus', 'até', 'embora', 'depois', 'cinco', 'devem', 'sétimo', 'essas', 'vinte', 'atrás', 'bom', 'maioria', 'grandes', 'mês', 'tenho', 'nem', 'faz', 'contra', 'cada', 'antes', 'isto', 'nuns', 'último', 'deverá', 'estiveram', 'quais', 'conhecido', 'próprio', 'sua', 'relação', 'fostes', 'podia', 'seis', 'mais', 'tempo', 'teu', 'usar', 'favor', 'os', 'inicio', 'vezes', 'diz', 'ver', 'nova', 'sexta', 'este', 'perto', 'foste', 'terceiro', 'aquela', 'zero', 'podem', 'oito', 'catorze', 'cuja', 'fez', 'fora', 'além', 'vos', 'essa', 'desse', 'tive', 'seria', 'dá', 'posição', 'desta', 'demais', 'final', 'des', 'muitos', 'em', 'meio', 'nas', 'te', 'comprida', 'num', 'estás', 'pontos', 'tanta', 'muito', 'vai', 'ter', 'seus', 'terceira', 'dezoito', 'alguns', 'conselho', 'dizer', 'quinze', 'ele', 'bem', 'desde', 'grupo', 'saber', 'tipo', 'for', 'talvez', 'porquê', 'puderam', 'porquanto', 'tenta

# 4 BERT

## 4.1 Arquivo do PyTorch Checkpoint

Lista de modelos da comunidade:
* https://huggingface.co/models

Português(https://github.com/neuralmind-ai/portuguese-bert):  
* **'neuralmind/bert-base-portuguese-cased'**
* **'neuralmind/bert-large-portuguese-cased'**

### função download modelo

Retorna o diretório onde o MCL ajustado foi descompactado.

In [None]:
def downloadMCLPretreinado(MODELO):

  # Importando as bibliotecas.
  import os

  # Variável para setar o arquivo.
  URL_MODELO = None

  if 'http' in MODELO:
    URL_MODELO = MODELO

  # Se a variável foi setada.
  if URL_MODELO:

    # Diretório descompactação.
    DIRETORIO_MODELO = '/content/modelo'

    # Recupera o nome do arquivo do modelo da url.
    arquivo = URL_MODELO.split('/')[-1]

    # Nome do arquivo do vocabulário.
    arquivo_vocab = 'vocab.txt'

    # Caminho do arquivo na url.
    caminho = URL_MODELO[0:len(URL_MODELO)-len(arquivo)]

    # Verifica se a pasta de descompactação existe na pasta corrente
    if os.path.exists(DIRETORIO_MODELO):
      print('Apagando diretório existente do modelo!')
      # Apaga a pasta e os arquivos existentes
      !rm -rf $DIRETORIO_MODELO    

    # Baixa o arquivo do modelo.
    !wget $URL_MODELO
    
    # Descompacta o arquivo na pasta de descompactação.
    !unzip -o $arquivo -d $DIRETORIO_MODELO

    # Baixa o arquivo do vocabulário.
    # O vocabulário não está no arquivo compactado acima, mesma url mas arquivo diferente.
    URL_MODELO_VOCAB = caminho + arquivo_vocab
    !wget $URL_MODELO_VOCAB
    
    # Coloca o arquivo do vocabulário no diretório de descompactação.
    !mv $arquivo_vocab $DIRETORIO_MODELO
            
    # Move o arquivo para pasta de descompactação
    !mv $arquivo $DIRETORIO_MODELO
       
    print('Pasta do {} pronta!'.format(DIRETORIO_MODELO))

    # Lista a pasta corrente.
    !ls -la $DIRETORIO_MODELO
  else:
    DIRETORIO_MODELO = MODELO
    print('Variável URL_MODELO não setada!')
  
  return DIRETORIO_MODELO

### Download do modelo

Retorna o diretório onde o MCL ajustado foi copiado.

In [None]:
def copiaMCLAjustado():
  # Importando as bibliotecas.
  import os

  # Diretório local de salvamento do modelo.
  DIRETORIO_LOCAL_MODELO_AJUSTADO = '/content/modelo_ajustado/'

  # Diretório remoto de salvamento do modelo.
  DIRETORIO_REMOTO_MODELO_AJUSTADO = '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_classificacao/holdout/modelo/modelo' + MODELO_BERT + TAMANHO_BERT

  ## Copia o arquivo do modelo para o diretório no Google Drive.
  !cp -r '$DIRETORIO_REMOTO_MODELO_AJUSTADO' '$DIRETORIO_LOCAL_MODELO_AJUSTADO' 

  print('Modelo copiado!')

  return DIRETORIO_LOCAL_MODELO_AJUSTADO

Verifica de onde utilizar o modelo

In [None]:
def verificaModelo():
  DIRETORIO_MODELO = None
  if model_args.usar_mcl_ajustado == True:
    DIRETORIO_MODELO = copiaMCLAjustado()
    print('Usando modelo ajustado')
  else:
      DIRETORIO_MODELO = downloadMCLPretreinado(model_args.pretrained_model_name_or_path)
      print('Usando modelo pré-treinado de download ou comunidade')
  return DIRETORIO_MODELO

In [None]:
#DIRETORIO_MODELO = verificaModelo()

## 4.2 Tokenizador(tokenizer) BERT

O tokenizador utiliza WordPiece, veja em [artigo original](https://arxiv.org/pdf/1609.08144.pdf).

Carregando o tokenizador da pasta '/content/modelo/' do diretório padrão se variável `URL_MODELO` setada.

**Caso contrário carrega da comunidade**

Por default(`do_lower_case=True`) todas as letras são colocadas para minúsculas. Para ignorar a conversão para minúsculo use o parâmetro `do_lower_case=False`. Esta opção também considera as letras acentuadas(ãçéí...), que são necessárias a língua portuguesa.

O parâmetro `do_lower_case` interfere na quantidade tokens a ser gerado a partir de um texto. Quando igual a `False` reduz a quantidade de tokens gerados.

### Função carrega tokenizador

In [None]:
def carregaTokenizadorMCLPretreinado(DIRETORIO_MODELO):

  # Importando as bibliotecas do tokenizador.
  from transformers import BertTokenizer

  # Se a variável DIRETORIO_MODELO foi setada.
  if DIRETORIO_MODELO:

    # Carregando o Tokenizador.
    print('Carregando o tokenizador BERT do diretório {}...'.format(DIRETORIO_MODELO))

    tokenizer = BertTokenizer.from_pretrained(DIRETORIO_MODELO, 
                                              do_lower_case=model_args.do_lower_case)
    
  else:
    # Carregando o Tokenizador da comunidade.
    print('Carregando o tokenizador da comunidade...')
    
    tokenizer = BertTokenizer.from_pretrained(model_args.pretrained_model_name_or_path, 
                                              do_lower_case=model_args.do_lower_case)

  return tokenizer

### Carregando o tokenizador

In [None]:
#tokenizer = carregaTokenizadorMCLPretreinado(DIRETORIO_MODELO)

## 4.3 Modelo(model) BERT

Se a variável `URL_MODELO` estiver setada carrega o modelo do diretório `content/modelo`.

Caso contrário carrega da comunidade.

Carregando o modelo da pasta '/content/modelo/' do diretório padrão.

A implementação do huggingface pytorch inclui um conjunto de interfaces projetadas para uma variedade de tarefas de PNL. Embora essas interfaces sejam todas construídas sobre um modelo treinado de BERT, cada uma possui diferentes camadas superiores e tipos de saída projetados para acomodar suas tarefas específicas de PNL.

A documentação para estas pode ser encontrada em [aqui](https://huggingface.co/transformers/v2.2.0/model_doc/bert.html).

Por default o modelo está em modo avaliação ou seja `model.eval()`.

-----------------------

Durante a avaliação do modelo, este retorna um número de diferentes objetos com base em como é configurado na chamada do método `from_pretrained`. 

Quando definimos `output_hidden_states = True` na chamada do método `from_pretrained`, retorno do modelo possui no terceiro item os estados ocultos(**hidden_states**) de todas as camadas.  Veja a documentação para mais detalhes: https://huggingface.co/transformers/model_doc/bert.html#bertmodel

Quando **`output_hidden_states = True`** model retorna:
- outputs[0] = last_hidden_state;
- outputs[1] = pooler_output; 
- outputs[2] = hidden_states.

Quando **`output_hidden_states = False`** ou não especificado model retorna:
- outputs[0] = last_hidden_state;
- outputs[1] = pooler_output.


**ATENÇÃO**: O parâmetro ´**output_hidden_states = True**´ habilita gerar as camadas ocultas do modelo. Caso contrário somente a última camada é mantida. Este parâmetro otimiza a memória mas não os resultados.


### Função carrega modelo

In [None]:
def carregaModelo(MODELO, DIRETORIO_MODELO):

  # Importando as bibliotecas do Modelo
  from transformers import BertModel

  # Variável para setar o arquivo.
  URL_MODELO = None

  if 'http' in MODELO:
    URL_MODELO = MODELO
  
  # Se a variável URL_MODELO foi setada
  if URL_MODELO:
    # Carregando o Modelo BERT
    print('Carregando o modelo BERT do diretório {}...'.format(DIRETORIO_MODELO))

    model = BertModel.from_pretrained(DIRETORIO_MODELO,
                                      output_attentions = model_args.output_attentions,
                                      output_hidden_states = model_args.output_hidden_states)
  else:
    # Carregando o Modelo BERT da comunidade
    print('Carregando o modelo BERT da comunidade ...')
                                       
    model = BertModel.from_pretrained(model_args.pretrained_model_name_or_path,
                                      output_attentions = model_args.output_attentions,
                                      output_hidden_states = model_args.output_hidden_states)
    
  return model

### Carregando o modelo

In [None]:
#model = carregaModelo(model_args.pretrained_model_name_or_path)

# 5 Arquivo de dados

É utilizando um arquivo de entrada compactado. Este arquivo compactado possui diversos arquivos contendo os experimentos realizados. Iremos utilizar os arquivos do experimento ''Modelo de Relações Discursivas.zip'. Este arquivo descompactado possui duas pastas de interesse, uma chamada 'Sumarios_Humanos' e outra 'Sumrios_Humanos_Permutados'. 

A pasta 'Sumarios_Humanos' contêm os arquivos dos documentos originais onde cada linha representa uma sentença do documento. O nome de cada arquivo original é formado um caracter 'C_', um número que identifica o conteúdo, o literal 'Extrato_' e um número que identifica o sumário. Os documentos permutados estão na pasta 'Sumarios_Humanos_Permutados' e cada linha representa uma sentença do documento. O nome de cada arquivo de documento permutado é formado um caracter 'C_', um número que identifica o conteúdo, o literal 'Extrato_', um número que identifica o sumário, o literal 'Perm_' e um número que indica a permutação.

## 5.1 Carregamento do arquivo

cstnews_md

https://udesc-my.sharepoint.com/:u:/g/personal/91269423991_udesc_br/EQfOLQ6Vg_1Hs4JSwg0aO4wBnxY2ym8tua1XIQB00kczOg?e=hBAqpE&download=1

### Especifica a fonte dos arquivos de dados

In [None]:
# Descomente este linha para fazer o download do site do icmc
# Alteração necessário pois o site do icmc é muito lento para o download
#ORIGEM_DADOS = 'ICMC'
ORIGEM_DADOS = None

### Especifica o nome do arquivo de dados

In [None]:
# Nome do arquivo a ser criado.
NOME_ARQUIVO = 'Summarycoherencemodels.zip'

### Download do arquivo dos dados



In [None]:
# Apaga o arquivo.
!rm '$NOME_ARQUIVO'

In [None]:
if ORIGEM_DADOS == None:
  # Realiza o download do arquivo do meu site.
  !wget -O '$NOME_ARQUIVO' --no-check-certificate  'https://udesc-my.sharepoint.com/:u:/g/personal/91269423991_udesc_br/EQfOLQ6Vg_1Hs4JSwg0aO4wBnxY2ym8tua1XIQB00kczOg?e=hBAqpE&download=1'
else:
  # Realiza o download do arquivo do ICMC.
  !wget -O '$NOME_ARQUIVO' https://sites.icmc.usp.br/taspardo/Summary%20coherence%20models.zip  

--2021-06-10 15:03:04--  https://udesc-my.sharepoint.com/:u:/g/personal/91269423991_udesc_br/EQfOLQ6Vg_1Hs4JSwg0aO4wBnxY2ym8tua1XIQB00kczOg?e=hBAqpE&download=1
Resolving udesc-my.sharepoint.com (udesc-my.sharepoint.com)... 52.104.44.39
Connecting to udesc-my.sharepoint.com (udesc-my.sharepoint.com)|52.104.44.39|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: /personal/91269423991_udesc_br/Documents/DATAPUBLIC/Summary%20coherence%20models.zip?originalPath=aHR0cHM6Ly91ZGVzYy1teS5zaGFyZXBvaW50LmNvbS86dTovZy9wZXJzb25hbC85MTI2OTQyMzk5MV91ZGVzY19ici9FUWZPTFE2VmdfMUhzNEpTd2cwYU80d0JueFkyeW04dHVhMVhJUUIwMGtjek9nP3J0aW1lPXdxZjUyU0FzMlVn [following]
--2021-06-10 15:03:05--  https://udesc-my.sharepoint.com/personal/91269423991_udesc_br/Documents/DATAPUBLIC/Summary%20coherence%20models.zip?originalPath=aHR0cHM6Ly91ZGVzYy1teS5zaGFyZXBvaW50LmNvbS86dTovZy9wZXJzb25hbC85MTI2OTQyMzk5MV91ZGVzY19ici9FUWZPTFE2VmdfMUhzNEpTd2cwYU80d0JueFkyeW04dHVhMVhJUUIwMGtjek9nP3J0aW1lPXdxZjU

In [None]:
# Lista o diretório corrente e os arquivos.
!pwd
!ls -la

/content
total 2098952
drwxr-xr-x  1 root root      4096 Jun 10 15:03  .
drwxr-xr-x  1 root root      4096 Jun 10 04:34  ..
drwxr-xr-x  4 root root      4096 Jun  1 13:40  .config
drwx------  5 root root      4096 Jun 10 04:41  drive
drwxrwxr-x  3 root root      4096 May  5  2016  __MACOSX
drwxr-xr-x  2 root root      4096 Jun 10 04:43  modelo
-rw-r--r--  1 root root  12514670 May  5  2016 'Modelo Baseado em Grafo Discursivo.zip'
-rw-r--r--  1 root root     76770 May  5  2016 'Modelo Baseado em Grafo.zip'
-rw-r--r--  1 root root  45302715 May  5  2016 'Modelo Baseado em Padrфes Sintaticos.zip'
-rw-r--r--  1 root root  34184860 May  5  2016 'Modelo de Entidades com RST Local.zip'
drwxr-xr-x 11 root root      4096 May  5  2016 'Modelo de Relações Discursivas'
-rw-r--r--  1 root root  10433991 May  5  2016 'Modelo de RelaЗфes Discursivas.zip'
-rw-r--r--  1 root root  37900729 May  5  2016 'Modelo de Termo com RST.zip'
-rw-r--r--  1 root root   6374173 May  5  2016 'Modelo Latent Semanti

### Descompactando os arquivos

In [None]:
# Lista o diretório corrente e os arquivos.
!pwd
!ls -la

# Apaga o diretório e seus arquivos
!rm -rf 'Summary coherence model'

# Descompacta o arquivo
!unzip -o '$NOME_ARQUIVO'

# Lista os arquivos do diretório corrente
!ls -la

/content
total 2098952
drwxr-xr-x  1 root root      4096 Jun 10 15:03  .
drwxr-xr-x  1 root root      4096 Jun 10 04:34  ..
drwxr-xr-x  4 root root      4096 Jun  1 13:40  .config
drwx------  5 root root      4096 Jun 10 04:41  drive
drwxrwxr-x  3 root root      4096 May  5  2016  __MACOSX
drwxr-xr-x  2 root root      4096 Jun 10 04:43  modelo
-rw-r--r--  1 root root  12514670 May  5  2016 'Modelo Baseado em Grafo Discursivo.zip'
-rw-r--r--  1 root root     76770 May  5  2016 'Modelo Baseado em Grafo.zip'
-rw-r--r--  1 root root  45302715 May  5  2016 'Modelo Baseado em Padrфes Sintaticos.zip'
-rw-r--r--  1 root root  34184860 May  5  2016 'Modelo de Entidades com RST Local.zip'
drwxr-xr-x 11 root root      4096 May  5  2016 'Modelo de Relações Discursivas'
-rw-r--r--  1 root root  10433991 May  5  2016 'Modelo de RelaЗфes Discursivas.zip'
-rw-r--r--  1 root root  37900729 May  5  2016 'Modelo de Termo com RST.zip'
-rw-r--r--  1 root root   6374173 May  5  2016 'Modelo Latent Semanti

### Descompactando os experimentos

O arquivo de dados originais e permutado estão dentro de cada experimento.



#### Especifica o nome do arquivo do experimento

In [None]:
NOME_ARQUIVO_EXPERIMENTO = 'Modelo de RelaЗфes Discursivas.zip'

#### Descompacta o arquivo do experimento

Usa o unzip para descompactar:
*   `-o` sobrescreve o arquivo se existir
*   `-q` desliga as mensagens 

In [None]:
# Lista o diretório corrente e os arquivos.
!pwd
!ls -la

# Apaga o diretório 'Modelo de Relações Discursivas' e seus arquivos
!rm -rf 'Modelo de Relações Discursivas'

# Descompacta o arquivo o experimento
!unzip -o '$NOME_ARQUIVO_EXPERIMENTO'

# Lista os arquivos do diretório corrente
!ls -la

[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
  inflating: Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/C13_Extrato_1_Perm_4.txt  
  inflating: Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/C13_Extrato_1_Perm_5.txt  
  inflating: Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/C13_Extrato_1_Perm_6.txt  
  inflating: Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/C13_Extrato_1_Perm_7.txt  
  inflating: Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/C13_Extrato_1_Perm_8.txt  
  inflating: Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/C13_Extrato_1_Perm_9.txt  
  inflating: Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/C13_Extrato_2_Perm_0.txt  
  inflating: Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/C13_Extrato_2_Perm_1.txt  
  inflating: Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/C13_Extrato_2_Perm_10.txt  
  inflating: Mode

## 5.2 Preparação dos dados

### Carrega os arquivos

#### Carrega os arquivos Originais

In [None]:
# Biblioteca para acessar o sistema de arquivos
import os

############################################################
# Originais
############################################################

lista_documentos_originais = []

arquivos = os.listdir('/content/Modelo de Relações Discursivas/Sumarios_Humanos/') #Entrada (Input) - diretório de sumários humanos e permutados

#del x[0](Comentando, pois o arquivo '.DS_Store' não está no início da lista!)
if '.DS_Store' in arquivos:
    arquivos.remove('.DS_Store')

for i in range(len(arquivos)):
    # Recupera a posição do ponto no nome do arquivo
    ponto = arquivos[i].find('.')
    # Recupera o nome do arquivo até a posição do ponto
    nomeArquivo = arquivos[i][:ponto]

    documento = carregar('/content/Modelo de Relações Discursivas/Sumarios_Humanos/'+arquivos[i])
    sentencas = carregarLista('/content/Modelo de Relações Discursivas/Sumarios_Humanos/'+arquivos[i])

    lista_documentos_originais.append([arquivos[i], sentencas, documento])
    
print ('TERMINADO ORIGINAIS: ', len(lista_documentos_originais))    

TERMINADO ORIGINAIS:  251


#### Carrega os arquivos Permutados

In [None]:
# Biblioteca para acessar o sistema de arquivos
import os

############################################################
# Permutado
############################################################

lista_documentos_permutados = []

arquivos = os.listdir('/content/Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/') #Entrada (Input) - diret�rio de sum�rios humanos e permutados

#del x[0](Comentando, pois o arquivo '.DS_Store' não está no início da lista!)
if '.DS_Store' in arquivos:
    arquivos.remove('.DS_Store')

for i in range(len(arquivos)):
    # Recupera a posição do ponto no nome do arquivo
    ponto = arquivos[i].find('.')
    # Recupera o nome do arquivo até a posição do ponto
    nomeArquivo = arquivos[i][:ponto]

    documento = carregar('/content/Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/'+arquivos[i])
    sentencas = carregarLista('/content/Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/'+arquivos[i])

    lista_documentos_permutados.append([arquivos[i], sentencas, documento])
    
print ('TERMINADO PERMUTADOS: ', len(lista_documentos_permutados)) 

TERMINADO PERMUTADOS:  5020


### Gerando os pares de documentos originais e permutados

In [None]:
# Lista dos documentos originais e permutados 
lista_documentos = []

arquivosOriginais = os.listdir('/content/Modelo de Relações Discursivas/Sumarios_Humanos/') #Entrada (Input) - diretório de sumários humanos e permutados

#del x[0](Comentando, pois o arquivo '.DS_Store' não está no início da lista!).
if '.DS_Store' in arquivosOriginais:
    arquivosOriginais.remove('.DS_Store')

for i in range(len(arquivosOriginais)):

    # Recupera a posição do ponto no nome do arquivo.
    ponto = arquivosOriginais[i].find('.')
    # Recupera o nome do arquivo até a posição do ponto.
    arquivoOriginal = arquivosOriginais[i][:ponto]

    # Carrega o documento original.
    # Carrega como parágrafo
    documentoOriginal = carregar('/content/Modelo de Relações Discursivas/Sumarios_Humanos/'+arquivosOriginais[i])
    # Carrega uma lista das sentenças
    sentencasOriginais = carregarLista('/content/Modelo de Relações Discursivas/Sumarios_Humanos/'+arquivosOriginais[i])

    # Percorre as 20 permutações.
    for j in range(20):
        # Recupera o nome do arquivo permutado.
        arquivoPermutado = arquivoOriginal + '_Perm_'+str(j) + '.txt'

        # Carrega o arquivo permutado.
        documentoPermutado = carregar('/content/Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/'+ arquivoPermutado)
        sentencasPermutadas = carregarLista('/content/Modelo de Relações Discursivas/Sumarios_Humanos_Permutados/'+ arquivoPermutado)

        # Adiciona o par original e sua versão permutada.
        lista_documentos.append([arquivosOriginais[i], sentencasOriginais, documentoOriginal, arquivoPermutado, sentencasPermutadas, documentoPermutado])

In [None]:
print(len(lista_documentos))

5020


### Converte a lista em um dataframe

Atributos do dataframe:
0. 'idOriginal' - Nome do arquivo original
1. 'sentencasOriginais' - Lista das sentenças do documento original
2. 'documentoOriginal' - Documento original
3. 'idPermutado' - Nome do arquivo permutado
4. 'sentencasPermutadas' - Lista das sentenças do documento permtuado
5. 'documentoPermutado' - Documento permutado

In [None]:
# Import das bibliotecas.
import pandas as pd

# Converte a lista em um dataframe.
dfdadosInicio = pd.DataFrame.from_records(lista_documentos, columns=['idOriginal','sentencasOriginais','documentoOriginal','idPermutado','sentencasPermutadas','documentoPermutado'])

# Número de linhas carregadas do arquivo.
print('Total de registros              : {}'.format(len(dfdadosInicio)))

Total de registros              : 5020


Usaremos os pandas para analisar o conjunto de dados e examinar algumas de suas propriedades.

In [None]:
dfdadosInicio.sample(5)

Unnamed: 0,idOriginal,sentencasOriginais,documentoOriginal,idPermutado,sentencasPermutadas,documentoPermutado
2609,C32_Extrato_1.txt,[Dois terremotos atingiram a região de Niigata...,"Dois terremotos atingiram a região de Niigata,...",C32_Extrato_1_Perm_9.txt,[Situado na conjunção de quatro placas tectôni...,Situado na conjunção de quatro placas tectônic...
2361,C4_Extrato_6.txt,[SÃO PAULO - A forte chuva em São Paulo compli...,SÃO PAULO - A forte chuva em São Paulo complic...,C4_Extrato_6_Perm_1.txt,"[Naquele horário, segundo a CET (Companhia de ...","Naquele horário, segundo a CET (Companhia de E..."
1148,C45_Extrato_2.txt,[A polícia de São Paulo afirmou ontem ter deti...,A polícia de São Paulo afirmou ontem ter detid...,C45_Extrato_2_Perm_8.txt,"[Wagner do Nascimento Marinho, de 22 anos, est...","Wagner do Nascimento Marinho, de 22 anos, esta..."
2316,C14_Extrato_6.txt,[CAIRO - Pelo menos 80 pessoas morreram e mais...,CAIRO - Pelo menos 80 pessoas morreram e mais ...,C14_Extrato_6_Perm_16.txt,[Mais de 45 ambulâncias foram enviadas ao loca...,Mais de 45 ambulâncias foram enviadas ao local...
1389,C48_Extrato_5.txt,[A torcida recebeu Bernardinho com vaias e gri...,A torcida recebeu Bernardinho com vaias e grit...,C48_Extrato_5_Perm_9.txt,[A torcida recebeu Bernardinho com vaias e gri...,A torcida recebeu Bernardinho com vaias e grit...


## 5.3 Comprimento dos comentários

Você pode definir o tamanho de documento que quiser no BERT, mas o modelo pré-treinado vem com um tamanho pré-definido. No nosso caso vamos utilizar o modelo em português da Neural Mind, que tem 512 tokens de tamanho limite de documento. 

### Descartando as documentos muito grandes

In [None]:
def descartandoDocumentosMuitoGrandes(dfdados, tokenizer):
  # Tokenize a codifica os documentos para o BERT.     
  dfdados['input_ids'] = dfdados['documentoOriginal'].apply(lambda tokens: tokenizer.encode(tokens, add_special_tokens=True))

  # Reduz para o tamanho máximo suportado pelo BERT.
  dfdados_512 = dfdados[dfdados['input_ids'].apply(len)<=model_args.max_seq_len]

  # Remove as colunas desnecessárias.
  dfdadosAnterior = dfdados.drop(columns=['input_ids'])
  dfdadosretorno = dfdados_512.drop(columns=['input_ids'])

  print('Quantidade de dados anterior: {}'.format(len(dfdadosAnterior)))
  print('Nova quantidade de dados    : {}'.format(len(dfdadosretorno)))

  # Mostra a quantidade registros removidos
  dfdadosSemLista =  dfdadosretorno.drop(columns=['sentencasOriginais','sentencasPermutadas'])
  dfdados512SemLista =  dfdadosAnterior.drop(columns=['sentencasOriginais','sentencasPermutadas'])

  df = dfdados512SemLista.merge(dfdadosSemLista, how = 'outer' ,indicator=True).loc[lambda x : x['_merge']=='left_only']
  print('Quantidade de registros removidos: {}'.format(len(df)))

  return dfdadosretorno

In [None]:
#dfdados = descartandoDocumentosMuitoGrandes(dfdadosInicio, tokenizer)

# 6 Avaliação

## 6.1 Wandb

https://wandb.ai/osmar-braz/medidacoerenciacstnews_v1/table?workspace=user-osmar-braz

### Função de inicialização wandb

In [None]:
def inicializacaoWandb():

  if model_args.use_wandb:

    # Importando a biblioteca.
    import wandb

    #Login via linha de comando
    !wandb login aded3bc0ea651fff536cc08ba69caf8ac4141cfd

    # Inicializando o registro do experimento.
    # Na execução só pode existir de um init para que não gere dois registros no wandb.
    wandb.init(project='medidacoerenciacstnews_v1', name='medidacoerenciacstnews_v1')

    # Atualiza os parâmetros do modelo no wandb.
    wandb.config.update(model_args)

    # Registra os parämetros não literais do model_args.
    wandb.log({'max_seq_len': model_args.max_seq_len})
    wandb.log({'do_lower_case': model_args.do_lower_case})
    wandb.log({'output_hidden_states': model_args.output_hidden_states})    
    
    return wandb

## 6.2 Funções processamento medidas

### Função de execução do cálculo das medidas dos documentos



In [None]:
def calculaMedidasDocumentos(dfdados, model, tokenizer, wandb):

  # Import das bibliotecas
  import math
  from tqdm.notebook import tqdm as tqdm_notebook

  # Contadores de ocorrência de coerência
  contaCcos = 0
  contaCeuc = 0
  contaCman = 0
  conta = 0

  # Lista para o salvamento das medidas
  lista_medidas_documentos_salvar = []

  # Barras de progresso.    
  dfdado_bar = tqdm_notebook(dfdados.iterrows(), desc=f'Pares documentos', unit=f'par', total=len(dfdados))

  # Percorre as pares de documento carregadas do arquivo
  for (i, linha) in dfdado_bar:
   
      # Conta os pares
      conta = conta + 1

      # Calcula as medidas do documento original    
      original = linha['sentencasOriginais']    
      Ccos, Ceuc, Cman =  getMedidasCoerenciaDocumento(original, modelo=model, tokenizador=tokenizer, camada=listaTipoCamadas[4], tipoDocumento='o', filtro=model_args.filtro_palavra)
                      
      # Calcula a smedidas do documento permutado
      permutado = linha['sentencasPermutadas']
      Ccosp, Ceucp, Cmanp = getMedidasCoerenciaDocumento(permutado, modelo=model, tokenizador=tokenizer, camada=listaTipoCamadas[4], tipoDocumento='p', filtro=model_args.filtro_palavra)
      
      # Verifica a medida de coerência Scos(similaridade do cosseno) das sentenças do documento original com as sentenças do documento permutado.
      # Quanto maior o valor de Scos mais as orações do documentos são coerentes
      if Ccos >= Ccosp:
          contaCcos = contaCcos + 1

      # Verifica a medida de incoerência Seuc(distância euclidiana) das sentenças do documento original com as sentenças do documento permutado.
      # Quanto maior o valor de Scos mais as orações do documentos são coerentes
      if Ceuc <= Ceucp:
          contaCeuc = contaCeuc + 1

      # Verifica a medida de incoerência Sman(distância de manhattan) das sentenças do documento original com as sentenças do documento permutado.
      # Quanto maior o valor de Scos mais as orações do documentos são coerentes
      if Cman <= Cmanp:
          contaCman = contaCman + 1        

      # Guarda as medidas em uma lista para salvar em arquivo
      # Guarda as medidas dos documentos originais
      lista_medidas_documentos_salvar.append([linha[0], Ccos,  Ceuc,  Cman])
      # Guarda as medidas dos documentos permutados
      lista_medidas_documentos_salvar.append([linha[3], Ccosp, Ceucp, Cmanp])

      #clear_output(wait=True)
      #print ('Processando:', (i+1), '/', len(dfdados))

  print ('Total de Pares :',str(conta))

  if model_args.use_wandb:
    wandb.log({'pares_doc': conta})

  print ('\nPares Corretos Ccos:',str(contaCcos))
  acuraciaCcos = float(contaCcos)/float(conta)
  print ('Acurácia: ',str(acuraciaCcos*100))

  if model_args.use_wandb:
    wandb.log({'acuracia_ccos': acuraciaCcos})

  print ('\nPares Corretos Ceuc:',str(contaCeuc))
  acuraciaCeuc = float(contaCeuc)/float(conta)
  print ('Acurácia: ',str(acuraciaCeuc*100))

  if model_args.use_wandb:
    wandb.log({'acuracia_ceuc': acuraciaCeuc})  

  print ('\nPares Corretos Cman:',str(contaCman))
  acuraciaCman = float(contaCman)/float(conta)
  print ('Acurácia: ',str(acuraciaCman*100))

  if model_args.use_wandb:
    wandb.log({'acuracia_cman': acuraciaCman})  

  print ('\nTERMINADO!')

  return lista_medidas_documentos_salvar, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman

### Salvando o resultado da medição

In [None]:
def salvaResultadoMedicao(lista_medidas_documentos_salvar):

  if model_args.salvar_medicao:

    # Import das bibliotecas.
    import os
    import datetime

    # Recupera a hora do sistema.
    data_e_hora = datetime.datetime.now()

    AJUSTADO = '_pretreinado'
    if model_args.usar_mcl_ajustado == True:
        AJUSTADO = '_ajustado'

    ESTRATEGIA = '_mean'
    if model_args.estrategia_medida == 1:
      ESTRATEGIA = '_max'

    FILTRO_PALAVRA = '_tap'
    if model_args.filtro_palavra == 1:
      FILTRO_PALAVRA = '_ssw'       
    else:
      if model_args.filtro_palavra == 2:
        FILTRO_PALAVRA = '_ssb'   

    # Nome arquivo resultado
    NOME_ARQUIVO_MEDICAO = 'MedicaoCoerenciaCSTNews_v1' + AJUSTADO + ESTRATEGIA + FILTRO_PALAVRA + getNomeModeloBERT() + getTamanhoBERT()

    # Diretório para salvar o arquivo.
    DIRETORIO_MEDICAO = '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/'

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_MEDICAO):  
      # Cria o diretório
      os.makedirs(DIRETORIO_MEDICAO)
      print('Diretório criado: {}'.format(DIRETORIO_MEDICAO))
    else:
      print('Diretório já existe: {}'.format(DIRETORIO_MEDICAO))

    # Nome do arquivo a ser aberto.
    NOME_ARQUIVO_MEDICAO_COMPLETO = DIRETORIO_MEDICAO + NOME_ARQUIVO_MEDICAO + '.csv'

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_MEDICAO):  
      # Cria o diretório
      os.makedirs(DIRETORIO_MEDICAO)
      print('Diretório criado: {}'.format(DIRETORIO_MEDICAO))
    else:
      print('Diretório já existe: {}'.format(DIRETORIO_MEDICAO))

    # Nome do arquivo a ser aberto.
    NOME_ARQUIVO_MEDICAO_COMPLETO = DIRETORIO_MEDICAO + NOME_ARQUIVO_MEDICAO + '.csv'

    # Gera todo o conteúdo a ser salvo no arquivo
    novoConteudo = ''        
    for resultado in lista_medidas_documentos_salvar:            
      novoConteudo = novoConteudo + data_e_hora.strftime('%d/%m/%Y %H:%M') + ';' + str(resultado[0]) + ';' + str(resultado[1]) + ';'  + str(resultado[2]) + ';'  + str(resultado[3]) + '\n'

    # Verifica se o arquivo existe.
    if os.path.isfile(NOME_ARQUIVO_MEDICAO_COMPLETO):
      print('Atualizando arquivo medição: {}'.format(NOME_ARQUIVO_MEDICAO_COMPLETO))
      # Abre o arquivo para leitura.
      arquivo = open(NOME_ARQUIVO_MEDICAO_COMPLETO,'r')
      # Leitura de todas as linhas do arquivo.
      conteudo = arquivo.readlines()
      # Conteúdo a ser adicionado.
      conteudo.append(novoConteudo)

      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_MEDICAO_COMPLETO,'w')
      # escreva o conteúdo criado anteriormente nele.
      arquivo.writelines(conteudo)  
      # Fecha o arquivo.
      arquivo.close()
    else:
      print('Criando arquivo medição: {}'.format(NOME_ARQUIVO_MEDICAO_COMPLETO))
      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_MEDICAO_COMPLETO,'w')
      arquivo.writelines('data;arquivo;ccos;ceuc;cman\n' + novoConteudo)  # escreva o conteúdo criado anteriormente nele.
      # Fecha o arquivo.
      arquivo.close()

### Salvando o resultado da avaliação

In [None]:
def salvaResultadoAvaliacao(tempoTotalProcessamento, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman):

  if model_args.salvar_avaliacao:

    # Import das bibliotecas.
    import os

    # Recupera a hora do sistema.
    data_e_hora = datetime.datetime.now()

    AJUSTADO = '_pretreinado'
    if model_args.usar_mcl_ajustado == True:
        AJUSTADO = '_ajustado'

    ESTRATEGIA = '_mean'
    if model_args.estrategia_medida == 1:
      ESTRATEGIA = '_max'

    FILTRO_PALAVRA = '_tap'
    if model_args.filtro_palavra == 1:
        FILTRO_PALAVRA = '_ssw'       
    else:
      if model_args.filtro_palavra == 2:
        FILTRO_PALAVRA = '_ssb' 
    
    # Nome arquivo resultado
    NOME_ARQUIVO_AVALIACAO = 'MedicaoCoerenciaCSTNews_v1' + AJUSTADO + ESTRATEGIA + FILTRO_PALAVRA + getNomeModeloBERT() + getTamanhoBERT()

    # Diretório para salvar o arquivo de resultado.
    DIRETORIO_AVALIACAO = '/content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Avaliacao/'

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_AVALIACAO):  
      # Cria o diretório
      os.makedirs(DIRETORIO_AVALIACAO)
      print('Diretório criado: {}'.format(DIRETORIO_AVALIACAO))
    else:
      print('Diretório já existe: {}'.format(DIRETORIO_AVALIACAO))

    # Nome do arquivo a ser aberto.
    NOME_ARQUIVO_AVALIACAO_COMPLETO = DIRETORIO_AVALIACAO + NOME_ARQUIVO_AVALIACAO + '.csv'

    # Conteúdo a ser adicionado.
    novoConteudo = NOME_ARQUIVO_AVALIACAO + ';' + data_e_hora.strftime('%d/%m/%Y %H:%M') + ';' + tempoTotalProcessamento + ';'  + str(conta) + ';'  + str(acuraciaCcos) + ';' + str(contaCcos) + ';' + str(acuraciaCeuc) + ';' + str(contaCeuc) + ';' + str(acuraciaCman) + ';' + str(contaCman) + '\n'

    # Verifica se o arquivo existe.
    if os.path.isfile(NOME_ARQUIVO_AVALIACAO_COMPLETO):
      print('Atualizando arquivo resultado avaliação: {}'.format(NOME_ARQUIVO_AVALIACAO_COMPLETO))
      # Abre o arquivo para leitura.
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'r')
      # Leitura de todas as linhas do arquivo.
      conteudo = arquivo.readlines()
      # Conteúdo a ser adicionado.
      conteudo.append(novoConteudo)

      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'w')
      # escreva o conteúdo criado anteriormente nele.
      arquivo.writelines(conteudo)  
      # Fecha o arquivo.
      arquivo.close()
    else:
      print('Criando arquivo resultado avaliação: {}'.format(NOME_ARQUIVO_AVALIACAO_COMPLETO))
      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'w')
      arquivo.writelines('arquivo;data;tempo;conta;ccos;contaccos;ceuc;contaceuc;cman;contacman\n' + novoConteudo)  # escreva o conteúdo criado anteriormente nele.
      # Fecha o arquivo.
      arquivo.close()

## 6.3 Cálculo de todas as medidas dos modelos

- Total de Pares : 4980

**BERTimbau base**
- Pares Corretos Ccos: 3126
- Acurácia:  62.77108433734939

- Pares Corretos Ceuc: 3196
- Acurácia:  64.17670682730923

- Pares Corretos Cman: 3148
- Acurácia:  63.212851405622494

**BERTimbau base ajustado**
- Pares Corretos Ccos: 4621
- Acurácia:  92.79116465863454

- Pares Corretos Ceuc: 4828
- Acurácia:  96.94779116465864

- Pares Corretos Cman: 4835
- Acurácia:  97.08835341365462


**BERTimbau large**
- Pares Corretos Ccos: 3132
- Acurácia:  62.89156626506024

- Pares Corretos Ceuc: 3132
- Acurácia:  62.89156626506024

- Pares Corretos Cman: 3133
- Acurácia:  62.911646586345384
  

**BERT multilingual-cased**
- Pares Corretos Ccos: 2896
- Acurácia:  58.387096774193544

- Pares Corretos Ceuc: 2891
- Acurácia:  58.28629032258065

- Pares Corretos Cman: 2893
- Acurácia:  58.32661290322581

### Procedimento de cálculo de todos os modelos

In [None]:
def procedimentoCalculaMedida(modelo, estrategia, filtro):

  # Import das bibliotecas
  import time
  import datetime

  # Seta o parâmetro do modelo
  model_args.pretrained_model_name_or_path = modelo
  # Seta o parâmetro da estratégia
  model_args.estrategia_medida = estrategia
  # Seta o parâmetro do fitro
  model_args.filtro_palavra = filtro

  print('\nProcessamendo do modelo: {} e estratégia {} e com filtro {}'.format(modelo,estrategia,filtro))
      
  # Marca o tempo de início do processamento
  tempoInicioTeste = time.time()
  print('\nTempo início processamento: {:} (h:mm:ss)'.format(formataTempo(tempoInicioTeste)))

  # Verifica a origem do modelo
  DIRETORIO_MODELO = verificaModelo()

  # Carrega o tokenizado
  tokenizer = carregaTokenizadorMCLPretreinado(DIRETORIO_MODELO)

  # Carregando o modelo 
  model = carregaModelo(modelo,DIRETORIO_MODELO)
      
  # Carrega os dados
  dfdados = descartandoDocumentosMuitoGrandes(dfdadosInicio, tokenizer)

  # Inicializa o wandb para registro
  wandb = inicializacaoWandb()

  # Calcula as medidas dos documentos
  lista_medidas_documentos_salvar, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman = calculaMedidasDocumentos(dfdados, model, tokenizer, wandb)
  
  # Pega o tempo atual menos o tempo do início do processamento.
  tempoFinalTeste = time.time()
  tempoTotalProcessamento = formataTempo(tempoFinalTeste - tempoInicioTeste)

  # Salva o resultado da classificação
  salvaResultadoMedicao(lista_medidas_documentos_salvar)
      
  # Salva o resultado da avaliação
  salvaResultadoAvaliacao(tempoTotalProcessamento, conta, acuraciaCcos, contaCcos, acuraciaCeuc, contaCeuc, acuraciaCman, contaCman)

  print('\nTempo processamento:  {:} (h:mm:ss)'.format(tempoTotalProcessamento))

  # Apaga as variáveis
  del tokenizer
  del model
  del lista_medidas_documentos_salvar
  # Esvazia o buffer dos embeddings originais
  limpaBufferEmbedding()

### Executa o procedimento para todos os parâmetros

In [None]:
# Import das bibliotecas
from tqdm.notebook import tqdm as tqdm_notebook

# Definição dos parâmetros a serem avaliados
# MCL a serem avaliados
#NOMES_MODELO = ['https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip',
#                'https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip',
#                'bert-base-multilingual-cased']

NOMES_MODELO = ['bert-base-multilingual-cased']

# Estratégias a serem avaliadas (0 - Mean / 1 - Max)
ESTRATEGIAS = [0, 1]

# Filtro de palavras das sentenças[0,1,2] 'TAP,SSW,SBT'
FILTRO_PALAVRAS_STR = ['TODAS_AS_PALAVRAS', 'SEM_STOPWORDS', 'SOMENTE_SUBSTANTIVOS']
FILTRO_PALAVRAS = [0, 1, 2]

# Barra de progresso modelos
modelo_bar = tqdm_notebook(range(0,len(NOMES_MODELO)), desc=f'Modelos', unit=f'modelo')

# Percorre todos os modelos a serem avaliados
for modelo_i in modelo_bar:

  # Barra de progresso estratégias
  estrategia_bar = tqdm_notebook(range(len(ESTRATEGIAS)), desc=f'Estratégias', unit=f'estratégia')

  # Percorre todos as estratégias a serem avaliados
  for estrategia_i in estrategia_bar:

    # Barra de progresso filtro
    filtro_bar = tqdm_notebook(range(len(FILTRO_PALAVRAS)), desc=f'Filtros', unit=f'filtro')

    # Percorre todos formas de filtro de palavras a serem avaliados
    for filtro_i in filtro_bar:

      # Passa os parâmetros para o procedimento cálculo das medidas
      procedimentoCalculaMedida(NOMES_MODELO[modelo_i], ESTRATEGIAS[estrategia_i], FILTRO_PALAVRAS[filtro_i])      

HBox(children=(FloatProgress(value=0.0, description='Modelos', max=1.0, style=ProgressStyle(description_width=…

HBox(children=(FloatProgress(value=0.0, description='Estratégias', max=1.0, style=ProgressStyle(description_wi…

HBox(children=(FloatProgress(value=0.0, description='Filtros', max=3.0, style=ProgressStyle(description_width=…


Processamendo do modelo: bert-base-multilingual-cased e estratégia 1 e com filtro 0

Tempo início processamento: 18790 days, 3:50:52 (h:mm:ss)
Variável URL_MODELO não setada!
Usando modelo pré-treinado de download ou comunidade


2021-06-12 03:50:52,474 : INFO : Lock 140029075875216 acquired on /root/.cache/huggingface/transformers/eff018e45de5364a8368df1f2df3461d506e2a111e9dd50af1fae061cd460ead.6c5b6600e968f4b5e08c86d8891ea99e51537fc2bf251435fb46922e8f7a7b29.lock


Carregando o tokenizador BERT do diretório bert-base-multilingual-cased...


HBox(children=(FloatProgress(value=0.0, description='Downloading', max=995526.0, style=ProgressStyle(descripti…

2021-06-12 03:50:52,696 : INFO : Lock 140029075875216 released on /root/.cache/huggingface/transformers/eff018e45de5364a8368df1f2df3461d506e2a111e9dd50af1fae061cd460ead.6c5b6600e968f4b5e08c86d8891ea99e51537fc2bf251435fb46922e8f7a7b29.lock





2021-06-12 03:50:52,911 : INFO : Lock 140029075805648 acquired on /root/.cache/huggingface/transformers/f55e7a2ad4f8d0fff2733b3f79777e1e99247f2e4583703e92ce74453af8c235.ec5c189f89475aac7d8cbd243960a0655cfadc3d0474da8ff2ed0bf1699c2a5f.lock


HBox(children=(FloatProgress(value=0.0, description='Downloading', max=29.0, style=ProgressStyle(description_w…

2021-06-12 03:50:53,034 : INFO : Lock 140029075805648 released on /root/.cache/huggingface/transformers/f55e7a2ad4f8d0fff2733b3f79777e1e99247f2e4583703e92ce74453af8c235.ec5c189f89475aac7d8cbd243960a0655cfadc3d0474da8ff2ed0bf1699c2a5f.lock
2021-06-12 03:50:53,110 : INFO : Lock 140029076109712 acquired on /root/.cache/huggingface/transformers/46880f3b0081fda494a4e15b05787692aa4c1e21e0ff2428ba8b14d4eda0784d.b33e51591f94f17c238ee9b1fac75b96ff2678cbaed6e108feadb3449d18dc24.lock





HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1961828.0, style=ProgressStyle(descript…

2021-06-12 03:50:53,363 : INFO : Lock 140029076109712 released on /root/.cache/huggingface/transformers/46880f3b0081fda494a4e15b05787692aa4c1e21e0ff2428ba8b14d4eda0784d.b33e51591f94f17c238ee9b1fac75b96ff2678cbaed6e108feadb3449d18dc24.lock





2021-06-12 03:50:53,732 : INFO : Lock 140029035212432 acquired on /root/.cache/huggingface/transformers/6c4a5d81a58c9791cdf76a09bce1b5abfb9cf958aebada51200f4515403e5d08.0fe59f3f4f1335dadeb4bce8b8146199d9083512b50d07323c1c319f96df450c.lock


Carregando o modelo BERT da comunidade ...


HBox(children=(FloatProgress(value=0.0, description='Downloading', max=625.0, style=ProgressStyle(description_…

2021-06-12 03:50:53,863 : INFO : Lock 140029035212432 released on /root/.cache/huggingface/transformers/6c4a5d81a58c9791cdf76a09bce1b5abfb9cf958aebada51200f4515403e5d08.0fe59f3f4f1335dadeb4bce8b8146199d9083512b50d07323c1c319f96df450c.lock





2021-06-12 03:50:53,958 : INFO : Lock 140029035212368 acquired on /root/.cache/huggingface/transformers/0a3fd51713dcbb4def175c7f85bddc995d5976ce1dde327f99104e4d33069f17.aa7be4c79d76f4066d9b354496ea477c9ee39c5d889156dd1efb680643c2b052.lock


HBox(children=(FloatProgress(value=0.0, description='Downloading', max=714314041.0, style=ProgressStyle(descri…

2021-06-12 03:51:13,655 : INFO : Lock 140029035212368 released on /root/.cache/huggingface/transformers/0a3fd51713dcbb4def175c7f85bddc995d5976ce1dde327f99104e4d33069f17.aa7be4c79d76f4066d9b354496ea477c9ee39c5d889156dd1efb680643c2b052.lock





Token indices sequence length is longer than the specified maximum sequence length for this model (522 > 512). Running this sequence through the model will result in indexing errors
2021-06-12 03:51:36,756 : INFO : NumExpr defaulting to 2 threads.


Quantidade de dados anterior: 5020
Nova quantidade de dados    : 4960
Quantidade de registros removidos: 60
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


[34m[1mwandb[0m: Currently logged in as: [33mosmar-braz[0m (use `wandb login --relogin` to force relogin)


HBox(children=(FloatProgress(value=0.0, description='Pares documentos', max=4960.0, style=ProgressStyle(descri…


Total de Pares : 4960

Pares Corretos Ccos: 2768
Acurácia:  55.80645161290323

Pares Corretos Ceuc: 2932
Acurácia:  59.112903225806456

Pares Corretos Cman: 2975
Acurácia:  59.97983870967742

TERMINADO!
Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/
Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/
Criando arquivo medição: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/MedicaoCoerenciaCSTNews_v1_pretreinado_max_tap_BERTmultilingual_base.csv
Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Avaliacao/
Criando arquivo resultado avaliação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Avaliacao/MedicaoCoerenciaCSTNews_v1_pretreinado_max_tap_BERTmultilingual_base.csv

Tempo processamento:  1:32:55 (h:mm:ss)

Processamendo do modelo: bert-base-multilingual-cased e estratégia 1 e com filtro 1

T

Token indices sequence length is longer than the specified maximum sequence length for this model (522 > 512). Running this sequence through the model will result in indexing errors


Quantidade de dados anterior: 5020
Nova quantidade de dados    : 4960
Quantidade de registros removidos: 60
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


VBox(children=(Label(value=' 0.00MB of 0.00MB uploaded (0.00MB deduped)\r'), FloatProgress(value=1.0, max=1.0)…

0,1
max_seq_len,512
_runtime,5523
_timestamp,1623475426
_step,6
do_lower_case,False
output_hidden_states,True
pares_doc,4960
acuracia_ccos,0.55806
acuracia_ceuc,0.59113
acuracia_cman,0.5998


0,1
max_seq_len,▁
_runtime,▁▁▁████
_timestamp,▁▁▁████
_step,▁▂▃▅▆▇█
do_lower_case,▁
output_hidden_states,▁
pares_doc,▁
acuracia_ccos,▁
acuracia_ceuc,▁
acuracia_cman,▁


HBox(children=(FloatProgress(value=0.0, description='Pares documentos', max=4960.0, style=ProgressStyle(descri…


Total de Pares : 4960

Pares Corretos Ccos: 2733
Acurácia:  55.100806451612904

Pares Corretos Ceuc: 2920
Acurácia:  58.87096774193549

Pares Corretos Cman: 2941
Acurácia:  59.29435483870967

TERMINADO!
Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/
Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/
Criando arquivo medição: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/MedicaoCoerenciaCSTNews_v1_pretreinado_max_ssw_BERTmultilingual_base.csv
Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Avaliacao/
Criando arquivo resultado avaliação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Avaliacao/MedicaoCoerenciaCSTNews_v1_pretreinado_max_ssw_BERTmultilingual_base.csv

Tempo processamento:  1:40:19 (h:mm:ss)

Processamendo do modelo: bert-base-multilingual-cased e estratégia 1 e com filtro 2

T

Token indices sequence length is longer than the specified maximum sequence length for this model (522 > 512). Running this sequence through the model will result in indexing errors


Quantidade de dados anterior: 5020
Nova quantidade de dados    : 4960
Quantidade de registros removidos: 60
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


VBox(children=(Label(value=' 0.00MB of 0.00MB uploaded (0.00MB deduped)\r'), FloatProgress(value=1.0, max=1.0)…

0,1
max_seq_len,512
_runtime,5984
_timestamp,1623481448
_step,6
do_lower_case,False
output_hidden_states,True
pares_doc,4960
acuracia_ccos,0.55101
acuracia_ceuc,0.58871
acuracia_cman,0.59294


0,1
max_seq_len,▁
_runtime,▁▁▁████
_timestamp,▁▁▁████
_step,▁▂▃▅▆▇█
do_lower_case,▁
output_hidden_states,▁
pares_doc,▁
acuracia_ccos,▁
acuracia_ceuc,▁
acuracia_cman,▁


HBox(children=(FloatProgress(value=0.0, description='Pares documentos', max=4960.0, style=ProgressStyle(descri…


Total de Pares : 4960

Pares Corretos Ccos: 2626
Acurácia:  52.943548387096776

Pares Corretos Ceuc: 2769
Acurácia:  55.8266129032258

Pares Corretos Cman: 2768
Acurácia:  55.80645161290323

TERMINADO!
Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/
Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/
Criando arquivo medição: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Medicao/MedicaoCoerenciaCSTNews_v1_pretreinado_max_ssb_BERTmultilingual_base.csv
Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Avaliacao/
Criando arquivo resultado avaliação: /content/drive/MyDrive/Colab Notebooks/Data/CSTNEWS/validacao_medicao/Avaliacao/MedicaoCoerenciaCSTNews_v1_pretreinado_max_ssb_BERTmultilingual_base.csv

Tempo processamento:  11:14:43 (h:mm:ss)





# 7 Finalização

## 7.1 Tempo final de processamento



In [None]:
 # Pega o tempo atual menos o tempo do início do processamento.
finalProcessamento = time.time()
tempoTotalProcessamento = formataTempo(finalProcessamento - inicioProcessamento)

print('')
print('  Tempo processamento:  {:} (h:mm:ss)'.format(tempoTotalProcessamento))


  Tempo processamento:  14:32:49 (h:mm:ss)


Executa o wandb para finalizar a execução anterior

In [None]:
if model_args.use_wandb:
    # Importando a biblioteca
    import wandb

    # Inicializando o registro do experimento
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project='medidacoerenciacstnews_v1', name='medidacoerenciacstnews_v1')

VBox(children=(Label(value=' 0.00MB of 0.00MB uploaded (0.00MB deduped)\r'), FloatProgress(value=1.0, max=1.0)…

0,1
max_seq_len,512
_runtime,40443
_timestamp,1623521933
_step,6
do_lower_case,False
output_hidden_states,True
pares_doc,4960
acuracia_ccos,0.52944
acuracia_ceuc,0.55827
acuracia_cman,0.55806


0,1
max_seq_len,▁
_runtime,▁▁▁████
_timestamp,▁▁▁████
_step,▁▂▃▅▆▇█
do_lower_case,▁
output_hidden_states,▁
pares_doc,▁
acuracia_ccos,▁
acuracia_ceuc,▁
acuracia_cman,▁
