# Geração de Medidas Coerência Tópica do conjunto de dados CohQuAD Coe pt-br usando BERT tópicos

Este notebook, realiza testes de medidas de (in)coerência entre pares de documentos do conjunto de dados utilizando tópico.

A medida de um documento(D) é realizada pela coerência tópica do documento. Todo o documento é submetido e as medidas recuperadas. Cada documento é analisado pelas medidas **C_uci**, **C_npmi**, **C_v** e **C_umass**. Estas medidas de coerência utilizando a coerência tópica utilizando as palavras dos documentos.

As seguintes medidas foram calculadas entre os embeddings das sentenças **Si** e **Sj**:

A medida **c_uci** é baseada em uma janela deslizante e nas informações mútuas pontuais (PMI) de todos os pares de palavras das principais palavras fornecidas

**c_npmi** é uma versão aprimorada da coerência C_uci usando a informação mútua pontual normalizada (NPMI)

**c_v** é baseada em uma janela deslizante, segmentação de um conjunto das principais palavras e uma medida de confirmação indireta que usa informações mútuas pontuais normalizadas (NPMI) e a semelhança de cosseno

**c_umass** é baseado em contagens de coocorrência de documentos, uma segmentação de um precedente e uma probabilidade condicional logarítmica como medida de confirmação

Utiliza os arquivos para gerar as medidas:
- `original.zip`
- `originalpos.zip`
- `perturbado_pX_kY.zip`
- `perturbadopos_pX_kY.zip`
- `corpus_especifico.zip`

Nos nomes dos arquivos, `X` é o número de documentos perturbados e `Y` o valor de top `K` predições.



----------------------------

**Link biblioteca Transformers:**
https://github.com/huggingface/transformers


**Artigo original BERT:**
https://arxiv.org/pdf/1506.06724.pdf

# 1 Preparação do ambiente
Preparação do ambiente para execução do exemplo.

## 1.1 Tempo inicial de processamento

In [None]:
# Import das bibliotecas
import time
import datetime

#marca o tempo de início do processamento.
inicio_processamento = time.time()

## 1.2 Funções e classes auxiliares

Verifica se existe o diretório cohebert no diretório corrente.   


In [None]:
# Import das bibliotecas.
import os # Biblioteca para manipular arquivos

# ============================
def verificaDiretorioCoheBERT():
    """
      Verifica se existe o diretório cohebert no diretório corrente.
    """

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_COHEBERT):
        # Cria o diretório
        os.makedirs(DIRETORIO_COHEBERT)
        logging.info("Diretório Cohebert criado: {}".format(DIRETORIO_COHEBERT))

    return DIRETORIO_COHEBERT

Realiza o download e um arquivo

In [None]:
# Import das bibliotecas.
import requests # Biblioteca de download
from tqdm.notebook import tqdm as tqdm_notebook # Biblioteca para barra de progresso
import os # Biblioteca para manipular arquivos

def downloadArquivo(url_arquivo, nome_arquivo_destino):
    """
      Realiza o download de um arquivo de uma url em salva em nome_arquivo_destino.

      Parâmetros:
        `url_arquivo` - URL do arquivo a ser feito download.
        `nome_arquivo_destino` - Nome do arquivo a ser salvo.
    """

    # Verifica se existe o diretório base
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()

    # Realiza o download de um arquivo em uma url
    data = requests.get(url_arquivo, stream=True)

    # Verifica se o arquivo existe
    if data.status_code != 200:
        logging.info("Exceção ao tentar realizar download {}. Response {}.".format(url_arquivo, data.status_code))
        data.raise_for_status()
        return

    # Recupera o nome do arquivo a ser realizado o download
    nome_arquivo = nome_arquivo_destino.split("/")[-1]

    # Define o nome e caminho do arquivo temporário
    nome_arquivo_temporario = DIRETORIO_COHEBERT + "/" + nome_arquivo + "_part"

    logging.info("Download do arquivo: {}.".format(nome_arquivo_destino))

    # Baixa o arquivo
    with open(nome_arquivo_temporario, "wb") as arquivo_binario:
        tamanho_conteudo = data.headers.get("Content-Length")
        total = int(tamanho_conteudo) if tamanho_conteudo is not None else None
        # Barra de progresso de download
        progresso_bar = tqdm_notebook(unit="B", total=total, unit_scale=True)
        # Atualiza a barra de progresso
        for chunk in data.iter_content(chunk_size=1024):
            if chunk:
                progresso_bar.update(len(chunk))
                arquivo_binario.write(chunk)

    # Renomeia o arquivo temporário para o arquivo definitivo
    os.rename(nome_arquivo_temporario, nome_arquivo_destino)

    # Fecha a barra de progresso.
    progresso_bar.close()

Remove tags de um documento

In [None]:
def remove_tags(documento):
    """
      Remove tags de um documento
    """

    import re

    documento_limpo = re.compile("<.*?>")
    return re.sub(documento_limpo, "", documento)

Funções auxiliares de arquivos

In [None]:
def carregar(nome_arquivo, encoding="Windows-1252"):
    """
      Carrega um arquivo texto e retorna as linhas como um único parágrafo(texto).

      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser carregado.
    """

    # Abre o arquivo
    arquivo = open(nome_arquivo, "r", encoding= encoding)

    paragrafo = ""
    for linha in arquivo:
        linha = linha.splitlines()
        linha = " ".join(linha)
        # Remove as tags existentes no final das linhas
        linha = remove_tags(linha)
        if linha != "":
          paragrafo = paragrafo + linha.strip() + " "

    # Fecha o arquivo
    arquivo.close()

    # Remove os espaços em branco antes e depois do parágrafo
    return paragrafo.strip()

In [None]:
def carregarLista(nome_arquivo, encoding="Windows-1252"):
    """
      Carrega um arquivo texto e retorna as linhas como uma lista de sentenças(texto).

      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser carregado.
        `encoding` - Codificação dos caracteres do arquivo.
    """

    # Abre o arquivo
    arquivo = open(nome_arquivo, "r", encoding= encoding)

    sentencas = []
    for linha in arquivo:
        linha = linha.splitlines()
        linha = " ".join(linha)
        linha = remove_tags(linha)
        if linha != "":
          sentencas.append(linha.strip())

    # Fecha o arquivo
    arquivo.close()

    return sentencas

In [None]:
def salvar(nome_arquivo,texto):
    """
      Salva um texto em arquivo.

      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser salvo.
        `texto` - Texto a ser salvo.
    """

    arquivo = open(nome_arquivo, "w")
    arquivo.write(str(texto))
    arquivo.close()

Função auxiliar para formatar o tempo como `hh: mm: ss`

In [None]:
# Import das bibliotecas.
import time
import datetime

def formataTempo(tempo):
    """
      Pega a tempo em segundos e retorna uma string hh:mm:ss
    """
    # Arredonda para o segundo mais próximo.
    tempo_arredondado = int(round((tempo)))

    # Formata como hh:mm:ss
    return str(datetime.timedelta(seconds=tempo_arredondado))

Classe(ModeloArgumentosMedida) de definição dos parâmetros do modelo para medida

In [None]:
# Import das bibliotecas.
from dataclasses import dataclass, field
from typing import Dict, Optional
from typing import List

@dataclass
class ModeloArgumentosMedida:
    max_seq_len: Optional[int] = field(
        default=None,
        metadata={'help': 'max seq len'},
    )
    pretrained_model_name_or_path: str = field(
        default='neuralmind/bert-base-portuguese-cased',
        metadata={'help': 'nome do modelo pré-treinado do BERT.'},
    )
    modelo_spacy: str = field(
        default="pt_core_news_lg",
        metadata={"help": "nome do modelo do spaCy."},
    )
    versao_modelo_spacy: str = field(
        default="-3.2.0",
        metadata={"help": "versão do nome do modelo no spaCy."},
    )
    do_lower_case: bool = field(
        default=False,
        metadata={'help': 'define se o texto do modelo deve ser todo em minúsculo.'},
    )
    output_attentions: bool = field(
        default=False,
        metadata={'help': 'habilita se o modelo retorna os pesos de atenção.'},
    )
    output_hidden_states: bool = field(
        default=False,
        metadata={'help': 'habilita gerar as camadas ocultas do modelo.'},
    )
    use_wandb : bool = field(
        default=True,
        metadata={'help': 'habilita o uso do wandb.'},
    )
    salvar_avaliacao : bool = field(
        default=True,
        metadata={'help': 'habilita o salvamento do resultado da avaliação.'},
    )
    salvar_medicao : bool = field(
        default=False,
        metadata={'help': 'habilita o salvamento da medicao.'},
    )
    usar_mcl_ajustado : bool = field(
        default=False,
        metadata={'help': 'habilita o carragamento de mcl ajustado.'},
    )
    documentos_perturbados: int = field(
        default="1",
        metadata={"help": "Quantidade de documentos a serem perturbados a partir do original."},
    )
    top_k_predicao: int = field(
        default="100",
        metadata={"help": "Quantidade de palavras a serem recuperadas mais próximas da máscara."},
    )
    estrategia_medida: int = field(
        default=0, # 0 - MEAN estratégia média / 1 - MAX  estratégia maior
        metadata={'help': 'Estratégia de cálculo da médida dos embeddings.'},
    )
    equacao_medida: int = field(
        default=0, # 0 - ADJACENTE / 1 - COMBINAÇÃO TODAS / 2 - CONTEXTO
        metadata={'help': 'Equação de cálculo da coerência.'},
    )
    filtro_palavra: int = field(
        default=0, # 0 - Considera todas as palavras das sentenças / 1 - Desconsidera as stopwords / 2 - Considera somente as palavras substantivas
        metadata={'help': 'Define o filtro de palavras das sentenças para gerar os embeddings.'},
    )
    tamanho_janela: int = field(
        default=0,
        metadata={'help': 'Define o tamanho da janela.'},
    )

Biblioteca de limpeza de tela


In [None]:
# Import das bibliotecas.
from IPython.display import clear_output

## 1.3 Tratamento de logs

In [None]:
# Import das bibliotecas.
import logging # Biblioteca de logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s")

logger = logging.getLogger()
logger.setLevel(logging.INFO)

## 1.4  Identificando o ambiente Colab

In [None]:
# Import das bibliotecas.
import sys # Biblioteca para acessar módulos do sistema

# Se estiver executando no Google Colaboratory
# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = "google.colab" in sys.modules

## 1.5 Colaboratory

Usando Colab GPU para Treinamento


Uma GPU pode ser adicionada acessando o menu e selecionando:

`Edit -> Notebook Settings -> Hardware accelerator -> (GPU)`

Em seguida, execute a célula a seguir para confirmar que a GPU foi detectada.

In [None]:
# Import das bibliotecas.
import tensorflow as tf

# Recupera o nome do dispositido da GPU.
device_name = tf.test.gpu_device_name()

# O nome do dispositivo deve ser parecido com o seguinte:
if device_name == "/device:GPU:0":
    logging.info("Encontrei GPU em: {}".format(device_name))
else:
    logging.info("Dispositivo GPU não encontrado")
    #raise SystemError("Dispositivo GPU não encontrado")

INFO:numexpr.utils:NumExpr defaulting to 2 threads.
INFO:root:Dispositivo GPU não encontrado


Nome da GPU

Para que a torch use a GPU, precisamos identificar e especificar a GPU como o dispositivo. Posteriormente, em nosso ciclo de treinamento, carregaremos dados no dispositivo.

Vale a pena observar qual GPU você recebeu. A GPU Tesla P100 é muito mais rápido que as outras GPUs, abaixo uma lista ordenada:
- 1o Tesla P100
- 2o Tesla T4
- 3o Tesla P4 (Não tem memória para execução 4 x 8, somente 2 x 4)
- 4o Tesla K80 (Não tem memória para execução 4 x 8, somente 2 x 4)

In [None]:
# Import das bibliotecas.
import torch

def getDeviceGPU():
    """
      Retorna um dispositivo de GPU se disponível ou CPU.

      Retorno:
        `device` - Um device de GPU ou CPU.
    """

    # Se existe GPU disponível.
    if torch.cuda.is_available():

        # Diz ao PyTorch para usar GPU.
        device = torch.device("cuda")

        logging.info("Existem {} GPU(s) disponíveis.".format(torch.cuda.device_count()))
        logging.info("Iremos usar a GPU: {}.".format(torch.cuda.get_device_name(0)))

    # Se não.
    else:
        logging.info("Sem GPU disponível, usando CPU.")
        device = torch.device("cpu")

    return device

In [None]:
# Recupera o device com GPU ou CPU
device = getDeviceGPU()

INFO:root:Sem GPU disponível, usando CPU.


Memória

Memória disponível no ambiente

In [None]:
# Importando as bibliotecas.
from psutil import virtual_memory

ram_gb = virtual_memory().total / 1e9
logging.info("Seu ambiente de execução tem {: .1f} gigabytes de RAM disponível\n".format(ram_gb))

if ram_gb < 20:
  logging.info("Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> \"Alterar tipo de tempo de execução\"")
  logging.info("e selecione High-RAM. Então, execute novamente está célula")
else:
  logging.info("Você está usando um ambiente de execução de memória RAM alta!")

INFO:root:Seu ambiente de execução tem  13.6 gigabytes de RAM disponível

INFO:root:Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> "Alterar tipo de tempo de execução"
INFO:root:e selecione High-RAM. Então, execute novamente está célula


## 1.6 Monta uma pasta no google drive para carregar os arquivos de dados.

In [None]:
# import necessário
from google.colab import drive

# Monta o drive na pasta especificada
drive.mount("/content/drive")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## 1.7 Instalação do wandb

Instalação

In [None]:
!pip install --upgrade wandb

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
[0m

## 1.8 Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [None]:
# Instala o spacy
!pip install -U pip setuptools wheel

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
[0m

In [None]:
# Instala uma versão específica
!pip install -U spacy==3.2.0

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
[0m

## 1.9 Instalação do Gensim

Instalando o gensim no Google Colaboratory.

No Jupiter Notebook executar através "Anaconda Prompt".


In [None]:
#!pip install -U gensim
!pip install -U gensim==4.2.0

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
[0m

# 2 Parametrização

## Gerais

In [None]:
# Nome base das saidas do projeto
NOME_BASE_SAIDA = "MedidaTopicoCohQuADCoptbr_v1"

# Definição dos parâmetros a serem avaliados
#Quantidade de documentos a serem perturbados a partir do original.
DOCUMENTOS_PERTURBADOS = 1

#Quantidade de palavras a serem recuperadas mais próximas da máscara.
TOP_K_PREDICAO = 1

# Filtro de palavras das sentenças[0,1,2,3,4,5] 'TAP,SSW,SVS,SP_TAP,SP_SSW,SP_SVS'
FILTRO_PALAVRAS_STR = ["TODAS_AS_PALAVRAS",
                       "SEM_STOPWORDS",
                       "SOMENTE_VERBOS_SUBSTANTIVOS",
                       "SEM_PONTUACAO_TODAS_AS_PALAVRAS",
                       "SEM_PONTUACAO_SEM_STOPWORDS",
                       "SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS",
                       ]

# FILTRO_PALAVRAS_STR_ABREV = ["TAP","SSW","SVS","SP_TAP","SP_SSW","SP_SVS"]
# FILTRO_PALAVRAS = [0, 1, 2, 3, 4, 5]

FILTRO_PALAVRAS_STR_ABREV = ["SP_SSW","SP_SVS"]
FILTRO_PALAVRAS = [3, 4, 5]

# Tamanho de janelas a serem avaliados
TAMANHO_JANELA_INICIO = 3
TAMANHO_JANELA_FIM = 150

## Específicos

Parâmetros do modelo

In [None]:
# Definição dos parâmetros do Modelo
model_args = ModeloArgumentosMedida(
    modelo_spacy = "pt_core_news_lg",
    #modelo_spacy = "pt_core_news_md",
    #modelo_spacy = "pt_core_news_sm",
    versao_modelo_spacy = "3.2.0",
    do_lower_case = True,  # default True
    use_wandb = True,
    salvar_medicao = True, #Salva o resultado da medição
    salvar_avaliacao = True, # Salva o resultado da avaliação das medições
    documentos_perturbados = DOCUMENTOS_PERTURBADOS, # Quantidade de documentos a serem perturbados a partir do original.
    top_k_predicao = TOP_K_PREDICAO, # Conjunto de valores: 1, 10, 100, 500 e 1000. Quantidade de palavras a serem recuperadas mais próximas da máscara.
    equacao_medida = 0, # Atributo usado para os logs do wandb. 0 - Palavras adjacentes / 1 - Todas as palavras / 2 - Palavra e contexto
    filtro_palavra = 0, # # Atributo usado para os logs do wandb. 0 - Considera todas as palavras das sentenças / 1 - Desconsidera as stopwords / 2 - Considera somente as palavras substantivas
    tamanho_janela = 0 # Atributo usado para os logs do wandb.
)

## Nome do diretório dos arquivos de dados

In [None]:
# Diretório do cohebert
DIRETORIO_COHEBERT = "COHQUAD_CO_PTBR"

## Define o caminho para os arquivos de dados

In [None]:
# Diretório local para os arquivos pré-processados
DIRETORIO_LOCAL = "/content/" + DIRETORIO_COHEBERT + "/"

# Diretório no google drive com os arquivos pré-processados
DIRETORIO_DRIVE = "/content/drive/MyDrive/Colab Notebooks/Data/" + DIRETORIO_COHEBERT + "/"

## Inicialização diretórios

Diretório base local

In [None]:
# Importando as bibliotecas.
import os

def criaDiretorioLocal():

  # Cria o diretório para receber os arquivos Originais e Permutados
  # Diretório a ser criado
  dirbase = DIRETORIO_LOCAL[:-1]

  if not os.path.exists(dirbase):
      # Cria o diretório
      os.makedirs(dirbase)
      logging.info("Diretório criado: {}.".format(dirbase))
  else:
      logging.info("Diretório já existe: {}.".format(dirbase))

In [None]:
criaDiretorioLocal()

INFO:root:Diretório já existe: /content/COHQUAD_CO_PTBR.


Diretório para conter as os resultados das medidas

In [None]:
# Import de bibliotecas.
import os

def criaDiretorioMedidacao():
  DIRETORIO_BASE = DIRETORIO_DRIVE + "validacao_medicao_topico_palavra"

  # Verifica se o diretório existe
  if not os.path.exists(DIRETORIO_BASE):
    # Cria o diretório
    os.makedirs(DIRETORIO_BASE)
    logging.info("Diretório criado: {}.".format(DIRETORIO_BASE))
  else:
    logging.info("Diretório já existe: {}.".format(DIRETORIO_BASE))

In [None]:
criaDiretorioMedidacao()

INFO:root:Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/COHQUAD_CO_PTBR/validacao_medicao_topico_palavra.


Diretório para conter os arquivos da avaliação

In [None]:
# Import de bibliotecas.
import os

def criaDiretorioAvaliacao():
  DIRETORIO_BASE = DIRETORIO_DRIVE + "validacao_medicao_topico_palavra/Avaliacao"

  # Verifica se o diretório existe
  if not os.path.exists(DIRETORIO_BASE):
    # Cria o diretório
    os.makedirs(DIRETORIO_BASE)
    logging.info("Diretório criado: {}.".format(DIRETORIO_BASE))
  else:
    logging.info("Diretório já existe: {}.".format(DIRETORIO_BASE))

In [None]:
criaDiretorioAvaliacao()

INFO:root:Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/COHQUAD_CO_PTBR/validacao_medicao_topico_palavra/Avaliacao.


Diretório para conter os arquivos das medidas

In [None]:
# Import de bibliotecas.
import os

def criaDiretorioMedicao():

  DIRETORIO_BASE = DIRETORIO_DRIVE + "validacao_medicao_topico_palavra/Medicao"

  # Verifica se o diretório existe
  if not os.path.exists(DIRETORIO_BASE):
    # Cria o diretório
    os.makedirs(DIRETORIO_BASE)
    logging.info("Diretório criado: {}.".format(DIRETORIO_BASE))
  else:
    logging.info("Diretório já existe: {}.".format(DIRETORIO_BASE))

In [None]:
criaDiretorioMedicao()

INFO:root:Diretório já existe: /content/drive/MyDrive/Colab Notebooks/Data/COHQUAD_CO_PTBR/validacao_medicao_topico_palavra/Medicao.


# 3 spaCy

## 3.1 Download arquivo modelo

https://spacy.io/models/pt

### Função download modelo spaCy

In [None]:
def downloadSpacy(model_args):
    """
      Realiza o download do arquivo do modelo para o diretório corrente.

      Parâmetros:
        `model_args` - Objeto com os argumentos do modelo.
    """
    # Verifica se existe o diretório base
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()

    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    # Nome arquivo compactado
    NOME_ARQUIVO_MODELO_COMPACTADO = ARQUIVO_MODELO_SPACY + VERSAO_SPACY + ".tar.gz"

    # Url do arquivo
    URL_ARQUIVO_MODELO_COMPACTADO = "https://github.com/explosion/spacy-models/releases/download/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/" + NOME_ARQUIVO_MODELO_COMPACTADO

    # Realiza o download do arquivo do modelo
    logging.info("Download do arquivo do modelo do spaCy.")
    downloadArquivo(URL_ARQUIVO_MODELO_COMPACTADO, DIRETORIO_COHEBERT + "/" + NOME_ARQUIVO_MODELO_COMPACTADO)

## 3.2 Descompacta o arquivo do modelo

### Função descompacta modelo spaCy

In [None]:
# Import das bibliotecas.
import tarfile # Biblioteca de descompactação

def descompactaSpacy(model_args):
    """
      Descompacta o arquivo do modelo.

      Parâmetros:
        `model_args` - Objeto com os argumentos do modelo.
    """

    # Verifica se existe o diretório base do cohebert e retorna o nome do diretório
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()

    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy

    # Nome do arquivo a ser descompactado
    NOME_ARQUIVO_MODELO_COMPACTADO = DIRETORIO_COHEBERT + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + ".tar.gz"

    logging.info("Descompactando o arquivo do modelo do spaCy.")
    arquivoTar = tarfile.open(NOME_ARQUIVO_MODELO_COMPACTADO, "r:gz")
    arquivoTar.extractall(DIRETORIO_COHEBERT)
    arquivoTar.close()

    # Apaga o arquivo compactado
    if os.path.isfile(NOME_ARQUIVO_MODELO_COMPACTADO):
        os.remove(NOME_ARQUIVO_MODELO_COMPACTADO)

## 3.3 Carrega o modelo

### Função carrega modelo spaCy

In [None]:
# Import das bibliotecas.
import spacy # Biblioteca do spaCy

def carregaSpacy(model_args):
    """
    Realiza o carregamento do Spacy.

    Parâmetros:
      `model_args` - Objeto com os argumentos do modelo.
    """

    # Verifica se existe o diretório base
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()

    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    # Caminho raoz do modelo do spaCy
    DIRETORIO_MODELO_SPACY =  DIRETORIO_COHEBERT + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY

    # Verifica se o diretório existe
    if os.path.exists(DIRETORIO_MODELO_SPACY) == False:
        # Realiza o download do arquivo modelo do spaCy
        downloadSpacy(model_args)
        # Descompacta o spaCy
        descompactaSpacy(model_args)

    # Diretório completo do spaCy
    DIRETORIO_MODELO_SPACY = DIRETORIO_COHEBERT + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/" + ARQUIVO_MODELO_SPACY + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/"

    # Carrega o spaCy. Necessário somente "tagger" para encontrar os substantivos
    nlp = spacy.load(DIRETORIO_MODELO_SPACY)
    logging.info("spaCy carregado.")

    # Retorna o spacy carregado
    return nlp

### Carrega o modelo spaCy


In [None]:
# Carrega o modelo spaCy
nlp = carregaSpacy(model_args)

INFO:root:spaCy carregado.


## 3.4 Funções auxiliares spaCy

### getStopwords

Recupera as stopwords do spaCy

In [None]:
def getStopwords(nlp):
    """
      Recupera as stop words do nlp(Spacy).

      Parâmetros:
        `nlp` - Um modelo spaCy carregado.
    """

    spacy_stopwords = nlp.Defaults.stop_words

    return spacy_stopwords

Lista dos stopwords

In [None]:
logging.info("Quantidade de stopwords: {}.".format(len(getStopwords(nlp))))

print(getStopwords(nlp))

INFO:root:Quantidade de stopwords: 416.


{'dezassete', 'aqui', 'irá', 'numa', 'temos', 'todos', 'não', 'ir', 'essas', 'des', 'apoia', 'corrente', 'vossos', 'quieta', 'sabe', 'valor', 'diz', 'todo', 'primeira', 'bom', 'foi', 'porquê', 'segunda', 'área', 'fomos', 'sem', 'naquela', 'debaixo', 'ainda', 'tiveste', 'seus', 'zero', 'estão', 'meses', 'alguns', 'dar', 'quando', 'vezes', 'mesmo', 'novas', 'deste', 'das', 'possível', 'caminho', 'usa', 'que', 'estes', 'aqueles', 'dão', 'menor', 'geral', 'favor', 'pela', 'até', 'nuns', 'exemplo', 'uma', 'obrigada', 'número', 'nossas', 'contudo', 'vossa', 'quanto', 'cima', 'este', 'meu', 'sobre', 'minhas', 'mais', 'números', 'tarde', 'após', 'estivemos', 'porquanto', 'sob', 'três', 'tivemos', 'tiveram', 'nível', 'vens', 'estivestes', 'terceira', 'dentro', 'poder', 'veja', 'comprido', 'quem', 'deve', 'tenho', 'também', 'pôde', 'pouco', 'quero', 'momento', 'novos', 'estou', 'está', 'cento', 'outras', 'como', 'tais', 'todas', 'devem', 'estiveste', 'tendes', 'antes', 'boa', 'ora', 'neste', 'on

### getVerbos
Localiza os verbos da sentença

In [None]:
# Import das bibliotecas.
import spacy
from spacy.util import filter_spans
from spacy.matcher import Matcher

# (verbo normal como auxilar ou auxilar) + vários verbos auxiliares +verbo principal ou verbo auxiliar
gramaticav1 =  [
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["aux","aux:pass"]}},  #verbo auxiliar
                {"POS": "VERB", "OP": "?", "DEP": {"IN": ["ROOT","aux","xcomp","aux:pass"]}},  #verbo normal como auxiliar
                {"POS": "AUX", "OP": "*", "DEP": {"IN": ["aux","xcomp","aux:pass"]}},  #verbo auxiliar
                {"POS": "VERB", "OP": "+"}, #verbo principal
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["cop","aux","xcomp","aux:pass"]}},  #verbo auxiliar
               ]

# verbo auxiliar + verbo normal como auxiliar + conjunção com preposição + verbo
gramaticav2 =  [
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["aux","aux:pass"]}},  #verbo auxiliar
                {"POS": "VERB", "OP": "+", "DEP": {"IN": ["ROOT"]}},  #verbo principal
                {"POS": "SCONJ", "OP": "+", "DEP": {"IN": ["mark"]}}, #conjunção com preposição
                {"POS": "VERB", "OP": "+", "DEP": {"IN": ["xcomp"]}}, #verbo normal como complementar
               ]

#Somente verbos auxiliares
gramaticav3 =  [
                {"POS": "AUX", "OP": "?"},  #Verbos auxiliar
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["cop"]}},  #Verbos auxiliar de ligação (AUX+(cop))
                {"POS": "ADJ", "OP": "+", "DEP": {"IN": ["ROOT"]}},
                {"POS": "AUX", "OP": "?"}  #Verbos auxiliar
               ]

matcherv = Matcher(nlp.vocab)

matcherv.add("frase verbal", [gramaticav1])
matcherv.add("frase verbal", [gramaticav2])
matcherv.add("frase verbal", [gramaticav3])

#Retorna a Frase Verbal
def getVerbos(periodo):
  #Processa o período
  doc1 = nlp(periodo.text)

  # Chama o mather para encontrar o padrão
  matches = matcherv(doc1)

  padrao = [doc1[start:end] for _, start, end in matches]

  #elimina as repetições e sobreposições
  #return filter_spans(padrao)
  lista1 = filter_spans(padrao)

  # Converte os itens em string
  lista2 = []
  for x in lista1:
      lista2.append(str(x))

  return lista2

### getDicPOSQtde

Conta as POS Tagging de uma sentença

In [None]:
def getDicPOSQtde(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Retorna inteiros que mapeiam para classes gramaticais
  conta_dicionarios = doc.count_by(spacy.attrs.IDS["POS"])

  # Dicionário com as tags e quantidades
  novodic = dict()

  for pos, qtde in conta_dicionarios.items():
    classe_gramatical = doc.vocab[pos].text
    novodic[classe_gramatical] = qtde

  return novodic

In [None]:
def getDicTodasPOSQtde(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Retorna inteiros que mapeiam para classes gramaticais
  conta_dicionarios = doc.count_by(spacy.attrs.IDS["POS"])

  # Dicionário com as tags e quantidades
  novodic = {"PRON":0, "VERB":0, "PUNCT":0, "DET":0, "NOUN":0, "AUX":0, "CCONJ":0, "ADP":0, "PROPN":0, "ADJ":0, "ADV":0, "NUM":0, "SCONJ":0, "SYM":0, "SPACE":0, "INTJ":0, "X": 0}

  for pos, qtde in conta_dicionarios.items():
    classe_gramatical = doc.vocab[pos].text
    novodic[classe_gramatical] = qtde

  return novodic

### getDicTodasPOSQtde

Conta as POS Tagging de uma sentença

In [None]:
def getDicTodasPOSQtde(lista):

  # Dicionário com as tags e quantidades
  conjunto = {"PRON":0, "VERB":0, "PUNCT":0, "DET":0, "NOUN":0, "AUX":0, "CCONJ":0, "ADP":0, "PROPN":0, "ADJ":0, "ADV":0, "NUM":0, "SCONJ":0, "SYM":0, "SPACE":0, "INTJ": 0}

  for x in lista:
    valor = conjunto.get(x)
    if valor != None:
      conjunto[x] = valor + 1
    else:
      conjunto[x] = 1

  return conjunto

### getSomaDic

Soma os valores de dicionários com as mesmas chaves.

In [None]:
from collections import Counter
from functools import reduce

def atualizaValor(a,b):
    a.update(b)
    return a

def getSomaDic(lista):

  # Soma os dicionários da lista
  novodic = reduce(atualizaValor, (Counter(dict(x)) for x in lista))

  return novodic

### getTokensSentenca

Retorna a lista de tokens da sentenca.

In [None]:
def getTokensSentenca(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista = []

  # Percorre a sentença adicionando os tokens
  for token in doc:
    lista.append(token.text)

  return lista

### getPOSTokensSentenca

Retorna a lista das POS-Tagging dos tokens da sentenca.

In [None]:
def getPOSTokensSentenca(sentenca):

  # Verifica se o sentenca não foi processado pelo spaCy
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista = []

  # Percorre a sentença adicionando os tokens
  for token in doc:
    lista.append(token.pos_)

  return lista

### getListaTokensPOSSentenca

Retorna duas listas uma com os tokens e a outra com a POS-Tagging dos tokens da sentenca.

In [None]:
def getListaTokensPOSSentenca(sentenca):
  # Verifica se o sentenca não foi processado pelo spaCy
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  listatokens = []
  listapos = []

  # Percorre a sentença adicionando os tokens e as POS
  for token in doc:
    listatokens.append(token.text)
    listapos.append(token.pos_)

  return listatokens, listapos

### Tradução das tags

Tags de palavras universal

https://universaldependencies.org/u/pos/

Detalhes das tags em português:
http://www.dbd.puc-rio.br/pergamum/tesesabertas/1412298_2016_completo.pdf

In [None]:
#dicionário que contêm pos tag universal e suas explicações
palavra_universal_dict = {
  "X"    : "Outro",
  "VERB" : "Verbo ",
  "SYM"  : "Símbolo",
  "CONJ" : "Conjunção",
  "SCONJ": "Conjunção subordinativa",
  "PUNCT": "Pontuação",
  "PROPN": "Nome próprio",
  "PRON" : "Pronome substativo",
  "PART" : "Partícula, morfemas livres",
  "NUM"  : "Numeral",
  "NOUN" : "Substantivo",
  "INTJ" : "Interjeição",
  "DET"  : "Determinante, Artigo e pronomes adjetivos",
  "CCONJ": "Conjunção coordenativa",
  "AUX"  : "Verbo auxiliar",
  "ADV"  : "Advérbio",
  "ADP"  : "Preposição",
  "ADJ"  : "Adjetivo"
}

#Explica a POS
def getPOSPalavraUniversalTraduzido(palavra):
  if palavra in palavra_universal_dict.keys():
      traduzido = palavra_universal_dict[palavra]
  else:
      traduzido = "NA"
  return traduzido

### getSentencaSemStopWord

Retorna uma lista dos tokens sem as stopwords.

In [None]:
def getSentencaSemStopWord(sentenca, stopwords):

  # Lista dos tokens
  lista = []

  # Percorre os tokens da sentença
  for i, token in enumerate(sentenca):

    # Verifica se o token é uma stopword
    if token.lower() not in stopwords:
      lista.append(token)

  # Retorna o documento
  return lista

### getSentencaSalientePOS

Retorna uma lista das palavras do tipo especificado.

In [None]:
def getSentencaSalientePOS(sentenca, pos, classe_saliente=["NOUN"]):

  # Lista dos tokens
  lista = []

  # Percorre a sentença
  for i, token in enumerate(sentenca):

    # Verifica se o token é do tipo especificado
    if pos[i] in classe_saliente:
      lista.append(token)

  # Retorna o documento
  return lista

###removeStopWords

Remove as stopwords de um documento ou senteça.

In [None]:
def removeStopWord(documento, stopwords):

  # Remoção das stopwords do documento
  documentoSemStopwords = [palavra for palavra in documento.split() if palavra.lower() not in stopwords]

  # Concatena o documento sem os stopwords
  documento_limpo = " ".join(documentoSemStopwords)

  # Retorna o documento
  return documento_limpo

### getTokensSemStopword

Retira as stopswords de lista de tokens

In [None]:
def getTokensSemStopword(tokens, spacy_stopwords=getStopwords(nlp)):
    """
      Retira os tokens da lista de tokens tokens que estão na lista de stopword.
      A lista de tokens pode ou não estar dentro de uma outra lista.

      Parâmetros:
        `tokens` - Uma lista com os tokens ou uma lista de lista de tokens.
        `spacy_stopwords` - Uma lista com as stopword.
    """

    # Verifica se é uma lista de palavras(str) ou ou uma lista de lista
    if type(tokens[0]) is str:
      lista_tokens = [tokens]
    else:
      lista_tokens = tokens

    # Lista de retorno
    lista_tokens_sem_stopwords = []

    # Percorre a lista de tokens
    for texto in lista_tokens:

      # Lista dos tokens sem as stopwords
      tokens_sem_stopwords = []

      # Percorre os tokens
      for token in texto:
        # Verifica se o toke não está na lista de stopwords para adicionar a nova lista
        if token not in spacy_stopwords:
          tokens_sem_stopwords.append(token)

      # Adiciona a lista de tokens sem stopwords na lista de retorno se tiver uma palavra
      if len(tokens_sem_stopwords) != 0:
        lista_tokens_sem_stopwords.append(tokens_sem_stopwords)

    if type(tokens[0]) is str:
      return lista_tokens_sem_stopwords[0]
    else:
      return lista_tokens_sem_stopwords

### getSentencasTexto

Retorna a lista de tokens de uma lista de textos.

In [None]:
def getSentencasTexto(textos, nlp = nlp):

  """
     Sentencia um texto ou uma lista de textos.

     Parâmetros:
      `textos` - Um texto(str) ou uma lista de textos.
      `nlp` - Modelo spacy carregado.

  """

  # Verifica se é um texto é str ou uma lista de texto
  if type(textos) is str:
    lista_texto = [textos]
  else:
    lista_texto = textos

  # Lista dos tokens
  lista_sentencas = []

  for texto in lista_texto:

    # Sentencia o documento
    doc = nlp(texto)

    # Percorre as sentenças do documento
    for sentenca in doc.sents:

        lista_sentencas.append(str(sentenca))

  # Verifica o tipo documento para o tipo de retorno
  if type(textos) is str:
    return lista_sentencas[0]
  else:
    return lista_sentencas

### getSentencasMinusculo

Retorna a lista das sentencas do texto em minúsculo.

In [None]:
def getSentencasMinusculo(textos):

  """
     Sentencia um texto ou uma lista de textos em minusculo.

     Parâmetros:
      `textos` - Um texto(str) ou uma lista de textos.

  """

  # Verifica se é um texto é str ou uma lista de texto
  if type(textos) is str:
    lista_texto = [textos]
  else:
    lista_texto = textos

  # Lista dos tokens
  lista_sentencas = []

  for texto in lista_texto:

    lista_sentencas.append(str(texto).lower())

  # Verifica o tipo documento para o tipo de retorno
  if type(textos) is str:
    return lista_sentencas[0]
  else:
    return lista_sentencas

### getTokensTexto

Retorna a lista de tokens do texto.

In [None]:
def getTokensTexto(textos, nlp = nlp):

  """
     Tokeniza um texto ou uma lista de textos.

     Parâmetros:
      `textos` - Um texto(str) ou uma lista de textos.
  """

  # Verifica se é um texto é str ou uma lista de texto
  if type(textos) is str:
    lista_texto = [textos]
  else:
    lista_texto = textos

  # Lista de retorno
  lista_tokens_texto = []

  # Percorre a lista de texto
  for texto in lista_texto:

    # Verifica se o sentenca não foi processado pelo spaCy
    if type(texto) is not spacy.tokens.doc.Doc:
        # Realiza o parsing no spacy
        doc = nlp(texto)
    else:
        doc = texto

    # Lista dos tokens
    lista_tokens = []

    # Percorre a sentença adicionando os tokens
    for token in doc:
      lista_tokens.append(token.text)

    # Adiciona a lista de tokens na lista de sentenças
    lista_tokens_texto.append(lista_tokens)

  # Verifica o tipo documento para o tipo de retorno
  if type(textos) is str:
    return lista_tokens_texto[0]
  else:
    return lista_tokens_texto

### removerPontuacao

Remove pontuação

In [None]:
def removerPontuacao(textos):

    """https://spacy.io/api/annotation"""

    textos_saida = []

    for texto in textos:

        doc = nlp(" ".join(texto))

        sentenca = []
        for token in doc:
          if token.pos_ not in ['PUNCT']:
              sentenca.append(token.text)

        if len(sentenca) != 0:
          textos_saida.append(sentenca)

    return textos_saida

### relevantes

Palavras relevantes

In [None]:
def relevantes(textos, postags_permitidas=['VER', 'AUX', 'NOUN']):

    """https://spacy.io/api/annotation"""

    textos_saida = []

    for texto in textos:

        doc = nlp(" ".join(texto))

        sentenca = []
        for token in doc:
          if token.pos_ in postags_permitidas:
              sentenca.append(token.text)

        if len(sentenca) != 0:
          textos_saida.append(sentenca)

    return textos_saida

### lematizacao

Lematização do texto

In [None]:
def lematizacao(textos, postags_permitidas=['NOUN', 'ADJ', 'VERB', 'ADV']):

    """https://spacy.io/api/annotation"""

    textos_saida = []

    for texto in textos:
        doc = nlp(" ".join(texto))

        sentenca = []
        for token in doc:
          if token.pos_ in postags_permitidas:
              sentenca.append(token.lemma_)

        if len(sentenca) != 0:
          textos_saida.append(sentenca)

    return textos_saida

### preparaCorpus

In [None]:
# Import das biblitecas
import pandas as pd
import re
import gensim

def preparaCorpus(textos,
                  sentenciaTexto=False,
                  tornaMinusculo=False,
                  removePontuacao=False,
                  removeStopwords=False,
                  bigramas=False,
                  trigramas=False,
                  somenteRelevante=False,
                  postag_relevante=['VERB', 'AUX', 'NOUN'],
                  lematizar=False,
                  postag_lema=['NOUN', 'ADJ', 'VERB', 'ADV']):

    # Verifica se é um textos é str ou uma lista de texto
    if type(textos) is str:
      # Sentencia o texto
      lista_sentencas = [textos]
    else:
      lista_sentencas = textos

    # Converte o texto em uma lista de sentencas
    if sentenciaTexto==True:
      lista_sentencas = getSentencasTexto(lista_sentencas)

    # Converte o texto em minúsuclo
    if tornaMinusculo==True:
      lista_sentencas = getSentencasMinusculo(lista_sentencas)

    # tokeniza o texto
    lista_sentencas_palavras = getTokensTexto(lista_sentencas)

    # Remove a pontuação
    if removePontuacao==True:
        lista_sentencas_palavras = removerPontuacao(lista_sentencas_palavras)

    # Remove as stop words
    if removeStopwords==True:
      lista_sentencas_palavras = getTokensSemStopword(lista_sentencas_palavras)

    # Criar bigramas ou trigramas
    if bigramas==True:
      # Construa os modelos de bigramas
      bigram = gensim.models.Phrases(lista_sentencas_palavras, min_count=5, threshold=100) # max_topicse mais alto menos frases.
      # Maneira mais rápida de obter uma frase batida como um trigrama/bigrama
      bigram_mod = gensim.models.phrases.Phraser(bigram)
      lista_sentencas_palavras = [bigram_mod[doc] for doc in lista_sentencas_palavras]

    if trigramas==True:
      # Construa os modelos de bigramas
      bigram = gensim.models.Phrases(lista_sentencas_palavras, min_count=5, threshold=100) # max_topicse mais alto menos frases.
      # Maneira mais rápida de obter uma frase batida como um trigrama/bigrama
      bigram_mod = gensim.models.phrases.Phraser(bigram)
      # Construa os modelos de trigramas
      trigram = gensim.models.Phrases(bigram[lista_sentencas_palavras], threshold=100)
      # Maneira mais rápida de obter uma frase batida como um trigrama/bigrama
      trigram_mod = gensim.models.phrases.Phraser(trigram)
      lista_sentencas_palavras = [trigram_mod[bigram_mod[doc]] for doc in lista_sentencas_palavras]

    # Somente palavras relevantes
    if somenteRelevante==True:
      lista_sentencas_palavras = relevantes(lista_sentencas_palavras, postags_permitidas=postag_relevante)

    # Faça a lematização mantendo apenas para noun, adj, vb, adv
    if lematizar==True:
      lista_sentencas_palavras = lematizacao(lista_sentencas_palavras, postags_permitidas=postag_lema)

    return lista_sentencas_palavras

# 4 Funções auxiliares

## concatenaListas

In [None]:
def concatenaListas(lista, pos=1):
  lista_concat = []

  for x in lista:
      lista_concat = lista_concat + x[pos]

  return lista_concat

## encontrarIndiceSubLista

Retorna os índices de início e fim da sublista na lista

In [None]:
# Localiza os índices de início e fim de uma sublista em uma lista
def encontrarIndiceSubLista(lista, sublista):

    """
      Localiza os índices de início e fim de uma sublista em uma lista.

      Parâmetros:
      `lista` - Uma lista.
      `sublista` - Uma sublista a ser localizada na lista.
    """
    # https://en.wikipedia.org/wiki/Boyer%E2%80%93Moore%E2%80%93Horspool_algorithm

    # Recupera o tamanho da lista
    h = len(lista)
    # Recupera o tamanho da sublista
    n = len(sublista)
    skip = {sublista[i]: n - i - 1 for i in range(n - 1)}
    i = n - 1
    while i < h:
      for j in range(n):
        if lista[i - j] != sublista[-j - 1]:
            i += skip.get(lista[i], n)
            break
        else:
            indice_inicio = i - n + 1
            indice_fim = indice_inicio + len(sublista)-1

            return indice_inicio, indice_fim

    # Não encontrou a sublista na lista
    return -1, -1

# 5 Comparar documentos





## 5.1 Carregamento dos arquivos de dados originais e perturbados

#### 5.1.1 Especifica os nomes dos arquivos de dados



In [None]:
# Nome do arquivo
NOME_ARQUIVO_ORIGINAL = "original.csv"
NOME_ARQUIVO_ORIGINAL_COMPACTADO = "original.zip"
NOME_ARQUIVO_ORIGINAL_POS = "originalpos.csv"
NOME_ARQUIVO_ORIGINAL_POS_COMPACTADO = "originalpos.zip"

NOME_ARQUIVO_PERTURBADO = "perturbado_p" + str(model_args.documentos_perturbados) + "_k" + str(model_args.top_k_predicao) + ".csv"
NOME_ARQUIVO_PERTURBADO_COMPACTADO = "perturbado_p" + str(model_args.documentos_perturbados) + "_k" + str(model_args.top_k_predicao) + ".zip"
NOME_ARQUIVO_PERTURBADO_POS = "perturbadopos_p" + str(model_args.documentos_perturbados) + "_k" + str(model_args.top_k_predicao) + ".csv"
NOME_ARQUIVO_PERTURBADO_POS_COMPACTADO = "perturbadopos_p" + str(model_args.documentos_perturbados) + "_k" + str(model_args.top_k_predicao) + ".zip"

### 5.1.2 Cria o diretório local para receber os dados

In [None]:
# Importando as bibliotecas.
import os

# Cria o diretório para receber os arquivos Originais e Permutados
# Diretório a ser criado
dirbase = DIRETORIO_LOCAL[:-1]

if not os.path.exists(dirbase):
    # Cria o diretório
    os.makedirs(dirbase)
    logging.info("Diretório criado: {}.".format(dirbase))
else:
    logging.info("Diretório já existe: {}.".format(dirbase))

INFO:root:Diretório já existe: /content/COHQUAD_CO_PTBR.


### 5.1.3 Copia os arquivos do Google Drive para o Colaboratory

In [None]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:

  !cp "$DIRETORIO_DRIVE$NOME_ARQUIVO_ORIGINAL_COMPACTADO" "$DIRETORIO_LOCAL"
  !cp "$DIRETORIO_DRIVE$NOME_ARQUIVO_ORIGINAL_POS_COMPACTADO" "$DIRETORIO_LOCAL"

  !cp "$DIRETORIO_DRIVE$NOME_ARQUIVO_PERTURBADO_COMPACTADO" "$DIRETORIO_LOCAL"
  !cp "$DIRETORIO_DRIVE$NOME_ARQUIVO_PERTURBADO_POS_COMPACTADO" "$DIRETORIO_LOCAL"

  logging.info("Terminei a cópia.")

INFO:root:Terminei a cópia.


Descompacta os arquivos

Usa o unzip para descompactar:
*   `-o` sobrescreve o arquivo se existir
*   `-j` Não cria nenhum diretório
*   `-q` Desliga as mensagens
*   `-d` Diretório de destino


In [None]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:
  !unzip -o -j -q "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_COMPACTADO" -d "$DIRETORIO_LOCAL"
  !unzip -o -j -q "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_POS_COMPACTADO" -d "$DIRETORIO_LOCAL"

  !unzip -o -j -q "$DIRETORIO_LOCAL$NOME_ARQUIVO_PERTURBADO_COMPACTADO" -d "$DIRETORIO_LOCAL"
  !unzip -o -j -q "$DIRETORIO_LOCAL$NOME_ARQUIVO_PERTURBADO_POS_COMPACTADO" -d "$DIRETORIO_LOCAL"

  logging.info("Terminei a descompactação.")

INFO:root:Terminei a descompactação.


### 5.1.4 Carregamento das lista com os dados dos arquivos originais e pertubados

#### Carrega o arquivo dos dados originais e POS

In [None]:
# Import das bibliotecas.
import pandas as pd

# Abre o arquivo e retorna o DataFrame
lista_documentos_originais = pd.read_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_ORIGINAL, sep=";", encoding="UTF-8")
lista_documentos_originais_pos = pd.read_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_ORIGINAL_POS, sep=";", encoding="UTF-8")

logging.info("TERMINADO ORIGINAIS: {}.".format(len(lista_documentos_originais)))
logging.info("TERMINADO ORIGINAIS POS: {}.".format(len(lista_documentos_originais_pos)))

INFO:root:TERMINADO ORIGINAIS: 20.
INFO:root:TERMINADO ORIGINAIS POS: 20.


In [None]:
lista_documentos_originais.sample(5)

Unnamed: 0,id,sentencas,documento
10,11,['O que é uma fila e como desenfileirar um ele...,O que é uma fila e como desenfileirar um eleme...
16,17,['Como são implementadas as operações de empil...,Como são implementadas as operações de empilha...
9,10,['O que é uma fila e como enfileirar seu eleme...,O que é uma fila e como enfileirar seu elemento?
7,8,['Como desempilhar elementos em uma estrutura ...,Como desempilhar elementos em uma estrutura de...
12,13,['O que é uma fila e como enfileirar um elemen...,O que é uma fila e como enfileirar um elemento...


In [None]:
# Corrige os tipos dos dados da lista agrupada
tipos = {"id": str}

lista_documentos_originais = lista_documentos_originais.astype(tipos)

In [None]:
lista_documentos_originais_pos.sample(5)

Unnamed: 0,id,pos_documento
12,13,"[[['O', 'que', 'é', 'uma', 'fila', 'e', 'como'..."
10,11,"[[['O', 'que', 'é', 'uma', 'fila', 'e', 'como'..."
17,18,"[[['Como', 'são', 'implementadas', 'as', 'oper..."
7,8,"[[['Como', 'desempilhar', 'elementos', 'em', '..."
2,3,"[[['Como', 'empilhar', 'elementos', 'em', 'uma..."


In [None]:
# Corrige os tipos dos dados da lista agrupada
tipos = {"id": str}

lista_documentos_originais_pos = lista_documentos_originais_pos.astype(tipos)

#### Corrigir os tipos de colunas dos dados originais e POS

Em dados originais:
- coluna 1 - `sentenças` carregadas do arquivo vem como string e não como lista.

Em dados originais pos:
- coluna 1 - `pos_documento` carregadas do arquivo vem como string e não como lista.

In [None]:
# Import das bibliotecas.
import ast # Biblioteca para conversão de string em lista

# Verifica se o tipo da coluna não é list e converte
lista_documentos_originais["sentencas"] = lista_documentos_originais["sentencas"].apply(lambda x: ast.literal_eval(x) if type(x)!=list else x)

lista_documentos_originais_pos["pos_documento"] = lista_documentos_originais_pos["pos_documento"].apply(lambda x: ast.literal_eval(x) if type(x)!=list else x)

logging.info("TERMINADO CORREÇÃO ORIGINAIS: {}.".format(len(lista_documentos_originais)))
logging.info("TERMINADO CORREÇÃO ORIGINAIS POS: {}.".format(len(lista_documentos_originais_pos)))

INFO:root:TERMINADO CORREÇÃO ORIGINAIS: 20.
INFO:root:TERMINADO CORREÇÃO ORIGINAIS POS: 20.


#### Criando dados indexados originais

In [None]:
# Expecifica o(s) campo(s) indexado(s) e faz uma cópia da lista indexada
lista_documentos_originais_indexado = lista_documentos_originais.set_index(["id"])
lista_documentos_originais_indexado.head()

Unnamed: 0_level_0,sentencas,documento
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,[Como enfileirar elementos em uma fila?],Como enfileirar elementos em uma fila?
2,[Como desenfileirar elementos em uma fila?],Como desenfileirar elementos em uma fila?
3,[Como empilhar elementos em uma pilha?],Como empilhar elementos em uma pilha?
4,[Como empilhar e desempilhar elementos em uma ...,Como empilhar e desempilhar elementos em uma p...
5,[Como empilhar elementos em uma estrutura de d...,Como empilhar elementos em uma estrutura de da...


In [None]:
# Expecifica o(s) campo(s) indexado(s) e faz uma cópia da lista indexada
lista_documentos_originais_pos_indexado = lista_documentos_originais_pos.set_index(["id"])
lista_documentos_originais_pos_indexado.head()

Unnamed: 0_level_0,pos_documento
id,Unnamed: 1_level_1
1,"[[[Como, enfileirar, elementos, em, uma, fila,..."
2,"[[[Como, desenfileirar, elementos, em, uma, fi..."
3,"[[[Como, empilhar, elementos, em, uma, pilha, ..."
4,"[[[Como, empilhar, e, desempilhar, elementos, ..."
5,"[[[Como, empilhar, elementos, em, uma, estrutu..."


#### Carrega o arquivo dos dados perturbados e POS

In [None]:
# Abre o arquivo e retorna o DataFrame
lista_documentos_perturbados = pd.read_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_PERTURBADO, sep=";", encoding="UTF-8")
lista_documentos_perturbados_pos = pd.read_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_PERTURBADO_POS, sep=";", encoding="UTF-8")

logging.info("TERMINADO PERTURBADOS: {}.".format(len(lista_documentos_perturbados)))
logging.info("TERMINADO PERTURBADOS POS: {}.".format(len(lista_documentos_perturbados_pos)))

INFO:root:TERMINADO PERTURBADOS: 20.
INFO:root:TERMINADO PERTURBADOS POS: 20.


Alguns csv estão com o nome da coluna errado.

In [None]:
lista_documentos_perturbados = lista_documentos_perturbados.rename(columns={'documentoPerturbado':'documento_perturbado'})

In [None]:
lista_documentos_perturbados.sample(5)

Unnamed: 0,id,perturbado,documento_perturbado,sentencas
2,3_pert_0,['Como colocar elementos em uma pilha ?'],Como colocar elementos em uma pilha ?,"[['Como [MASK] elementos em uma pilha ?', 'emp..."
0,1_pert_0,['Como colocar elementos em uma fila ?'],Como colocar elementos em uma fila ?,"[['Como [MASK] elementos em uma fila ?', 'enfi..."
15,16_pert_0,['O que é uma fila e como organizar e desenfil...,O que é uma fila e como organizar e desenfilei...,[['O que é uma fila e como [MASK] e desenfilei...
11,12_pert_0,['O que é uma pilha e como desempilhar um mate...,O que é uma pilha e como desempilhar um materi...,[['O que é uma pilha e como desempilhar um [MA...
9,10_pert_0,['O que é uma fila e como identificar seu elem...,O que é uma fila e como identificar seu elemen...,[['O que é uma fila e como [MASK] seu elemento...


In [None]:
lista_documentos_perturbados.sample(5)

Unnamed: 0,id,perturbado,documento_perturbado,sentencas
12,13_pert_0,['O que é uma fila e como colocar um elemento ...,O que é uma fila e como colocar um elemento ne...,[['O que é uma fila e como [MASK] um elemento ...
0,1_pert_0,['Como colocar elementos em uma fila ?'],Como colocar elementos em uma fila ?,"[['Como [MASK] elementos em uma fila ?', 'enfi..."
1,2_pert_0,['Como colocar elementos em uma fila ?'],Como colocar elementos em uma fila ?,"[['Como [MASK] elementos em uma fila ?', 'dese..."
13,14_pert_0,['O que é uma pilha e como colocar um elemento...,O que é uma pilha e como colocar um elemento n...,[['O que é uma pilha e como [MASK] um elemento...
9,10_pert_0,['O que é uma fila e como identificar seu elem...,O que é uma fila e como identificar seu elemen...,[['O que é uma fila e como [MASK] seu elemento...


In [None]:
lista_documentos_perturbados_pos.sample(5)

Unnamed: 0,id,pos_documento
15,16_pert_0,"[[['O', 'que', 'é', 'uma', 'fila', 'e', 'como'..."
12,13_pert_0,"[[['O', 'que', 'é', 'uma', 'fila', 'e', 'como'..."
0,1_pert_0,"[[['Como', 'colocar', 'elementos', 'em', 'uma'..."
2,3_pert_0,"[[['Como', 'colocar', 'elementos', 'em', 'uma'..."
17,18_pert_0,"[[['Como', 'são', 'implementadas', 'as', 'oper..."


#### Corrigir os tipos de colunas dos dados perturbados e POS

Em dados perturbados:
- coluna 1 - `perturbado` carregadas do arquivo vem como string e não como lista.
- coluna 3 - `sentencas` carregadas do arquivo vem como string e não como lista.

Em dados perturbados pos:
- coluna 1 - `pos_documento` carregadas do arquivo vem como string e não como lista.

In [None]:
# Import das bibliotecas.
import ast # Biblioteca para conversão de string em lista

# Verifica se o tipo da coluna não é list e converte
lista_documentos_perturbados["perturbado"] = lista_documentos_perturbados["perturbado"].apply(lambda x: ast.literal_eval(x) if type(x)!=list else x)
lista_documentos_perturbados["sentencas"] = lista_documentos_perturbados["sentencas"].apply(lambda x: ast.literal_eval(x) if type(x)!=list else x)

lista_documentos_perturbados_pos["pos_documento"] = lista_documentos_perturbados_pos["pos_documento"].apply(lambda x: ast.literal_eval(x) if type(x)!=list else x)

logging.info("TERMINADO CORREÇÃO PERTURBADO: {}.".format(len(lista_documentos_perturbados)))
logging.info("TERMINADO CORREÇÃO PERTURBADO POS: {}.".format(len(lista_documentos_perturbados_pos)))

INFO:root:TERMINADO CORREÇÃO PERTURBADO: 20.
INFO:root:TERMINADO CORREÇÃO PERTURBADO POS: 20.


#### Criando dados indexados perturbados

In [None]:
# Expecifica o(s) campo(s) indexado(s) e faz uma cópia da lista indexada
lista_documentos_perturbados_indexado = lista_documentos_perturbados.set_index(["id"])
lista_documentos_perturbados_indexado.head()

Unnamed: 0_level_0,perturbado,documento_perturbado,sentencas
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1_pert_0,[Como colocar elementos em uma fila ?],Como colocar elementos em uma fila ?,"[[Como [MASK] elementos em uma fila ?, enfilei..."
2_pert_0,[Como colocar elementos em uma fila ?],Como colocar elementos em uma fila ?,"[[Como [MASK] elementos em uma fila ?, desenfi..."
3_pert_0,[Como colocar elementos em uma pilha ?],Como colocar elementos em uma pilha ?,"[[Como [MASK] elementos em uma pilha ?, empilh..."
4_pert_0,[Como empilhar e organizar elementos em uma pi...,Como empilhar e organizar elementos em uma pil...,[[Como empilhar e [MASK] elementos em uma pilh...
5_pert_0,[Como identificar elementos em uma estrutura d...,Como identificar elementos em uma estrutura de...,[[Como [MASK] elementos em uma estrutura de da...


In [None]:
# Expecifica o(s) campo(s) indexado(s) e faz uma cópia da lista indexada
lista_documentos_perturbados_pos_indexado = lista_documentos_perturbados_pos.set_index(["id"])
lista_documentos_perturbados_pos_indexado.head()

Unnamed: 0_level_0,pos_documento
id,Unnamed: 1_level_1
1_pert_0,"[[[Como, colocar, elementos, em, uma, fila, ?]..."
2_pert_0,"[[[Como, colocar, elementos, em, uma, fila, ?]..."
3_pert_0,"[[[Como, colocar, elementos, em, uma, pilha, ?..."
4_pert_0,"[[[Como, empilhar, e, organizar, elementos, em..."
5_pert_0,"[[[Como, identificar, elementos, em, uma, estr..."


### 5.1.5 Gerando pares de documentos originais e perturbados / Documento Original(1) e Documento Perturbado(0)


In [None]:
# Import das bibliotecas.
import ast
from tqdm.notebook import tqdm as tqdm_notebook

print("Processando",len(lista_documentos_originais),"documentos originais")

lista_documentos_agrupados = []

# Barra de progresso dos documentos
lista_documentos_originais_bar = tqdm_notebook(lista_documentos_originais.iterrows(), desc=f"Documentos", unit=f" documento", total=len(lista_documentos_originais))

# Percorre os documentos
for i, linha_documento in lista_documentos_originais_bar:
  #if i < 2:
    #print("linha_documento:",linha_documento)
    # Recupera o id do documento
    id_documento_original = linha_documento[0]
    #print("id_documento_original:",id_documento_original)

    # Carrega a lista das sentenças do documento
    lista_sentencas_original = linha_documento[1]
    #print("\lista_sentencas_original:",lista_sentencas_original)
    #print("len(lista_sentencas_original):",len(lista_sentencas_original))

    # Carrega o documento original
    documento_original = linha_documento[2]
    #print("\documento_original:",documento_original)

    # Recupera a POS do documento original
    tokens_original = []
    tokens_original_pos = []
    reg_original_pos = lista_documentos_originais_pos_indexado.loc[id_documento_original]
    # print("reg_original_pos:",reg_original_pos)
    pos_documento_original = reg_original_pos['pos_documento']
    for i, linha2 in enumerate(pos_documento_original):

      tokens_original.append(linha2[0])
      tokens_original_pos.append(linha2[1])

    # Percorre os documentos perturbados apartir do original
    for j in range(0, model_args.documentos_perturbados):

        # Id do documento perturbado
        id_perturbado = str(id_documento_original) + "_pert_" + str(j)
        #print("id_perturbado:", id_perturbado)

        # Recupera o documento perturbado apartir do id original
        reg_documento_perturbado = lista_documentos_perturbados_indexado.loc[id_perturbado]
        # Recupera a sentença do documento perturbado
        lista_sentencas_perturbado = reg_documento_perturbado["perturbado"]
        #print("\lista_sentencas_perturbado:",lista_sentencas_perturbado)
        #print("len(lista_sentencas_perturbado):",len(lista_sentencas_perturbado))

        # Carrega o documento perturbado
        documento_perturbado = reg_documento_perturbado["documento_perturbado"]
        #print("\documento_perturbado:",documento_perturbado)

        # Recupera a POS do documento perturbado
        tokens_perturbado = []
        tokens_perturbado_pos = []
        reg_perturbado_pos = lista_documentos_perturbados_pos_indexado.loc[id_perturbado]
        #print("reg_perturbado_pos:",reg_perturbado_pos)
        pos_documento_perturbado = reg_perturbado_pos['pos_documento']
        for i, linha2 in enumerate(pos_documento_perturbado):
          tokens_perturbado.append(linha2[0])
          tokens_perturbado_pos.append(linha2[1])

        # Guarda o agrupamento de original e perturbado
        lista_documentos_agrupados.append([id_documento_original,
                                           lista_sentencas_original,
                                           documento_original,
                                           tokens_original,
                                           tokens_original_pos,
                                           id_perturbado,
                                           lista_sentencas_perturbado,
                                           documento_perturbado,
                                           tokens_perturbado,
                                           tokens_perturbado_pos])

logging.info("TERMINADO AGRUPAMENTO: {}.".format(len(lista_documentos_agrupados)))

Processando 20 documentos originais


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:root:TERMINADO AGRUPAMENTO: 20.


#### Converte a lista em um dataframe

Atributos do dataframe:
Atributos do dataframe:
0. 'id_original' - Nome do arquivo original
1. 'sentencas_originais' - Lista das sentenças do documento original
2. 'documento_original' - Documento original
3. 'tokens_original' - Tokens do documento original
4. 'pos_original' - Postagging do documento original
5. 'id_perturbado' - Nome do arquivo perturbado
6. 'sentencas_perturbadas' - Lista das sentenças do documento perturbado
7. 'documento_perturbado' - Documento perturbado
8. 'tokens_perturbado' - Tokens do documento perturbado
9. 'pos_perturbado' - Postagging do documento perturbado

In [None]:
# Import das bibliotecas.
import pandas as pd

# Converte a lista em um dataframe.
lista_documentos_agrupados = pd.DataFrame.from_records(lista_documentos_agrupados,
                                                         columns=['id_original',
                                                                  'sentencas_original',
                                                                  'documento_original',
                                                                  'tokens_original',
                                                                  'pos_original',
                                                                  'id_perturbado',
                                                                  'sentencas_perturbado',
                                                                  'documento_perturbado',
                                                                  'tokens_perturbado',
                                                                  'pos_perturbado'])

# Número de linhas carregadas do arquivo.
logging.info('Total de registros              : {}'.format(len(lista_documentos_agrupados)))

INFO:root:Total de registros              : 20


In [None]:
lista_documentos_agrupados.sample(5)

Unnamed: 0,id_original,sentencas_original,documento_original,tokens_original,pos_original,id_perturbado,sentencas_perturbado,documento_perturbado,tokens_perturbado,pos_perturbado
7,8,[Como desempilhar elementos em uma estrutura d...,Como desempilhar elementos em uma estrutura de...,"[[Como, desempilhar, elementos, em, uma, estru...","[[ADP, NOUN, NOUN, ADP, DET, NOUN, ADP, NOUN, ...",8_pert_0,[Como desempilhar dados em uma estrutura de da...,Como desempilhar dados em uma estrutura de dad...,"[[Como, desempilhar, dados, em, uma, estrutura...","[[ADP, NOUN, NOUN, ADP, DET, NOUN, ADP, NOUN, ..."
4,5,[Como empilhar elementos em uma estrutura de d...,Como empilhar elementos em uma estrutura de da...,"[[Como, empilhar, elementos, em, uma, estrutur...","[[SCONJ, VERB, NOUN, ADP, DET, NOUN, ADP, NOUN...",5_pert_0,[Como identificar elementos em uma estrutura d...,Como identificar elementos em uma estrutura de...,"[[Como, identificar, elementos, em, uma, estru...","[[SCONJ, VERB, NOUN, ADP, DET, NOUN, ADP, NOUN..."
14,15,[O que é uma pilha e como empilhar e desempilh...,O que é uma pilha e como empilhar e desempilha...,"[[O, que, é, uma, pilha, e, como, empilhar, e,...","[[PRON, PRON, AUX, DET, NOUN, CCONJ, ADV, VERB...",15_pert_0,[O que é uma pilha e como separar e desempilha...,O que é uma pilha e como separar e desempilhar...,"[[O, que, é, uma, pilha, e, como, separar, e, ...","[[PRON, PRON, AUX, DET, NOUN, CCONJ, ADV, VERB..."
10,11,[O que é uma fila e como desenfileirar um elem...,O que é uma fila e como desenfileirar um eleme...,"[[O, que, é, uma, fila, e, como, desenfileirar...","[[PRON, PRON, AUX, DET, NOUN, CCONJ, ADV, ADV,...",11_pert_0,[O que é uma fila e como desenfileirar um carr...,O que é uma fila e como desenfileirar um carro...,"[[O, que, é, uma, fila, e, como, desenfileirar...","[[PRON, PRON, AUX, DET, NOUN, CCONJ, ADV, ADV,..."
5,6,[Como empilhar e desempilhar elementos em uma ...,Como empilhar e desempilhar elementos em uma e...,"[[Como, empilhar, e, desempilhar, elementos, e...","[[SCONJ, VERB, CCONJ, VERB, NOUN, ADP, DET, NO...",6_pert_0,[Como empilhar e organizar elementos em uma es...,Como empilhar e organizar elementos em uma est...,"[[Como, empilhar, e, organizar, elementos, em,...","[[SCONJ, VERB, CCONJ, VERB, NOUN, ADP, DET, NO..."


Apaga as listas que não serão mais utilizadas

In [None]:
del lista_documentos_originais
del lista_documentos_originais_pos
del lista_documentos_perturbados
del lista_documentos_perturbados_pos

## 5.2 Carrega os corpus específico

### Especifica os nomes dos arquivos do corpus

In [None]:
# Nome do arquivo
NOME_ARQUIVO_CORPUS = "corpus_especifico.csv"
NOME_ARQUIVO_CORPUS_COMPACTADO = "corpus_especifico.zip"

### Copia os arquivos do Google Drive para o Colaboratory

In [None]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:

  !cp "$DIRETORIO_DRIVE$NOME_ARQUIVO_CORPUS_COMPACTADO" "$DIRETORIO_LOCAL"

  logging.info("Terminei a cópia.")

INFO:root:Terminei a cópia.


Descompacta os arquivos

Usa o unzip para descompactar:
*   `-o` sobrescreve o arquivo se existir
*   `-j` Não cria nenhum diretório
*   `-q` Desliga as mensagens
*   `-d` Diretório de destino


In [None]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:
  !unzip -o -j -q "$DIRETORIO_LOCAL$NOME_ARQUIVO_CORPUS_COMPACTADO" -d "$DIRETORIO_LOCAL"

  logging.info("Terminei a descompactação.")

INFO:root:Terminei a descompactação.


### Carrega os dados

In [None]:
# Import das bibliotecas.
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df_corpus = pd.read_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_CORPUS, sep=";", encoding="UTF-8")

print(len(df_corpus))

104


In [None]:
df_corpus.sample(5)

Unnamed: 0,topico,fonte,sentenca
51,fila,wikipedia,O algoritmo FIFO não garante um tempo de respo...
102,fila,Thomas Cormen,A Figura 10.2 mostra os efeitos das operações ...
101,fila,Thomas Cormen,5 return x
30,pilha,Thomas Cormen,Cada uma das operações sobre pilhas pode ser i...
39,pilha,Thomas Cormen,1 if STACK-EMPTY(S)


## 5.4 Medição

### 5.4.1 Wandb

https://wandb.ai/osmar-braz/MedidaCoerenciaCohebert_v1/table?workspace=user-osmar-braz

#### Função de inicialização wandb

In [None]:
def inicializacaoWandb():

  if model_args.use_wandb:

    # Importando a biblioteca.
    import wandb

    #Login via linha de comando
    !wandb login aded3bc0ea651fff536cc08ba69caf8ac4141cfd

    # Inicializando o registro do experimento.
    # Na execução só pode existir de um init  para que não gere dois registros no wandb.
    wandb.init(project=NOME_BASE_SAIDA, name=NOME_BASE_SAIDA)

    # Atualiza os parâmetros do modelo no wandb.
    wandb.config.update(model_args)

    # Registra os parämetros não literais do model_args.
    wandb.log({'max_seq_len': model_args.max_seq_len})
    wandb.log({'do_lower_case': model_args.do_lower_case})
    wandb.log({'output_hidden_states': model_args.output_hidden_states})
    wandb.log({"documentos_perturbados": model_args.documentos_perturbados})
    wandb.log({"top_k_predicao": model_args.top_k_predicao})

    return wandb

### 5.4.2 Função quer realiza a medição de um documento



#### getMedidasTopica

In [None]:
# Import das biblitecas
import gensim
import gensim.corpora as corpora
from gensim.models import CoherenceModel

def getCoerenciasTopica(textos, dados_palavras, tamanho_janela, numero_topicos = 2):

    # Criando o dicionário com as palavras a serem analisadas do corpus de referência e conjunto de dados
    id2word = corpora.Dictionary(textos)

    # Criando o corpus
    # Ocorrência das palavras a serem analisadas no corpus
    # Frequência de termos no documento (Term Document Frequency)
    corpus = [id2word.doc2bow(texto) for texto in textos]

    # Calcular pontuação de coerência 'c_uci'
    coherence_model = CoherenceModel(topics=dados_palavras,
                                     texts=textos,
                                     corpus=corpus,
                                     dictionary=id2word,
                                     window_size=tamanho_janela,
                                     coherence='c_uci')

    coherence_model_valor_u_uci = coherence_model.get_coherence()

    # Calcular pontuação de coerência 'c_npmi'
    coherence_model = CoherenceModel(topics=dados_palavras,
                                     texts=textos,
                                     dictionary=id2word,
                                     window_size=tamanho_janela,
                                     coherence='c_npmi')

    coherence_model_valor_c_npmi = coherence_model.get_coherence()

        # Calcular pontuação de coerência c_v
    coherence_model = CoherenceModel(topics=dados_palavras,
                                         texts=textos,
                                         corpus=corpus,
                                         dictionary=id2word,
                                         window_size=tamanho_janela,
                                         coherence='c_v')

    coherence_model_valor_c_v = coherence_model.get_coherence()

    # Calcular pontuação de coerência 'u_mass'
    coherence_model = CoherenceModel(topics=dados_palavras,
                                     texts=textos,
                                     corpus=corpus,
                                     dictionary=id2word,
                                     coherence='u_mass')

    coherence_model_valor_u_mass = coherence_model.get_coherence()


    return coherence_model_valor_u_uci, coherence_model_valor_c_npmi, coherence_model_valor_c_v, coherence_model_valor_u_mass

### 5.4.3 Função que realiza a medição de todos os documentos

In [None]:
def dadosTratadoCorpus(texto, filtro_palavra):

  sentencia=False

  # Todas as palavras
  if filtro_palavra == 0:
    corpus = preparaCorpus(texto,
                           sentenciaTexto=sentencia,
                           tornaMinusculo=model_args.do_lower_case,
                           removePontuacao=False)
  else:
    # Sem as stopwords
    if filtro_palavra == 1:
      corpus = preparaCorpus(texto,
                             sentenciaTexto=sentencia,
                             tornaMinusculo=model_args.do_lower_case,
                             removePontuacao=False,
                             removeStopwords=True)
    else:
      # Sem as stopwords
      if filtro_palavra == 2:
        corpus = preparaCorpus(texto,
                               sentenciaTexto=sentencia,
                               tornaMinusculo=model_args.do_lower_case,
                               removePontuacao=False,
                               removeStopwords=False,
                               somenteRelevante=True)
      else:
        # Todas as palavras e sem pontuação
        if filtro_palavra == 3:
          corpus = preparaCorpus(texto,
                                sentenciaTexto=sentencia,
                                tornaMinusculo=model_args.do_lower_case,
                                removePontuacao=True)
        else:
          # Sem as stopwords e sem pontuação
          if filtro_palavra == 4:
            corpus = preparaCorpus(texto,
                                  sentenciaTexto=sentencia,
                                  tornaMinusculo=model_args.do_lower_case,
                                  removePontuacao=True,
                                  removeStopwords=True)
          else:
            # Sem as stopwords e sem pontuação
            if filtro_palavra == 5:
              corpus = preparaCorpus(texto,
                                    sentenciaTexto=sentencia,
                                    tornaMinusculo=model_args.do_lower_case,
                                    removePontuacao=True,
                                     removeStopwords=False,
                                    somenteRelevante=True)

  return corpus

In [None]:
# Import das bibliotecas.
from tqdm.notebook import tqdm as tqdm_notebook

def calculaMedidasDocumentos(corpus,
                             lista_documentos_agrupados,
                             wandb,
                             tamanho_janela,
                             filtro_palavra):

  '''
    Percorre os documentos para calcular as medidas das sentenças
  '''

  logging.info("Processando {} pares de documentos originais e perturbados.".format(len(lista_documentos_agrupados)))

  # Contadores de ocorrência de coerência
  conta_coherence_model_valor_u_uci = 0
  conta_coherence_model_valor_c_npmi = 0
  conta_coherence_model_valor_c_v = 0
  conta_coherence_model_valor_c_umass = 0

  conta = 0

  # Retorna os dados tratados do corpus
  corpus_tratado = dadosTratadoCorpus(corpus['sentenca'].values.tolist(),filtro_palavra)
  # print("corpus_tratado:",corpus_tratado)

  # Lista para o salvamento das medidas
  lista_medidas_documentos_salvar = []

  # Barra de progresso dos documentos
  lista_documentos_agrupados_bar = tqdm_notebook(lista_documentos_agrupados.iterrows(), desc=f"Documentos", unit=f" documento", total=len(lista_documentos_agrupados))

  # Percorre os documentos do conjunto de dados
  for i, linha_documento in lista_documentos_agrupados_bar:
    # if i < 5:

      # Conta o número de pares de documentos
      conta = conta + 1

      #print("linha_documento:",linha_documento)
      # Recupera o id do documento Original
      id_documento_original = linha_documento[0]
      # print("id_documento_original:",id_documento_original)
      lista_sentenca_documento_original = linha_documento[1]
      #print("lista_sentenca_documento_original:",lista_sentenca_documento_original)
      #print("len(lista_sentenca_documento_original):",len(lista_sentenca_documento_original))
      # Recupera o documento Original
      documento_original = linha_documento[2]
      # print("documento_original:",documento_original)
      # Recupera os tokens do documento original
      lista_tokens_documento_original = linha_documento[3]
      #print("lista_tokens_documento_original:",lista_tokens_documento_original)
      #print("len(lista_tokens_documento_original):",len(lista_tokens_documento_original))
      # Recupera o postagging do documento original
      lista_pos_documento_original = linha_documento[4]
      #print("lista_pos_documento_original:",lista_pos_documento_original)
      #print("len(lista_pos_documento_original):",len(lista_pos_documento_original))

      # Calcula a coerencia do documento
      # Retorna os dados tratados do documento
      doc_original_tratado = dadosTratadoCorpus([documento_original],filtro_palavra)
      # print("doc_original_tratado:",doc_original_tratado)
      # print("corpus_tratado:",corpus_tratado)

      coherence_model_valor_u_uci_orig, coherence_model_valor_c_npmi_orig, coherence_model_valor_c_v_orig, coherence_model_valor_c_umass_orig = getCoerenciasTopica(corpus_tratado, doc_original_tratado, tamanho_janela)

      # Recupera o id do documento Perturbado
      id_documento_perturbado = linha_documento[5]
      # print("id_documento_perturbado:",id_documento_perturbado)
      lista_sentenca_documento_perturbado = linha_documento[6]
      #print("lista_sentenca_documento_perturbado:",lista_sentenca_documento_perturbado)
      #print("len(lista_sentenca_documento_perturbado):",len(lista_sentenca_documento_perturbado))
      # Recupera o documento Perturbado
      documento_perturbado = linha_documento[7]
      #print("documento_perturbado:",documento_perturbado)
      # Recupera os tokens do documento perturbado
      lista_tokens_documento_perturbado = linha_documento[8]
      #print("lista_tokens_documento_perturbado:",lista_tokens_documento_perturbado)
      #print("len(lista_tokens_documento_perturbado):",len(lista_tokens_documento_perturbado))
      # Recupera o postagging do documento original
      lista_pos_documento_perturbado = linha_documento[9]
      #print("lista_pos_documento_perturbado:",lista_pos_documento_perturbado)
      #print("len(lista_pos_documento_perturbado):",len(lista_pos_documento_perturbado))

      # Calcula a coerencia do documento
      # Retorna os dados tratados do documento
      doc_perturbado_tratado = dadosTratadoCorpus([documento_perturbado],filtro_palavra)

      # print("doc_perturbado_tratado:",doc_perturbado_tratado)
      coherence_model_valor_u_uci_pert, coherence_model_valor_c_npmi_pert, coherence_model_valor_c_v_pert, coherence_model_valor_c_umass_pert = getCoerenciasTopica(corpus_tratado,doc_perturbado_tratado, tamanho_janela)

      # Verifica a medida de coerência u_uci das sentenças do documento original com as sentenças do documento pertubado.
      # Quanto menor o valor de Ceuc mais as documentos do documentos são coerentes
      if coherence_model_valor_u_uci_orig >= coherence_model_valor_u_uci_pert:
          conta_coherence_model_valor_u_uci = conta_coherence_model_valor_u_uci + 1

      # Verifica a medida de coerência c_npmi das sentenças do documento original com as sentenças do documento pertubado.
      # Quanto menor o valor de Ceuc mais as documentos do documentos são coerentes
      if coherence_model_valor_c_npmi_orig >= coherence_model_valor_c_npmi_pert:
          conta_coherence_model_valor_c_npmi = conta_coherence_model_valor_c_npmi + 1

      # Verifica a medida de coerência c_v das sentenças do documento original com as sentenças do documento pertubado.
      # Quanto maior o valor de coherence_model_valor_c_v_orig mais as documentos do documentos são coerentes
      if coherence_model_valor_c_v_orig >= coherence_model_valor_c_v_pert:
          conta_coherence_model_valor_c_v = conta_coherence_model_valor_c_v + 1

      # Verifica a medida de coerência c_umass das sentenças do documento original com as sentenças do documento pertubado.
      # Quanto menor o valor de Ceuc mais as documentos do documentos são coerentes
      if coherence_model_valor_c_umass_orig >= coherence_model_valor_c_umass_pert:
          conta_coherence_model_valor_c_umass = conta_coherence_model_valor_c_umass + 1

      # Guarda as medidas em uma lista para salvar em arquivo
      # Guarda as medidas dos documentos originais
      lista_medidas_documentos_salvar.append([id_documento_original,
                                              coherence_model_valor_u_uci_orig,
                                              coherence_model_valor_c_npmi_orig,
                                              coherence_model_valor_c_v_orig,
                                              coherence_model_valor_c_umass_orig
                                              ])
      # Guarda as medidas dos documentos perturbados
      lista_medidas_documentos_salvar.append([id_documento_perturbado,
                                              coherence_model_valor_u_uci_pert,
                                              coherence_model_valor_c_npmi_pert,
                                              coherence_model_valor_c_v_pert,
                                              coherence_model_valor_c_umass_pert])

  logging.info("Total de Pares : {}.".format(str(conta)))

  if model_args.use_wandb:
       wandb.log({'pares_doc': conta})

  logging.info("Pares Corretos u_uci {}.".format(str(conta_coherence_model_valor_u_uci)))
  acuracia_u_uci = float(conta_coherence_model_valor_u_uci)/float(conta)
  logging.info("Acurácia: {}.".format(str(acuracia_u_uci*100)))

  if model_args.use_wandb:
    wandb.log({'acuracia_u_uci': acuracia_u_uci})

  logging.info("Pares Corretos c_npmi {}.".format(str(conta_coherence_model_valor_c_npmi)))
  acuracia_c_npmi = float(conta_coherence_model_valor_c_npmi)/float(conta)
  logging.info("Acurácia: {}.".format(str(acuracia_c_npmi*100)))

  if model_args.use_wandb:
    wandb.log({'acuracia_c_npmi': acuracia_c_npmi})

  logging.info("Pares Corretos c_v: {}.".format(str(conta_coherence_model_valor_c_v)))
  acuracia_c_v = float(conta_coherence_model_valor_c_v)/float(conta)
  logging.info("Acurácia: {}.".format(str(acuracia_c_v*100)))

  if model_args.use_wandb:
    wandb.log({'acuracia_c_v': acuracia_c_v})

  logging.info("Pares Corretos u_mass {}.".format(str(conta_coherence_model_valor_c_umass)))
  acuracia_c_umass = float(conta_coherence_model_valor_c_umass)/float(conta)
  logging.info("Acurácia: {}.".format(str(acuracia_c_umass*100)))

  if model_args.use_wandb:
    wandb.log({'acuracia_c_umass': acuracia_c_umass})

  logging.info("TERMINADO!")

  del lista_documentos_agrupados_bar

  return lista_medidas_documentos_salvar, conta, acuracia_u_uci, conta_coherence_model_valor_u_uci, acuracia_c_npmi, conta_coherence_model_valor_c_npmi, acuracia_c_v, conta_coherence_model_valor_c_v, acuracia_c_umass, conta_coherence_model_valor_c_umass

### 5.4.4 Salvando os resultados

#### Salvando o resultado da medição

In [None]:
def salvaResultadoMedicao(lista_medidas_documentos_salvar):

  if model_args.salvar_medicao:

    # Import das bibliotecas.
    import os
    import datetime

    # Recupera a hora do sistema.
    data_e_hora = datetime.datetime.now()

    FILTRO_PALAVRA = '_tap' # Todas as palavras
    if model_args.filtro_palavra == 1:
      FILTRO_PALAVRA = '_ssw'  # Sem stopwords
    else:
      if model_args.filtro_palavra == 2:
        FILTRO_PALAVRA = '_svs'  # Somente verbos(e auxiliares) e substantivos
      else:
        if model_args.filtro_palavra == 3:
          FILTRO_PALAVRA = '_sp_tap'  # Todas as palavras e sem pontuação
        else:
          if model_args.filtro_palavra == 4:
            FILTRO_PALAVRA = '_sp_ssw'  # Sem stopwords e substantivos e sem pontuação
          else:
            if model_args.filtro_palavra == 5:
              FILTRO_PALAVRA = '_sp_svs'  # Somente verbos(e auxiliares) e substantivos e sem pontuação

    # Contatena os parâmetros que forma o nome do arquivo medição
    NOME_ARQUIVO_MEDICAO = NOME_BASE_SAIDA + "_P_" + str(model_args.documentos_perturbados) + "_K_" + str(model_args.top_k_predicao) + "_TJ_" + str(model_args.tamanho_janela) + FILTRO_PALAVRA

    # Diretório do drive do arquivo
    DIRETORIO_MEDICAO_DRIVE = DIRETORIO_DRIVE + "validacao_medicao_topico_palavra/Medicao/"

    # Diretório local para salvar o arquivo
    DIRETORIO_MEDICAO_LOCAL = DIRETORIO_LOCAL + "Medicao/"

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_MEDICAO_DRIVE):
      # Cria o diretório
      os.makedirs(DIRETORIO_MEDICAO_DRIVE)
      logging.info("Diretório criado: {}.".format(DIRETORIO_MEDICAO_DRIVE))
    else:
      logging.info("Diretório já existe: {}.".format(DIRETORIO_MEDICAO_DRIVE))

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_MEDICAO_LOCAL):
      # Cria o diretório
      os.makedirs(DIRETORIO_MEDICAO_LOCAL)
      logging.info("Diretório criado: {}.".format(DIRETORIO_MEDICAO_LOCAL))
    else:
      logging.info("Diretório já existe: {}.".format(DIRETORIO_MEDICAO_LOCAL))

    # Caminho completo do arquivo compactado no drive
    NOME_ARQUIVO_MEDICAO_DRIVE_COMPACTADO = DIRETORIO_MEDICAO_DRIVE + NOME_ARQUIVO_MEDICAO + ".zip"
    # print("NOME_ARQUIVO_MEDICAO_DRIVE_COMPACTADO:", NOME_ARQUIVO_MEDICAO_DRIVE_COMPACTADO)

    # Caminho completo do arquivo compactado no local
    NOME_ARQUIVO_MEDICAO_LOCAL_COMPACTADO = DIRETORIO_MEDICAO_LOCAL + NOME_ARQUIVO_MEDICAO + ".zip"
    # print("NOME_ARQUIVO_MEDICAO_LOCAL_COMPACTADO:", NOME_ARQUIVO_MEDICAO_LOCAL_COMPACTADO)

    # Caminho completo do arquivo no local
    NOME_ARQUIVO_MEDICAO_LOCAL = DIRETORIO_MEDICAO_LOCAL + NOME_ARQUIVO_MEDICAO + ".csv"
    # print("NOME_ARQUIVO_MEDICAO_LOCAL:", NOME_ARQUIVO_MEDICAO_LOCAL)

    # Gera todo o conteúdo a ser salvo no arquivo
    novo_conteudo = ''
    for resultado in lista_medidas_documentos_salvar:
      novo_conteudo = novo_conteudo + data_e_hora.strftime('%d/%m/%Y %H:%M') + ';'  + str(resultado[0]) + ';'  + str(resultado[1]) + ';'  + str(resultado[2]) + ';'  + str(resultado[3]) + ';' + str(resultado[4]) + '\n'

    # Verifica se o arquivo existe.
    if os.path.isfile(NOME_ARQUIVO_MEDICAO_DRIVE_COMPACTADO):
      # Copia arquivo da medição compactado do google drive para o drive local
      !cp "$NOME_ARQUIVO_MEDICAO_DRIVE_COMPACTADO" "$NOME_ARQUIVO_MEDICAO_LOCAL_COMPACTADO"
      # Descompacta arquivo da medição compactado no drive local
      !unzip -o -j -q "$NOME_ARQUIVO_MEDICAO_LOCAL_COMPACTADO" -d "$DIRETORIO_MEDICAO_LOCAL"

      logging.info("Atualizando arquivo medição: {}.".format(NOME_ARQUIVO_MEDICAO_LOCAL))
      # Abre o arquivo para leitura.
      arquivo = open(NOME_ARQUIVO_MEDICAO_LOCAL,'r')
      # Leitura de todas as linhas do arquivo.
      conteudo = arquivo.readlines()
      # Conteúdo a ser adicionado.
      conteudo.append(novo_conteudo)

      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_MEDICAO_LOCAL,'w')
      # Escreve o conteúdo criado anteriormente nele.
      arquivo.writelines(conteudo)
      # Fecha o arquivo.
      arquivo.close()

      # Compacta o arquivo da medição
      !zip -o -q -j "$NOME_ARQUIVO_MEDICAO_LOCAL_COMPACTADO" "$NOME_ARQUIVO_MEDICAO_LOCAL"
      # Copia o arquivo da medição compactado para o drive
      !cp "$NOME_ARQUIVO_MEDICAO_LOCAL_COMPACTADO" "$NOME_ARQUIVO_MEDICAO_DRIVE_COMPACTADO"

    else:
      logging.info("Criando arquivo medição: {}.".format(NOME_ARQUIVO_MEDICAO_LOCAL))
      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_MEDICAO_LOCAL,'w')
      arquivo.writelines('data;arquivo;c_uci;c_npmi;c_v;c_umass\n' + novo_conteudo)  # escreva o conteúdo criado anteriormente nele.
      # Fecha o arquivo.
      arquivo.close()

      # Compacta o arquivo da medição
      !zip -o -q -j "$NOME_ARQUIVO_MEDICAO_LOCAL_COMPACTADO" "$NOME_ARQUIVO_MEDICAO_LOCAL"
      # Copia o arquivo da medição compactado para o drive
      !cp "$NOME_ARQUIVO_MEDICAO_LOCAL_COMPACTADO" "$NOME_ARQUIVO_MEDICAO_DRIVE_COMPACTADO"

#### Salvando o resultado da avaliação

In [None]:
def salvaResultadoAvaliacao(tempo_total_processamento,
                            conta,
                            acuracia_u_uci,
                            conta_coherence_model_valor_u_uci,
                            acuracia_c_npmi,
                            conta_coherence_model_valor_c_npmi,
                            acuracia_c_v,
                            conta_coherence_model_valor_c_v,
                            acuracia_c_umass,
                            conta_coherence_model_valor_c_umass):

  if model_args.salvar_avaliacao:

    # Import das bibliotecas.
    import os

    # Recupera a hora do sistema.
    data_e_hora = datetime.datetime.now()

    FILTRO_PALAVRA = '_tap' # Todas as palavras
    if model_args.filtro_palavra == 1:
      FILTRO_PALAVRA = '_ssw'  # Sem stopwords
    else:
      if model_args.filtro_palavra == 2:
        FILTRO_PALAVRA = '_svs'  # Somente verbos(e auxiliares) e substantivos
      else:
        if model_args.filtro_palavra == 3:
          FILTRO_PALAVRA = '_sp_tap'  # Todas as palavras e sem pontuação
        else:
          if model_args.filtro_palavra == 4:
            FILTRO_PALAVRA = '_sp_ssw'  # Sem stopwords e substantivos e sem pontuação
          else:
            if model_args.filtro_palavra == 5:
              FILTRO_PALAVRA = '_sp_svs'  # Somente verbos(e auxiliares) e substantivos e sem pontuação

    # Nome arquivo resultado
    NOME_ARQUIVO_AVALIACAO = NOME_BASE_SAIDA + "_P_" + str(model_args.documentos_perturbados) + "_K_" + str(model_args.top_k_predicao) + "_TJ_" + str(model_args.tamanho_janela) + FILTRO_PALAVRA

    # Diretório para salvar o arquivo de resultado.
    DIRETORIO_AVALIACAO = "/content/drive/MyDrive/Colab Notebooks/Data/" + DIRETORIO_COHEBERT + "/validacao_medicao_topico_palavra/Avaliacao/"

    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_AVALIACAO):
      # Cria o diretório
      os.makedirs(DIRETORIO_AVALIACAO)
      logging.info("Diretório criado: {}.".format(DIRETORIO_AVALIACAO))
    else:
      logging.info("Diretório já existe: {}.".format(DIRETORIO_AVALIACAO))

    # Nome do arquivo a ser aberto.
    NOME_ARQUIVO_AVALIACAO_COMPLETO = DIRETORIO_AVALIACAO + NOME_ARQUIVO_AVALIACAO + '.csv'

    # Conteúdo a ser adicionado.
    novo_conteudo = (NOME_ARQUIVO_AVALIACAO + ';' +
                     data_e_hora.strftime('%d/%m/%Y %H:%M') + ';' +
                     tempo_total_processamento + ';' +
                     str(conta) + ';' +
                     str(acuracia_u_uci) + ';' +
                     str(conta_coherence_model_valor_u_uci) + ';' +
                     str(acuracia_c_npmi) + ';' +
                     str(conta_coherence_model_valor_c_npmi) + ";" +
                     str(acuracia_c_v) + ';' +
                     str(conta_coherence_model_valor_c_v) + ';' +
                     str(acuracia_c_umass) + ';' +
                     str(conta_coherence_model_valor_c_umass) + '\n')

    # Verifica se o arquivo existe.
    if os.path.isfile(NOME_ARQUIVO_AVALIACAO_COMPLETO):
      logging.info("Atualizando arquivo resultado avaliação: {}.".format(NOME_ARQUIVO_AVALIACAO_COMPLETO))
      # Abre o arquivo para leitura.
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'r')
      # Leitura de todas as linhas do arquivo.
      conteudo = arquivo.readlines()
      # Conteúdo a ser adicionado.
      conteudo.append(novo_conteudo)

      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'w')
      # escreva o conteúdo criado anteriormente nele.
      arquivo.writelines(conteudo)
      # Fecha o arquivo.
      arquivo.close()
    else:
      logging.info("Criando arquivo resultado avaliação: {}.".format(NOME_ARQUIVO_AVALIACAO_COMPLETO))
      # Abre novamente o arquivo (escrita).
      arquivo = open(NOME_ARQUIVO_AVALIACAO_COMPLETO,'w')
      arquivo.writelines('arquivo;data;tempo;conta;c_uci;contac_uci;c_npmi;contac_npmi;c_v;contac_v;c_umass;contac_umass\n' + novo_conteudo)  # escreva o conteúdo criado anteriormente nele.
      # Fecha o arquivo.
      arquivo.close()

### 5.4.5 Função de cálculo das medidas dos documentos

In [None]:
# Import das bibliotecas.
import time
import datetime
import gc

def procedimentoCalculaMedida(tamanho_janela, filtro_palavra):

  # Seta o parâmetro do tamanho da janela
  model_args.tamanho_janela = tamanho_janela

  # Seta o parâmetro do fitro (ALL,CLEAN,VERNOUN)
  model_args.filtro_palavra = filtro_palavra

  logging.info("Processamento tamanho janela {} e filtro palavra {}.".format(tamanho_janela, FILTRO_PALAVRAS_STR[filtro_palavra]))

  # Marca o tempo de início do processamento
  tempoInicioTeste = time.time()
  logging.info("Tempo início processamento: {:} (h:mm:ss).".format(formataTempo(tempoInicioTeste)))

  # Inicializa o wandb para registro
  wandb = inicializacaoWandb()

  # Calcula as medidas dos documentos
  resultado_medida, conta, acuracia_u_uci, conta_coherence_model_valor_u_uci, acuracia_c_npmi, conta_coherence_model_valor_c_npmi, acuracia_c_v, conta_coherence_model_valor_c_v, acuracia_c_umass, conta_coherence_model_valor_c_umass = calculaMedidasDocumentos(df_corpus, lista_documentos_agrupados, wandb, tamanho_janela, filtro_palavra)

  # Pega o tempo atual menos o tempo do início do processamento.
  tempoFinalTeste = time.time()
  tempo_total_processamento = formataTempo(tempoFinalTeste - tempoInicioTeste)

  # Salva o resultado da classificação
  salvaResultadoMedicao(resultado_medida)

  # Salva o resultado da avaliação
  salvaResultadoAvaliacao(tempo_total_processamento,
                          conta,
                          acuracia_u_uci,
                          conta_coherence_model_valor_u_uci,
                          acuracia_c_npmi,
                          conta_coherence_model_valor_c_npmi,
                          acuracia_c_v,
                          conta_coherence_model_valor_c_v,
                          acuracia_c_umass,
                          conta_coherence_model_valor_c_umass)

  logging.info("  Tempo processamento: {:} (h:mm:ss).\n".format(tempo_total_processamento))

  # Finaliza o wandb
  if model_args.use_wandb:
     wandb.finish()

  # Apaga as variáveis
  del resultado_medida
  del wandb

  # Chama o coletor de lixo para esvaziar a memória
  gc.collect()

### 5.4.6 Executa o procedimento para todos os parâmetros

In [None]:
# Import das bibliotecas.
from tqdm.notebook import tqdm as tqdm_notebook

# Barra de progresso do tamanho da janela
tamanho_janela_bar = tqdm_notebook(range(TAMANHO_JANELA_INICIO,TAMANHO_JANELA_FIM+1), desc=f'Tamanho da janela', unit=f'filtro', total=TAMANHO_JANELA_FIM-TAMANHO_JANELA_INICIO)

# Percorre todos os tamanhos de janela
for tamanho_janela in tamanho_janela_bar:

  # Barra de progresso filtro (0 - ALL, 1 - CLEAN, 2 - VERBNOUN)
  filtro_palavra_bar = tqdm_notebook(enumerate(FILTRO_PALAVRAS), desc=f'Filtro palavras', unit=f'filtro', total=len(FILTRO_PALAVRAS))

  # Percorre todos formas de filtro de palavras a serem avaliados
  for filtro_palavra_i, filtro_palavra in filtro_palavra_bar:

    # Passa os parâmetros para o procedimento cálculo das medidas
    procedimentoCalculaMedida(tamanho_janela, filtro_palavra)

Tamanho da janela:   0%|          | 0/49 [00:00<?, ?filtro/s]

Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 101 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:22:50 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


ERROR:wandb.jupyter:Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mosmar-braz[0m. Use [1m`wandb login --relogin`[0m to force relogin


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:23:04.958771', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 101 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:23:14 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:23:19.308532', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.052 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.010967…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 101 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:23:27 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:23:33.782623', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 102 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:23:43 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:23:49.003053', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 102 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:23:58 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:24:06.743869', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 102 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:24:14 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:24:21.433491', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 103 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:24:30 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:24:37.915079', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 103 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:24:47 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:24:54.748146', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 103 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:25:04 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:25:12.758318', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 104 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:25:21 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:25:29.598652', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 104 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:25:39 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:25:47.671922', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 104 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:25:55 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:26:05.355383', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.051 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011087…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 105 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:26:14 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:26:22.636475', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 105 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:26:32 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:26:40.640941', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 105 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:26:50 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


VBox(children=(Label(value='Waiting for wandb.init()...\r'), FloatProgress(value=0.01666942416668462, max=1.0)…

INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:27:01.302899', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 106 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:27:09 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:27:18.322765', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 106 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:27:27 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:27:36.365654', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 106 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:27:46 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:27:56.236172', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.051 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011105…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 107 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:28:06 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:28:15.507365', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 107 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:28:25 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


VBox(children=(Label(value='Waiting for wandb.init()...\r'), FloatProgress(value=0.016671645099995656, max=1.0…

INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:28:34.879228', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.052 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011026…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 107 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:28:43 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:28:53.067278', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 108 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:29:03 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:29:12.072999', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 108 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:29:21 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:29:30.086365', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 108 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:29:39 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:29:48.951805', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 109 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:30:05 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:30:14.424305', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.052 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011013…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 109 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:30:25 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:30:33.472195', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 109 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:30:43 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:30:52.983299', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 110 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:31:03 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:31:12.994722', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 110 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:31:22 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:31:31.343896', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 110 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:31:41 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:31:50.244770', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 111 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:31:59 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:32:08.941353', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.052 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.010995…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 111 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:32:18 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:32:27.649207', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 111 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:32:37 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:32:46.680766', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.051 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011105…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 112 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:32:55 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:33:05.023204', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 112 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:33:14 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:33:24.084866', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 112 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:33:33 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:33:43.565257', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 113 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:33:52 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:34:01.850952', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 113 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:34:11 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:34:20.712146', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 113 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:34:31 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:34:40.506020', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.051 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011105…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 114 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:34:49 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:34:59.529951', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 114 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:35:10 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:35:19.736945', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 114 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:35:29 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:35:40.106537', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 115 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:35:49 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:35:59.106108', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 115 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:36:10 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:36:19.561011', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 115 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:36:29 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:36:40.418187', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.051 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011087…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 116 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:36:49 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:36:59.777494', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 116 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:37:10 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:37:20.058028', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 116 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:37:30 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:37:40.461664', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 117 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:37:49 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:38:00.023245', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 117 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:38:10 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:38:20.019285', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 117 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:38:29 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:38:40.143363', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 118 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:38:49 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:38:59.312779', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 118 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:39:10 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:39:20.046486', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 118 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:39:29 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:39:39.323225', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.008 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.071241…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 119 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:39:48 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:39:58.690459', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 119 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:40:09 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:40:18.877671', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 119 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:40:28 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:40:40.938888', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 120 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:40:50 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:41:01.612719', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 120 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:41:12 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:41:21.474689', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 120 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:41:31 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:41:41.534470', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 121 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:41:52 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:42:03.114295', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 121 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:42:14 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:42:23.518872', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 121 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:42:33 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:42:44.810663', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.051 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011105…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 122 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:42:55 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:43:05.530052', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 122 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:43:16 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:43:26.366000', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 122 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:43:35 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:43:47.962108', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 123 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:43:58 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:44:09.100258', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 123 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:44:20 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:44:30.488717', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.052 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.010954…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 123 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:44:39 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:44:52.070912', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 124 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:45:00 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:45:11.010587', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 124 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:45:22 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:45:36.332093', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 124 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:45:45 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:45:57.580789', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 125 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:46:07 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:46:17.853489', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 125 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:46:28 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:46:38.621409', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.049 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011672…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 125 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:46:47 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:46:59.857079', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 126 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:47:09 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:47:19.999368', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 126 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:47:31 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:47:42.193368', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.052 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011026…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 126 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:47:51 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:48:02.944457', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 127 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:48:12 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:48:23.287599', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 127 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:48:34 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:48:45.005505', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 127 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:48:53 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:49:05.553691', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 128 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:49:15 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:49:25.530452', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 128 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:49:36 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:49:47.616924', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 128 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:49:56 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:50:07.798278', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 129 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:50:17 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:50:27.994185', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 129 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:50:40 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:50:51.334102', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 129 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:51:00 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:51:11.881220', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.051 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011105…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 130 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:51:21 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:51:32.589537', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 130 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:51:44 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:51:54.955633', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 130 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:52:03 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:52:16.762407', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 131 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:52:27 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:52:38.183214', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 131 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:52:48 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:52:58.718911', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 131 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:53:07 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:53:19.257688', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 132 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:53:30 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:53:40.836935', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 132 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:53:51 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:54:01.948006', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.046 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.012513…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 132 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:54:10 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:54:22.569354', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 133 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:54:32 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:54:43.027223', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 133 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:54:53 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:55:04.271948', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 133 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:55:13 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:55:25.347838', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 134 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:55:37 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:55:49.122347', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 134 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:56:00 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:56:11.303577', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 134 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:56:22 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:56:34.137804', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 135 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:56:43 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:56:54.095947', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 135 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:57:05 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:57:15.165596', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 135 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:57:24 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:57:36.185980', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 136 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:57:45 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:57:56.342072', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 136 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:58:07 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:58:17.520711', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 136 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:58:26 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:58:38.701845', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 137 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:58:48 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T17:58:58.475664', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 137 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 17:59:09 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T17:59:20.120244', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 137 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 17:59:30 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T17:59:41.798294', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 138 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 17:59:51 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T18:00:02.246324', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.052 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=0.011013…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 138 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 18:00:13 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T18:00:24.210899', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 138 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 18:00:33 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T18:00:44.738142', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 139 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 18:00:54 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T18:01:04.840862', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 139 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 18:01:22 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T18:01:32.489258', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 139 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 18:01:41 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T18:01:53.063011', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 140 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 18:02:03 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T18:02:14.311103', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 140 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 18:02:25 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T18:02:35.473189', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 140 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 18:02:45 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T18:02:56.511898', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 141 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 18:03:06 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T18:03:17.130912', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 141 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 18:03:27 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T18:03:37.861077', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 141 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 18:03:47 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T18:04:01.236668', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 142 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 18:04:12 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T18:04:22.958859', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 142 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 18:04:34 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T18:04:45.067186', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 142 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 18:04:53 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T18:05:06.053263', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 143 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 18:05:18 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T18:05:28.148862', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 143 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 18:05:40 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T18:05:50.457026', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 143 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 18:05:59 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T18:06:11.838189', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 144 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 18:06:22 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T18:06:32.763822', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 144 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 18:06:43 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T18:06:53.887330', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.6
acuracia_c_umass,0.55
acuracia_c_v,0.5
acuracia_u_uci,0.6
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 144 e filtro palavra SEM_PONTUACAO_SOMENTE_VERBOS_SUBSTANTIVOS.
INFO:root:Tempo início processamento: 19314 days, 18:07:02 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<343 unique tokens: ['baseado', 'caracterizando', 'ciência', 'computação', 'dado']...> from 95 documents (total 786 corpus positions)", 'datetime': '2022-11-18T18:07:14.424011', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using 

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.65
acuracia_c_umass,0.5
acuracia_c_v,0.55
acuracia_u_uci,0.55
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


Filtro palavras:   0%|          | 0/3 [00:00<?, ?filtro/s]

INFO:root:Processamento tamanho janela 145 e filtro palavra SEM_PONTUACAO_TODAS_AS_PALAVRAS.
INFO:root:Tempo início processamento: 19314 days, 18:07:24 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<565 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 1776 corpus positions)", 'datetime': '2022-11-18T18:07:34.798016', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estim

VBox(children=(Label(value='0.001 MB of 0.001 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

0,1
acuracia_c_npmi,▁
acuracia_c_umass,▁
acuracia_c_v,▁
acuracia_u_uci,▁
do_lower_case,▁
documentos_perturbados,▁
output_hidden_states,▁
pares_doc,▁
top_k_predicao,▁

0,1
acuracia_c_npmi,0.35
acuracia_c_umass,0.35
acuracia_c_v,0.35
acuracia_u_uci,0.35
do_lower_case,True
documentos_perturbados,1
output_hidden_states,False
pares_doc,20
top_k_predicao,1


INFO:root:Processamento tamanho janela 145 e filtro palavra SEM_PONTUACAO_SEM_STOPWORDS.
INFO:root:Tempo início processamento: 19314 days, 18:07:46 (h:mm:ss).


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


INFO:root:Processando 20 pares de documentos originais e perturbados.


Documentos:   0%|          | 0/20 [00:00<?, ? documento/s]

INFO:gensim.corpora.dictionary:adding document #0 to Dictionary<0 unique tokens: []>
INFO:gensim.corpora.dictionary:built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)
INFO:gensim.utils:Dictionary lifecycle event {'msg': "built Dictionary<446 unique tokens: ['abstrato', 'baseado', 'caracterizando', 'ciência', 'computação']...> from 104 documents (total 917 corpus positions)", 'datetime': '2022-11-18T18:07:57.602416', 'gensim': '4.2.0', 'python': '3.7.15 (default, Oct 12 2022, 19:14:55) \n[GCC 7.5.0]', 'platform': 'Linux-5.10.133+-x86_64-with-Ubuntu-18.04-bionic', 'event': 'created'}
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimation:using WordOccurrenceAccumulator to estimate probabilities from sliding windows
INFO:gensim.topic_coherence.probability_estimat

# 6 Finalização

## 6.1 Tempo final de processamento



In [None]:
 # Pega o tempo atual menos o tempo do início do processamento.
final_processamento = time.time()
tempo_total_processamento = formataTempo(final_processamento - inicio_processamento)

print('')
print('  Tempo processamento:  {:} (h:mm:ss)'.format(tempo_total_processamento))


  Tempo processamento:  0:52:02 (h:mm:ss)
