<a href="https://colab.research.google.com/github/osmarbraz/exemplos_BERT/blob/main/ExemplosPrevisaoProximaPalavraBERT_pt_br.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Exemplo de Previsão da Próxima Palavra(pt-br) usando BERT Transformers by HuggingFace

## **A execução pode ser feita através do menu Ambiente de Execução opção Executar tudo.**

Exemplos de **Previsão da Próxima Palavra(pt-br)** usando **BERT** em uma sentença pelo mascaramento("[MASK]") de palavras.

**Link biblioteca Huggingface:**
https://github.com/huggingface/transformers


**Artigo original BERT Jacob Devlin:**
https://arxiv.org/pdf/1506.06724.pdf

# 0 - Preparação do ambiente
Preparação do ambiente para execução do exemplo.

##Tratamento de logs

Método para tratamento dos logs.

In [1]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)

## Identificando o ambiente Colab

Cria uma variável para identificar que o notebook está sendo executado no Google Colaboratory.

In [2]:
# Se estiver executando no Google Colaboratory
import sys

# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = "google.colab" in sys.modules

## Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [3]:
# Instala o spacy
!pip install -U spacy==2.3.5



Realiza o download e carrega os modelos necessários a biblioteca

https://spacy.io/models/pt

In [4]:
# Definição do nome do arquivo do modelo
#ARQUIVOMODELO = "pt_core_news_sm"
#ARQUIVOMODELO = "pt_core_news_md"
ARQUIVOMODELO = "pt_core_news_lg"

# Definição da versão da spaCy
#VERSAOSPACY = "-3.0.0a0"
VERSAOSPACY = "-2.3.0"

In [5]:
#Baixa automaticamente o arquivo do modelo.
#!python -m spacy download {ARQUIVOMODELO}

In [6]:
# Realiza o download do arquivo do modelo para o diretório corrente
!wget https://github.com/explosion/spacy-models/releases/download/{ARQUIVOMODELO}{VERSAOSPACY}/{ARQUIVOMODELO}{VERSAOSPACY}.tar.gz

--2022-03-10 10:00:33--  https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-2.3.0/pt_core_news_lg-2.3.0.tar.gz
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/84940268/a899e480-ab07-11ea-831b-b5aa9cc04510?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20220310%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20220310T100033Z&X-Amz-Expires=300&X-Amz-Signature=a3946766b19cbb2b7413ece20ef3281b46596d3c556da32808e20bc53f796b62&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=84940268&response-content-disposition=attachment%3B%20filename%3Dpt_core_news_lg-2.3.0.tar.gz&response-content-type=application%2Foctet-stream [following]
--2022-03-10 10:00:33--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/84940268/a

Descompacta o arquivo do modelo

In [7]:
# Descompacta o arquivo do modelo
!tar -xvf  /content/{ARQUIVOMODELO}{VERSAOSPACY}.tar.gz

pt_core_news_lg-2.3.0/
pt_core_news_lg-2.3.0/PKG-INFO
pt_core_news_lg-2.3.0/setup.py
pt_core_news_lg-2.3.0/setup.cfg
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/dependency_links.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/PKG-INFO
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/SOURCES.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/requires.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/top_level.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/not-zip-safe
pt_core_news_lg-2.3.0/pt_core_news_lg/
pt_core_news_lg-2.3.0/pt_core_news_lg/__init__.py
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/cfg
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/moves
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/model
pt_core_news_lg-2.3.0/pt_core_news_l

In [8]:
# Coloca a pasta do modelo descompactado em uma pasta de nome mais simples
!mv /content/{ARQUIVOMODELO}{VERSAOSPACY}/{ARQUIVOMODELO}/{ARQUIVOMODELO}{VERSAOSPACY} /content/{ARQUIVOMODELO}

Carrega o modelo

In [9]:
# Import das bibliotecas.
import spacy

CAMINHOMODELO = "/content/" + ARQUIVOMODELO

#nlp = spacy.load(CAMINHOMODELO)
# Necessário "tagger" para encontrar os substantivos
nlp = spacy.load(CAMINHOMODELO, disable=["tokenizer", "lemmatizer", "ner", "parser", "textcat", "custom"])

Recupera os stopwords do spaCy

In [10]:
# Recupera as stop words
spacy_stopwords = nlp.Defaults.stop_words

Lista dos stopwords

In [11]:
print("Quantidade de stopwords:", len(spacy_stopwords))

print(spacy_stopwords)

Quantidade de stopwords: 413
{'era', 'breve', 'suas', 'vai', 'diante', 'povo', 'vêm', 'cinco', 'parece', 'sexta', 'vos', 'aquela', 'fazer', 'estará', 'algumas', 'da', 'contudo', 'des', 'desde', 'obrigada', 'demais', 'deste', 'elas', 'momento', 'cujo', 'minha', 'nesse', 'tal', 'põem', 'quinze', 'fez', 'portanto', 'isso', 'fui', 'cuja', 'cima', 'coisa', 'lá', 'conhecido', 'esse', 'nem', 'cá', 'dez', 'sexto', 'outra', 'exemplo', 'fazemos', 'inicio', 'pouco', 'estou', 'apoio', 'aquilo', 'sistema', 'somos', 'este', 'à', 'sim', 'possível', 'minhas', 'seu', 'daquela', 'eventual', 'outras', 'teve', 'cento', 'até', 'pegar', 'nove', 'tem', 'pode', 'estas', 'na', 'faço', 'outros', 'pois', 'mês', 'estive', 'vezes', 'são', 'duas', 'apoia', 'fostes', 'quieta', 'aquele', 'terceiro', 'umas', 'estes', 'enquanto', 'após', 'grande', 'teus', 'maioria', 'boa', 'nossas', 'próximo', 'pelo', 'dar', 'uns', 'oitava', 'iniciar', 'forma', 'ou', 'tua', 'parte', 'sétimo', 'lado', 'desta', 'uma', 'porquanto', 'muito

## Instalação do BERT da Hugging Face

Instala a interface pytorch para o BERT by Hugging Face. 

In [12]:
# Instala a última versão da biblioteca
##!pip install transformers

# Instala uma versão específica da biblioteca
!pip install -U transformers==4.5.1



# 1 - Download do arquivo do PyTorch Checkpoint

Lista de modelos da comunidade:
* https://huggingface.co/models

Português(https://github.com/neuralmind-ai/portuguese-bert):  
* **"neuralmind/bert-base-portuguese-cased"**
* **"neuralmind/bert-large-portuguese-cased"**

In [13]:
# Import das bibliotecas.
import os

# Variável para setar o arquivo
URL_MODELO = None

# Comente uma das urls para carregar modelos de tamanhos diferentes(base/large)
# URL_MODELO do arquivo do modelo tensorflow
# arquivo menor(base) 1.1 Gbytes
#URL_MODELO = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip"

# arquivo grande(large) 3.5 Gbytes
URL_MODELO = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip"

# Se a variável foi setada
if URL_MODELO:

    # Diretório descompactação
    DIRETORIO_MODELO = "/content/modelo"

    # Recupera o nome do arquivo do modelo da URL_MODELO
    arquivo = URL_MODELO.split("/")[-1]

    # Nome do arquivo do vocabulário
    arquivo_vocab = "vocab.txt"

    # Caminho do arquivo na URL_MODELO
    caminho = URL_MODELO[0:len(URL_MODELO)-len(arquivo)]

    # Verifica se a pasta de descompactação existe na pasta corrente
    if os.path.exists(DIRETORIO_MODELO):
      print("Apagando diretório existente do modelo!")
      # Apaga a pasta e os arquivos existentes
      !rm -rf $DIRETORIO_MODELO      
    
    # Baixa o arquivo do modelo
    !wget $URL_MODELO
    # Descompacta o arquivo na pasta de descompactação
    !unzip -o $arquivo -d $DIRETORIO_MODELO

    # Baixa o arquivo do vocabulário
    # O vocabulário não está no arquivo compactado acima, mesma url mas arquivo diferente
    URL_MODELO_VOCAB = caminho + arquivo_vocab
    !wget $URL_MODELO_VOCAB
    
    # Coloca o arquivo do vocabulário no diretório de descompactação
    !mv $arquivo_vocab $DIRETORIO_MODELO
            
    # Move o arquivo para pasta de descompactação
    !mv $arquivo $DIRETORIO_MODELO
       
    print("Pasta do " + DIRETORIO_MODELO + " pronta!")
    
    # Lista a pasta corrente
    !ls -la $DIRETORIO_MODELO
else:
    print("Variável URL_MODELO não setada!")

Apagando diretório existente do modelo!
--2022-03-10 10:01:07--  https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip
Resolving neuralmind-ai.s3.us-east-2.amazonaws.com (neuralmind-ai.s3.us-east-2.amazonaws.com)... 52.219.92.34
Connecting to neuralmind-ai.s3.us-east-2.amazonaws.com (neuralmind-ai.s3.us-east-2.amazonaws.com)|52.219.92.34|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1244275810 (1.2G) [application/zip]
Saving to: ‘bert-large-portuguese-cased_pytorch_checkpoint.zip’


2022-03-10 10:01:22 (79.6 MB/s) - ‘bert-large-portuguese-cased_pytorch_checkpoint.zip’ saved [1244275810/1244275810]

Archive:  bert-large-portuguese-cased_pytorch_checkpoint.zip
  inflating: /content/modelo/config.json  
  inflating: /content/modelo/pytorch_model.bin  
--2022-03-10 10:01:39--  https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/vocab.txt
Resolving neuralmin

# 2 - Carregando o Tokenizador BERT

O tokenizador utiliza WordPiece, veja em [artigo original](https://arxiv.org/pdf/1609.08144.pdf).

Carregando o tokenizador da pasta "/content/modelo/" do diretório padrão se variável `URL_MODELO` setada.

**Caso contrário carrega da comunidade**

Por default(`do_lower_case=True`) todas as letras são colocadas para minúsculas. Para ignorar a conversão para minúsculo use o parâmetro `do_lower_case=False`. Esta opção também considera as letras acentuadas(ãçéí...), que são necessárias a língua portuguesa.

O parâmetro `do_lower_case` interfere na quantidade tokens a ser gerado a partir de um documento. Quando igual a `False` reduz a quantidade de tokens gerados.

In [14]:
# Import das bibliotecas. do tokenizador
from transformers import BertTokenizer

# Se a variável URL_MODELO foi setada
if DIRETORIO_MODELO:
    # Carregando o Tokenizador
    print("Carrgando o tokenizador BERT do diretório " + DIRETORIO_MODELO + "...")

    tokenizer = BertTokenizer.from_pretrained(DIRETORIO_MODELO, 
                                              do_lower_case=False)    
else:
    # Carregando o Tokenizador da comunidade
    print("Carregando o tokenizador da comunidade...")
    
    #tokenizer = BertTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased", do_lower_case=False)
    tokenizer = BertTokenizer.from_pretrained("neuralmind/bert-large-portuguese-cased", do_lower_case=False)

Carrgando o tokenizador BERT do diretório /content/modelo...


# 3 - Carregando o Modelo BERT(BertForMaskedLM)

Se a variável `URL_MODELO` estiver setada carrega o modelo do diretório `content/modelo`.

Caso contrário carrega da comunidade.

Carregando o modelo da pasta "/content/modelo/" do diretório padrão.

A implementação do huggingface pytorch inclui um conjunto de interfaces projetadas para uma variedade de tarefas de PNL. Embora essas interfaces sejam todas construídas sobre um modelo treinado de BERT, cada uma possui diferentes camadas superiores e tipos de saída projetados para acomodar suas tarefas específicas de PNL.

A documentação para estas pode ser encontrada em [aqui](https://huggingface.co/transformers/model_doc/bert.html##bertformaskedlm).

Por default o modelo está em modo avaliação ou seja `model.eval()`.

-----------------------

Durante a avaliação do modelo, este retorna um número de diferentes objetos com base em como é configurado na chamada do método `from_pretrained`. 

Quando definimos `output_hidden_states = True` na chamada do método `from_pretrained`, retorno do modelo possui no terceiro item os estados ocultos(**hidden_states**) de todas as camadas.  Veja a documentação para mais detalhes: https://huggingface.co/transformers/model_doc/bert.html##bertmodel

Quando **`output_hidden_states = True`** model retorna:
- outputs[0] = last_hidden_state;
- outputs[1] = pooler_output; 
- outputs[2] = hidden_states.

Quando **`output_hidden_states = False`** ou não especificado model retorna:
- outputs[0] = last_hidden_state;
- outputs[1] = pooler_output.


**ATENÇÃO**: O parâmetro ´**output_hidden_states = True**´ habilita gerar as camadas ocultas do modelo. Caso contrário somente a última camada é mantida. Este parâmetro otimiza a memória mas não os resultados.


In [15]:
# Import das bibliotecas. do Modelo
from transformers import BertForMaskedLM

# Se a variável URL_MODELO1 foi setada
if URL_MODELO:
    # Carregando o modelo
    print("Carregando o modelo BERT do diretório " + DIRETORIO_MODELO + "...")

    model = BertForMaskedLM.from_pretrained(DIRETORIO_MODELO, 
                                      output_attentions = False,
                                      output_hidden_states = True)    
else:
    # Carregando o modelo da comunidade
    print("Carregando o modelo BERT da comunidade ...")

    model = BertForMaskedLM.from_pretrained("neuralmind/bert-large-portuguese-cased", 
                                      output_attentions = False,
                                      output_hidden_states = True)## 5 - Funções auxiliares

2022-03-10 10:01:49,289 : INFO : NumExpr defaulting to 2 threads.


Carregando o modelo BERT do diretório /content/modelo...


Some weights of the model checkpoint at /content/modelo were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [16]:
model.eval()

BertForMaskedLM(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(29794, 1024, padding_idx=0)
      (position_embeddings): Embedding(512, 1024)
      (token_type_embeddings): Embedding(2, 1024)
      (LayerNorm): LayerNorm((1024,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=1024, out_features=1024, bias=True)
              (key): Linear(in_features=1024, out_features=1024, bias=True)
              (value): Linear(in_features=1024, out_features=1024, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=1024, out_features=1024, bias=True)
              (LayerNorm): LayerNorm((1024,), eps=1e-12, elementw

In [17]:
## model.to("cuda")  ## Se tiver gpu

# 4 - Funções auxiliares

https://pytorch.org/docs/stable/generated/torch.nn.functional.softmax.html

## getPrevisaoPalavraSentenca

In [18]:
# Import das bibliotecas.
import torch

def getPrevisaoPalavraSentenca(documento, model, tokenizer, top_k_predicao=5):
    """ 
      Retorna uma lista com as k previsões para a palavra mascarada no documento.
          
      Parâmetros:
        `documento` - Documento mascarado.
        `model`: um BertForMaskedLM
        `tokenizer`: um tokenizador BERT
        `top_k_predicao` - Quantidade de palavras a serem recuperadas mais próximas da máscara.

    """

    # Adiciona os tokens especiais ao documento
    documento_marcado = "[CLS] " + documento + "[SEP]"
    ##print("documento_marcado:", documento_marcado)

    # Divide as palavras em tokens
    documento_tokenizado = tokenizer.tokenize(documento_marcado)    
    ##print("documento_tokenizado:", documento_tokenizado)

    # Retorna o índice da mascara de atenção
    mascara_atencao_indice = documento_tokenizado.index("[MASK]")
    ##print("mascara_atencao_indice:", mascara_atencao_indice)

    # Mapeia os tokens em seus índices do vocabulário
    tokens_indexados = tokenizer.convert_tokens_to_ids(documento_tokenizado)
    ##print("tokens_indexados:", tokens_indexados)

    # Define índices das sentenças A e B associados à 1ª e 2ª sentença 
    segmentos_ids = [0]*len(documento_tokenizado)
    
    # Converte as entradas de lista para tensores do torch
    tokens_tensores = torch.tensor([tokens_indexados])
    segmentos_tensores = torch.tensor([segmentos_ids])

    # Se existe GPU disponível.
    #if torch.cuda.is_available():  
      # Se você tem uma GPU
      #tokens_tensores = tokens_tensores.to('cuda')
      #segmentos_tensores = segmentos_tensores.to('cuda')  
    
    # Realiza a predição dos tokens
    with torch.no_grad():
        ## Retorno de model quando ´output_hidden_states=True´ é setado:  
        ##outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        outputs = model(tokens_tensores, token_type_ids=segmentos_tensores)

        ## Recupera a predição com os embeddings da última camada oculta    
        predicao = outputs[0]
    
    # Normaliza os pesos das predições nos embeddings e calcula sua probabilidade
    probabilidades = torch.nn.functional.softmax(predicao[0, mascara_atencao_indice], dim=-1)    
    # Retorna os k maiores elementos de determinado tensor de entrada ao longo de uma determinada dimensão de forma ordenada descrescentemente.
    top_k_predicao_pesos, top_k_predicao_indices = torch.topk(probabilidades, top_k_predicao, sorted=True)
    # Converte os ids para os tokens do vocabulário
    tokens_predicao = tokenizer.convert_ids_to_tokens([ind.item() for ind in top_k_predicao_indices])

    # Retorna a predição e a probabilidade      
    return list(zip(tokens_predicao, probabilidades))[:top_k_predicao]        

## getPredicaoTexto

In [19]:
def getPredicaoTexto(texto, model, tokenizer, topk=10):
  """
    Encontra as melhores predições correspondentes para a palavra mascarada
    
    `model`: um BertForMaskedLM
    `tokenizer`: um tokenizer Bert
    `topK`: Número de predições para máscara

    Retorna as predições e seus probabilidades
  """
  # Prepara o texto
  texto = '[CLS] '+ texto.lstrip('[CLS] ').rstrip(' [SEP]')+' [SEP]'
  
  # Tokeniza entrada
  texto_tokenizado = tokenizer.tokenize(texto)

  # Mascarara um token que tentaremos prever com `BertForMaskedLM`
  masked_index = -1
  for i, token in enumerate(texto_tokenizado):
    if token=='[MASK]':
      masked_index = i
      break
  assert i>=0

  # Converte o token para um índice no vocabulário
  indexed_tokens = tokenizer.convert_tokens_to_ids(texto_tokenizado)
  # Definie índices das sentenças A e B associados à 1ª e 2ª sentença 
  segments_ids = [0]*len(texto_tokenizado)

  # Converte as entradas em  tesores PyTorch
  tokens_tensor = torch.tensor([indexed_tokens])
  segments_tensors = torch.tensor([segments_ids])  

  # Se você tem uma GPU
  tokens_tensor = tokens_tensor.to('cuda')
  segments_tensors = segments_tensors.to('cuda')  

  # Predição dos tokens
  with torch.no_grad():
      outputs = model(tokens_tensor, token_type_ids=segments_tensors)
      predictions = outputs[0]
  
  # print("Predictions shape: " + str(predictions[0].shape))
  predicted_inds = torch.argsort(-predictions[0, masked_index])
  predicted_probs = [round(p.item(),4) for p in torch.softmax(predictions[0, masked_index], 0)[predicted_inds]]
  predicted_tokens = tokenizer.convert_ids_to_tokens([ind.item() for ind in predicted_inds])
  
  return list(zip(predicted_tokens, predicted_probs))[:topn]

## contaElemento

In [20]:
def contaElemento(lista, elemento):
    """ 
      Conta o número de ocorrências do elemento na lista.
          
      Parâmetros:
        `lista` - Lista com os elementos.
        `elemento` - Elemento a ser contado a ocorrência na lista.

      Retorno:    
        `cont` - Quantidade de ocorrências de elmento na lista.
    """
    cont = 0
    # Percorre a lista
    for i, linha in enumerate(lista):      
      # Verifica se o elemento existe na lista
      if linha in elemento:
        # conta o elemento
        cont = cont + 1
    return cont

## getSentencaMascarada

In [21]:
# Import das bibliotecas..
from random import randint ## Biblioteca para o sorteio

def getSentencaMascarada(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1):
  """ 
      Gera a sentença mascarada com [MAKS] para usar com MLM do BERT.
      Considera determinadas classes morfossintática das palavras e uma quantidade(qtde) de palavras a serem mascaradas.
          
      Parâmetros:
        `sentenca` - Sentença a ser mascarada.
        `sentenca_token` - Lista com os tokens da sentença.
        `sentenca_pos` - Lista com as POS dos tokens da sentença.
        `classe` - Lista com as classes morfossintática das palavras a serem mascarada com [MASK].
        `qtde` - Quantidade de mascarada a serem realizadas nas palavras das sentenças.
                 Seleciona aleatoriamente a(s) palavra(s) a ser(em) mascarada(s) se a qtde 
                 for menor que quantidade de palavras das classes na sentença.

      Retorno:    
        `sentenca_mascarada` - Sentença mascarada.
        `palavra_mascarada` - Lista com as palavras substituidas pela máscara.

  """
  sentenca_mascarada = ""
  palavra_mascarada = ""

  # Verifica a quantidade de trocas a ser realizada
  if qtde != 0:

    # Conta o número de palavras das classes especificadas
    if len(classe) > 1:
      # Se tem duas classes usa a primeira para contar se existe uma palavra
      # Pega o primeiro para realizar a conta
      classeConta = [classe[0]]
      contaMascara = contaElemento(sentenca_pos, classeConta)
      
      # Senão encontrar pega a segunda classe
      if contaMascara == 0:
        # Pega a segunda classe
        classeConta = [classe[1]]
        contaMascara = contaElemento(sentenca_pos, classeConta)

        # Senão encontrar pega a terceira classe
        if contaMascara == 0:
          ##Pega a terceira classe
          classeConta = [classe[2]]
          contaMascara = contaElemento(sentenca_pos, classeConta) 
      
      # Usa a classe para gerar a sentença mascarada
      classe = classeConta
    else:
      contaMascara = contaElemento(sentenca_pos, classe)
    
    # Verifica se existe palavras das classes a serem mascaradas
    if contaMascara != 0:    
      # Verifica a quantidade de trocas é menor que a quantidade palavras a serem trocadas encontradas
      if qtde < contaMascara:
        # A quantidade de trocas é menor que a quantidade de palavras existentes
        # Precisa sortear as posições que serão trocadas pela máscara dentro da quantidade
               
        roleta = []
        # preenche a roleta com o indice das palavras as serem mscaradas
        for i in range(contaMascara):
            roleta.append(i)

        # Sorteia as posições das trocas
        posicao = []
        for i in range(qtde):
            posicao_sorteio = randint(0, len(roleta)-1)
            ## Guarda o número sorteado
            posicao.append(roleta[posicao_sorteio])
            ## Remove o elemento sorteado da roleta
            del roleta[posicao_sorteio]
        
        # Conta o número das trocas realizadas
        troca = 0

        # Substitui o elemento pela máscara
        for i, token in enumerate(sentenca_token):            
            # Se a classe da palavra é a desejada
            if sentenca_pos[i] in classe:
                # Verifica se a troca deve ser realizada para a posição
                if troca in posicao:      
                  # Trocar palavra da classe por [MASK]
                  sentenca_mascarada = sentenca_mascarada + "[MASK]" + " "    
                  # Guarda a palavra que foi mascarada
                  palavra_mascarada = token                                  
                else:                  
                  # Adiciona o token
                  sentenca_mascarada = sentenca_mascarada + token + " "
                # Avança para a próxima troca
                troca = troca + 1
            else:
              # Adiciona o token
                sentenca_mascarada = sentenca_mascarada + token + " "
      else:        
        # Trocar todas as palavras pela mascará, pois a quantidade
        # de trocas é igual a quantidade de mascarás existentes na sentença

        # Substitui o elemento da classe pela mascará
        for i, token in enumerate(sentenca_token):
            #print(token, sentenca_pos[i])        
            # Se a classe da palavra é a desejada
            if sentenca_pos[i] in classe:
                # Trocar palavra da classe por [MASK]
                sentenca_mascarada = sentenca_mascarada + "[MASK]" + " "    
                # Guarda a palavra que foi mascarada
                palavra_mascarada = token 
            else:
                sentenca_mascarada = sentenca_mascarada + token + " "
    else:
      # Não existe palavras da classe especificada      
      print("Não existe palavras da classe especificada.")
      sentenca_mascarada = sentenca    
  else:
    # Quantidade trocas igual a 0
    print("Não foi especificado uma quantidade de trocas.")
    sentenca_mascarada = sentenca

  # Retira o espaço em branco do início e fim da sentença
  sentenca_mascarada = sentenca_mascarada.strip(" ")

  return sentenca_mascarada, palavra_mascarada

## getPerturbacaoPalavraSentenca

In [22]:
# Import das bibliotecas
import torch
from random import randint ## Biblioteca para o sorteio

def getPerturbacaoPalavraSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 500):
    """ 
        Gera a palavras da perturbação da sentença.
        Considera determinadas classes morfossintática das palavras.
            
        Parâmetros:
          `sentenca` - Sentença a ser mascarada.
          `sentenca_token` - Lista com os tokens da sentença.
          `sentenca_pos` - Lista com as POS dos tokens da sentença.
          `classe` - Lista com as classes morfossintática das palavras a serem mascarada com [MASK].
          `qtde` - Quantidade de mascarada a serem realizadas nas palavras das sentenças.
                  Seleciona aleatoriamente a(s) palavra(s) a ser(em) mascarada(s) se a qtde 
                  for menor que quantidade de palavras das classes na sentença.          
          `top_k_predicao` - Quantidade de palavras a serem recuperadas mais próximas da máscara.

        Retorno:    
          `sentenca_mascarada` - Sentença mascarada.
          `palavra_mascarada` - Palavra substituídas pela máscara.
          `token_predito` - Palavra prevista para a máscara.
          `peso_predito` - Peso da palavra prevista.
          `posicao_sorteio` - Posição da palavra prevista na lista de previsões.
          `lista_previsoes` - Lista dos 'top_k_predicao' tokens preditos para a máscara.
    """

    #print("Sentença original:", sentenca)
    sentenca_mascarada, palavra_mascarada = getSentencaMascarada(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1)
    
    # Adiciona os tokens especiais ao sentenca
    sentenca_marcado = "[CLS] " + sentenca_mascarada + "[SEP]"
    #print("sentenca_marcado:", sentenca_marcado)

    # Divide as palavras em tokens
    sentenca_tokenizado = tokenizer.tokenize(sentenca_marcado)    
    #print("sentenca_tokenizado:", sentenca_tokenizado)

    # Retorna o índice da mascara de atenção
    mascara_atencao_indice = sentenca_tokenizado.index("[MASK]")
    #print("mascara_atencao_indice:", mascara_atencao_indice)

    # Mapeia os tokens em seus índices do vocabulário
    tokens_indexados = tokenizer.convert_tokens_to_ids(sentenca_tokenizado)
    #print("tokens_indexados:", tokens_indexados)
    
    # Converte as entradas de lista para tensores do torch
    tokens_tensores = torch.tensor([tokens_indexados])
    
    # Realiza a predição dos tokens
    with torch.no_grad():
        # Retorno de model quando ´output_hidden_states=True´ é setado:  
        #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        outputs = model(tokens_tensores)

    # Recupera a predição com os embeddings da última camada oculta    
    predicao = outputs[0]
    
    # Normaliza os pesos das predições nos embeddings e calcula sua probabilidade
    probabilidades = torch.nn.functional.softmax(predicao[0, mascara_atencao_indice], dim=-1)    
    # Retorna os k maiores elementos de determinado tensor de entrada ao longo de uma determinada dimensão de forma ordenada descrescentemente.
    
    # Se existe mais de uma top_k_predição    
    if top_k_predicao != 1:

      # Recupera as top_k_predicao predições em ordem de orobabilidades
      top_k_predicao_pesos, top_k_predicao_indices = torch.topk(probabilidades, top_k_predicao, sorted=True)
      #print("top_k_predicao_pesos:",top_k_predicao_pesos)
      #print("top_k_predicao_indices:",top_k_predicao_indices)
      #print("len(top_k_predicao_indices):",len(top_k_predicao_indices))

      # Sorteia uma predição do intervalo
      posicao_sorteio = randint(0, top_k_predicao-1)    
      #print("posicao_sorteio:",posicao_sorteio)

      # Recupera as predições    
      # Mapeia os índices do vocabulário para os seus tokens
      token_predito = tokenizer.convert_ids_to_tokens([top_k_predicao_indices[posicao_sorteio]])[0]
      # Recupera os pesos da predição
      peso_predito = top_k_predicao_pesos[posicao_sorteio]
      #print((posicao_sorteio+1), "[MASK]: ", token_predito, " | peso:", float(peso_predito))
           
      # Se o token previsto for igual a palavra que foi substituída pela máscara ou desconhecida ([UNK]) sorteia outra palavra
      while (palavra_mascarada.lower() == token_predito.lower()) or (token_predito == "[UNK]"):
          # Sorteia uma predição do intervalo
          posicao_sorteio = randint(0, top_k_predicao-1)    
          #print("posicao_sorteio:",posicao_sorteio)

          # Recupera as predições    
          # Mapeia os índices do vocabulário para os seus tokens
          token_predito = tokenizer.convert_ids_to_tokens([top_k_predicao_indices[posicao_sorteio]])[0]
          # Recupera os pesos da predição
          peso_predito = top_k_predicao_pesos[posicao_sorteio]
          #print((posicao_sorteio+1), "[MASK]: ", token_predito, " | peso:", float(peso_predito))
    
    else:
      # Se existe somente uma predição, esta não pode ser igual a palavra mascarada,
      # portanto é necessário aumentar a quantidade de top_k predições para gerar uma predição diferente 
      # da palavra mascarada.
              
      # Recupera as top_k_predicao predições em ordem de orobabilidades
      top_k_predicao_pesos, top_k_predicao_indices = torch.topk(probabilidades, top_k_predicao, sorted=True)
      #print("top_k_predicao_pesos:",top_k_predicao_pesos)
      #print("top_k_predicao_indices:",top_k_predicao_indices)
      #print("len(top_k_predicao_indices):",len(top_k_predicao_indices))

      # Sorteia uma predição do intervalo
      posicao_sorteio = randint(0, top_k_predicao-1)    
      #print("posicao_sorteio:",posicao_sorteio)

      # Recupera as predições    
      # Mapeia os índices do vocabulário para os seus tokens
      token_predito = tokenizer.convert_ids_to_tokens([top_k_predicao_indices[posicao_sorteio]])[0]
      # Recupera os pesos da predição
      peso_predito = top_k_predicao_pesos[posicao_sorteio]
      ##print((posicao_sorteio+1), "[MASK]: ", token_predito, " | peso:", float(peso_predito))

      # Se o token previsto for igual a palavra que foi substituída pela máscara ou desconhecida ([UNK]) sorteia outra palavra
      while (palavra_mascarada.lower() == token_predito.lower()) or (token_predito == "[UNK]"):
          
          # Incrementa a quantidade de predições para pegar uma palavra diferente
          top_k_predicao = top_k_predicao + 1

          # Recupera as top_k_predicao + 1 predições em ordem de orobabilidades
          top_k_predicao_pesos, top_k_predicao_indices = torch.topk(probabilidades, top_k_predicao, sorted=True)
          #print("top_k_predicao_pesos:",top_k_predicao_pesos)
          #print("top_k_predicao_indices:",top_k_predicao_indices)
          #print("len(top_k_predicao_indices):",len(top_k_predicao_indices))

          # Sorteia uma predição do intervalo
          posicao_sorteio = randint(0, top_k_predicao-1)    
          #print("posicao_sorteio:",posicao_sorteio)

          # Recupera as predições    
          # Mapeia os índices do vocabulário para os seus tokens
          token_predito = tokenizer.convert_ids_to_tokens([top_k_predicao_indices[posicao_sorteio]])[0]
          # Recupera os pesos da predição
          peso_predito = top_k_predicao_pesos[posicao_sorteio]
          #print((posicao_sorteio+1), "[MASK]: ", token_predito, " | peso:", float(peso_predito))

    if "##" in token_predito:      
      # Remove "##" do token
      token_predito = token_predito[2:]

    # Lista das predições
    lista_predicoes = []
    for i, indicePredicao in enumerate(top_k_predicao_indices):
        # Mapeia os índices do vocabulário para os seus tokens
        token_predito1 = tokenizer.convert_ids_to_tokens([indicePredicao])[0]
        peso_predito1 = top_k_predicao_pesos[i]
        lista_predicoes.append([(i+1), token_predito1, float(peso_predito1)])        
      
    return sentenca_mascarada, palavra_mascarada, token_predito, peso_predito, posicao_sorteio, lista_predicoes

## getPerturbacaoSentenca

In [23]:
def getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 500):

  """ 
      Gera a sentença com a perturbação.
      Considera determinadas classes morfossintática das palavras.
          
      Parâmetros:
        `sentenca` - Sentença a ser mascarada.
        `sentenca_token` - Lista com os tokens da sentença.
        `sentenca_pos` - Lista com as POS dos tokens da sentença.
        `classe` - Lista com as classes morfossintática das palavras a serem mascarada com [MASK].
        `qtde` - Quantidade de mascarada a serem realizadas nas palavras das sentenças.
                Seleciona aleatoriamente a(s) palavra(s) a ser(em) mascarada(s) se a qtde 
                for menor que quantidade de palavras das classes na sentença.
        `top_k_predicao` - Quantidade de palavras a serem recuperadas mais próximas da máscara.                

      Retorno:    
        `sentencaPerturbada` - Sentença com a perturbação.
        `sentenca_mascarada` - Sentença mascarada.
        `palavra_mascarada` - Palavra substituídas pela máscara.
        `token_predito` - Palavra prevista para a máscara.
        `lista_predicoes` - Lista dos tokens preditos para a máscara.
        
  """

  # Recupera a sentença mascarada e o token pervisto
  sentenca_mascarada, palavra_mascarada, token_predito, peso_predito, posicao_sorteio, lista_predicoes = getPerturbacaoPalavraSentenca(sentenca, sentenca_token, sentenca_pos, classe, qtde, top_k_predicao)
  
  # Se existir o token especial [MASK]
  if "[MASK]" in sentenca_mascarada:
    
      # Substituir a mascará pelo token predito
      sentencaPerturbada = sentenca_mascarada.replace("[MASK]", token_predito)
  
  return sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes

# 5 - Exemplo MLM previsão da próxima palavra utilizando BERT


## Exemplo 1

In [24]:
sentenca = "O carro bateu no [MASK]."

predicao = getPrevisaoPalavraSentenca(sentenca, model, tokenizer, top_k_predicao=10)

# Mostra as predições
for i, pred in enumerate(predicao):  
  print((i+1), "[MASK]: ", pred[0], " | peso:", float(pred[1]))

1 [MASK]:  muro  | peso: 4.5182588226388987e-10
2 [MASK]:  caminhão  | peso: 2.4644528640038743e-09
3 [MASK]:  chão  | peso: 6.678588349018355e-09
4 [MASK]:  outro  | peso: 1.8935816470389e-08
5 [MASK]:  solo  | peso: 5.996518837037002e-10
6 [MASK]:  ônibus  | peso: 1.0776176617710576e-09
7 [MASK]:  portão  | peso: 1.652004422147968e-09
8 [MASK]:  buraco  | peso: 1.9418939789517253e-09
9 [MASK]:  carro  | peso: 1.0278071727043425e-09
10 [MASK]:  rio  | peso: 6.40853758948623e-10


In [25]:
sentenca = "O dia está [MASK]."

predicao = getPrevisaoPalavraSentenca(sentenca, model, tokenizer, top_k_predicao=10)

# Mostra as predições
for i, pred in enumerate(predicao):  
  print((i+1), "[MASK]: ", pred[0], " | peso:", float(pred[1]))

1 [MASK]:  claro  | peso: 7.235604893018888e-10
2 [MASK]:  quente  | peso: 8.349793079176493e-10
3 [MASK]:  chegando  | peso: 9.905705589119407e-09
4 [MASK]:  escuro  | peso: 1.2822188644179278e-08
5 [MASK]:  terminando  | peso: 4.522783925153817e-09
6 [MASK]:  bonito  | peso: 1.0927433180540902e-08
7 [MASK]:  frio  | peso: 2.829049883246171e-09
8 [MASK]:  bom  | peso: 1.13247122790483e-09
9 [MASK]:  longo  | peso: 2.445720292953979e-09
10 [MASK]:  triste  | peso: 6.942968422407603e-10


## Exemplo 2

In [26]:
sentenca = "O que é uma pilha e como [MASK] seu elemento?"

predicao = getPrevisaoPalavraSentenca(sentenca, model, tokenizer, top_k_predicao=10)

# Mostra as predições
for i, pred in enumerate(predicao):  
  print((i+1), "[MASK]: ", pred[0], " | peso:", float(pred[1]))

1 [MASK]:  identificar  | peso: 4.721978807964433e-09
2 [MASK]:  funciona  | peso: 9.956393931531693e-09
3 [MASK]:  localizar  | peso: 9.693104985331047e-09
4 [MASK]:  é  | peso: 4.3884318401410383e-10
5 [MASK]:  encontrar  | peso: 5.199083386031589e-09
6 [MASK]:  classificar  | peso: 2.3297774820463246e-09
7 [MASK]:  calcular  | peso: 1.52485424287363e-09
8 [MASK]:  medir  | peso: 1.6620057552430012e-09
9 [MASK]:  utilizar  | peso: 4.206092363290281e-09
10 [MASK]:  usar  | peso: 9.238469544925465e-09


## Exemplo 3

In [27]:
sentenca = "O que é uma [MASK] e como enfileirar seu elemento?"

predicao = getPrevisaoPalavraSentenca(sentenca, model, tokenizer, top_k_predicao=10)

# Mostra as predições
for i, pred in enumerate(predicao):  
  print((i+1), "[MASK]: ", pred[0], " | peso:", float(pred[1]))

1 [MASK]:  árvore  | peso: 1.1251710674287096e-09
2 [MASK]:  casa  | peso: 4.6319144075823715e-09
3 [MASK]:  pilha  | peso: 1.4019609473336914e-08
4 [MASK]:  planta  | peso: 5.9059729551336204e-08
5 [MASK]:  coleção  | peso: 3.6373306588899368e-09
6 [MASK]:  biblioteca  | peso: 2.6184823198605045e-09
7 [MASK]:  flor  | peso: 2.7822397719035052e-09
8 [MASK]:  mesa  | peso: 4.587336377426254e-08
9 [MASK]:  fonte  | peso: 8.686331653962043e-09
10 [MASK]:  caixa  | peso: 4.6432635514293e-09


## Exemplo 4

In [28]:
sentenca = "O que é uma [MASK] e como empilhar seu elemento?"

predicao = getPrevisaoPalavraSentenca(sentenca, model, tokenizer, top_k_predicao=10)

# Mostra as predições
for i, pred in enumerate(predicao):  
  print((i+1), "[MASK]: ", pred[0], " | peso:", float(pred[1]))

1 [MASK]:  árvore  | peso: 6.038710642641831e-10
2 [MASK]:  pilha  | peso: 6.6111756069631156e-09
3 [MASK]:  caixa  | peso: 9.455758842591422e-09
4 [MASK]:  coleção  | peso: 5.467271080306091e-08
5 [MASK]:  pirâmide  | peso: 2.3038668750530178e-09
6 [MASK]:  biblioteca  | peso: 2.1085495571782076e-09
7 [MASK]:  casa  | peso: 2.614829019975673e-09
8 [MASK]:  estrutura  | peso: 3.8377795164024064e-08
9 [MASK]:  planta  | peso: 6.494492055253431e-09
10 [MASK]:  mina  | peso: 4.8532520224853215e-09


# 6 - Exemplo MLM gerando sentença perturbada utilizando BERT

## Top 1 predições

### Exemplo 1

Sentença 1 verbo(VERB)

In [29]:
sentenca = "Como enfileirar elementos em uma fila?"
sentenca_token = ['Como', 'enfileirar', 'elementos', 'em', 'uma', 'fila', '?']
sentenca_pos = ['SCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 1)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como enfileirar elementos em uma fila?
sentença Perturbada: Como colocar elementos em uma fila ?
sentença Mascarada : Como [MASK] elementos em uma fila ?
palavra Mascarada  : enfileirar  substituída por:  colocar
lista predições    : 1
      1 colocar 0.19633342325687408


In [30]:
sentenca = "Como desenfileirar elementos em uma fila?"
sentenca_token = ['Como', 'desenfileirar', 'elementos', 'em', 'uma', 'fila', '?']
sentenca_pos = ['SCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 1)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como desenfileirar elementos em uma fila?
sentença Perturbada: Como colocar elementos em uma fila ?
sentença Mascarada : Como [MASK] elementos em uma fila ?
palavra Mascarada  : desenfileirar  substituída por:  colocar
lista predições    : 1
      1 colocar 0.19633342325687408


### Exemplo 2

Sentença com dois verbos (VERB)

In [31]:
sentenca = "Como empilhar e desempilhar elementos em uma estrutura de dados pilha?"
sentenca_token = ['Como', 'empilhar', 'e', 'desempilhar', 'elementos', 'em', 'uma', 'estrutura', 'de', 'dados', 'pilha', '?']
sentenca_pos = ['SCONJ', 'VERB', 'CCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'NOUN', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 1)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como empilhar e desempilhar elementos em uma estrutura de dados pilha?
sentença Perturbada: Como empilhar e organizar elementos em uma estrutura de dados pilha ?
sentença Mascarada : Como empilhar e [MASK] elementos em uma estrutura de dados pilha ?
palavra Mascarada  : desempilhar  substituída por:  organizar
lista predições    : 1
      1 organizar 0.37036749720573425


### Exemplo 3

Sentença com um substantivo(NOUN) e nenhum verbo(VERB)

In [32]:
sentenca = "Como desempilhar elementos em uma pilha?"
sentenca_token = ['Como', 'desempilhar', 'elementos', 'em', 'uma', 'pilha', '?']
sentenca_pos = ['ADP', 'NOUN', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 1)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como desempilhar elementos em uma pilha?
sentença Perturbada: Como desempilhar elementos em uma imagem ?
sentença Mascarada : Como desempilhar elementos em uma [MASK] ?
palavra Mascarada  : pilha  substituída por:  imagem
lista predições    : 1
      1 imagem 0.06406455487012863


### Exemplo 4

Sentença com um verbo(AUX) e nenhum substantivo(NOUN) e verbo(VERB)

In [33]:
## Questão do FAQUAD
sentenca = "Em que a máquina de Hollerith foi pioneira?"
sentenca_token = ['Em', 'que', 'a', 'máquina', 'de', 'Hollerith', 'foi', 'pioneira', '?']
sentenca_pos = ['ADP', 'PRON', 'DET', 'PROPN', 'ADP', 'PROPN', 'AUX', 'ADJ', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 1)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Em que a máquina de Hollerith foi pioneira?
sentença Perturbada: Em que a máquina de Hollerith é pioneira ?
sentença Mascarada : Em que a máquina de Hollerith [MASK] pioneira ?
palavra Mascarada  : foi  substituída por:  é
lista predições    : 3
      1 foi 0.7535495758056641
      2 é 0.20041899383068085
      3 era 0.024869045242667198


## Top 10 predições

### Exemplo 1

Sentença 1 verbo(VERB)

In [34]:
sentenca = "Como enfileirar elementos em uma fila?"
sentenca_token = ['Como', 'enfileirar', 'elementos', 'em', 'uma', 'fila', '?']
sentenca_pos = ['SCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 10)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como enfileirar elementos em uma fila?
sentença Perturbada: Como achar elementos em uma fila ?
sentença Mascarada : Como [MASK] elementos em uma fila ?
palavra Mascarada  : enfileirar  substituída por:  achar
lista predições    : 10
      1 colocar 0.19633342325687408
      2 identificar 0.0832662582397461
      3 encontrar 0.07717389613389969
      4 adicionar 0.06448084115982056
      5 organizar 0.0434022918343544
      6 localizar 0.02545257657766342
      7 classificar 0.02259194292128086
      8 conseguir 0.016192859038710594
      9 achar 0.01475694589316845
      10 ver 0.013046490959823132


In [35]:
sentenca = "Como desenfileirar elementos em uma fila?"
sentenca_token = ['Como', 'desenfileirar', 'elementos', 'em', 'uma', 'fila', '?']
sentenca_pos = ['SCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 10)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como desenfileirar elementos em uma fila?
sentença Perturbada: Como achar elementos em uma fila ?
sentença Mascarada : Como [MASK] elementos em uma fila ?
palavra Mascarada  : desenfileirar  substituída por:  achar
lista predições    : 10
      1 colocar 0.19633342325687408
      2 identificar 0.0832662582397461
      3 encontrar 0.07717389613389969
      4 adicionar 0.06448084115982056
      5 organizar 0.0434022918343544
      6 localizar 0.02545257657766342
      7 classificar 0.02259194292128086
      8 conseguir 0.016192859038710594
      9 achar 0.01475694589316845
      10 ver 0.013046490959823132


### Exemplo 2

Sentença com dois verbos (VERB)

In [36]:
sentenca = "Como empilhar e desempilhar elementos em uma estrutura de dados pilha?"
sentenca_token = ['Como', 'empilhar', 'e', 'desempilhar', 'elementos', 'em', 'uma', 'estrutura', 'de', 'dados', 'pilha', '?']
sentenca_pos = ['SCONJ', 'VERB', 'CCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'NOUN', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 10)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como empilhar e desempilhar elementos em uma estrutura de dados pilha?
sentença Perturbada: Como empilhar e unir elementos em uma estrutura de dados pilha ?
sentença Mascarada : Como empilhar e [MASK] elementos em uma estrutura de dados pilha ?
palavra Mascarada  : desempilhar  substituída por:  unir
lista predições    : 10
      1 organizar 0.37036749720573425
      2 distribuir 0.05518393591046333
      3 separar 0.04060429707169533
      4 mover 0.035184893757104874
      5 reunir 0.03293156996369362
      6 classificar 0.03162537142634392
      7 juntar 0.02190088853240013
      8 localizar 0.019827641546726227
      9 representar 0.01760374940931797
      10 unir 0.015663938596844673


### Exemplo 3

Sentença com um substantivo(NOUN) e nenhum verbo(VERB)

In [37]:
sentenca = "Como desempilhar elementos em uma pilha?"
sentenca_token = ['Como', 'desempilhar', 'elementos', 'em', 'uma', 'pilha', '?']
sentenca_pos = ['ADP', 'NOUN', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 10)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como desempilhar elementos em uma pilha?
sentença Perturbada: Como desempilhar elementos em uma caixa ?
sentença Mascarada : Como desempilhar elementos em uma [MASK] ?
palavra Mascarada  : pilha  substituída por:  caixa
lista predições    : 10
      1 imagem 0.06406455487012863
      2 pintura 0.042276378720998764
      3 construção 0.03596315160393715
      4 composição 0.03306559473276138
      5 peça 0.03069840371608734
      6 fotografia 0.0273173488676548
      7 cena 0.02703717350959778
      8 caixa 0.02568349987268448
      9 planta 0.022647200152277946
      10 foto 0.02039046213030815


### Exemplo 4

Sentença com um verbo(AUX) e nenhum substantivo(NOUN) e verbo(VERB)

In [38]:
## Questão do FAQUAD
sentenca = "Em que a máquina de Hollerith foi pioneira?"
sentenca_token = ['Em', 'que', 'a', 'máquina', 'de', 'Hollerith', 'foi', 'pioneira', '?']
sentenca_pos = ['ADP', 'PRON', 'DET', 'PROPN', 'ADP', 'PROPN', 'AUX', 'ADJ', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 10)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Em que a máquina de Hollerith foi pioneira?
sentença Perturbada: Em que a máquina de Hollerith parece pioneira ?
sentença Mascarada : Em que a máquina de Hollerith [MASK] pioneira ?
palavra Mascarada  : foi  substituída por:  parece
lista predições    : 10
      1 foi 0.7535495758056641
      2 é 0.20041899383068085
      3 era 0.024869045242667198
      4 seria 0.013931470923125744
      5 será 0.0020668217912316322
      6 fora 0.0012531055836007
      7 parece 0.0002694971626624465
      8 ficou 0.00018355934298597276
      9 ser 0.00016382815374527127
      10 seja 0.00016065729141701013


## Top 100 predições

### Exemplo 1

Sentença 1 verbo(VERB)

In [39]:
sentenca = "Como enfileirar elementos em uma fila?"
sentenca_token = ['Como', 'enfileirar', 'elementos', 'em', 'uma', 'fila', '?']
sentenca_pos = ['SCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 100)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como enfileirar elementos em uma fila?
sentença Perturbada: Como existem elementos em uma fila ?
sentença Mascarada : Como [MASK] elementos em uma fila ?
palavra Mascarada  : enfileirar  substituída por:  existem
lista predições    : 100
      1 colocar 0.19633342325687408
      2 identificar 0.0832662582397461
      3 encontrar 0.07717389613389969
      4 adicionar 0.06448084115982056
      5 organizar 0.0434022918343544
      6 localizar 0.02545257657766342
      7 classificar 0.02259194292128086
      8 conseguir 0.016192859038710594
      9 achar 0.01475694589316845
      10 ver 0.013046490959823132
      11 juntar 0.012261936441063881
      12 separar 0.010530253872275352
      13 incluir 0.010036105290055275
      14 procurar 0.008522171527147293
      15 reconhecer 0.008078616112470627
      16 os 0.007701365742832422
      17 escolher 0.00660884752869606
      18 obter 0.006571778561919928
      19 reunir 0.006553740706294775
      20 entrar 0.0063409367576

In [40]:
sentenca = "Como desenfileirar elementos em uma fila?"
sentenca_token = ['Como', 'desenfileirar', 'elementos', 'em', 'uma', 'fila', '?']
sentenca_pos = ['SCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 100)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como desenfileirar elementos em uma fila?
sentença Perturbada: Como escolher elementos em uma fila ?
sentença Mascarada : Como [MASK] elementos em uma fila ?
palavra Mascarada  : desenfileirar  substituída por:  escolher
lista predições    : 100
      1 colocar 0.19633342325687408
      2 identificar 0.0832662582397461
      3 encontrar 0.07717389613389969
      4 adicionar 0.06448084115982056
      5 organizar 0.0434022918343544
      6 localizar 0.02545257657766342
      7 classificar 0.02259194292128086
      8 conseguir 0.016192859038710594
      9 achar 0.01475694589316845
      10 ver 0.013046490959823132
      11 juntar 0.012261936441063881
      12 separar 0.010530253872275352
      13 incluir 0.010036105290055275
      14 procurar 0.008522171527147293
      15 reconhecer 0.008078616112470627
      16 os 0.007701365742832422
      17 escolher 0.00660884752869606
      18 obter 0.006571778561919928
      19 reunir 0.006553740706294775
      20 entrar 0.00634

### Exemplo 2

Sentença com dois verbos (VERB)

In [41]:
sentenca = "Como empilhar e desempilhar elementos em uma estrutura de dados pilha?"
sentenca_token = ['Como', 'empilhar', 'e', 'desempilhar', 'elementos', 'em', 'uma', 'estrutura', 'de', 'dados', 'pilha', '?']
sentenca_pos = ['SCONJ', 'VERB', 'CCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'NOUN', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 100)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como empilhar e desempilhar elementos em uma estrutura de dados pilha?
sentença Perturbada: Como definir e desempilhar elementos em uma estrutura de dados pilha ?
sentença Mascarada : Como [MASK] e desempilhar elementos em uma estrutura de dados pilha ?
palavra Mascarada  : empilhar  substituída por:  definir
lista predições    : 100
      1 introduzir 0.16960008442401886
      2 juntar 0.07571210712194443
      3 separar 0.05463900789618492
      4 lançar 0.04621889442205429
      5 criar 0.04267677292227745
      6 adicionar 0.03770589455962181
      7 localizar 0.03253062441945076
      8 organizar 0.030274054035544395
      9 incluir 0.028725208714604378
      10 colocar 0.024881748482584953
      11 reunir 0.023461807519197464
      12 capturar 0.02212475799024105
      13 cortar 0.02002079039812088
      14 identificar 0.018725339323282242
      15 mover 0.01751706935465336
      16 fechar 0.015387231484055519
      17 abrir 0.0146690234541893
      18 unir 0

### Exemplo 3

Sentença com um substantivo(NOUN) e nenhum verbo(VERB)

In [42]:
sentenca = "Como desempilhar elementos em uma pilha?"
sentenca_token = ['Como', 'desempilhar', 'elementos', 'em', 'uma', 'pilha', '?']
sentenca_pos = ['ADP', 'NOUN', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 100)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como desempilhar elementos em uma pilha?
sentença Perturbada: Como desempilhar elementos em uma figura ?
sentença Mascarada : Como desempilhar elementos em uma [MASK] ?
palavra Mascarada  : pilha  substituída por:  figura
lista predições    : 100
      1 imagem 0.06406455487012863
      2 pintura 0.042276378720998764
      3 construção 0.03596315160393715
      4 composição 0.03306559473276138
      5 peça 0.03069840371608734
      6 fotografia 0.0273173488676548
      7 cena 0.02703717350959778
      8 caixa 0.02568349987268448
      9 planta 0.022647200152277946
      10 foto 0.02039046213030815
      11 estrutura 0.020161574706435204
      12 tabela 0.017917733639478683
      13 tela 0.015206916257739067
      14 montagem 0.015155491419136524
      15 folha 0.014690382406115532
      16 lista 0.013399122282862663
      17 coleção 0.01299453154206276
      18 página 0.011991290375590324
      19 escultura 0.011842208914458752
      20 parede 0.011713903397321701


### Exemplo 4

Sentença com um verbo(AUX) e nenhum substantivo(NOUN) e verbo(VERB)

In [43]:
## Questão do FAQUAD
sentenca = "Em que a máquina de Hollerith foi pioneira?"
sentenca_token = ['Em', 'que', 'a', 'máquina', 'de', 'Hollerith', 'foi', 'pioneira', '?']
sentenca_pos = ['ADP', 'PRON', 'DET', 'PROPN', 'ADP', 'PROPN', 'AUX', 'ADJ', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 100)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Em que a máquina de Hollerith foi pioneira?
sentença Perturbada: Em que a máquina de Hollerith tornou pioneira ?
sentença Mascarada : Em que a máquina de Hollerith [MASK] pioneira ?
palavra Mascarada  : foi  substituída por:  tornou
lista predições    : 100
      1 foi 0.7535495758056641
      2 é 0.20041899383068085
      3 era 0.024869045242667198
      4 seria 0.013931470923125744
      5 será 0.0020668217912316322
      6 fora 0.0012531055836007
      7 parece 0.0002694971626624465
      8 ficou 0.00018355934298597276
      9 ser 0.00016382815374527127
      10 seja 0.00016065729141701013
      11 e 0.00015976332360878587
      12 está 0.00014059052045922726
      13 se 0.00013303900777827948
      14 , 0.000129534731968306
      15 estava 0.00010926940012723207
      16 como 9.263408719561994e-05
      17 ##foi 8.656410500407219e-05
      18 virou 8.341326611116529e-05
      19 a 6.636499165324494e-05
      20 esteve 5.6890552514232695e-05
      21 parecia 5.6

## Top 1000 predições

### Exemplo 1

Sentença 1 verbo(VERB)

In [44]:
sentenca = "Como enfileirar elementos em uma fila?"
sentenca_token = ['Como', 'enfileirar', 'elementos', 'em', 'uma', 'fila', '?']
sentenca_pos = ['SCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 1000)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como enfileirar elementos em uma fila?
sentença Perturbada: Como ocorrer elementos em uma fila ?
sentença Mascarada : Como [MASK] elementos em uma fila ?
palavra Mascarada  : enfileirar  substituída por:  ocorrer
lista predições    : 1000
      1 colocar 0.19633342325687408
      2 identificar 0.0832662582397461
      3 encontrar 0.07717389613389969
      4 adicionar 0.06448084115982056
      5 organizar 0.0434022918343544
      6 localizar 0.02545257657766342
      7 classificar 0.02259194292128086
      8 conseguir 0.016192859038710594
      9 achar 0.01475694589316845
      10 ver 0.013046490959823132
      11 juntar 0.012261936441063881
      12 separar 0.010530253872275352
      13 incluir 0.010036105290055275
      14 procurar 0.008522171527147293
      15 reconhecer 0.008078616112470627
      16 os 0.007701365742832422
      17 escolher 0.00660884752869606
      18 obter 0.006571778561919928
      19 reunir 0.006553740706294775
      20 entrar 0.006340936757

In [45]:
sentenca = "Como desenfileirar elementos em uma fila?"
sentenca_token = ['Como', 'desenfileirar', 'elementos', 'em', 'uma', 'fila', '?']
sentenca_pos = ['SCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 1000)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como desenfileirar elementos em uma fila?
sentença Perturbada: Como comporta elementos em uma fila ?
sentença Mascarada : Como [MASK] elementos em uma fila ?
palavra Mascarada  : desenfileirar  substituída por:  comporta
lista predições    : 1000
      1 colocar 0.19633342325687408
      2 identificar 0.0832662582397461
      3 encontrar 0.07717389613389969
      4 adicionar 0.06448084115982056
      5 organizar 0.0434022918343544
      6 localizar 0.02545257657766342
      7 classificar 0.02259194292128086
      8 conseguir 0.016192859038710594
      9 achar 0.01475694589316845
      10 ver 0.013046490959823132
      11 juntar 0.012261936441063881
      12 separar 0.010530253872275352
      13 incluir 0.010036105290055275
      14 procurar 0.008522171527147293
      15 reconhecer 0.008078616112470627
      16 os 0.007701365742832422
      17 escolher 0.00660884752869606
      18 obter 0.006571778561919928
      19 reunir 0.006553740706294775
      20 entrar 0.0063

### Exemplo 2

Sentença com dois verbos (VERB)

In [46]:
sentenca = "Como empilhar e desempilhar elementos em uma estrutura de dados pilha?"
sentenca_token = ['Como', 'empilhar', 'e', 'desempilhar', 'elementos', 'em', 'uma', 'estrutura', 'de', 'dados', 'pilha', '?']
sentenca_pos = ['SCONJ', 'VERB', 'CCONJ', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'NOUN', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 1000)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como empilhar e desempilhar elementos em uma estrutura de dados pilha?
sentença Perturbada: Como Ramal e desempilhar elementos em uma estrutura de dados pilha ?
sentença Mascarada : Como [MASK] e desempilhar elementos em uma estrutura de dados pilha ?
palavra Mascarada  : empilhar  substituída por:  Ramal
lista predições    : 1000
      1 introduzir 0.16960008442401886
      2 juntar 0.07571210712194443
      3 separar 0.05463900789618492
      4 lançar 0.04621889442205429
      5 criar 0.04267677292227745
      6 adicionar 0.03770589455962181
      7 localizar 0.03253062441945076
      8 organizar 0.030274054035544395
      9 incluir 0.028725208714604378
      10 colocar 0.024881748482584953
      11 reunir 0.023461807519197464
      12 capturar 0.02212475799024105
      13 cortar 0.02002079039812088
      14 identificar 0.018725339323282242
      15 mover 0.01751706935465336
      16 fechar 0.015387231484055519
      17 abrir 0.0146690234541893
      18 unir 0.01

### Exemplo 3

Sentença com um substantivo(NOUN) e nenhum verbo(VERB)

In [47]:
sentenca = "Como desempilhar elementos em uma pilha?"
sentenca_token = ['Como', 'desempilhar', 'elementos', 'em', 'uma', 'pilha', '?']
sentenca_pos = ['ADP', 'NOUN', 'NOUN', 'ADP', 'DET', 'NOUN', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 1000)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Como desempilhar elementos em uma pilha?
sentença Perturbada: Como desempilhar umidade em uma pilha ?
sentença Mascarada : Como desempilhar [MASK] em uma pilha ?
palavra Mascarada  : elementos  substituída por:  umidade
lista predições    : 1000
      1 água 0.05589831992983818
      2 alimentos 0.052154768258333206
      3 líquidos 0.048712994903326035
      4 objetos 0.03382614627480507
      5 lixo 0.027150694280862808
      6 algo 0.024542178958654404
      7 baterias 0.021454116329550743
      8 tudo 0.021236466243863106
      9 dinheiro 0.0207386314868927
      10 materiais 0.020182842388749123
      11 material 0.01998809352517128
      12 moedas 0.019386708736419678
      13 coisas 0.016721539199352264
      14 produtos 0.01471499539911747
      15 papel 0.01430854294449091
      16 livros 0.014223388396203518
      17 resíduos 0.013274330645799637
      18 dados 0.013120218180119991
      19 comida 0.011273021809756756
      20 pó 0.01124158687889576
     

### Exemplo 4

Sentença com um verbo(AUX) e nenhum substantivo(NOUN) e verbo(VERB)

In [48]:
## Questão do FAQUAD
sentenca = "Em que a máquina de Hollerith foi pioneira?"
sentenca_token = ['Em', 'que', 'a', 'máquina', 'de', 'Hollerith', 'foi', 'pioneira', '?']
sentenca_pos = ['ADP', 'PRON', 'DET', 'PROPN', 'ADP', 'PROPN', 'AUX', 'ADJ', 'PUNCT']

sentencaPerturbada, sentenca_mascarada, palavra_mascarada, token_predito, lista_predicoes = getPerturbacaoSentenca(sentenca, sentenca_token, sentenca_pos, classe=["VERB","NOUN","AUX"], qtde=1, top_k_predicao = 1000)
print("sentença Original  :",sentenca)
print("sentença Perturbada:",sentencaPerturbada)
print("sentença Mascarada :",sentenca_mascarada)
print("palavra Mascarada  :",palavra_mascarada, " substituída por: ", token_predito)
print("lista predições    :", len(lista_predicoes))
for i, linha in enumerate(lista_predicoes):
    print("     ",linha[0], linha[1], linha[2])

sentença Original  : Em que a máquina de Hollerith foi pioneira?
sentença Perturbada: Em que a máquina de Hollerith ide pioneira ?
sentença Mascarada : Em que a máquina de Hollerith [MASK] pioneira ?
palavra Mascarada  : foi  substituída por:  ide
lista predições    : 1000
      1 foi 0.7535495758056641
      2 é 0.20041899383068085
      3 era 0.024869045242667198
      4 seria 0.013931470923125744
      5 será 0.0020668217912316322
      6 fora 0.0012531055836007
      7 parece 0.0002694971626624465
      8 ficou 0.00018355934298597276
      9 ser 0.00016382815374527127
      10 seja 0.00016065729141701013
      11 e 0.00015976332360878587
      12 está 0.00014059052045922726
      13 se 0.00013303900777827948
      14 , 0.000129534731968306
      15 estava 0.00010926940012723207
      16 como 9.263408719561994e-05
      17 ##foi 8.656410500407219e-05
      18 virou 8.341326611116529e-05
      19 a 6.636499165324494e-05
      20 esteve 5.6890552514232695e-05
      21 parecia 5.683274