<a href="https://colab.research.google.com/github/osmarbraz/texto-transformer/blob/main/notebooks/ExemplosTextoTransformer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplo de uso do pacote Texto-Transformer (pt-br)

# 1 Preparação do ambiente
Preparação do ambiente para execução do exemplo.

## 1.1 Tratamento de logs

In [None]:
# Import das bibliotecas.
import logging # Biblioteca de logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s")

logger = logging.getLogger()
logger.setLevel(logging.INFO)

## 1.2 Instala o pacote texto-transformer

In [None]:
!pip install texto-transformer



# 2 Exemplos de Uso

## Declara e instância o TextoTransformer

- Outros modelos de linguagem podem ser consultados em:
https://huggingface.co/models.

- Outros modelos para o spaCy podem ser consultados em: https://spacy.io/models

In [None]:
# Biblioteca texto-transformer
from textotransformer import TextoTransformer

# Instancia um objeto da classe TextoTransformer e recupera o MCL especificado
modelo = TextoTransformer("neuralmind/bert-base-portuguese-cased") # BERTimbau base
# modelo = TextoTransformer("neuralmind/bert-large-portuguese-cased") # BERTimbau large
# modelo = TextoTransformer("bert-base-multilingual-cased") # BERT Multilingual

INFO:numexpr.utils:NumExpr defaulting to 2 threads.
INFO:textotransformer.textotransformer:Especificado parâmetro "pretrained_model_name_or_path": neuralmind/bert-base-portuguese-cased.
INFO:textotransformer.textotransformer:Especificado parâmetro "modelo_spacy": pt_core_news_lg.
INFO:textotransformer.textotransformer:Especificado parâmetro "do_lower_case": False.
Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertModel: ['cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining m

In [None]:
print(modelo)

Classe ("TextoTransformer") com o Transformer "BertModel" carregada com o modelo "neuralmind/bert-base-portuguese-cased" e NLP "Portuguese" carregada com o modelo "pt_core_news_lg" 


# 3 Exemplos

## 3.1 Uso simples

In [None]:
# Alguns textos a serem codificados
textos = ["Bom Dia, professor.",
          "Qual o conteúdo da prova?",
          "Vai cair tudo na prova?",
          "Aguardo uma resposta, João."]

# Recupera os embeddings consolidados dos textos
embeddings_texto = modelo.getEmbeddingTexto(textos)

# Mostra os textos e seus embeddings
for texto, embedding in zip(textos, embeddings_texto):
    print("Texto:", texto)
    print("Embedding:", embedding)
    print("")

Texto: Bom Dia, professor.
Embedding: tensor([ 2.6753e-02,  3.2144e-02,  3.4692e-01, -5.2004e-02,  3.0834e-01,
        -1.0248e-01,  4.0687e-02, -1.5846e-01,  3.8105e-01, -4.7023e-01,
         5.1034e-01,  6.4385e-01,  6.0229e-02,  8.2210e-02, -4.8265e-02,
         9.3535e-02,  7.8896e-01, -2.2045e-02, -7.7767e-02, -1.4563e-01,
        -5.4011e-01,  1.2550e-01,  6.0098e-01,  1.8922e-02, -1.9704e-01,
         2.8336e-04,  1.3219e-01, -4.1387e-01,  2.7067e-01, -5.8537e-01,
         2.7654e-02,  4.9016e-01, -1.8577e-01,  9.9382e-02,  1.7595e-01,
         5.7840e-01,  1.9068e-01,  5.9180e-01, -7.1325e-02, -4.9476e-02,
        -3.5463e-02, -1.0620e-01, -3.4003e-01, -1.3451e-01,  1.0602e-02,
        -3.5018e-01,  1.4251e-02,  6.1712e-03, -9.7445e-01,  1.3183e-01,
         6.4043e-01, -1.3188e-01, -6.8047e-01,  8.2603e-02,  6.1117e-01,
        -3.1250e-01, -3.2828e-02,  9.4672e-02,  9.9277e-02, -2.6512e-01,
         1.4466e-01,  1.3126e-01,  2.0452e-01, -1.1965e-02, -2.4628e-01,
         1.02

## 3.2 Recuperando embeddings de texto, sentenças, palavras e tokens



In [None]:
# Texto a ser codificado
texto = "Você gosta de sorvete de manga? Sim, adoro muito."

# Recupera os embeddings consolidados do texto
embeddings_texto = modelo.getEmbeddingTexto(texto)
print("Um texto de tamanho      :",len(embeddings_texto))        # 768

# Recupera os embeddings consolidados das sentenças do texto
embeddings_sentenca = modelo.getEmbeddingSentenca(texto)
print("\nQuantidade de sentenças  :",len(embeddings_sentenca))   # 2
print("Cada sentença de tamanho :",len(embeddings_sentenca[0]))  # 768

# Recupera os embeddings consolidados das palavras do texto
embeddings_palavra = modelo.getEmbeddingPalavra(texto)
print("\nQuantidade de palavras   :",len(embeddings_palavra))    # 2
print("Cada palavra de tamanho  :",len(embeddings_palavra[0]))   # 768

# Recupera os embeddings dos tokens do texto
embeddings_token = modelo.getEmbeddingToken(texto)
print("\nQuantidade de tokens     :",len(embeddings_token))      # 2
print("Cada token de tamanho    :",len(embeddings_token[0]))     # 768

Um texto de tamanho      : 768

Quantidade de sentenças  : 2
Cada sentença de tamanho : 768

Quantidade de palavras   : 12
Cada palavra de tamanho  : 768

Quantidade de tokens     : 15
Cada token de tamanho    : 768


## 3.3 Similaridade de embeddings de textos

### 3.3.1 Cosseno

In [None]:
from textotransformer.mensurador.medidas import similaridadeCosseno

texto1 = "Adoro sorvete de manga."
texto2 = "A manga é uma fruta doce."
texto3 = "Sujei a manga da camisa."

# Recupera os embeddings do texto
embeddingTexto1 = modelo.getEmbeddingTexto(texto1)
embeddingTexto2 = modelo.getEmbeddingTexto(texto2)
embeddingTexto3 = modelo.getEmbeddingTexto(texto3)

# Mensura a similaridade do cosseno entre os embeddings dos textos
sim12 = similaridadeCosseno(embeddingTexto1, embeddingTexto2)
sim13 = similaridadeCosseno(embeddingTexto1, embeddingTexto3)
sim23 = similaridadeCosseno(embeddingTexto2, embeddingTexto3)

print(">>>Saída")
print("similaridadeCosseno(embeddingTexto1,embeddingTexto2) = ", sim12)
print("similaridadeCosseno(embeddingTexto1,embeddingTexto3) = ", sim13)
print("similaridadeCosseno(embeddingTexto2,embeddingTexto3) = ", sim23)

>>>Saída
similaridadeCosseno(embeddingTexto1,embeddingTexto2) =  0.7183282375335693
similaridadeCosseno(embeddingTexto1,embeddingTexto3) =  0.5837798714637756
similaridadeCosseno(embeddingTexto2,embeddingTexto3) =  0.6247625946998596


### 3.3.2 Produto Escalar

In [None]:
from textotransformer.mensurador.medidas import produtoEscalar

texto1 = "Adoro sorvete de manga."
texto2 = "A manga é uma fruta doce."
texto3 = "Sujei a manga da camisa."

# Recupera os embeddings do texto
embeddingTexto1 = modelo.getEmbeddingTexto(texto1)
embeddingTexto2 = modelo.getEmbeddingTexto(texto2)
embeddingTexto3 = modelo.getEmbeddingTexto(texto3)

# Mensura o produto escaar entre os embeddings dos textos
pro12 = produtoEscalar(embeddingTexto1, embeddingTexto2)
pro13 = produtoEscalar(embeddingTexto1, embeddingTexto3)
pro23 = produtoEscalar(embeddingTexto2, embeddingTexto3)

print(">>>Saída")
print("produtoEscalar(embeddingTexto1,embeddingTexto2) = ", pro12)
print("produtoEscalar(embeddingTexto1,embeddingTexto3) = ", pro13)
print("produtoEscalar(embeddingTexto2,embeddingTexto3) = ", pro23)

## 3.4 Similaridade de embeddings de tokens

### 3.4.1 Cosseno

In [None]:
from textotransformer.mensurador.medidas import similaridadeCosseno
from textotransformer.util.utiltexto import getIndexTokenTexto

texto = "Depois de roubar o cofre do banco, o ladrão de banco foi visto sentado no banco da praça central."

# Recupera a codificação dos tokens do texto
saida = modelo.getCodificacaoToken(texto)

print("Lista dos tokens:")
for i, token in enumerate(saida['tokens_texto_mcl']):
    print(i, token)

# Recupera os indices do token "banco" no texto
idx_tokens = getIndexTokenTexto(saida['tokens_texto_mcl'], "banco")
print()
print("As", len(idx_tokens), "ocorrências do token \"banco\" no texto estão nas posições:", idx_tokens)

# Recupera os embeddings da saída do método de acordo com os índices
embedToken1 = saida['token_embeddings'][idx_tokens[0]]
embedToken2 = saida['token_embeddings'][idx_tokens[1]]
embedToken3 = saida['token_embeddings'][idx_tokens[2]]

# Mensura a similaridade do cosseno entre os embeddings dos tokens
sim12 = similaridadeCosseno(embedToken1,embedToken2)
sim13 = similaridadeCosseno(embedToken1,embedToken3)
sim23 = similaridadeCosseno(embedToken2,embedToken3)

print()
print(">>>Saída")
print("similaridadeCosseno(embedToken1,embedToken2) = ", sim12)
print("similaridadeCosseno(embedToken1,embedToken3) = ", sim13)
print("similaridadeCosseno(embedToken2,embedToken3) = ", sim23)

Lista dos tokens:
0 Depois
1 de
2 roubar
3 o
4 co
5 ##fre
6 do
7 banco
8 ,
9 o
10 lad
11 ##rão
12 de
13 banco
14 foi
15 visto
16 sentado
17 no
18 banco
19 da
20 praça
21 central
22 .

As 3 ocorrências do token "banco" no texto estão nas posições: [7, 13, 18]

>>>Saída
similaridadeCosseno(embedToken1,embedToken2) =  0.8817520141601562
similaridadeCosseno(embedToken1,embedToken3) =  0.7598233222961426
similaridadeCosseno(embedToken2,embedToken3) =  0.7125182151794434


### 3.4.2 Produto Escalar

In [None]:
from textotransformer.mensurador.medidas import produtoEscalar
from textotransformer.util.utiltexto import getIndexTokenTexto

texto = "Depois de roubar o cofre do banco, o ladrão de banco foi visto sentado no banco da praça central."

# Recupera a codificação dos tokens do texto
saida = modelo.getCodificacaoToken(texto)

print("Lista dos tokens:")
for i, token in enumerate(saida['tokens_texto_mcl']):
    print(i, token)

# Recupera os indices do token "banco" no texto
idx_tokens = getIndexTokenTexto(saida['tokens_texto_mcl'], "banco")
print()
print("As", len(idx_tokens), "ocorrências do token \"banco\" no texto estão nas posições:", idx_tokens)

# Recupera os embeddings da saída do método de acordo com os índices
embedToken1 = saida['token_embeddings'][idx_tokens[0]]
embedToken2 = saida['token_embeddings'][idx_tokens[1]]
embedToken3 = saida['token_embeddings'][idx_tokens[2]]

# Mensura o produto escaar entre os embeddings dos tokens
pro12 = produtoEscalar(embedToken1,embedToken2)
pro13 = produtoEscalar(embedToken1,embedToken3)
pro23 = produtoEscalar(embedToken2,embedToken3)

print()
print(">>>Saída")
print("produtoEscalar(embedToken1,embedToken2) = ", pro12)
print("produtoEscalar(embedToken1,embedToken3) = ", pro13)
print("produtoEscalar(embedToken2,embedToken3) = ", pro23)

## 3.5 Gerando textos modificados

In [None]:
# Carrega o modelo para utilizar o modelo de linguagem mascarado
modelo = TextoTransformer("neuralmind/bert-base-portuguese-cased", tipo_modelo_pretreinado="mascara")

INFO:textotransformer.textotransformer:Especificado parâmetro "pretrained_model_name_or_path": neuralmind/bert-base-portuguese-cased.
INFO:textotransformer.textotransformer:Especificado parâmetro "modelo_spacy": pt_core_news_lg.
INFO:textotransformer.textotransformer:Especificado parâmetro "do_lower_case": False.
Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
INFO:textotransformer.modelo.tra

In [None]:
texto = "Como enfileirar elementos em uma fila?"

saida = modelo.getModificacaoTextoSequencial(texto, top_k_predicao=5)

print()
print(">>>Saída")
for i, texto_modificado in enumerate(saida['texto_modificado']):
    print(texto_modificado, saida['texto_mascarado'][i], saida['palavra_mascarada'][i],saida['token_predito'][i],saida['token_peso'][i])


>>>Saída
Como encontrar elementos em uma fila ? Como [MASK] elementos em uma fila ? enfileirar encontrar 0.13462263345718384
Como colocar elementos em uma fila ? Como [MASK] elementos em uma fila ? enfileirar colocar 0.12482539564371109
Como identificar elementos em uma fila ? Como [MASK] elementos em uma fila ? enfileirar identificar 0.10831106454133987
Como escolher elementos em uma fila ? Como [MASK] elementos em uma fila ? enfileirar escolher 0.04477711021900177
Como juntar elementos em uma fila ? Como [MASK] elementos em uma fila ? enfileirar juntar 0.037807680666446686
