<a href="https://colab.research.google.com/github/osmarbraz/texto-transformer/blob/main/notebooks/ExemplosTextoTransformer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplo de uso do pacote Texto-Transformer-en

# 1 Preparação do ambiente
Preparação do ambiente para execução do exemplo.

## 1.1 Tratamento de logs

In [1]:
# Import das bibliotecas.
import logging # Biblioteca de logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s")

logger = logging.getLogger()
logger.setLevel(logging.INFO)

## 1.2 Instala o pacote texto-transformer

In [2]:
!pip install texto-transformer



# 2 Exemplos de Uso

## Declara e instância o TextoTransformer

- Outros modelos de linguagem podem ser consultados em:
https://huggingface.co/models.

- Outros modelos para o spaCy podem ser consultados em: https://spacy.io/models

In [3]:
# Biblioteca texto-transformer
from textotransformer import TextoTransformer

# Instancia um objeto da classe TextoTransformer e recupera o MCL especificado
modelo = TextoTransformer("bert-base-cased", modelo_spacy="en_core_web_sm") # "bert-base-cased, en_core_web_sm
#modelo = TextoTransformer("bert-large-cased", modelo_spacy="en_core_web_sm") # "bert-large-cased, en_core_web_sm
#modelo = TextoTransformer("bert-base-multilingual-cased", modelo_spacy="en_core_web_lg") #bert-base-multilingual-cased, en_core_web_sm

INFO:numexpr.utils:NumExpr defaulting to 2 threads.
INFO:textotransformer.textotransformer:Especificado parâmetro "pretrained_model_name_or_path": bert-base-cased.
INFO:textotransformer.textotransformer:Especificado parâmetro "modelo_spacy": en_core_web_sm.
INFO:textotransformer.textotransformer:Especificado parâmetro "do_lower_case": False.
Some weights of the model checkpoint at bert-base-cased were not used when initializing BertModel: ['cls.predictions.decoder.weight', 'cls.predictions.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are init

In [4]:
print(modelo)

Classe ("TextoTransformer") com o Transformer "BertModel" carregada com o modelo "bert-base-cased" e NLP "English" carregada com o modelo "en_core_web_sm" 


# 3 Exemplos

## 3.1 Uso simples

In [5]:
# Alguns textos a serem codificados
textos = ["Good morning teacher.",
          "What is the content of the test?",
          "Is everything going to fall on the test?",
          "I await an answer, John."]

# Recupera os embeddings consolidados dos textos
embeddings_texto = modelo.getEmbeddingTexto(textos)

# Mostra os textos e seus embeddings
for texto, embedding in zip(textos, embeddings_texto):
    print("Texto:", texto)
    print("Embedding:", embedding)
    print("")

Texto: Good morning teacher.
Embedding: tensor([ 3.1672e-01, -2.1919e-01,  4.8090e-01, -1.0636e-02, -2.4823e-02,
        -9.4287e-02,  2.5397e-03, -2.9275e-02, -5.8033e-02, -3.0323e-01,
        -3.8141e-01,  6.2448e-01, -3.4672e-01,  1.6652e-01, -2.4955e-01,
         3.8125e-01, -1.0558e-02,  2.5938e-04,  2.6541e-02, -7.7213e-02,
        -3.8860e-02, -3.2013e-01,  2.2300e-01, -3.4116e-01, -1.6602e-01,
        -7.2413e-02,  3.9026e-01,  7.3384e-01, -1.7259e-01,  4.1186e-01,
         5.6887e-03,  1.1123e-01,  9.4934e-02, -3.1042e-01, -4.2840e-01,
        -1.1555e-01, -1.3381e-01,  5.2006e-01, -1.9128e-01,  2.7902e-01,
         8.2995e-02, -2.5342e-01,  1.3000e-01, -9.9795e-02, -6.5290e-02,
        -4.7184e-01, -1.7278e-01, -2.9190e-01, -1.1990e-01,  9.9768e-03,
         5.2675e-02, -3.0659e-01,  8.6147e-02,  7.1533e-02,  2.4830e-02,
        -2.0043e-01, -1.8557e-01,  4.3608e-02, -5.5386e-01,  3.9303e-01,
         2.0220e-01, -2.3244e-01,  3.2749e-01,  2.4097e-02,  1.5539e-01,
         3.

## 3.2 Recuperando embeddings de texto, sentenças, palavras e tokens



In [6]:
# Texto a ser codificado
# texto = "Você gosta de sorvete de manga? Sim, adoro muito."
texto = "Fresh sea bass is a great delicacy. I play bass in a jazz band."

# Recupera os embeddings consolidados do texto
embeddings_texto = modelo.getEmbeddingTexto(texto)
print("Um embedding de tamanho  :",len(embeddings_texto))        # 768

# Recupera os embeddings consolidados das sentenças do texto
embeddings_sentenca = modelo.getEmbeddingSentenca(texto)
print("\nQuantidade de sentenças  :",len(embeddings_sentenca))   # 2
print("Cada sentença de tamanho :",len(embeddings_sentenca[0]))  # 768

# Recupera os embeddings consolidados das palavras do texto
embeddings_palavra = modelo.getEmbeddingPalavra(texto)
print("\nQuantidade de palavras   :",len(embeddings_palavra))    # 2
print("Cada palavra de tamanho  :",len(embeddings_palavra[0]))   # 768

# Recupera os embeddings dos tokens do texto
embeddings_token = modelo.getEmbeddingToken(texto)
print("\nQuantidade de tokens     :",len(embeddings_token))      # 2
print("Cada token de tamanho    :",len(embeddings_token[0]))     # 768

Um embedding de tamanho  : 768

Quantidade de sentenças  : 2
Cada sentença de tamanho : 768

Quantidade de palavras   : 16
Cada palavra de tamanho  : 768

Quantidade de tokens     : 18
Cada token de tamanho    : 768


## 3.3 Similaridade de embeddings de textos

In [7]:
from textotransformer.mensurador.medidas import similaridadeCosseno

texto1 = "The A is the first letter of the alphabet."
texto2 = "First name has first letter in capital."
texto3 = "I wrote a letter to my mother this weekend."

# Recupera os embeddings do texto
embeddingTexto1 = modelo.getEmbeddingTexto(texto1)
embeddingTexto2 = modelo.getEmbeddingTexto(texto2)
embeddingTexto3 = modelo.getEmbeddingTexto(texto3)

# Mensura a similaridade do cosseno entre os embeddings dos textos
sim12 = similaridadeCosseno(embeddingTexto1, embeddingTexto2)
sim13 = similaridadeCosseno(embeddingTexto1, embeddingTexto3)
sim23 = similaridadeCosseno(embeddingTexto2, embeddingTexto3)

print(">>>Saída")
print("similaridadeCosseno(embeddingTexto1,embeddingTexto2) = ", sim12)  #sim12 = 0.7183282375335693
print("similaridadeCosseno(embeddingTexto1,embeddingTexto3) = ", sim13)  #sim13 = 0.5837798714637756
print("similaridadeCosseno(embeddingTexto2,embeddingTexto3) = ", sim23)  #sim23 = 0.6247625946998596

>>>Saída
similaridadeCosseno(embeddingTexto1,embeddingTexto2) =  0.8300706148147583
similaridadeCosseno(embeddingTexto1,embeddingTexto3) =  0.7136589288711548
similaridadeCosseno(embeddingTexto2,embeddingTexto3) =  0.7524980902671814


## 3.4 Similaridade de embeddings de tokens

In [8]:
from textotransformer.mensurador.medidas import similaridadeCosseno
from textotransformer.util.utiltexto import getIndexTokenTexto

#texto = "Depois de roubar o cofre do banco, o ladrão de banco foi visto sentado no banco da praça central."
texto = "After stealing money from the bank vault, the bank robber was seen fishing on the Amazonas river bank."

# Recupera a codificação dos tokens do texto
saida = modelo.getCodificacaoToken(texto)

print("Lista dos tokens:")
for i, token in enumerate(saida['tokens_texto_mcl']):
    print(i, token)

# Recupera os indices do token "bank" no texto
idx_tokens = getIndexTokenTexto(saida['tokens_texto_mcl'], "bank")
print()
print("As", len(idx_tokens), "ocorrências do token \"bank\" no texto estão nas posições:", idx_tokens)

# Recupera os embeddings da saída do método de acordo com os índices
embedToken1 = saida['token_embeddings'][idx_tokens[0]]
embedToken2 = saida['token_embeddings'][idx_tokens[1]]
embedToken3 = saida['token_embeddings'][idx_tokens[2]]

# Mensura a similaridade do cosseno entre os embeddings dos tokens
sim12 = similaridadeCosseno(embedToken1,embedToken2)
sim13 = similaridadeCosseno(embedToken1,embedToken3)
sim23 = similaridadeCosseno(embedToken2,embedToken3)

print()
print(">>>Saída")
print("similaridadeCosseno(embedToken1,embedToken2) = ", sim12)  # sim12 = 0.8817520141601562
print("similaridadeCosseno(embedToken1,embedToken3) = ", sim13)  # sim13 = 0.7598233222961426
print("similaridadeCosseno(embedToken2,embedToken3) = ", sim23)  # sim23 = 0.7125182151794434

Lista dos tokens:
0 After
1 stealing
2 money
3 from
4 the
5 bank
6 vault
7 ,
8 the
9 bank
10 r
11 ##ob
12 ##ber
13 was
14 seen
15 fishing
16 on
17 the
18 Amazon
19 ##as
20 river
21 bank
22 .

As 3 ocorrências do token "bank" no texto estão nas posições: [5, 9, 21]

>>>Saída
similaridadeCosseno(embedToken1,embedToken2) =  0.8980758190155029
similaridadeCosseno(embedToken1,embedToken3) =  0.7361171245574951
similaridadeCosseno(embedToken2,embedToken3) =  0.7165724039077759


## 3.5 Gerando textos modificados

In [9]:
# Carrega o modelo para utilizar o modelo de linguagem mascarado
modelo = TextoTransformer("bert-base-cased", modelo_spacy="en_core_web_sm", tipo_modelo_pretreinado="mascara")

INFO:textotransformer.textotransformer:Especificado parâmetro "pretrained_model_name_or_path": bert-base-cased.
INFO:textotransformer.textotransformer:Especificado parâmetro "modelo_spacy": en_core_web_sm.
INFO:textotransformer.textotransformer:Especificado parâmetro "do_lower_case": False.
Some weights of the model checkpoint at bert-base-cased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
INFO:textotransformer.modelo.transformerbert:Classe "TransformerBert" carrega

In [10]:
texto = "How to enqueue elements in a queue?"

saida = modelo.getModificacaoTextoSequencial(texto, top_k_predicao=5)

print(saida)
print(">>>Saída")
for i, texto_modificado in enumerate(saida['texto_modificado']):
    print(texto_modificado, saida['texto_mascarado'][i], saida['palavra_mascarada'][i],saida['token_predito'][i],saida['token_peso'][i])

{'texto_modificado': ['How to put elements in a queue ?', 'How to place elements in a queue ?', 'How to identify elements in a queue ?', 'How to balance elements in a queue ?', 'How to use elements in a queue ?'], 'texto_mascarado': ['How to [MASK] elements in a queue ?', 'How to [MASK] elements in a queue ?', 'How to [MASK] elements in a queue ?', 'How to [MASK] elements in a queue ?', 'How to [MASK] elements in a queue ?'], 'palavra_mascarada': ['enqueue', 'enqueue', 'enqueue', 'enqueue', 'enqueue'], 'token_predito': ['put', 'place', 'identify', 'balance', 'use'], 'token_peso': [0.09357273578643799, 0.04582623019814491, 0.037898819893598557, 0.03393116220831871, 0.03149702027440071], 'token_predito_marcado': ['put', 'place', 'identify', 'balance', 'use']}
>>>Saída
How to put elements in a queue ? How to [MASK] elements in a queue ? enqueue put 0.09357273578643799
How to place elements in a queue ? How to [MASK] elements in a queue ? enqueue place 0.04582623019814491
How to identify e