<a href="https://colab.research.google.com/github/osmarbraz/exemplos_BERT/blob/main/ExemploSentenceBERT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplo de Geração de Embeddings de Sentenças com SBERT

# **A execução pode ser feita através do menu Ambiente de Execução opção Executar tudo.**


**Link artigo SBERT:**
https://arxiv.org/abs/1908.10084


**Link biblioteca SBERT:**
https://www.sbert.net/


**Link biblioteca Huggingface:**
https://github.com/huggingface/transformers


**Artigo original BERT Jacob Devlin:**
https://arxiv.org/pdf/1506.06724.pdf

# 0 - Preparação do ambiente
Preparação do ambiente para execução do exemplo.

##Tratamento de logs

Método para tratamento dos logs.

In [117]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)

## Identificando o ambiente Colab

Cria uma variável para identificar que o notebook está sendo executado no Google Colaboratory.

In [118]:
# Se estiver executando no Google Colaboratory
import sys

# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = "google.colab" in sys.modules

# 1 - Instalação do BERT Sentence

https://www.sbert.net/

In [119]:
!pip install -U sentence-transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Carrega o modelo

In [120]:
# Importa das bibliotecas
from sentence_transformers import SentenceTransformer

# Carrega o BERTimbau
sentence_model = SentenceTransformer('neuralmind/bert-large-portuguese-cased')

Some weights of the model checkpoint at /root/.cache/torch/sentence_transformers/neuralmind_bert-large-portuguese-cased were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


# 2 - Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [121]:
# Instala o spacy
!pip install -U spacy==2.3.5

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Realiza o download e carrega os modelos necessários a biblioteca

https://spacy.io/models/pt

In [122]:
# Definição do nome do arquivo do modelo
#ARQUIVOMODELO = "pt_core_news_sm"
#ARQUIVOMODELO = "pt_core_news_md"
ARQUIVOMODELO = "pt_core_news_lg"

# Definição da versão da spaCy
#VERSAOSPACY = "-3.0.0a0"
VERSAOSPACY = "-2.3.0"

In [123]:
#Baixa automaticamente o arquivo do modelo.
#!python -m spacy download {ARQUIVOMODELO}

In [124]:
# Realiza o download do arquivo do modelo para o diretório corrente
!wget https://github.com/explosion/spacy-models/releases/download/{ARQUIVOMODELO}{VERSAOSPACY}/{ARQUIVOMODELO}{VERSAOSPACY}.tar.gz

--2022-09-12 22:50:52--  https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-2.3.0/pt_core_news_lg-2.3.0.tar.gz
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/84940268/a899e480-ab07-11ea-831b-b5aa9cc04510?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20220912%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20220912T225053Z&X-Amz-Expires=300&X-Amz-Signature=6dd757177f7904170a55ff7bfc32ebe2b3d18d6968045364d862bf5f518f2525&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=84940268&response-content-disposition=attachment%3B%20filename%3Dpt_core_news_lg-2.3.0.tar.gz&response-content-type=application%2Foctet-stream [following]
--2022-09-12 22:50:53--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/84940268/a

Descompacta o arquivo do modelo

In [125]:
# Descompacta o arquivo do modelo
!tar -xvf  /content/{ARQUIVOMODELO}{VERSAOSPACY}.tar.gz

pt_core_news_lg-2.3.0/
pt_core_news_lg-2.3.0/PKG-INFO
pt_core_news_lg-2.3.0/setup.py
pt_core_news_lg-2.3.0/setup.cfg
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/dependency_links.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/PKG-INFO
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/SOURCES.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/requires.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/top_level.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/not-zip-safe
pt_core_news_lg-2.3.0/pt_core_news_lg/
pt_core_news_lg-2.3.0/pt_core_news_lg/__init__.py
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/cfg
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/moves
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/model
pt_core_news_lg-2.3.0/pt_core_news_l

In [126]:
# Coloca a pasta do modelo descompactado em uma pasta de nome mais simples
!mv /content/{ARQUIVOMODELO}{VERSAOSPACY}/{ARQUIVOMODELO}/{ARQUIVOMODELO}{VERSAOSPACY} /content/{ARQUIVOMODELO}

mv: cannot move '/content/pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0' to '/content/pt_core_news_lg/pt_core_news_lg-2.3.0': Directory not empty


Carrega o modelo

In [127]:
# Import das bibliotecas.
import spacy

CAMINHOMODELO = "/content/" + ARQUIVOMODELO

nlp = spacy.load(CAMINHOMODELO)

Recupera os stopwords do spaCy

In [128]:
# Recupera as stop words
spacy_stopwords = nlp.Defaults.stop_words

Lista dos stopwords

In [129]:
print("Quantidade de stopwords:", len(spacy_stopwords))

print(spacy_stopwords)

Quantidade de stopwords: 413
{'geral', 'pegar', 'fazes', 'bem', 'segundo', 'naquele', 'pode', 'estiveram', 'quero', 'dezanove', 'temos', 'fui', 'algumas', 'dois', 'grupo', 'dentro', 'têm', 'pelos', 'vinda', 'podem', 'em', 'nesta', 'veja', 'números', 'favor', 'doze', 'quem', 'fazem', 'podia', 'usa', 'além', 'ver', 'fostes', 'aquele', 'sétimo', 'estava', 'entre', 'tanto', 'vossas', 'após', 'cuja', 'tivestes', 'primeira', 'só', 'maiorias', 'te', 'algo', 'falta', 'outros', 'aquelas', 'três', 'enquanto', 'dezoito', 'com', 'neste', 'foram', 'tentei', 'ele', 'às', 'maioria', 'povo', 'fazemos', 'adeus', 'tem', 'ontem', 'não', 'qualquer', 'nossos', 'quatro', 'vezes', 'custa', 'foste', 'põem', 'mesmo', 'talvez', 'muito', 'outra', 'deverá', 'fim', 'novas', 'aqui', 'sou', 'posso', 'comprida', 'estou', 'tua', 'dessa', 'dar', 'é', 'diz', 'nesse', 'bastante', 'são', 'novo', 'portanto', 'oito', 'atrás', 'meses', 'nossas', 'de', 'ambos', 'ora', 'me', 'valor', 'poder', 'estivestes', 'minhas', 'sétima', 

In [130]:
def getTextoSemStopword(lista_tokens, spacy_stopwords):
    """
      Retira os tokens que estão na lista de stopword
    
      Parâmetros:
        `lista_tokens` - Uma lista com os tokens.
        `spacy_stopwords` - Uma lista com as stopword. 
    """
    
    spacy_stopwords = nlp.Defaults.stop_words
    
    lista_tokens_semstopwords = []
    
    # Percorre os tokens    
    for token in lista_tokens:
      # Verifica se o toke não está na lista de stopwords para adicionar a nova lista
      if token not in spacy_stopwords:
        lista_tokens_semstopwords.append(token)


    return lista_tokens_semstopwords 

# 3 - Exemplo embeddings de sentenças

Usando o BERTimbau e Sentence BERT


## 3.1 Sentenças

In [131]:
documentos = [
# 20 Perguntas do Cohebert
"Como enfileirar elementos em uma fila?",      
"Como desenfileirar elementos em uma fila?",
"Como empilhar elementos em uma pilha?",
"Como empilhar e desempilhar elementos em uma pilha?",
"Como empilhar elementos em uma estrutura de dados pilha?",
"Como empilhar e desempilhar elementos em uma estrutura de dados pilha?",
"Como desempilhar elementos em uma pilha?",
"Como desempilhar elementos em uma estrutura de dados pilha?",
"O que é uma pilha e como empilhar seu elemento?",
"O que é uma fila e como enfileirar seu elemento?",
"O que é uma fila e como desenfileirar um elemento nela?",
"O que é uma pilha e como desempilhar um elemento nela?",
"O que é uma fila e como enfileirar um elemento nela?",
"O que é uma pilha e como empilhar um elemento nela?",
"O que é uma pilha e como empilhar e desempilhar seus elementos?",
"O que é uma fila e como enfileirar e desenfileirar seus elementos?",
"Como são implementadas as operações de empilhar e desempilhar elementos em uma pilha?",
"Como são implementadas as operações de enfileirar e desenfileirar elementos em uma fila?",
"Em uma pilha a operação de empilhar ocorre em qual extremidade?",
"Em uma fila a operação de enfileirar ocorre em qual extremidade?"
]

print("Quantidade de documentos:", len(documentos))

Quantidade de documentos: 20


## 3.2 Executa o SBERT

Carrega o SBERT

In [132]:
# Importa das bibliotecas
from sentence_transformers import SentenceTransformer

# Carrega o BERTimbau
sentence_model = SentenceTransformer('neuralmind/bert-large-portuguese-cased')

Some weights of the model checkpoint at /root/.cache/torch/sentence_transformers/neuralmind_bert-large-portuguese-cased were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [133]:
print("Tamanho máximo da sentença:", sentence_model.max_seq_length)

Tamanho máximo da sentença: 512


Gera os embeddings dos documentos

In [134]:
#As sentenças são codificadas chamando model.encode()
embeddings = sentence_model.encode(documentos)

Mostra as sentenças, o tamanho dos embeddings e os embeddings

In [135]:
#Print the embeddings
for sentenca, embedding in zip(documentos, embeddings):
    print("Sentença:", sentenca)
    print("Embedding:", embedding.shape, embedding)
    print("")

Sentença: Como enfileirar elementos em uma fila?
Embedding: (1024,) [ 0.6815402   0.57252467  0.17376582 ...  0.18361726 -0.30994764
 -0.4251614 ]

Sentença: Como desenfileirar elementos em uma fila?
Embedding: (1024,) [ 0.67173237  0.62711567  0.1454545  ...  0.35041735 -0.22504759
 -0.11911637]

Sentença: Como empilhar elementos em uma pilha?
Embedding: (1024,) [ 0.4317088   0.4120634   0.32280317 ...  0.38283893 -0.23511854
 -0.3312925 ]

Sentença: Como empilhar e desempilhar elementos em uma pilha?
Embedding: (1024,) [ 0.47373897  0.4825633   0.36223593 ...  0.28732002 -0.1441042
 -0.24652204]

Sentença: Como empilhar elementos em uma estrutura de dados pilha?
Embedding: (1024,) [ 0.35204172  0.5664935  -0.1238978  ...  0.10328556 -0.33934525
 -0.24827297]

Sentença: Como empilhar e desempilhar elementos em uma estrutura de dados pilha?
Embedding: (1024,) [ 0.37628603  0.74872345  0.00377592 ... -0.01976705 -0.28557038
 -0.22509229]

Sentença: Como desempilhar elementos em uma pilh

# 4 - Exemplo comparando sentenças

## 4.1 Sentenças 

In [136]:
sentenca1 = "Como enfileirar elementos em uma fila?"
sentenca2 = "Como desenfileirar elementos em uma fila?"
sentenca3 = "Como empilhar elementos em uma pilha?"

## 4.2 Executa o SBERT

Carrega o modelo

In [137]:
# Importa das bibliotecas
from sentence_transformers import SentenceTransformer

# Carrega o BERTimbau
sentence_model = SentenceTransformer('neuralmind/bert-large-portuguese-cased')

Some weights of the model checkpoint at /root/.cache/torch/sentence_transformers/neuralmind_bert-large-portuguese-cased were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [138]:
print("Tamanho máximo da sentença:", sentence_model.max_seq_length)

Tamanho máximo da sentença: 512


Transforma as sentenças

In [139]:
#As sentenças são codificadas chamando model.encode()
emb1 = sentence_model.encode(sentenca1)
emb2 = sentence_model.encode(sentenca2)
emb3 = sentence_model.encode(sentenca3)

Comparando embeddings de sentenças 

In [140]:
# Importa das bibliotecas
from sentence_transformers import util

print("Sentença 1: ", sentenca1)
print("Sentença 2: ", sentenca2)
print("Sentença 3: ", sentenca3)
print()

cos_sim12 = util.cos_sim(emb1, emb2)
print("cos(Sentença 1, Sentença2):", cos_sim12)

cos_sim13 = util.cos_sim(emb1, emb3)
print("cos(Sentença 1, Sentença3):", cos_sim13)

cos_sim23 = util.cos_sim(emb2, emb3)
print("cos(Sentença 2, Sentença3):", cos_sim23)

Sentença 1:  Como enfileirar elementos em uma fila?
Sentença 2:  Como desenfileirar elementos em uma fila?
Sentença 3:  Como empilhar elementos em uma pilha?

cos(Sentença 1, Sentença2): tensor([[0.9515]])
cos(Sentença 1, Sentença3): tensor([[0.9423]])
cos(Sentença 2, Sentença3): tensor([[0.9143]])


# 5 - Exemplo comparando duas lista de sentenças

## 5.1 Sentenças 

In [141]:
sentencas1 = [
"Como enfileirar elementos em uma fila?",      
"Como desenfileirar elementos em uma fila?",
"Como empilhar elementos em uma pilha?",
"Como empilhar e desempilhar elementos em uma pilha?",
"Como empilhar elementos em uma estrutura de dados pilha?",
"Como empilhar e desempilhar elementos em uma estrutura de dados pilha?",
"Como desempilhar elementos em uma pilha?",
"Como desempilhar elementos em uma estrutura de dados pilha?",
"O que é uma pilha e como empilhar seu elemento?",
"O que é uma fila e como enfileirar seu elemento?"]

sentencas2 = [
"O que é uma fila e como desenfileirar um elemento nela?",
"O que é uma pilha e como desempilhar um elemento nela?",
"O que é uma fila e como enfileirar um elemento nela?",
"O que é uma pilha e como empilhar um elemento nela?",
"O que é uma pilha e como empilhar e desempilhar seus elementos?",
"O que é uma fila e como enfileirar e desenfileirar seus elementos?",
"Como são implementadas as operações de empilhar e desempilhar elementos em uma pilha?",
"Como são implementadas as operações de enfileirar e desenfileirar elementos em uma fila?",
"Em uma pilha a operação de empilhar ocorre em qual extremidade?",
"Em uma fila a operação de enfileirar ocorre em qual extremidade?"]

## 5.2 Executa o SBERT

Carrega o modelo

In [142]:
# Importa das bibliotecas
from sentence_transformers import SentenceTransformer, util

# Carrega o BERTimbau
sentence_model = SentenceTransformer('neuralmind/bert-large-portuguese-cased')

Some weights of the model checkpoint at /root/.cache/torch/sentence_transformers/neuralmind_bert-large-portuguese-cased were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [143]:
print("Tamanho máximo da sentença:", sentence_model.max_seq_length)

Tamanho máximo da sentença: 512


Transforma as listas de sentenças em embeddings

In [144]:
#As sentenças são codificadas chamando model.encode()
embeddings1 = sentence_model.encode(sentencas1, convert_to_tensor=True)
embeddings2 = sentence_model.encode(sentencas2, convert_to_tensor=True)

Comparando embeddings de sentenças 

In [145]:
#Calcula da similaridade do cosseno entre as sentenças
cosine_scores = util.cos_sim(embeddings1, embeddings2)

# Mostra os resultados das comparações
for i in range(len(sentencas1)):
  print("{:.4f} => {} \t\t\t {} \t\t ".format(cosine_scores[i][i], sentencas1[i], sentencas2[i]))

0.9292 => Como enfileirar elementos em uma fila? 			 O que é uma fila e como desenfileirar um elemento nela? 		 
0.8959 => Como desenfileirar elementos em uma fila? 			 O que é uma pilha e como desempilhar um elemento nela? 		 
0.9224 => Como empilhar elementos em uma pilha? 			 O que é uma fila e como enfileirar um elemento nela? 		 
0.9482 => Como empilhar e desempilhar elementos em uma pilha? 			 O que é uma pilha e como empilhar um elemento nela? 		 
0.8257 => Como empilhar elementos em uma estrutura de dados pilha? 			 O que é uma pilha e como empilhar e desempilhar seus elementos? 		 
0.8664 => Como empilhar e desempilhar elementos em uma estrutura de dados pilha? 			 O que é uma fila e como enfileirar e desenfileirar seus elementos? 		 
0.9362 => Como desempilhar elementos em uma pilha? 			 Como são implementadas as operações de empilhar e desempilhar elementos em uma pilha? 		 
0.8769 => Como desempilhar elementos em uma estrutura de dados pilha? 			 Como são implementadas as o

# 6 - Encontrando sentenças similares

## 6.1 Sentenças 

In [146]:
sentencas = [
"Como enfileirar elementos em uma fila?",      
"Como desenfileirar elementos em uma fila?",
"Como empilhar elementos em uma pilha?",
"Como empilhar e desempilhar elementos em uma pilha?",
"Como empilhar elementos em uma estrutura de dados pilha?",
"Como empilhar e desempilhar elementos em uma estrutura de dados pilha?",
"Como desempilhar elementos em uma pilha?",
"Como desempilhar elementos em uma estrutura de dados pilha?",
"O que é uma pilha e como empilhar seu elemento?",
"O que é uma fila e como enfileirar seu elemento?",
"O que é uma fila e como desenfileirar um elemento nela?",
"O que é uma pilha e como desempilhar um elemento nela?",
"O que é uma fila e como enfileirar um elemento nela?",
"O que é uma pilha e como empilhar um elemento nela?",
"O que é uma pilha e como empilhar e desempilhar seus elementos?",
"O que é uma fila e como enfileirar e desenfileirar seus elementos?",
"Como são implementadas as operações de empilhar e desempilhar elementos em uma pilha?",
"Como são implementadas as operações de enfileirar e desenfileirar elementos em uma fila?",
"Em uma pilha a operação de empilhar ocorre em qual extremidade?",
"Em uma fila a operação de enfileirar ocorre em qual extremidade?"]

## 6.2 Executa o SBERT

Carrega o modelo

In [147]:
# Importa das bibliotecas
from sentence_transformers import SentenceTransformer

# Carrega o BERTimbau
sentence_model = SentenceTransformer('neuralmind/bert-large-portuguese-cased')

Some weights of the model checkpoint at /root/.cache/torch/sentence_transformers/neuralmind_bert-large-portuguese-cased were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Transforma as listas de sentenças em embeddings

In [148]:
#As sentenças são codificadas chamando model.encode()
embeddings1 = sentence_model.encode(sentencas1, convert_to_tensor=True)

Comparando embeddings de sentenças entre si

In [149]:
# Importa das bibliotecas
from sentence_transformers import util

#Calcula da similaridade do cosseno entre as sentenças
cosine_scores = util.cos_sim(embeddings1, embeddings1)

Procura os pares de sentenças com as maiores similaridades

In [150]:
#Encontra os pares de sentenças com as maiores similaridades
pairs = []
for i in range(len(cosine_scores)-1):
    for j in range(i+1, len(cosine_scores)):
        pairs.append({'index': [i, j], 'score': cosine_scores[i][j]})

#Ordena os resultados da similaridades em ordem descrente
pairs = sorted(pairs, key=lambda x: x['score'], reverse=True)

Mostra os pares de sentença

In [151]:
for pair in pairs[0:20]:
    i, j = pair['index']
    print("{:.4f} => {} \t\t {} \t\t".format(pair['score'], sentencas[i], sentencas[j]))

0.9841 => Como empilhar e desempilhar elementos em uma estrutura de dados pilha? 		 Como desempilhar elementos em uma estrutura de dados pilha? 		
0.9836 => Como empilhar elementos em uma estrutura de dados pilha? 		 Como desempilhar elementos em uma estrutura de dados pilha? 		
0.9828 => Como empilhar elementos em uma estrutura de dados pilha? 		 Como empilhar e desempilhar elementos em uma estrutura de dados pilha? 		
0.9765 => Como empilhar elementos em uma pilha? 		 Como empilhar e desempilhar elementos em uma pilha? 		
0.9744 => Como empilhar e desempilhar elementos em uma pilha? 		 Como desempilhar elementos em uma pilha? 		
0.9574 => Como empilhar elementos em uma pilha? 		 Como desempilhar elementos em uma pilha? 		
0.9563 => Como enfileirar elementos em uma fila? 		 O que é uma fila e como enfileirar seu elemento? 		
0.9515 => Como enfileirar elementos em uma fila? 		 Como desenfileirar elementos em uma fila? 		
0.9498 => Como empilhar elementos em uma pilha? 		 O que é uma pi

# 7 - Exemplo comparando duas lista de sentenças textos grandes

## 7.1 Sentenças 

In [152]:
documentos = [
# Estrutura de dados
"Uma estrutura de dados (ED), em ciência da computação, é uma coleção tanto de valores (e seus relacionamentos) quanto de operações (sobre os valores e estruturas decorrentes). É uma implementação concreta de um tipo abstrato de dado (TAD) ou um tipo de dado (TD) básico ou primitivo. Assim, o termo ED pode ser considerado sinônimo de TD, se considerado TAD um hipônimo de TD, isto é, se um TAD for um TD. Critérios para escolha e estudo de uma estrutura de dados incluem eficiência para buscas e padrões específicos de acesso, necessidades especiais para manejo de grandes volumes (veja big data), ou a simplicidade de implementação e uso. Ou seja, EDs eficientes são cruciais para a elaboração de algoritmos, diversas linguagens possuem ênfase nas EDs, como evidenciado pela POO, e aplicações distintas usufruem de ou requerem EDs específicas (e.g. um compilador usa uma tabela de dispersão para identificadores e namespaces, enquanto uma Árvore B ou Árvore AA [en] é apropriada para acessos randômicos). Em termos de EDs, os TDs e TADs são definidos indiretamente pelas operações e usos, e propriedades destas operações e usos: e.g. o custo computacional e o espaço que pode representar e ocupa na memória.",      
# Tipo de dados
"Na ciência da computação, um Tipo Abstrato de Dados (abreviado TAD) é um modelo matemático para tipos de dados; ou seja, na programação de computadores é um código que define e implementa um novo tipo de informação ou um novo tipo de objeto utilizado na linguagem de programação orientada a objetos, que é definido pelo seu comportamento (semântico) do ponto de vista de um usuário, do dado, especificamente em termos de valores possíveis, operações possíveis no dado desse tipo, e o comportamento dessas operações. Esse modelo matemático contrasta com estrutura de dados, que são representações concretas de dado, e são o ponto de vista de um implementador, não de um usuário. Formalmente, um TAD pode ser definido como uma “classe de objetos do qual comportamento lógico é definido por um conjunto de valores e um conjunto de operações”; isso é análogo à uma estrutura algébrica na matemática. O que significa “comportamento” varia de autor para autor, com dois principais tipos de especificações formais para comportamento sendo especificação axiomática (algébrica) e um modelo abstrato; esses correspondem à semântica axiomática e semântica operacional de uma máquina abstrata, respectivamente. Alguns autores também incluem a complexidade computacional (“custo”), ambos em termos de tempo (para computar operações) e espaço (para representar valores). Na prática, vários tipos de dados comuns não são TADs, como a abstração não é perfeita, e usuários tem que ser avisados de problemas como overflow aritmético que são causados pela representação. Por exemplo, inteiros são geralmente armazenados com valores de tamanho fixo (32-bit ou 64-bit números binários), e assim quando o valor máximo é excedido, ocorre overflow de inteiro.  TAD é um conceito teórico, na ciência da computação, usada para o design e análise de algoritmos, estrutura de dados, e sistemas de software, e não corresponde às funcionalidades específicas de linguagens de programação – Linguagens de programação convencionais não suportam diretamente TADs. Entretanto, algumas funcionalidades de linguagens correspondem à certos aspectos dos TADs, e são facilmente confundidas com os próprios TADs; isso inclui tipos abstratos, tipos de dados opacos, protocolos(interface), e programação por contrato. TADs foram propostos por Barbara Liskov e Stephen N. Zilles em 1974, como parte do desenvolvimento da linguagem CLU.",
# Ponteiro
"Um ponteiro é um objeto cujo valor aponta para outro valor através de um endereço de memória (e.g. da memória RAM). A forma como os ponteiros são usados em uma ED, seja explicitamente (como em uma lista ligada) ou implicitamente (como em um vetor homogêneo), evidencia suas propriedades, usos e operações. Por exemplo, em uma estrutura ligada, em que cada elemento possui um (ou mais) ponteiro(s) para outro(s) elemento(s), os valores podem assumir diferentes tipos e estruturas arbitrariamente complexas; já com a omissão dos ponteiros, por exemplo em um vetor (sequência de valores de um mesmo tipo), a representação fica compacta e muitas vezes favorece o processamento massivamente paralelo, como no caso de tensores e outras variantes multidimensionais tão comuns na física, engenharia e matemática aplicada em geral. Mesmo quando ponteiros não são usados diretamente, como em linguagens que não utilizam distinção entre ponteiros e outras variáveis (veja o exemplo abaixo), a noção de referenciar a uma outra estrutura de dado arbitrária é usada, noção que é canonicamente abordada pela utilização do ponteiro.",
# Arranjo, Vetor
"Em programação de computadores, um arranjo (em inglês array) é uma estrutura de dados que armazena uma coleção de elementos de tal forma que cada um dos elementos possa ser identificado por, pelo menos, um índice ou uma chave. Essa estrutura de dados também é conhecida como variável indexada, vetor (para arranjos unidimensionais) e matriz (para arranjos bidimensionais). Os arranjos mantêm uma série de elementos de dados, geralmente do mesmo tamanho e tipo de dados. Elementos individuais são acessados por sua posição no arranjo. A posição é dada por um índice, também chamado de subscrição. O índice geralmente utiliza uma sequência de números inteiros, mas o índice pode ter qualquer valor ordinal. Os arranjos podem ser multidimensionais, significando que eles são indexados por um número fixo de números inteiros, por exemplo, por uma sequência (ou sucessão) finita de quatro números inteiros. Geralmente, arranjos unidimensionais e bidimensionais são os mais comuns. Os arranjos podem ser considerados como as estruturas de dados mais simples. Têm a vantagem de que os seus elementos são acessíveis de forma rápida mas têm uma notável limitação: são de tamanho fixo, mas podem ser incrementados ou diminuídos com determinados algoritmos, geralmente envolvendo a cópia de elementos de um arranjo para outro e reiniciar o original com a nova dimensão. Os vetores podem ser implementados desta forma. Estas estruturas de dados são ajeitadas nas situações em que o acesso aos dados seja realizado de forma aleatória e imprevisível. Porém, se os elementos podem estar ordenados e vai-se empregar um acesso sequencial, seria mais recomendada uma lista.",
# Lista
"Em ciência da computação, uma lista ou sequência é uma estrutura de dados abstrata que implementa uma coleção ordenada de valores, onde o mesmo valor pode ocorrer mais de uma vez. Uma instância de uma lista é uma representação computacional do conceito matemático de uma sequência finita, que é, uma tupla. Cada instância de um valor na lista normalmente é chamado de um item, entrada ou elemento da lista. Se o mesmo valor ocorrer várias vezes, cada ocorrência é considerada um item distinto. Uma estrutura de lista encadeada isoladamente, implementando uma lista com 3 elementos inteiros. O nome lista também é usado para várias estruturas de dados concretas que podem ser usadas para implementar listas abstratas, especialmente listas encadeadas. As chamadas estruturas de lista estática' permitem apenas a verificação e enumeração dos valores. Uma lista mutável ou dinâmica pode permitir que itens sejam inseridos, substituídos ou excluídos durante a existência da lista. Muitas linguagens de programação fornecem suporte para tipos de dados lista e possuem sintaxe e semântica especial para listas e operações com listas. Uma lista pode frequentemente ser construída escrevendo-se itens em sequência, separados por vírgulas, ponto e vírgulas ou espaços, dentro de um par de delimitadores como parênteses '()', colchetes '[]', chaves '{}' ou chevrons '<>'. Algumas linguagens podem permitir que tipos lista sejam indexados ou cortados como os tipos vetor. Em linguagens de programação orientada a objetos, listas normalmente são fornecidas como instâncias ou subclasses de uma classe \"lista\" genérica. Tipos de dado lista são frequentemente implementados usando arrays ou listas encadeadas de algum tipo, mas outras estruturas de dados podem ser mais apropriadas para algumas aplicações. Em alguns contextos, como em programação Lisp, o termo lista pode se referir especificamente à lista encadeada em vez de um array. É forma de organização através da enumeração de dados para melhor visualização da informação. Em informática, o conceito expande-se para uma estrutura de dados dinâmica, em oposição aos vetores, que são estruturas de dados estáticas. Assim, uma lista terá virtualmente infinitos elementos. Numa lista encadeada existem dois campos. Um campo reservado para colocar o dado a ser armazenado e outro campo para apontar para o próximo elemento da lista. Normalmente a implementação é feita com ponteiros.",
# Pilha
"Em ciência da computação, uma pilha (stack em inglês) é um tipo abstrato de dado e estrutura de dados baseado no princípio de Last In First Out (LIFO), ou seja \"o último que entra é o primeiro que sai\" caracterizando um empilhamento de dados. Pilhas são fundamentalmente compostas por duas operações: push (empilhar) que adiciona um elemento no topo da pilha e pop (desempilhar) que remove o último elemento adicionado. Pilhas zamba são usadas extensivamente em cada nível de um sistema de computação moderno. Por exemplo, um PC moderno usa pilhas ao nível de arquitetura, as quais são usadas no design básico de um sistema operacional para manipular interrupções e chamadas de função do sistema operacional. Entre outros usos, pilhas são usadas para executar uma Máquina virtual java e a própria linguagem Java possui uma classe denominada \"Stack\", as quais podem ser usadas pelos programadores. A pilha é onipresente. Um sistema informático baseado em pilha é aquele que armazena a informação temporária basicamente em pilhas, em vez de registradores de hardware da UCP (um sistema baseado em registradores).",
# Fila
"Em Ciência da Computação, algoritmo de fila simples, FIFO (do inglês: first in, first out, \"primeiro a entrar, primeiro a sair\", \"PEPS\") ou FCFS (do inglês: first come, first served, \"primeiro a chegar, primeiro a ser servido\") é um algoritmo de escalonamento para estruturas de dados do tipo fila. Apresenta o seguinte critério: o primeiro elemento a ser retirado é o primeiro que tiver sido inserido, é um algoritmo de escalonamento não preemptivo que entrega a CPU os processos pela ordem de chegada. Ele executa o processo como um todo do inicio ao fim não interrompendo o processo executado até ser finalizado, então quando um novo processo chega e existe um ainda em execução ele vai para uma fila de espera. Esta fila de espera nada mais é do que uma fila que organiza os processos que chegam até eles serem atendidos pela CPU. Neste escalonamento todos os processos tendem a serem atendidos (por isso evita o fenômeno do starvation) ao menos que um processo possua um erro ou loop infinito. O loop infinito irá parar a máquina, pois com o FIFO não terá como dar continuidade a execução dos processos que estão aguardando na fila de espera. O algoritmo FIFO não garante um tempo de resposta rápido pois é extremamente sensível a ordem de chegada de cada processo e dos antecessores (se existirem) e se processos que tendem a demorar mais tempo chegarem primeiro o tempo médio de espera e o turnaround acabam sendo aumentados.",
# Árvore
"Árvore, no contexto da programação, engenharia de software e ciência da computação, é uma das mais importantes estruturas de dados não lineares. Herda as características das topologia em árvore. Conceptualmente diferente das listas, em que os dados se encontram numa sequência, nas árvores os dados estão dispostos de forma hierárquica, seus elementos se encontram \"acima\" ou \"abaixo\" de outros elementos da árvore. São estruturas eficientes e simples em relação ao tratamento computacional, diferentemente dos grafos. Há inúmeros problemas no mundo real que podem ser modelados e resolvidos através das árvores. Estruturas de pastas de um sistema operacional, interfaces gráficas, bancos de dados e sites da Internet são exemplos de aplicações de árvores. Uma árvore é formada por um conjunto de elementos que armazenam informações chamados nodos ou nós. Toda a árvore possui o elemento chamado raiz, que possui ligações para outros elementos denominados ramos ou filhos. Estes ramos podem estar ligados a outros elementos que também podem possuir outros ramos. O elemento que não possui ramos é conhecido como nó folha, nó terminal ou nó externo. Uma terminologia muito utilizada nas estruturas de árvores tem origem das árvores genealógicas. O relacionamento entre nodos é descrito com os termos \"pai\" (ou \"mãe\") para os antecessores diretos de um nodo, \"filhos\" (ou \"filhas\") para os descendentes diretos e \"irmãos\" (ou \"irmãs\") para todos os nodos com mesmo pai.",
# Lista encadeada
"Uma lista encadeada ou lista ligada é uma estrutura de dados linear e dinâmica. Ela é composta por várias células que estão interligadas através de ponteiros, ou seja, cada célula possui um ponteiro que aponta para o endereço de memória da próxima célula. Desse modo, as células da estrutura não precisam estar em posições contíguas da memória. Isso faz com que a estrutura se torne dinâmica, pois há qualquer momento, é possível alocar uma nova célula e mudar os ponteiros das células já existentes, de modo que a nova célula seja inserida na estrutura com êxito, na posição desejada pelo programador. Ao lado temos um exemplo de uma lista encadeada. Nela, cada célula aponta para o endereço de memória da próxima célula através de um ponteiro. Como o último elemento da lista (célula 5) não possui próximo, ele apontará para nulo, que representa uma posição inválida na memória que não pode sofrer escrita ou ser dereferenciada. Para inserir dados ou remover dados é necessário, no mínimo, um ponteiro que aponta para a primeira célula da lista. Esse ponteiro é normalmente chamado de head. A partir dele, podemos acessar a segunda célula, e a partir da segunda célula, podemos acessar a terceira, e assim em diante. Ou seja, com o ponteiro para a primeira célula, podemos acessar qualquer célula de uma lista encadeada.",
# Endereços memória
"Em Ciência da Computação, um endereço de memória é um identificador único para um local de memória no qual um processador ou algum outro dispositivo pode armazenar pedaços de dados. Em computadores modernos com endereçamento por byte, cada endereço representa um byte distinto de armazenamento. Dados maiores que um byte podem residir em múltiplos bytes, ocupando uma sequência de bytes consecutivos. Alguns microprocessadores foram desenvolvidos para trabalhar com endereçamento por word, tornando a unidade de armazenamento maior que um byte. Tanto memória virtual quanto memória física utilizam endereçamento de memória. Para facilitar a cópia de memória virtual em memória real, os sistemas operacionais dividem a memória virtual em páginas, cada uma contendo um número fixo de endereços. Cada página é armazenada em disco até que seja necessária, sendo então copiada pelo sistema operacional do disco para a memória, transformando o endereço virtual em endereço real. Tal transformação é invisível ao aplicativo, e permite que aplicativos operem independente de sua localização na memória física, fornecendo aos sistemas operacionais liberdade para alocar e realocar memória conforme necessário para manter o computador executando efecientemente. Freqüentemente, ao citar tamanho de word em computadores modernos, é citado também o tamanho de endereços de memória virtual em tal computador. Por exemplo, um computador de 32 bits geralmente trata os endereços de memória como valores inteiros de 32 bits, tornando o espaço de endereçamento igual a 4.294.967.296 bytes de memória, ou 4 GBs.",
]

print("Quantidade de documentos:", len(documentos))

Quantidade de documentos: 10


In [153]:
for doc in documentos:
  lista = doc.split(" ")
  print("Tamanho documento:", len(lista))

Tamanho documento: 198
Tamanho documento: 362
Tamanho documento: 173
Tamanho documento: 258
Tamanho documento: 369
Tamanho documento: 178
Tamanho documento: 246
Tamanho documento: 226
Tamanho documento: 222
Tamanho documento: 236


## 7.2 Executa o SBERT

Carrega o SBERT

In [154]:
# Importa das bibliotecas
from sentence_transformers import SentenceTransformer

# Carrega o BERTimbau
sentence_model = SentenceTransformer('neuralmind/bert-large-portuguese-cased')

Some weights of the model checkpoint at /root/.cache/torch/sentence_transformers/neuralmind_bert-large-portuguese-cased were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [155]:
print("Tamanho máximo da sentença:", sentence_model.max_seq_length)

Tamanho máximo da sentença: 512


Gera os embeddings dos documentos

In [156]:
#As sentenças são codificadas chamando model.encode()
embeddings = sentence_model.encode(documentos)

Mostra as sentenças, o tamanho dos embeddings e os embeddings

In [157]:
#Print the embeddings
for sentenca, embedding in zip(documentos, embeddings):
    print("Sentença:", sentenca)
    print("Embedding:", embedding.shape, embedding)
    print("")

Sentença: Uma estrutura de dados (ED), em ciência da computação, é uma coleção tanto de valores (e seus relacionamentos) quanto de operações (sobre os valores e estruturas decorrentes). É uma implementação concreta de um tipo abstrato de dado (TAD) ou um tipo de dado (TD) básico ou primitivo. Assim, o termo ED pode ser considerado sinônimo de TD, se considerado TAD um hipônimo de TD, isto é, se um TAD for um TD. Critérios para escolha e estudo de uma estrutura de dados incluem eficiência para buscas e padrões específicos de acesso, necessidades especiais para manejo de grandes volumes (veja big data), ou a simplicidade de implementação e uso. Ou seja, EDs eficientes são cruciais para a elaboração de algoritmos, diversas linguagens possuem ênfase nas EDs, como evidenciado pela POO, e aplicações distintas usufruem de ou requerem EDs específicas (e.g. um compilador usa uma tabela de dispersão para identificadores e namespaces, enquanto uma Árvore B ou Árvore AA [en] é apropriada para aces