BERT (Bidirectional Encoder Representations from Transformers) é um modelo de linguagem pré-treinado desenvolvido pelo Google que é capaz de capturar informações contextuais de uma sentença inteira. Ele foi introduzido em 2018 por Jacob Devlin e sua equipe na Google AI Language.

O BERT utiliza uma arquitetura de rede neural baseada em Transformers, que é capaz de processar toda a sequência de entrada de uma vez só, ao contrário de outros modelos de linguagem que processam a sequência de forma sequencial ou com convoluções. A principal característica do BERT é que ele é treinado em duas tarefas: previsão de palavras mascaradas (Masked Language Model) e previsão de próxima sentença (Next Sentence Prediction), utilizando um grande conjunto de dados de textos.

In [2]:
import torch
from transformers import BertTokenizer, BertModel

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
# Carregando o modelo e o tokenizer do BERT
model = BertModel.from_pretrained('bert-base-uncased', output_hidden_states=True)
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Downloading pytorch_model.bin:   5%|▍         | 21.0M/440M [01:37<27:17, 256kB/s]

In [None]:
# Definindo o texto a ser representado
texto = "Exemplo de texto para gerar embeddings usando BERT"

In [None]:
# Convertendo o texto para tokens do BERT
tokens = tokenizer.encode(texto, add_special_tokens=True)

In [None]:
# Convertendo os tokens para tensores do PyTorch
input_ids = torch.tensor([tokens])

In [None]:
# Obtendo as camadas de saída do BERT
with torch.no_grad():
    outputs = model(input_ids)
    embeddings = outputs[2][-1]  # Última camada de saída do BERT

In [None]:
# Selecionando as representações das palavras do texto
palavras = texto.split()
palavra_indices = [tokens.index(tokenizer.encode(palavra)[0]) for palavra in palavras]
palavra_embeddings = embeddings[palavra_indices]

In [None]:

# Imprimindo as representações das palavras
print(palavra_embeddings)