In [15]:
import torch

# Utilizando Modelos Pré-treinados com HuggingFace

Hugging Face é uma plataforma que oferece uma ampla variedade de modelos pré-treinados para tarefas de processamento de linguagem natural (NLP). Usar esses modelos permite que você aplique técnicas avançadas de NLP sem precisar treinar um modelo do zero.

## Tokenizadores

Tokenização é o processo de converter texto em tokens, que são as unidades básicas que os modelos de NLP processam. A Hugging Face fornece tokenizadores para diferentes modelos, que geram tokens compatíveis com o modelo que será utilizado.

Nesta seção, aprenderemos como carregar e utilizar tokenizadores com Hugging Face.

In [3]:
from transformers import GPT2Tokenizer, BertTokenizer

# Carregando tokenizadores para GPT-2 e BERT
gpt2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

In [4]:
# Exemplo de tokenização
input_text = "Artificial intelligence is the future."
gpt2_tokens = gpt2_tokenizer.tokenize(input_text)
bert_tokens = bert_tokenizer.tokenize(input_text)

print(f"Tokens GPT-2: {gpt2_tokens}")
print(f"Tokens BERT: {bert_tokens}")

Tokens GPT-2: ['Art', 'ificial', 'Ġintelligence', 'Ġis', 'Ġthe', 'Ġfuture', '.']
Tokens BERT: ['artificial', 'intelligence', 'is', 'the', 'future', '.']


In [8]:
gpt2_ids = gpt2_tokenizer.convert_tokens_to_ids(gpt2_tokens)
bert_ids = bert_tokenizer.convert_tokens_to_ids(bert_tokens)

print(f"IDs GPT-2: {gpt2_ids}")
print(f"IDs BERT: {bert_ids}")

IDs GPT-2: [8001, 9542, 4430, 318, 262, 2003, 13]
IDs BERT: [7976, 4454, 2003, 1996, 2925, 1012]


In [24]:
gpt2_input = gpt2_tokenizer(input_text, return_tensors="pt")
bert_input = bert_tokenizer(input_text, return_tensors="pt")

print(f"Input GPT-2: {gpt2_input}")
print(f"Input BERT: {bert_input}")

Input GPT-2: {'input_ids': tensor([[ 818,  257,  995,  810, 9552]]), 'attention_mask': tensor([[1, 1, 1, 1, 1]])}
Input BERT: {'input_ids': tensor([[ 101, 1999, 1037, 2088, 2073, 9932,  102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1]])}


## Modelos

Modelos são as redes neurais que processam os tokens e geram saídas como texto ou embeddings. A Hugging Face disponibiliza uma variedade de modelos, como GPT-2 para geração de texto e BERT para tarefas como busca semântica.

Aqui, aprenderemos como carregar e usar esses modelos para diferentes tarefas.

### Carregando Modelos Pré-Treinados

Para começar, vamos carregar modelos pré-treinados como GPT-2 para geração de texto e BERT para criação de embeddings de texto.

In [17]:
from transformers import GPT2LMHeadModel, BertModel

# Carregando o modelo GPT-2
gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2")

# Carregando o modelo BERT
bert_model = BertModel.from_pretrained("bert-base-uncased")

Downloading pytorch_model.bin:   0%|          | 0.00/548M [00:00<?, ?B/s]

Downloading generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/440M [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModel: ['cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


## Geração de Texto

Geração de texto consiste em fornecer uma sequência inicial e permitir que o modelo continue gerando texto a partir dessa entrada. Vamos ver como fazer isso com o GPT-2.

A geração de texto é uma das aplicações mais comuns de modelos como o GPT-2, que podem ser usados para completar frases, criar histórias ou mesmo gerar código.

In [25]:
# Texto de entrada
input_text = "In a world where AI"

# Tokenizando a entrada
input_ids = gpt2_tokenizer(input_text, return_tensors="pt")

print(f"Input IDs: {input_ids}")

Input IDs: {'input_ids': tensor([[ 818,  257,  995,  810, 9552]]), 'attention_mask': tensor([[1, 1, 1, 1, 1]])}


In [34]:
# Gerando o texto
output = gpt2_model.generate(**input_ids, max_length=50)

print(output.shape)
print(f"Output: {output}")

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


torch.Size([1, 50])
Output: tensor([[  818,   257,   995,   810,  9552,   318,   257,  1263,  1917,    11,
           340,   338,  1593,   284,  1833,   703,   340,  2499,    13,   198,
           198,   464,  1917,   318,   326,  9552,   318,   407,   257,  1917,
           379,   477,    13,   632,   338,   257,  1917,   326,   460,   307,
         16019,   416,   257,  1256,   286,  1180, 10581,    13,   198,   198]])


In [33]:
# Decodificando o texto gerado
generated_text = gpt2_tokenizer.decode(output[0])
print(generated_text)

In a world where AI is a big problem, it's important to understand how it works.

The problem is that AI is not a problem at all. It's a problem that can be solved by a lot of different approaches.


