In [1]:
import torch

# Utilizando Modelos Pré-treinados com HuggingFace

Hugging Face é uma plataforma que oferece uma ampla variedade de modelos pré-treinados para tarefas de processamento de linguagem natural (NLP). Usar esses modelos permite que você aplique técnicas avançadas de NLP sem precisar treinar um modelo do zero.

## Tokenizadores

Tokenização é o processo de converter texto em tokens, que são as unidades básicas que os modelos de NLP processam. A Hugging Face fornece tokenizadores para diferentes modelos, que geram tokens compatíveis com o modelo que será utilizado.

Nesta seção, aprenderemos como carregar e utilizar tokenizadores com Hugging Face.

In [3]:
from transformers import GPT2Tokenizer, BertTokenizer

# Carregando tokenizadores para GPT-2 e BERT
gpt2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
# Exemplo de tokenização
input_text = "Artificial intelligence is the future."
gpt2_tokens = gpt2_tokenizer.tokenize(input_text)
bert_tokens = bert_tokenizer.tokenize(input_text)

print(f"Tokens GPT-2: {gpt2_tokens}")
print(f"Tokens BERT: {bert_tokens}")

Tokens GPT-2: ['Art', 'ificial', 'Ġintelligence', 'Ġis', 'Ġthe', 'Ġfuture', '.']
Tokens BERT: ['artificial', 'intelligence', 'is', 'the', 'future', '.']


In [5]:
gpt2_ids = gpt2_tokenizer.convert_tokens_to_ids(gpt2_tokens)
bert_ids = bert_tokenizer.convert_tokens_to_ids(bert_tokens)

print(f"IDs GPT-2: {gpt2_ids}")
print(f"IDs BERT: {bert_ids}")

IDs GPT-2: [8001, 9542, 4430, 318, 262, 2003, 13]
IDs BERT: [7976, 4454, 2003, 1996, 2925, 1012]


In [6]:
gpt2_input = gpt2_tokenizer(input_text, return_tensors="pt")
bert_input = bert_tokenizer(input_text, return_tensors="pt")

print(f"Input GPT-2: {gpt2_input}")
print(f"Input BERT: {bert_input}")

Input GPT-2: {'input_ids': tensor([[8001, 9542, 4430,  318,  262, 2003,   13]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1]])}
Input BERT: {'input_ids': tensor([[ 101, 7976, 4454, 2003, 1996, 2925, 1012,  102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1]])}


## Modelos

Modelos são as redes neurais que processam os tokens e geram saídas como texto ou embeddings. A Hugging Face disponibiliza uma variedade de modelos, como GPT-2 para geração de texto e BERT para tarefas como busca semântica.

Aqui, aprenderemos como carregar e usar esses modelos para diferentes tarefas.

### Carregando Modelos Pré-Treinados

Para começar, vamos carregar modelos pré-treinados, como o GPT-2.

In [7]:
from transformers import GPT2Tokenizer, GPT2LMHeadModel

# Carregando o tokenizador GPT-2
gpt2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# Carregando o modelo GPT-2
gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2", pad_token_id=gpt2_tokenizer.eos_token_id)

## Geração de Texto

Geração de texto consiste em fornecer uma sequência inicial e permitir que o modelo continue gerando texto a partir dessa entrada. Vamos ver como fazer isso com o GPT-2.

A geração de texto é uma das aplicações mais comuns de modelos como o GPT-2, que podem ser usados para completar frases, criar histórias ou mesmo gerar código.

In [8]:
# Texto de entrada
input_text = "In a world where AI"

# Tokenizando a entrada
input_ids = gpt2_tokenizer(input_text, return_tensors="pt")

print(f"Input IDs: {input_ids}")

Input IDs: {'input_ids': tensor([[ 818,  257,  995,  810, 9552]]), 'attention_mask': tensor([[1, 1, 1, 1, 1]])}


In [9]:
# Gerando o texto
output = gpt2_model.generate(**input_ids, max_length=50)

print(output.shape)
print(f"Output: {output}")

torch.Size([1, 50])
Output: tensor([[  818,   257,   995,   810,  9552,   318,   257,  1263,  1917,    11,
           340,   338,  1593,   284,  1833,   703,   340,  2499,    13,   198,
           198,   464,  1917,   318,   326,  9552,   318,   407,   257,  1917,
           379,   477,    13,   632,   338,   257,  1917,   326,   460,   307,
         16019,   416,   257,  1256,   286,  1180, 10581,    13,   198,   198]])


In [10]:
# Decodificando o texto gerado
generated_text = gpt2_tokenizer.decode(output[0])
print(generated_text)

In a world where AI is a big problem, it's important to understand how it works.

The problem is that AI is not a problem at all. It's a problem that can be solved by a lot of different approaches.




In [11]:
# Função para completar texto
def complete_text(input_text, model=gpt2_model, tokenizer=gpt2_tokenizer, max_length=50):
    input_ids = tokenizer(input_text, return_tensors="pt")
    output = model.generate(**input_ids, max_length=max_length)
    generated_text = tokenizer.decode(output[0])
    return generated_text

In [12]:
prediction = complete_text("Brazil is")
print(prediction)

Brazil is a country that has been a beacon of hope for the poor and the working class.

The country's economic growth has been a boon for the country's poor, and the country's economy has been a boon for the country's middle


In [13]:
def generate_next_tokens(input_text, n_tokens=1, model=gpt2_model, tokenizer=gpt2_tokenizer):
    input_ids = tokenizer(input_text, return_tensors="pt").input_ids
    output = model.generate(input_ids, max_new_tokens=n_tokens)
    generated_tokens = output[0][len(input_ids[0]):]  # Extrai apenas os novos tokens gerados
    predicted_tokens = tokenizer.decode(generated_tokens, skip_special_tokens=True)
    return predicted_tokens.strip()

input_text = "Brazil is a country. Apple is a fruit. Python is a"

next_token = generate_next_tokens(input_text)
print(next_token)

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


language


## Embeddings de Texto

Embeddings de texto são representações vetoriais de palavras ou frases que capturam o significado semântico. Esses embeddings podem ser utilizados em várias tarefas de NLP, como classificação de texto, busca semântica e agrupamento.

Nesta seção, utilizaremos o BERT para gerar embeddings de texto e visualizar a similaridade entre diferentes frases. Também introduziremos conceitos como similaridade por cosseno.

In [14]:
from transformers import BertTokenizer, BertModel

# Carregando o tokenizador BERT
bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# Carregando o modelo BERT
bert_model = BertModel.from_pretrained("bert-base-uncased")

## Capturando Embeddings

Predição de embeddings consiste em fornecer um texto e utilizar um modelo encoder para prever a representação vetorial deste texto. Vamos ver como fazer isso com o BERT.

In [15]:
# Texto de entrada
text = "Artificial intelligence is the future."
input_ids = bert_tokenizer.encode(text, return_tensors="pt")

# Obtendo a representação do texto
with torch.no_grad():
    output = bert_model(input_ids)


pooled_output = output.last_hidden_state.mean(dim=1)

print(output.last_hidden_state.shape)
print(pooled_output.shape)

  return forward_call(*args, **kwargs)


torch.Size([1, 8, 768])
torch.Size([1, 768])


In [16]:
# Função para gerar embeddings usando BERT
def get_embedding(text):
    input_ids = bert_tokenizer.encode(text, return_tensors="pt")
    with torch.no_grad():
        outputs = bert_model(input_ids)
    return outputs.last_hidden_state.mean(dim=1)

### Medidas de Similaridade

A similaridade por cosseno é uma métrica comum utilizada para medir a similaridade entre dois vetores no espaço de embeddings. Ela calcula o cosseno do ângulo entre dois vetores, onde um valor de 1 indica vetores idênticos e um valor de 0 indica vetores ortogonais (sem similaridade).

A fórmula da similaridade por cosseno é:

$
\text{similaridade}(A, B) = \frac{A \cdot B}{\|A\| \|B\|}
$

Vamos calcular a similaridade entre diferentes frases usando embeddings gerados por BERT.

In [17]:
# Exemplo de frases
query = "Artificial intelligence is transforming industries."
doc1 = "AI is changing the way we work."
doc2 = "Brazil is a country in South America."

# Gerando embeddings
query_embedding = get_embedding(query)
doc1_embedding = get_embedding(doc1)
doc2_embedding = get_embedding(doc2)

In [18]:
# Calculando similaridade por cosseno
cos = torch.nn.CosineSimilarity(dim=1)
similarity_doc1 = cos(query_embedding, doc1_embedding)
similarity_doc2 = cos(query_embedding, doc2_embedding)

print(f"Similaridade com doc1: {similarity_doc1.item():.4f}")
print(f"Similaridade com doc2: {similarity_doc2.item():.4f}")

Similaridade com doc1: 0.8325
Similaridade com doc2: 0.5219


## Exercícios

### Exercício 1
Utilizando GPT-2, crie uma função que preveja o sujeito em uma frase. Por exemplo: Em "John went to the store", o sujeito é John.

In [27]:
gpt2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2", pad_token_id=gpt2_tokenizer.eos_token_id)

In [30]:
def predict_subject(sentence, model=gpt2_model, tokenizer=gpt2_tokenizer):
    prompt = f"""
        Sentence: The quick brown fox jumps over the lazy dog.
        Subject: The quick brown fox
        ###
        Sentence: After lunch, Maria went for a walk.
        Subject: Maria
        ###
        Sentence: {sentence}
        Subject:
    """.strip()
    inputs = tokenizer(prompt, return_tensors="pt")
    output = model.generate(inputs.input_ids, max_new_tokens=10, pad_token_id=tokenizer.eos_token_id, num_return_sequences=1)
    generated = tokenizer.decode(output[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
    subject = generated.strip().split('\n')[0]
    return subject

sentence = "John went to the store."
print(predict_subject(sentence))

John


### Exercício 2
Em um sistema avançado de busca por livros, você deverá implementar uma função que faça uma busca semântica e retorne os 5 livros mais apropriados de acordo com a consulta do usuário.

In [33]:
descriptions = [
    "A tale of love and loss set against the backdrop of war.",
    "A gripping mystery where nothing is as it seems.",
    "An epic fantasy adventure in a world of magic and dragons.",
    "A heartwarming story of friendship and second chances.",
    "A chilling thriller that will keep you on the edge of your seat.",
    "A coming-of-age story about finding yourself and your place in the world.",
    "A historical novel that brings the past to life with vivid detail.",
    "A suspenseful crime novel where the detective becomes the hunted.",
    "A dystopian future where one woman's rebellion could change everything.",
    "A romantic comedy that will make you believe in love again.",
    "A science fiction saga that explores the limits of human ingenuity.",
    "A powerful drama about family, secrets, and redemption.",
    "A journey through time to uncover hidden truths.",
    "A modern fairy tale where dreams really do come true.",
    "A dark fantasy filled with intrigue, betrayal, and forbidden magic.",
    "A psychological thriller that will mess with your mind.",
    "A poetic exploration of life, love, and everything in between.",
    "A detective novel where every clue leads to more questions.",
    "A story of survival and the strength of the human spirit.",
    "A heart-pounding adventure in a world beyond our own.",
    "A memoir of a life lived on the edge of society.",
    "A romance that defies the boundaries of time and space.",
    "A political thriller set in a world of corruption and power.",
    "A fantasy epic that weaves together destiny and desire.",
    "A mystery novel where the past refuses to stay buried.",
    "A heartwrenching story of love, loss, and letting go.",
    "A darkly comic tale of life in the absurd.",
    "A science fiction adventure that questions what it means to be human.",
    "A historical romance set in a time of revolution and change.",
    "A supernatural thriller where nightmares come to life.",
    "A journey of self-discovery in a world that demands conformity.",
    "A story of forbidden love in a society bound by tradition.",
    "A fast-paced action novel where every second counts.",
    "A lyrical exploration of nature, solitude, and the passage of time.",
    "A detective story where the truth is stranger than fiction.",
    "A powerful saga of family, loyalty, and betrayal.",
    "A fantastical journey through a land of myths and legends.",
    "A tale of revenge, justice, and the price of power.",
    "A story of hope in the face of overwhelming odds.",
    "A quirky romance where opposites truly attract.",
    "A sci-fi thriller that blurs the line between reality and illusion.",
    "A historical epic that spans generations and continents.",
    "A crime novel where the line between right and wrong is razor-thin.",
    "A love story that unfolds in the most unexpected way.",
    "A philosophical exploration of what it means to live a good life.",
    "A gripping tale of survival in a post-apocalyptic world.",
    "A romance that blossoms in the midst of chaos and war.",
    "A detective novel that unravels the darkest secrets of the human soul.",
    "A story of redemption and the power of forgiveness.",
    "A fantasy adventure where a reluctant hero must save the world."
]

input_text = "A horror novel"

In [34]:
def semantic_search(query, descriptions, top_k=5):
    query_emb = get_embedding(query)
    desc_embs = torch.cat([get_embedding(desc) for desc in descriptions], dim=0)
    cos = torch.nn.CosineSimilarity(dim=1)
    similarities = cos(query_emb, desc_embs)
    top_indices = similarities.topk(top_k).indices
    return [descriptions[i] for i in top_indices]

results = semantic_search(input_text, descriptions)
for i, desc in enumerate(results, 1):
    print(f"{i}. {desc}")

  return forward_call(*args, **kwargs)


1. A supernatural thriller where nightmares come to life.
2. A darkly comic tale of life in the absurd.
3. A suspenseful crime novel where the detective becomes the hunted.
4. A psychological thriller that will mess with your mind.
5. A detective story where the truth is stranger than fiction.
