# Faz buscas no GPT2 sem realização do treinamento

In [3]:
# Essa célula só precisa ser executada se a biblioteca utilizada na próxima célula não estiver instalada.
# !pip install transformers torch

In [4]:
# Importa os módulos AutoModelForCausalLM, AutoTokenizer, o que cada um faz será explicado um pouco mais a frente
from transformers import AutoModelForCausalLM, AutoTokenizer

In [5]:
# Modelo escolhido GPT-2, tenho mais familiaridade com o GPT
model_name = "gpt2"  # Nome do modelo pré-treinado a ser usado. GPT-2 é um modelo amplamente utilizado para geração de texto.

In [6]:
# Carregar o tokenizer e o modelo
# O tokenizer é responsável por dividir o texto em tokens, os quais são compreendidos pelo modelo.
# O modelo é a parte responsável por gerar respostas com base nos tokens fornecidos.
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

In [7]:
# Recupera as informações com base no prompt informado
def get_content(prompt):
    # Tokenizar o prompt
    # Converte o texto em uma sequência de tokens que o modelo pode processar.
    inputs = tokenizer(prompt, return_tensors="pt")  # O parâmetro return_tensors="pt" indica que os dados serão retornados no formato PyTorch.
    
    # Gerar resposta usando o modelo
    # O método generate cria uma saída baseada nos tokens fornecidos como entrada.
    # max_length define o comprimento máximo da saída gerada.
    # num_return_sequences especifica quantas respostas diferentes o modelo deve gerar.
    outputs = model.generate(**inputs, max_length=50, num_return_sequences=1)
    
    # Decodificar a resposta
    # Converte os tokens gerados de volta para texto legível.
    # skip_special_tokens remove tokens especiais como <eos> (end of sequence).
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# Teste do prompt (antes do fine-tunning)
## Todas as perguntas realizadas aqui serão refeitas após o fine-tunning
Fiz perguntas pegando alguns assuntos do próprio arquivo que usei como perguntas

In [8]:
print(get_content("Qual é a descrição do produto Adult Ballet Tutu Purple?"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Qual é a descrição do produto Adult Ballet Tutu Purple?

Yes, it is.

The first time I saw this, I was in the middle of a performance of the "The Great American Ballet"


In [9]:
print(get_content("Qual é a descrição do produto The Way Things Work: An Illustrated Encyclopedia of Technology?"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Qual é a descrição do produto The Way Things Work: An Illustrated Encyclopedia of Technology? by John W. Campbell, ed. by John W. Campbell, Jr. (New York: Oxford University Press, 1994), pp. 5


In [10]:
print(get_content("Qual é a descrição do produto Misty of Chincoteague?"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Qual é a descrição do produto Misty of Chincoteague?

A: Yes.

Q: What is the most important thing you want to say to people who are interested in the game?

A:


In [11]:
print(get_content("Qual é a descrição do produto Hilda Boswell's Treasury of Fairy Tales?"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Qual é a descrição do produto Hilda Boswell's Treasury of Fairy Tales?

The first time I saw the book was in the early 1980s, when I was working on a book about the history of the English language


In [12]:
print(get_content("Qual é a descrição do produto Dr. Seuss ABC (Dr.Seuss Classic Collection)?"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Qual é a descrição do produto Dr. Seuss ABC (Dr.Seuss Classic Collection)?

Dr. Seuss is a pioneer in the field of medicine. He has been a pioneer in the field of medicine for over


In [13]:
print(get_content("Qual é a descrição do produto Adult Ballet Tutu Purple?"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Qual é a descrição do produto Adult Ballet Tutu Purple?

Yes, it is.

The first time I saw this, I was in the middle of a performance of the "The Great American Ballet"


In [14]:
print(get_content("Qual a descrição do produto Girls Ballet Tutu Neon Pink?"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Qual a descrição do produto Girls Ballet Tutu Neon Pink?

The girls are all in their 20s and 30s, and they're all in their 20s and 30s. They're all in their 20s
