In [1]:
# !pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# !pip install -q transformers==4.48.2 einops accelerate bitsandbytes

## Importando as seguintes bibliotecas
* <b>AutoModelForCausalLM:</b> Utilizado para carregar um modelo pr√©-treinado para gerar texto (escrever hist√≥rias, responder perguntas, completar c√≥digo, etc.) e n√£o quer se preocupar em encontrar a classe espec√≠fica para aquele modelo.
* <b>AutoTokenizer:</b> Uma classe que fornece um tokenizador que corresponde ao modelo. O tokenizador √© respons√°vel por converter texto em tokens (num√©ricos) que o modelo pode entender.
* <b>pipeline:</b> fornece uma interface simples e unificada para v√°rias tarefas de PLN, facilitando a execu√ß√£o de tarefas como gera√ß√£o de texto, classifica√ß√£o e tradu√ß√£o.
* <b>BitsAndBytesConfig:</b> Uma classe para configura√ß√£o de quantiza√ß√£o e outras otimiza√ß√µes de baixo n√≠vel para melhorar a efici√™ncia computacional.

In [2]:
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, BitsAndBytesConfig
from yaml import safe_load
import torch
import getpass
import os

2025-10-16 15:25:31.525196: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-10-16 15:25:31.839037: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-10-16 15:25:34.637890: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.


## Leitura da chave do Hugging Face e verificando se o cuda est√° ativo

In [3]:
PATH = 'key.yaml'

with open(PATH) as token_file:
    token  = safe_load(token_file)

os.environ['HUGGING_API_TOKEN'] = token['HUGGING_API_TOKEN']

device = "cuda" if torch.cuda.is_available() else "cpu"
print(device,",",token)

cuda , {'HUGGING_API_TOKEN': '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'}


In [4]:
torch.random.manual_seed(42) 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

<torch._C.Generator at 0x702c88322630>

## Carregando o modelo

In [5]:
id_model = "microsoft/Phi-3-mini-4k-instruct"

model = AutoModelForCausalLM.from_pretrained(
    id_model,            
    device_map = device,        # Para acelerar o processo, o modelo usar√° a placa de v√≠deo (GPU) que o coputador oferece ou mesmo CPU.
    torch_dtype = "auto",       # Define o tipo de dado ideal para o modelo rodar mais r√°pido e usar menos mem√≥ria.
    trust_remote_code = True,   # Permite usar c√≥digo personalizado do Hugging Face, necess√°rio para modelos espec√≠ficos.
    attn_implementation="eager" # Escolhe um m√©todo de aten√ß√£o ("eager") para melhorar o desempenho de alguns modelos.
)

config.json:   0%|          | 0.00/967 [00:00<?, ?B/s]

configuration_phi3.py: 0.00B [00:00, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/microsoft/Phi-3-mini-4k-instruct:
- configuration_phi3.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_phi3.py: 0.00B [00:00, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/microsoft/Phi-3-mini-4k-instruct:
- modeling_phi3.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
`flash-attention` package not found, consider installing for better performance: No module named 'flash_attn'.
Current `flash-attention` does not support `window_size`. Either upgrade or use `attn_implementation='eager'`.


model.safetensors.index.json: 0.00B [00:00, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.67G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/181 [00:00<?, ?B/s]

##  Criando o Tokinizador 

<p>O tokenizador traduz o texto em n√∫meros (tokens) para que o modelo de IA consiga process√°-lo.</br> Em seguida, ele converte os n√∫meros gerados pelo modelo de volta em texto que n√≥s podemos entender.</p>

In [6]:
tokenizer = AutoTokenizer.from_pretrained(id_model)

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/306 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/599 [00:00<?, ?B/s]

## Cria√ß√£o do Pipeline

Par√¢metros:

* "text-generation": especifica a tarefa que o pipeline est√° configurado para executar. Neste caso, estamos configurando um pipeline para gera√ß√£o de texto. O pipeline usar√° o modelo para gerar texto com base em um     prompt fornecido.
* model=model: especifica o modelo pr√©-treinado que o pipeline usar√°. Aqui, estamos passando o model que carregamos anteriormente. Este modelo √© respons√°vel por gerar texto com base nos tokens de entrada.
* tokenizer=tokenizer: especifica o tokenizador que o pipeline usar√°. Passamos o tokenizer que carregamos anteriormente para garantir que o texto de entrada seja tokenizado corretamente e os tokens de sa√≠da sejam     decodificados com precis√£o.

In [7]:
pipe = pipeline(
    "text-generation",
    model = model, 
    tokenizer= tokenizer
)

Device set to use cuda


In [7]:
type(pipe)

transformers.pipelines.text_generation.TextGenerationPipeline

## Par√¢metros para gera√ß√£o de texto

Para personalizar o comportamento do nosso pipeline de gera√ß√£o de texto, podemos passar um <b>dicion√°rio de argumentos</b> para controlar v√°rios aspectos do processo de gera√ß√£o.

`max_new_tokens` - Este par√¢metro especifica o n√∫mero m√°ximo de novos tokens a serem gerados em resposta ao prompt de entrada. Ele controla o comprimento do texto gerado.
* Exemplo: Definir max_new_tokens como 500 significa que o modelo gerar√° at√© 500 tokens al√©m do prompt de entrada.

`return_full_text` - Determina se deve retornar o texto completo, incluindo o prompt de entrada, ou apenas os tokens rec√©m-gerados.
* Exemplo: Definir return_full_text como False significa que apenas os tokens rec√©m-gerados ser√£o retornados, excluindo o prompt de entrada original. Se definido como True, o texto retornado incluir√° o prompt de entrada e a continua√ß√£o gerada.

`temperature` - Controla a aleatoriedade do processo de gera√ß√£o de texto. Valores mais baixos tornam a sa√≠da do modelo mais determin√≠stica e focada, enquanto valores mais altos aumentam a aleatoriedade e a criatividade.
* Exemplo: Uma temperatura de 0,1 torna as previs√µes do modelo mais confi√°veis e menos variadas, levando a sa√≠das mais previs√≠veis. Uma temperatura mais alta resultaria em um texto mais diverso e variado.

`do_sample` - Este par√¢metro habilita ou desabilita a amostragem (sampling) durante a gera√ß√£o de texto. Quando definido como True, o modelo faz a amostragem de tokens com base em suas probabilidades, adicionando um elemento de aleatoriedade √† sa√≠da. Quando definido como False, o modelo sempre escolhe o token de maior probabilidade (decodifica√ß√£o gananciosa / greedy decoding).
* Exemplo: Definir do_sample como True permite uma gera√ß√£o de texto mais diversa e criativa. Se definido como False, a sa√≠da ser√° mais determin√≠stica, mas potencialmente menos interessante.


In [8]:
generation_args = {
    "max_new_tokens": 1024,
    "return_full_text": False,
    "temperature": 0.1, # 0.1 at√© 0.9
    "do_sample": True,
}

In [9]:
type(generation_args)

dict

In [9]:
# prompt = "Explique o que √© computa√ß√£o qu√¢ntica"
prompt = "Quanto √© 7 x 6 - 42?"

output = pipe(prompt, **generation_args);

The `seen_tokens` attribute is deprecated and will be removed in v4.41. Use the `cache_position` model input instead.
`get_max_cache()` is deprecated for all Cache classes. Use `get_max_cache_shape()` instead. Calling `get_max_cache()` will raise error from v4.48
You are not running the flash-attention implementation, expect numerical differences.


In [10]:
output, type(output)

([{'generated_text': '\n\nOp√ß√µes de resposta: (A) 0 (B) 1 (C) 2 (D) 4 (E) 6\n\n\n### Answer\n\nPara resolver a express√£o 7 x 6 - 42, precisamos seguir a ordem das opera√ß√µes, que √© frequentemente lembrada pelo acr√¥nimo PEMDAS (Par√™nteses, Expoentes, Multiplica√ß√£o e Divis√£o, e Adi√ß√£o e Subtra√ß√£o). Como n√£o h√° par√™nteses ou expoentes nesta express√£o, come√ßamos com a multiplica√ß√£o e depois a subtra√ß√£o.\n\nPasso 1: Realizar a multiplica√ß√£o\n7 x 6 = 42\n\nPasso 2: Subtrair o resultado da multiplica√ß√£o de 42\n42 - 42 = 0\n\nPortanto, a resposta para a express√£o 7 x 6 - 42 √© 0.'}],
 list)

In [11]:
print(output[0]['generated_text'], "\n")



Op√ß√µes de resposta: (A) 0 (B) 1 (C) 2 (D) 4 (E) 6


### Answer

Para resolver a express√£o 7 x 6 - 42, precisamos seguir a ordem das opera√ß√µes, que √© frequentemente lembrada pelo acr√¥nimo PEMDAS (Par√™nteses, Expoentes, Multiplica√ß√£o e Divis√£o, e Adi√ß√£o e Subtra√ß√£o). Como n√£o h√° par√™nteses ou expoentes nesta express√£o, come√ßamos com a multiplica√ß√£o e depois a subtra√ß√£o.

Passo 1: Realizar a multiplica√ß√£o
7 x 6 = 42

Passo 2: Subtrair o resultado da multiplica√ß√£o de 42
42 - 42 = 0

Portanto, a resposta para a express√£o 7 x 6 - 42 √© 0. 



In [12]:
prompt = "Me fale um pouco do Brasil"
output = pipe(prompt, **generation_args)

print(f"{output[0]['generated_text']}\n")

.

### Answer:O Brasil √© o pa√≠s mais populoso da Am√©rica do Sul e o quarto maior do mundo, com uma popula√ß√£o estimada em mais de 210 milh√µes de pessoas. √â conhecido por sua rica biodiversidade, com uma grande variedade de paisagens, desde as florestas tropicais da Amaz√¥nia at√© as plan√≠cies do Pantanal e as montanhas da Serra do Espinha√ßo.

A economia do Brasil √© diversificada, com setores importantes incluindo agricultura, minera√ß√£o, manufatura e servi√ßos. O pa√≠s √© um dos maiores produtores de a√ß√∫car, soja, caf√© e algod√£o, e tamb√©m √© um importante exportador de min√©rios como ferro, cobre e ouro.

A cultura brasileira √© vibrante e influenciada por uma mistura de tradi√ß√µes ind√≠genas, africanas e europeias. A m√∫sica, como samba, bossa nova e pagode, √© mundialmente famosa, e o pa√≠s tamb√©m √© conhecido por seus desfiles de carnaval, que s√£o celebrados em todo o pa√≠s.

A pol√≠tica brasileira √© caracterizada por um sistema de governo presidencialista, com o 

In [13]:
# Definindo os tokens de paradas
# obs: para cada modeo √© aconselh√°vel ver a documenta√ß√£o do modelo e sobre o tokens de parada ( end token )
# Para este modelo vamos utilizar este tokens de parada


# prompt = "Explique o que √© computa√ß√£o qu√¢ntica"

template = """<|system|>
Voc√™ √© um assistente de ajuda.<|end|>
<|user|>
"{}"<|end|>
<|assistant|>""".format(prompt) # formata o prompt para o formato adequado 

In [14]:
print(template)

<|system|>
Voc√™ √© um assistente de ajuda.<|end|>
<|user|>
"Me fale um pouco do Brasil"<|end|>
<|assistant|>


In [15]:
template

'<|system|>\nVoc√™ √© um assistente de ajuda.<|end|>\n<|user|>\n"Me fale um pouco do Brasil"<|end|>\n<|assistant|>'

In [16]:
output = pipe(template, **generation_args)
print(output[0]['generated_text'])

 O Brasil √© o maior pa√≠s da Am√©rica do Sul e o quarto maior do mundo em extens√£o territorial, com uma √°rea de aproximadamente 8.515.767 quil√¥metros quadrados. Sua capital √© Bras√≠lia, inaugurada em 1960, e sua maior cidade √© S√£o Paulo, conhecida por sua rica hist√≥ria, cultura e economia din√¢mica. O pa√≠s √© conhecido por sua diversidade cultural, com mais de 200 grupos ind√≠genas e uma popula√ß√£o de mais de 210 milh√µes de pessoas. O Brasil tem uma economia vibrante e √© um dos maiores produtores de a√ß√∫car, caf√©, soja e petr√≥leo do mundo. Al√©m disso, o pa√≠s √© famoso por seus festivais, como o Carnaval, que √© celebrado em todo o pa√≠s e √© considerado um dos maiores eventos culturais do mundo.


## Explorando a engenharia de prompt

In [17]:
prompt = "Descreva quais s√£o as principais bigtechs do mercado global nos dias tuais."
sys_prompt = "Voc√™ √© um assistente virtual prestativo. Responda as perguntas em portugu√™s."

template = """<|system|>
{}<|end|>
<|user|>
"{}"<|end|>
<|assistant|>""".format(sys_prompt, prompt)

print(template)

<|system|>
Voc√™ √© um assistente virtual prestativo. Responda as perguntas em portugu√™s.<|end|>
<|user|>
"Descreva quais s√£o as principais bigtechs do mercado global nos dias tuais."<|end|>
<|assistant|>


In [18]:
output = pipe(template, **generation_args)
print(output[0]['generated_text'])

 As principais bigtechs do mercado global s√£o empresas que operam em setores como tecnologia da informa√ß√£o, internet e intelig√™ncia artificial, e que t√™m uma influ√™ncia significativa em diversos aspectos da economia e da sociedade. Algumas das maiores e mais influentes bigtechs incluem:


1. **Google**: Fundada em 1998, a Google √© uma empresa multinacional que desenvolve e vende produtos e servi√ßos relacionados √† internet, incluindo navegadores de internet, sistemas operacionais, software de produtividade, e-mail, servi√ßos de busca, entre outros.


2. **Facebook (Meta Platforms)**: Fundada em 2004, o Facebook √© uma plataforma de rede social que tamb√©m oferece servi√ßos como Instagram, WhatsApp e Oculus VR. A Meta Platforms, que √© o nome atual da empresa ap√≥s a mudan√ßa de nome em 2021, est√° focada na realidade virtual e na tecnologia Meta.


3. **Amazon**: Fundada em 1994, a Amazon √© uma empresa de com√©rcio eletr√¥nico que oferece uma ampla gama de produtos e servi√ßos

In [19]:
prompt = "quem formulou a primeira lei da f√≠sica?"

sys_prompt = "Voc√™ √© um programador experiente. Retorne o c√≥digo requisitado e forne√ßa explica√ß√µes."

template = """<|system|>
{}<|end|>
<|user|>
"{}"<|end|>
<|assistant|>""".format(sys_prompt, prompt)

output = pipe(template, **generation_args)
print(output[0]['generated_text'])

 A primeira lei da f√≠sica, tamb√©m conhecida como a lei da conserva√ß√£o da energia, foi formulada por Sir Isaac Newton. A lei afirma que a energia n√£o pode ser criada nem destru√≠da, apenas transformada de uma forma para outra. A express√£o matem√°tica da primeira lei pode ser escrita como:


F = ma


Onde F √© a for√ßa aplicada a um objeto, m √© a massa do objeto e a √© a acelera√ß√£o resultante. Essa equa√ß√£o √© fundamental para o campo da f√≠sica e tem implica√ß√µes em v√°rias √°reas, como mec√¢nica cl√°ssica, din√¢mica de fluidos e at√© mesmo na f√≠sica qu√¢ntica.


# Formato de Mensagens (LLMs em Chat)

**Ideia central:** Em chats com LLMs, a conversa √© uma **lista de mensagens**.  
Cada mensagem tem:
- **`role`**: quem est√° falando (`system`, `user`, `assistant`)
- **`content`**: o texto da mensagem

## Por que usar esse formato?
- O modelo entende **contexto de ida e volta** (v√°rios turnos).
- Facilita controlar o comportamento (ex.: instru√ß√µes no `system`).

## Estrutura do prompt (lista `msg`)
Voc√™ envia algo como uma lista de dicion√°rios com `role` e `content`.  
O modelo responde levando em conta **toda a conversa**, com foco na **√∫ltima** mensagem.

### Exemplo m√≠nimo
```json
[
  { "role": "system", "content": "Voc√™ √© um assistente √∫til e direto." },
  { "role": "user",   "content": "Explique o que √© uma mensagem." }
]


In [20]:
prompt = "Explique de uma forma simples o conceito de prompt e tamplet"

msg = [
    {"role": "system", "content": "Voc√™ √© um assistente virtual prestativo com conhecimentos e praticas de IA. Responda as perguntas em portugu√™s." },
    {"role": "user", "content": prompt}
]


output = pipe(msg, **generation_args)
print(output[0]["generated_text"])

 Um prompt √© uma instru√ß√£o ou solicita√ß√£o que voc√™ d√° a um modelo de IA, como um chatbot ou uma intelig√™ncia artificial, para que ele possa entender e responder adequadamente. √â como uma dica ou um comando que ajuda o modelo a gerar uma resposta relevante.


Por outro lado, um template √© um modelo pr√©-definido que cont√©m uma estrutura ou formato espec√≠fico para uma resposta. Ele pode incluir espa√ßos reservados ou marcadores que s√£o substitu√≠dos por informa√ß√µes espec√≠ficas quando o modelo de IA processa o prompt. Templates s√£o √∫teis para garantir que as respostas sejam consistentes e organizadas de acordo com um padr√£o espec√≠fico.


Em resumo, um prompt √© uma instru√ß√£o para o modelo de IA, enquanto um template √© um modelo de resposta que ajuda a organizar e padronizar as respostas.


### Otimizando com quantiza√ß√£o

üß† Otimizando com Quantiza√ß√£o

Modelos grandes podem ser dif√≠ceis de executar em m√°quinas com poucos recursos.Para contornar isso, usamos quantiza√ß√£o, uma t√©cnica que reduz o uso de mem√≥ria e acelera os c√°lculos ao representar pesos com menor precis√£o (peso com int8 ou 4 bits).

Com o BitsAndBytesConfig da biblioteca transformers, √© poss√≠vel carregar modelos massivos de forma eficiente, sem grandes perdas de desempenho.

‚öôÔ∏è Par√¢metros principais

<b>load_in_4bit</b> ‚Üí Ativa a quantiza√ß√£o em 4 bits.
Impacto: menor uso de mem√≥ria e infer√™ncia mais r√°pida.

<b>bnb_4bit_quant_type</b> ‚Üí Define o tipo de quantiza√ß√£o; "nf4" (NormalFloat4) mant√©m o desempenho com menor precis√£o.
Impacto: equil√≠brio entre tamanho e performance.

<b>bnb_4bit_use_double_quant</b> ‚Üí Habilita a quantiza√ß√£o dupla.
Impacto: reduz erros e melhora a estabilidade.

<b>bnb_4bit_compute_dtype</b> ‚Üí Define o tipo de dado usado nos c√°lculos, como torch.bfloat16.
Impacto: c√°lculos eficientes com m√≠nima perda de precis√£o.

üöÄ <b><u>Resultado<u></b>

Essas configura√ß√µes permitem rodar modelos grandes mesmo em hardwares limitados, tornando o processo mais leve e r√°pido, sem comprometer muito a qualidade do modelo.

<b>Observa√ß√£o:</b> Se o modelo der erro de acesso (<u>Cannot access gated repo for url...</u>), use o seguinte comando no prompt:
   - huggingface-cli login
   - Cole seu token

In [23]:
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16
)

In [25]:
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
                                 model_id, 
                                 quantization_config = quantization_config,
                                 token = token # envia o token para o huggingface dar licensa para baixar o modelo em quest√£o  
)

tokenizer = AutoTokenizer.from_pretrained(model_id)

`low_cpu_mem_usage` was None, now default to True since model is quantized.


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [26]:
# Normalmente, ao preparar dados para o LLM, usa-se tokenizer.apply_chat_template, que adiciona tokens EOS (fim de sequ√™ncia) ap√≥s cada resposta.

prompt = "Quem foi Dom Pedro II?"
messages = [
    {"role": "user", "content": prompt},
]

<hr style="border: 2px solid black; width: 100%;">

#### <p>A fun√ß√£o  <u>tokenizer.apply_chat_template()</u>  da Hugging Face aplica automaticamente o formato correto de chat para o modelo escolhido, evitando erros manuais. O par√¢metro <u>return_tensors="pt"</u> indica que os dados devem ser retornados como tensores PyTorch.</p>

#### <u><b>As demais linhas de c√≥digo:</br></u> 

#### tokenizam as mensagens de entrada, movem os tensores para o dispositivo correto (GPU), geram novos tokens com base nos inputs fornecidos,</br> decodificam os tokens gerados de volta em texto leg√≠vel e finalmente retornam o texto gerado.</br>

<hr style="border: 2px solid black; width: 100%;">

### O fluxo geral do c√≥digo √©:
* `model_inputs = encodeds.to(device)` -  Move os tensores codificados para o dispositivo especificado (CPU ou GPU) para serem processados pelo modelo.

* `encodeds` - Os tensores gerados na linha anterior.
`to(device)` -  Move os tensores para o dispositivo especificado (device), que pode ser uma CPU ou GPU.

* `generated_ids = model.generate...` -> Gera uma sequ√™ncia de tokens a partir dos model_inputs.
     * model.generate: Fun√ß√£o do modelo que gera texto baseado nos inputs fornecidos.
     * model_inputs: Os inputs processados, prontos para serem usados pelo modelo.
     * max_new_tokens=1000: Limita a gera√ß√£o a no m√°ximo 1000 novos tokens.
     * do_sample=True: Habilita amostragem aleat√≥ria durante a gera√ß√£o, o que pode resultar em sa√≠das mais variadas.
     * pad_token_id=tokenizer.eos_token_id: Define o token de padding para ser o token de fim de sequ√™ncia, garantindo que a gera√ß√£o seja corretamente terminada.
</br>

* `decoded = tokenizer.batch_decode(generated_ids)` - decodifica os IDs gerados de volta para texto leg√≠vel.
 * `tokenizer.batch_decode` - fun√ß√£o que converte uma lista de IDs de tokens de volta para texto.
 * `generated_ids` - os IDs dos tokens gerados na etapa anterior.


`res = decoded[0]` - extrai o primeiro item da lista de textos decodificados.
decoded[0]: Pega o primeiro texto da lista decoded, que corresponde √† gera√ß√£o de texto para o primeiro (e possivelmente √∫nico) input fornecido.


In [27]:
encondeds = tokenizer.apply_chat_template(messages, return_tensors = "pt")
model_input = encondeds.to(device)

generated_ids = model.generate(
                      model_input, 
                      max_new_tokens = 500,
                      do_sample = True, 
                      pad_token_id = tokenizer.eos_token_id
)

decoded = tokenizer.batch_decode(generated_ids)
res = decoded[0]
res

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


'<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\nQuem foi Dom Pedro II?<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\nDom Pedro II foi o Imperador do Brasil entre 1831 e 1889. Ele nasceu em 2 de dezembro de 1825, em S√£o Crist√≥v√£o, na ent√£o Capitania de S√£o Crist√≥v√£o, no Brasil, e morreu em 5 de janeiro de 1891, em Porto Alegre, Rio Grande do Sul, Brasil.\n\nPedro II foi o segundo Imperador do Brasil, ap√≥s a abdica√ß√£o de seu pai, Dom Pedro I, que havia declarado a independ√™ncia do Brasil em 1822. Dom Pedro II ascendeu ao trono com apenas seis anos de idade, ap√≥s a morte de seu pai, e foi reinando por mais de 58 anos, at√© a Proclama√ß√£o da Rep√∫blica Brasileira em 1889.\n\nDurante seu reinado, Dom Pedro II implementou v√°rias reformas pol√≠ticas, econ√¥micas e sociais no Brasil, incluindo a aboli√ß√£o da escravatura em 1888. Ele tamb√©m promoveu o desenvolvimento da educa√ß√£o, da ci√™ncia e da arte no pa√≠s.\n\nDom Pedro II era conhecido por sua in

In [29]:
print(res)

<|begin_of_text|><|start_header_id|>user<|end_header_id|>

Quem foi Dom Pedro II?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

Dom Pedro II foi o Imperador do Brasil entre 1831 e 1889. Ele nasceu em 2 de dezembro de 1825, em S√£o Crist√≥v√£o, na ent√£o Capitania de S√£o Crist√≥v√£o, no Brasil, e morreu em 5 de janeiro de 1891, em Porto Alegre, Rio Grande do Sul, Brasil.

Pedro II foi o segundo Imperador do Brasil, ap√≥s a abdica√ß√£o de seu pai, Dom Pedro I, que havia declarado a independ√™ncia do Brasil em 1822. Dom Pedro II ascendeu ao trono com apenas seis anos de idade, ap√≥s a morte de seu pai, e foi reinando por mais de 58 anos, at√© a Proclama√ß√£o da Rep√∫blica Brasileira em 1889.

Durante seu reinado, Dom Pedro II implementou v√°rias reformas pol√≠ticas, econ√¥micas e sociais no Brasil, incluindo a aboli√ß√£o da escravatura em 1888. Ele tamb√©m promoveu o desenvolvimento da educa√ß√£o, da ci√™ncia e da arte no pa√≠s.

Dom Pedro II era conhecido por sua intelig√™ncia

In [30]:
type(res)

str