In [1]:
# !pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# !pip install -q transformers==4.48.2 einops accelerate bitsandbytes

## Importando as seguintes bibliotecas
* <b>AutoModelForCausalLM:</b> Uma classe que fornece um modelo de linguagem causal (ou autoregressivo) pré-treinado (por exemplo, GPT-2, GPT-3) que são adequados para tarefas de geração de texto.
* <b>AutoTokenizer:</b> Uma classe que fornece um tokenizador que corresponde ao modelo. O tokenizador é responsável por converter texto em tokens (numéricos) que o modelo pode entender.
* <b>pipeline:</b> fornece uma interface simples e unificada para várias tarefas de PLN, facilitando a execução de tarefas como geração de texto, classificação e tradução.
* <b>BitsAndBytesConfig:</b> Uma classe para configuração de quantização e outras otimizações de baixo nível para melhorar a eficiência computacional.

In [2]:
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, BitsAndBytesConfig
from yaml import safe_load
import torch
import getpass
import os

2025-10-02 19:50:07.638120: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-10-02 19:50:07.665228: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-10-02 19:50:08.412694: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.


## Leitura da chave do Hugging Face e verificando se o cuda está ativo

In [4]:
PATH = 'key.yaml'

with open(PATH) as token_file:
    token  = safe_load(token_file)

os.environ['HUGGING_API_TOKEN'] = token['HUGGING_API_TOKEN']

device = "cuda" if torch.cuda.is_available() else "cpu"
device, token

('cuda', {'HUGGING_API_TOKEN': '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'})

In [5]:
torch.random.manual_seed(42)

<torch._C.Generator at 0x7d5ab779c630>

## Carregando o modelo

In [6]:
id_model = "microsoft/Phi-3-mini-4k-instruct"

model = AutoModelForCausalLM.from_pretrained(
    id_model,            
    device_map = device,        # Para acelerar o processo, o modelo usará a placa de vídeo (GPU) que o coputador oferece ou mesmo CPU.
    torch_dtype = "auto",       # Define o tipo de dado ideal para o modelo rodar mais rápido e usar menos memória.
    trust_remote_code = True,   # Permite usar código personalizado do Hugging Face, necessário para modelos específicos.
    attn_implementation="eager" # Escolhe um método de atenção ("eager") para melhorar o desempenho de alguns modelos.
)

config.json:   0%|          | 0.00/967 [00:00<?, ?B/s]

configuration_phi3.py: 0.00B [00:00, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/microsoft/Phi-3-mini-4k-instruct:
- configuration_phi3.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_phi3.py: 0.00B [00:00, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/microsoft/Phi-3-mini-4k-instruct:
- modeling_phi3.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
`flash-attention` package not found, consider installing for better performance: No module named 'flash_attn'.
Current `flash-attention` does not support `window_size`. Either upgrade or use `attn_implementation='eager'`.


model.safetensors.index.json: 0.00B [00:00, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.67G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/181 [00:00<?, ?B/s]

##  Criando o Tokinizador 

<p>O tokenizador traduz o texto em números (tokens) para que o modelo de IA consiga processá-lo.</br> Em seguida, ele converte os números gerados pelo modelo de volta em texto que nós podemos entender.</p>

In [7]:
tokenizer = AutoTokenizer.from_pretrained(id_model)

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/306 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/599 [00:00<?, ?B/s]

## Criação do Pipeline

Parâmetros:

* "text-generation": especifica a tarefa que o pipeline está configurado para executar. Neste caso, estamos configurando um pipeline para geração de texto. O pipeline usará o modelo para gerar texto com base em um     prompt fornecido.
* model=model: especifica o modelo pré-treinado que o pipeline usará. Aqui, estamos passando o model que carregamos anteriormente. Este modelo é responsável por gerar texto com base nos tokens de entrada.
* tokenizer=tokenizer: especifica o tokenizador que o pipeline usará. Passamos o tokenizer que carregamos anteriormente para garantir que o texto de entrada seja tokenizado corretamente e os tokens de saída sejam     decodificados com precisão.

In [8]:
pipe = pipeline(
    "text-generation",
    model = model, 
    tokenizer= tokenizer
)

Device set to use cuda


In [9]:
type(pipe)

transformers.pipelines.text_generation.TextGenerationPipeline

## Parâmetros para geração de texto

Para personalizar o comportamento do nosso pipeline de geração de texto, podemos passar um dicionário de argumentos para controlar vários aspectos do processo de geração.

`max_new_tokens` - Este parâmetro especifica o número máximo de novos tokens a serem gerados em resposta ao prompt de entrada. Ele controla o comprimento do texto gerado.
* Exemplo: Definir max_new_tokens como 500 significa que o modelo gerará até 500 tokens além do prompt de entrada.

`return_full_text` - Determina se deve retornar o texto completo, incluindo o prompt de entrada, ou apenas os tokens recém-gerados.
* Exemplo: Definir return_full_text como False significa que apenas os tokens recém-gerados serão retornados, excluindo o prompt de entrada original. Se definido como True, o texto retornado incluirá o prompt de entrada e a continuação gerada.

`temperature` - Controla a aleatoriedade do processo de geração de texto. Valores mais baixos tornam a saída do modelo mais determinística e focada, enquanto valores mais altos aumentam a aleatoriedade e a criatividade.
* Exemplo: Uma temperatura de 0,1 torna as previsões do modelo mais confiáveis e menos variadas, levando a saídas mais previsíveis. Uma temperatura mais alta resultaria em um texto mais diverso e variado.

`do_sample` - Este parâmetro habilita ou desabilita a amostragem (sampling) durante a geração de texto. Quando definido como True, o modelo faz a amostragem de tokens com base em suas probabilidades, adicionando um elemento de aleatoriedade à saída. Quando definido como False, o modelo sempre escolhe o token de maior probabilidade (decodificação gananciosa / greedy decoding).
* Exemplo: Definir do_sample como True permite uma geração de texto mais diversa e criativa. Se definido como False, a saída será mais determinística, mas potencialmente menos interessante.


In [10]:
generation_args = {
    "max_new_tokens": 1024,
    "return_full_text": False,
    "temperature": 0.1, # 0.1 até 0.9
    "do_sample": True,
}

In [11]:
type(generation_args)

dict

In [12]:
# prompt = "Explique o que é computação quântica"
prompt = "Quanto é 7 x 6 - 42?"

output = pipe(prompt, **generation_args);

The `seen_tokens` attribute is deprecated and will be removed in v4.41. Use the `cache_position` model input instead.
`get_max_cache()` is deprecated for all Cache classes. Use `get_max_cache_shape()` instead. Calling `get_max_cache()` will raise error from v4.48
You are not running the flash-attention implementation, expect numerical differences.


In [13]:
output, type(output)

([{'generated_text': '\n\nOpções de resposta: (A) 0 (B) 1 (C) 2 (D) 4 (E) 6\n\n\n### Answer\n\nPara resolver a expressão 7 x 6 - 42, precisamos seguir a ordem das operações, que é frequentemente lembrada pelo acrônimo PEMDAS (Parênteses, Expoentes, Multiplicação e Divisão, e Adição e Subtração). Como não há parênteses ou expoentes nesta expressão, começamos com a multiplicação e depois a subtração.\n\nPasso 1: Realizar a multiplicação\n7 x 6 = 42\n\nPasso 2: Subtrair o resultado da multiplicação de 42\n42 - 42 = 0\n\nPortanto, a resposta para a expressão 7 x 6 - 42 é 0.'}],
 list)

In [14]:
print(output[0]['generated_text'], "\n")



Opções de resposta: (A) 0 (B) 1 (C) 2 (D) 4 (E) 6


### Answer

Para resolver a expressão 7 x 6 - 42, precisamos seguir a ordem das operações, que é frequentemente lembrada pelo acrônimo PEMDAS (Parênteses, Expoentes, Multiplicação e Divisão, e Adição e Subtração). Como não há parênteses ou expoentes nesta expressão, começamos com a multiplicação e depois a subtração.

Passo 1: Realizar a multiplicação
7 x 6 = 42

Passo 2: Subtrair o resultado da multiplicação de 42
42 - 42 = 0

Portanto, a resposta para a expressão 7 x 6 - 42 é 0. 



In [15]:
prompt = "Me fale um pouco do Brasil"
output = pipe(prompt, **generation_args)

print(f"{output[0]['generated_text']}\n")

.

### Answer:O Brasil é o país mais populoso da América do Sul e o quarto maior do mundo, com uma população estimada em mais de 210 milhões de pessoas. É conhecido por sua rica biodiversidade, com uma grande variedade de paisagens, desde as florestas tropicais da Amazônia até as planícies do Pantanal e as montanhas da Serra do Espinhaço.

A economia do Brasil é diversificada, com setores importantes incluindo agricultura, mineração, manufatura e serviços. O país é um dos maiores produtores de açúcar, soja, café e algodão, e também é um importante exportador de minérios como ferro, cobre e ouro.

A cultura brasileira é vibrante e influenciada por uma mistura de tradições indígenas, africanas e europeias. A música, como samba, bossa nova e pagode, é mundialmente famosa, e o país também é conhecido por seus desfiles de carnaval, que são celebrados em todo o país.

A política brasileira é caracterizada por um sistema de governo presidencialista, com o presidente como chefe de estado e gov

In [16]:
# Definindo os tokens de paradas
# obs: para cada modeo é aconselhável ver a documentação do modelo e sobre o tokens de parada ( end token )
# Para este modelo vamos utilizar este tokens de parada


# prompt = "Explique o que é computação quântica"

template = """<|system|>
Você é um assistente de ajuda.<|end|>
<|user|>
"{}"<|end|>
<|assistant|>""".format(prompt) # formata o prompt para o formato adequado 

In [17]:
print(template)

<|system|>
Você é um assistente de ajuda.<|end|>
<|user|>
"Me fale um pouco do Brasil"<|end|>
<|assistant|>


In [18]:
template

'<|system|>\nVocê é um assistente de ajuda.<|end|>\n<|user|>\n"Me fale um pouco do Brasil"<|end|>\n<|assistant|>'

In [19]:
output = pipe(template, **generation_args)
print(output[0]['generated_text'])

 O Brasil é o maior país da América do Sul e o quarto maior do mundo em extensão territorial, com uma área de aproximadamente 8.515.767 quilômetros quadrados. Sua capital é Brasília, inaugurada em 1960, e sua maior cidade é São Paulo, conhecida por sua rica história, cultura e economia dinâmica. O país é conhecido por sua diversidade cultural, com mais de 200 grupos indígenas e uma população de mais de 210 milhões de pessoas. O Brasil tem uma economia vibrante e é um dos maiores produtores de açúcar, café, soja e petróleo do mundo. Além disso, o país é famoso por seus festivais, como o Carnaval, que é celebrado em todo o país e é considerado um dos maiores eventos culturais do mundo.


## Explorando a engenharia de prompt

In [20]:
prompt = "Descreva quais são as principais bigtechs do mercado global nos dias tuais."
sys_prompt = "Você é um assistente virtual prestativo. Responda as perguntas em português."

template = """<|system|>
{}<|end|>
<|user|>
"{}"<|end|>
<|assistant|>""".format(sys_prompt, prompt)

print(template)

<|system|>
Você é um assistente virtual prestativo. Responda as perguntas em português.<|end|>
<|user|>
"Descreva quais são as principais bigtechs do mercado global nos dias tuais."<|end|>
<|assistant|>


In [21]:
output = pipe(template, **generation_args)
print(output[0]['generated_text'])

 As principais bigtechs do mercado global são empresas que operam em setores como tecnologia da informação, internet e inteligência artificial, e que têm uma influência significativa em diversos aspectos da economia e da sociedade. Algumas das maiores e mais influentes bigtechs incluem:


1. **Google**: Fundada em 1998, a Google é uma empresa multinacional que desenvolve e vende produtos e serviços relacionados à internet, incluindo navegadores de internet, sistemas operacionais, software de produtividade, e-mail, serviços de busca, entre outros.


2. **Facebook (Meta Platforms)**: Fundada em 2004, o Facebook é uma plataforma de rede social que também oferece serviços como Instagram, WhatsApp e Oculus VR. A Meta Platforms, que é o nome atual da empresa após a mudança de nome em 2021, está focada na realidade virtual e na tecnologia Meta.


3. **Amazon**: Fundada em 1994, a Amazon é uma empresa de comércio eletrônico que oferece uma ampla gama de produtos e serviços, incluindo varejo, s

In [22]:
prompt = "Gere um código em Rust que escreva a sequência de fibonnaci"

sys_prompt = "Você é um programador experiente. Retorne o código requisitado e forneça explicações."

template = """<|system|>
{}<|end|>
<|user|>
"{}"<|end|>
<|assistant|>""".format(sys_prompt, prompt)

output = pipe(template, **generation_args)
print(output[0]['generated_text'])

 Aqui está um exemplo de código em Rust que gera a sequência de Fibonacci até um número específico:

```rust
fn main() {
    let n = 10; // Número de elementos da sequência de Fibonacci
    let mut fib = vec![0, 1]; // Inicializa a sequência com os dois primeiros elementos

    for i in 2..n {
        let next_element = fib[i - 1] + fib[i - 2]; // Calcula o próximo elemento da sequência
        fib.push(next_element); // Adiciona o elemento calculado à sequência
    }

    println!("Sequência de Fibonacci até {} elementos: {:?}", n, fib);
}
```

Explicação:

- Primeiro, definimos o número de elementos da sequência de Fibonacci que queremos gerar, neste caso, 10.
- Em seguida, inicializamos a sequência com os dois primeiros elementos da sequência de Fibonacci, que são 0 e 1.
- Em seguida, usamos um loop for para calcular os elementos restantes da sequência. O loop começa no índice 2, pois já temos os dois primeiros elementos.
- Dentro do loop, calculamos o próximo elemento da sequência 

# Formato de Mensagens (LLMs em Chat)

**Ideia central:** Em chats com LLMs, a conversa é uma **lista de mensagens**.  
Cada mensagem tem:
- **`role`**: quem está falando (`system`, `user`, `assistant`)
- **`content`**: o texto da mensagem

## Por que usar esse formato?
- O modelo entende **contexto de ida e volta** (vários turnos).
- Facilita controlar o comportamento (ex.: instruções no `system`).

## Estrutura do prompt (lista `msg`)
Você envia algo como uma lista de dicionários com `role` e `content`.  
O modelo responde levando em conta **toda a conversa**, com foco na **última** mensagem.

### Exemplo mínimo
```json
[
  { "role": "system", "content": "Você é um assistente útil e direto." },
  { "role": "user",   "content": "Explique o que é uma mensagem." }
]


In [23]:
prompt = "Explique de uma forma simples o conceito de prompt e tamplet"

msg = [
    {"role": "system", "content": "Você é um assistente virtual prestativo com conhecimentos e praticas de IA. Responda as perguntas em português." },
    {"role": "user", "content": prompt}
]


output = pipe(msg, **generation_args)
print(output[0]["generated_text"])

 Um prompt é uma instrução ou solicitação que você dá a um modelo de IA, como um chatbot ou uma inteligência artificial, para que ele possa entender e responder adequadamente. É como uma dica ou um ponto de partida para a IA começar a processar a informação e gerar uma resposta.


Por outro lado, um template é um modelo pré-definido que possui uma estrutura específica e pode ser usado para gerar respostas consistentes. Templas são úteis quando você precisa de respostas que seguam um formato específico, como um e-mail, um relatório ou uma mensagem. Eles ajudam a garantir que as informações sejam apresentadas de forma organizada e clara.


Em resumo, um prompt é uma dica para a IA, enquanto um template é um modelo de resposta que ajuda a manter a consistência.
