## Instalação e configuração

É necessário a instalação de algumas bibliotecas essenciais para o desenvolvimento de modelos de aprendizado de máquina e processamento de linguagem natural (NLP):
- **Transformers, da Hugging Face:** Oferece uma vasta gama de modelos pré-treinados como BERT, GPT e T5 para tarefas de NLP.
- **Einops:** Facilita a manipulação de tensores com uma sintaxe clara, tornando operações complexas mais simples.
- **Accelerate, também da HuggingFace:** Ajuda a otimizar o treinamento de modelos em diferentes aceleradores de hardware como GPUs e TPUs.
- **BitsAndBytes:** Possibilita a quantização eficiente de modelos grandes, reduzindo o consumo de memória em PyTorch.

In [1]:
# do professor:
#!pip install -q transformers==4.48.2 einops accelerate bitsandbytes

# Foi necessário instalar cada lib separadamente no ambiente linux com conda
# !pip install transformers
# !pip install einops
# !pip install accelerate
# !pip install bitsandbytes

- AutoModelForCausalLM: Uma classe que fornece um modelo de linguagem causal (ou autoregressivo) pré-treinado (por exemplo, GPT-2, GPT-3) que **são adequados para tarefas de geração de texto**.
- AutoTokenizer: Uma classe que fornece um tokenizador que corresponde ao modelo. O tokenizador é responsável por converter texto em tokens numéricos que o modelo pode entender.
- pipeline: fornece uma interface simples e unificada para várias tarefas de PLN, facilitando a execução de tarefas como geração de texto, classificação e tradução.
- BitsAndBytesConfig: Uma classe para configuração de quantização e outras otimizações de baixo nível para melhorar a eficiência computacional.

In [2]:
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, BitsAndBytesConfig

  from .autonotebook import tqdm as notebook_tqdm
2025-09-25 22:16:25.102788: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1758849385.132651   16073 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1758849385.141113   16073 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1758849474.036630   16073 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1758849474.036670   16073 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1758849474.036673   16073

In [3]:
import torch
import getpass
import os
from dotenv import load_dotenv

# Quando usa-se a palavra "cuda" estamos trabalhando com GPU
device = "cuda:0" if  torch.cuda.is_available() else "cpu"
device

'cuda:0'

SEED para garantir a reprodutibilidade entre diferentes experimentos e execuções.

Ou seja, sempre que o código for executado sempre serão gerados os mesmos resultados.

In [4]:
torch.random.manual_seed(42)

<torch._C.Generator at 0x7f947590f8f0>

### Definição do Token da Hugging Face

In [5]:
load_dotenv()
hf_token = os.getenv("HF_TOKEN")

# O getpass também é interessante pois solicita ao usuário digitar uma "senha"
# getpass.getpass()

### Carregando o modelo

Iremos utilizar o modelo Phi-3-mini-4k-instruct:

Foi escolhido pois é open source, acessível e consegue responder bem em português (embora ainda seja melhor em inglês). Verá que muitos modelos não entendem esse idioma, e os que entendem são muito pesados para executarmos em nosso ambiente, ou seja, precisamos acessar via alguma API ou interface web, como o ChatGPT. Porém, nesse momento queremos explorar soluções open source, para obtermos maior liberdade.

[Acessar modelo Phi-3-mini-4k-instruct no Hugging Face](https://huggingface.co/microsoft/Phi-3-mini-4k-instruct)

Este modelo tem 4k de tamanho, isso se refere ao comprimento da sequência, que neste caso é de 4000 tokens. Isso significa que **o modelo pode processar até 4000 tokens em uma única entrada**, permitindo que ele processe e gere sequências de texto mais longas de forma mais eficaz.



In [6]:
id_model = "microsoft/Phi-3-mini-4k-instruct"

Para resolver o erro:

`AttributeError: 'DynamicCache' object has no attribute 'seen_tokens'`

Foi necessário colocar o parâmetro trust_remote_code para False.

[Dynamic Cache Error Stackoverflow](https://stackoverflow.com/questions/79769295/attributeerror-dynamiccache-object-has-no-attribute-seen-tokens)

In [7]:
model = AutoModelForCausalLM.from_pretrained(
    id_model, # Modelo que será baixado
    device_map = "cuda", # Deve ser carregada em uma GPU habilitada para CUDA
    torch_dtype = "auto",
    trust_remote_code = False, # Necessário False, explicação no link do markdown acima
    attn_implementation="eager" # Método de implementação para o mecanismo de atenção
)

`torch_dtype` is deprecated! Use `dtype` instead!
Loading checkpoint shards: 100%|██████████| 2/2 [00:06<00:00,  3.24s/it]


### Carregando o Tokenizer

Transforma texto bruto em tokens que são representações numéricas de cada palavra que o modelo pode processar.

O código abaixo irá baixar o tokenizador de acordo com o modelo que estamos utilizando (pelo id do modelo).

In [8]:
tokenizer = AutoTokenizer.from_pretrained(id_model)

### Criação do Pipeline

Basicamente são os passos para execução dos códigos.

In [9]:
pipe = pipeline("text-generation", # Especifica a tarefa que o pipeline está configurado para executar
                model = model, # O modelo que acabamos de baixar
                tokenizer = tokenizer) # Tokenizer que também acabamos de baixar

Device set to use cuda


### Parâmetros para geração de texto

- **max_new_tokens**: Número máximo de novos tokens a serem gerados em resposta a um prompt de entrada
- **return_full_text**: Determina se deve retornar o texto completo, incluindo o prompt de entrada ou apenas os tokens recém gerados.
- **temperature**: Controla a aleatoriedade do processo de geração de texto.
    - Valores mais baixos tornam a saída do modelo mais determinística e focada.
    - Enquanto valores mais altos aumentam a criatividade do texto gerado (pode alucinar também).
- **do_sample**: Habilita ou desabilita a amostragem durante a geração de texto. 
    - Quando *True* o modelo faz a amostragem de tokens com base nas probabilidades, adicionando um elemento de **aleatoriedade** a saída.
    - Quando *False* o modelo sempre escolhe o token de **maior probabilidade**.

É sempre importante fazer testes com estes parâmetros e verificar qual configuração melhor se adequa ao projeto que você estiver trabalhando.

In [10]:
generation_args = {
    "max_new_tokens": 500,
    "return_full_text": False, # Serão mostrados apenas os novos tokens gerados
    "temperature": 0.1, # 0.1 até 0.9
    "do_sample": True # True -> Teremos um elemento um pouco mais aleatório nos resultados.
}

### Testes com frases

In [11]:
prompt = "Explique o que é computação quântica"
output = pipe(prompt, **generation_args) # kwargs, Adiciona todos os parâmetros que acabamos de criar

In [16]:
type(output), output

(list,
 [{'generated_text': ' e como ela difere da computação clássica.\n\n\n### Solution:\n\nA computação quântica é um campo da ciência da computação que explora os princípios da mecânica quântica para processar informações. Ao contrário da computação clássica, que usa bits (0 ou 1) para representar dados, a computação quântica utiliza qubits, que podem estar em um estado de 0, 1 ou ambos (superposição). Isso permite que os qubits realizem múltiplas operações simultaneamente, aumentando a potência computacional.\n\n\nOutra diferença chave é o uso de portas quânticas, que manipulam os estados quânticos dos qubits, em vez de portas lógicas clássicas que operam em bits. Além disso, a computação quântica aproveita fenômenos como a entrelaçamento, onde o estado de um qubit pode estar diretamente ligado ao de outro, independentemente da distância entre eles.\n\n\nA computação quântica tem o potencial de resolver certos problemas muito mais rapidamente do que a computação clássica, como fat

Neste primeiro teste o modelo teve uma **alucinação**, pois a resposta foi um pouco diferente do que foi pedido.

In [13]:
print(output[0]['generated_text'])

 e como ela difere da computação clássica.


### Solution:

A computação quântica é um campo da ciência da computação que explora os princípios da mecânica quântica para processar informações. Ao contrário da computação clássica, que usa bits (0 ou 1) para representar dados, a computação quântica utiliza qubits, que podem estar em um estado de 0, 1 ou ambos (superposição). Isso permite que os qubits realizem múltiplas operações simultaneamente, aumentando a potência computacional.


Outra diferença chave é o uso de portas quânticas, que manipulam os estados quânticos dos qubits, em vez de portas lógicas clássicas que operam em bits. Além disso, a computação quântica aproveita fenômenos como a entrelaçamento, onde o estado de um qubit pode estar diretamente ligado ao de outro, independentemente da distância entre eles.


A computação quântica tem o potencial de resolver certos problemas muito mais rapidamente do que a computação clássica, como fatoração de números grandes, que é importa

In [17]:
prompt = "Quanto é 7 x 6 - 42?"
output = pipe(prompt, **generation_args)
print(output[0]['generated_text'])



Opções de resposta: (A) 0 (B) 1 (C) 2 (D) 4 (E) 6


### Answer

Para resolver a expressão 7 x 6 - 42, precisamos seguir a ordem das operações, que é frequentemente lembrada pelo acrônimo PEMDAS (Parênteses, Expoentes, Multiplicação e Divisão, Adição e Subtração). Como não há parênteses ou expoentes nesta expressão, começamos com a multiplicação e depois a subtração.

Passo 1: Realizar a multiplicação
7 x 6 = 42

Passo 2: Subtrair o resultado da multiplicação
42 - 42 = 0

Portanto, a resposta para a expressão 7 x 6 - 42 é 0.


Assim como no primeiro teste, o modelo continuou gerando textos mesmo após ter dado a resposta, mais um caso de **alucinação**.

In [18]:
prompt = "Quem foi a primeira pessoa no espaço?"
output = pipe(prompt, **generation_args)
print(output[0]['generated_text'])



### Answer:A primeira pessoa a viajar no espaço foi Yuri Gagarin, um cosmonauta soviético. Ele completou uma órbita ao redor da Terra em 12 de abril de 1961, em seu voo espacial Vostok 1.


### Question:Quem foi a primeira mulher no espaço e em que missão?

### Answer:A primeira mulher no espaço foi Valentina Tereshkova, uma cosmonauta soviética. Ela voou em 16 de junho de 1963, na missão Vostok 6.


### Question:Quem foi o primeiro astronauta americano a voar no espaço e em que missão?

### Answer:O primeiro astronauta americano a voar no espaço foi Alan Shepard, que fez a primeira missão tripulada dos Estados Unidos, a Mercury-Redstone 3, em 5 de maio de 1961.


### Question:Quem foi o primeiro astronauta americano a orbitar a Terra e em que missão?

### Answer:O primeiro astronauta americano a orbitar a Terra foi John Glenn, que fez isso em sua missão Mercury-Atlas 6, em 20 de fevereiro de 1962.


### Question:Quem foi o primeiro astronauta americano a fazer uma caminhada espacial

### Templates e engenharia de prompt

Para resolvermos os problemas anteriores iremos utilizar templates, que ajudam a produzir a entrada e os parâmetros do usuário para um modelo de linguagem. Pode ser utilizado para orientar a resposta de um modelo. Vai ajudar no entendimento do contexto e gerar uma saída mais coerente.

O trecho de código abaixo foi adquirido da própria documentação do modelo que estamos utilizando, recomendado pelos próprios autores.

É importante enfatizar que **cada modelo possui um template diferente**, portanto, **deve-se sempre consultar a documentação**.

In [None]:
def template(prompt: str):
    return f"""<|system|>
    You are a helpful assistant.<|end|>
    <|user|>
    {prompt}<|end|>
    <|assistant|>""" # Termina com assistant, pois a próxima resposta será do modelo


In [None]:
def llm(prompt):
    output = pipe(template(prompt), **generation_args)
    return output[0]['generated_text']

A tag **<|end|>** é utilizada para delimitar o fim do texto, isto resolverá o problema de gerar mais textos após o modelo dar a resposta.

In [None]:
template(prompt)

'<|system|>\n    You are a helpful assistant.<|end|>\n    <|user|>\n    Quem foi a primeira pessoa no espaço?<|end|>\n    <|assistant|>'

O problema da geração de novos textos sem contexto com a pergunta foi resolvido! Agora o modelo não gera mais textos desnecessários.

In [26]:
print(llm("Você entende de português?"))

 Sim, eu entendo o português. Como posso ajudar você hoje?


### Explorando a engenheraria de prompt

A engenharia de prompt tem o objetivo de gerar melhores textos para garantir uma melhor comunicação com uma inteligência artificial.

Quando você estiver trabalhando com um problema específico e não estiver obtendo os resultados desejados, é sempre importante conferir se o prompt pode ser mais específico, pois as vezes é necessário enviar mais detalhes, tanto na pergunta quanto no prompt de sistema.

Se mesmo com a melhoria dos prompts e testes com diferentes parâmetros (*generation_args*) o modelo não apresentar resultados satisfatórios, talvez o modelo não seja adequado para o problema. Portanto, é sempre interessante testar diferentes prompts, juntamente com modelos diferentes.

In [27]:
def template_sys_prompt(prompt, sys_prompt):
    return f"""<|system|>
    {sys_prompt}<|end|>
    <|user|>
    {prompt}<|end|>
    <|assistant|>"""

In [30]:
def llm_sys_prompt(prompt, sys_prompt):
    output = pipe(template_sys_prompt(prompt, sys_prompt), **generation_args)
    return output[0]['generated_text']

In [None]:
prompt = "O que é IA?"
sys_prompt = "Você é um assistente virtual prestativo. Responda as perguntas em português."
print(template_sys_prompt(prompt, sys_prompt))
print(llm_sys_prompt(prompt, sys_prompt)) # Exibe a resposta do modelo em sequência

<|system|>
    Você é um assistente virtual prestativo. Responda as perguntas em português.<|end|>
    <|user|>
    O que é IA?<|end|>
    <|assistant|>
 A IA, ou Inteligência Artificial, é um campo da ciência da computação que se dedica ao desenvolvimento de sistemas capazes de realizar tarefas que normalmente exigiriam inteligência humana. Essas tarefas incluem aprendizado, raciocínio, percepção e resolução de problemas. A IA pode ser categorizada em diferentes tipos, como IA fraca (ou aprendizagem de máquina) e IA forte (ou inteligência generalizada). A IA é utilizada em diversos setores, como saúde, finanças, automação e entretenimento, proporcionando soluções inovadoras e eficiência.


In [32]:
prompt = "Gere um código em python que escreva a sequência de fibonnaci"
sys_prompt = "Você é um programador experiente. Retorne o código requisitado e forneça explicações breves se achar conveniente"
print(template_sys_prompt(prompt, sys_prompt))
print(llm_sys_prompt(prompt, sys_prompt)) # Exibe a resposta do modelo em sequência

<|system|>
    Você é um programador experiente. Retorne o código requisitado e forneça explicações breves se achar conveniente<|end|>
    <|user|>
    Gere um código em python que escreva a sequência de fibonnaci<|end|>
    <|assistant|>
 ```python

def fibonacci(n):

    a, b = 0, 1

    sequence = []

    while len(sequence) < n:

        sequence.append(a)

        a, b = b, a + b

    return sequence


# Exemplo de uso:

n = 10  # Quantidade de números da sequência de Fibonacci desejada

print(fibonacci(n))

```


Esta função `fibonacci` recebe um número `n` e retorna uma lista com os primeiros `n` números da sequência de Fibonacci. A sequência começa com 0 e 1, e cada número subsequente é a soma dos dois anteriores.


### Formato de mensagens

- **Role system**: Indica o que nós estamos especificando sobre o modelo (sys_prompt).
- **Role user**: Indica que a mensagem é do usuário.

Em resumo, essa é uma maneira alternativa para obtermos o mesmo resultado que já haviamos trabalhado, porém sem a utilização do *template*. Com isso, o código fica um pouco mais limpo. É apenas uma maneira alternativa e mais fácil se comparado com a utilização do template.

Quando utilizamos esse tipo de formato de mensagens (assim como com templates), nós garantimos que o modelo não vai cometer alucinações e gerar textos desnecessários.

In [None]:
prompt = "O que é IA?"
msg = [
    {"role": "system", "content": "Você é um assistente virtual prestativo. Responda as perguntas em português."},
    {"role": "user", "content": prompt}
]
output = pipe(msg, **generation_args)
print(output[0]['generated_text'])

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


 A IA, ou Inteligência Artificial, é um campo da ciência da computação que se dedica ao desenvolvimento de sistemas capazes de realizar tarefas que normalmente exigiriam inteligência humana. Essas tarefas incluem aprendizado, raciocínio, percepção e resolução de problemas. A IA pode ser categorizada em diferentes tipos, como IA fraca (ou aprendizagem de máquina) e IA forte (ou inteligência generalizada), e é aplicada em diversos domínios, como saúde, finanças, automação e entretenimento.


In [36]:
def llm_msg(prompt: str, sys_prompt: str):
    msg = [
        {"role": "system", "content": sys_prompt},
        {"role": "user", "content": prompt}
    ]
    output = pipe(msg, **generation_args)
    return output[0]['generated_text']

In [37]:
prompt = "Liste o nome de 10 cidades famosas do Brasil"
sys_prompt = "Você é um assistente virtual prestativo. Responda as perguntas em português."

print(llm_msg(prompt, sys_prompt))

 1. São Paulo

2. Rio de Janeiro

3. Brasília

4. Salvador

5. Fortaleza

6. Recife

7. Belo Horizonte

8. Curitiba

9. Porto Alegre

10. Manaus
