# Engenharia de Prompt com LLMs

Este notebook explora os principais conceitos e estratégias de **Prompt Engineering**, com teoria, exemplos práticos e exercícios interativos baseados no [Prompting Guide](https://www.promptingguide.ai).

## O que é Engenharia de Prompt?
Engenharia de prompt é o processo de projetar instruções eficazes para modelos de linguagem como o GPT para que eles realizem tarefas específicas. Envolve a formulação de entradas (prompts) que maximizam a qualidade das respostas geradas.

## Aplicações
- Chatbots
- Geração de código
- Tradução e sumarização
- Classificação de sentimentos
- Extração de informações

## Elementos de um prompt

Um prompt pode conter qualquer um dos seguintes componentes:

Instrução - uma tarefa ou instrução específica que você deseja que o modelo execute

Contexto - pode envolver informações externas ou contexto adicional que pode direcionar o modelo para melhores respostas

Dados de entrada - é a entrada ou pergunta para a qual estamos interessados em encontrar uma resposta

Indicador de saída - indica o tipo ou formato da saída.

## Tipos de Prompting

### Zero-shot Prompting
- não fornecemos nenhum exemplo ao modelo

Útil quando a tarefa é clara por si só.

In [None]:
prompt = """Classifique o texto em neutro, negativo ou positivo.
Texto: Acho que as férias estão boas.
Sentimento:"""

**Saída do ChatGPT**

Sentimento: positivo ✅

Justificativa: A expressão "as férias estão boas" transmite uma avaliação favorável, ainda que moderada, indicando uma experiência agradável. O uso de "acho" suaviza um pouco, mas não altera o tom geral positivo da frase.

Quando o `zero shot` não funciona, é recomendável fornecer demonstrações ou exemplos no prompt que levam ao prompt de `few shot`.

### Few shot
- fornecemos alguns exemplos de entrada e saída
- uma técnica para permitir o aprendizado no contexto, fornecemos demonstrações para direcionar o modelo e obter uma resposta melhor

Útil quando a tarefa é complexa ou o modelo precisa de contexto adicional.

In [None]:
prompt = """Um "whatpu" é um pequeno animal peludo nativo da Tanzânia. Exemplo de frase que usa
a palavra whatpu é:
Estávamos viajando pela África e vimos esses whatpus muito fofos.
"Farduddlear" significa pular para cima e para baixo muito rápido. Exemplo de frase que usa
a palavra farduddlear é:"""

**Saída do ChatGPT**

Exemplo de frase que usa a palavra farduddlear:

As crianças começaram a farduddlear de empolgação quando viram os presentes de aniversário.

In [None]:
prompt = "Traduza: 'gato' -> 'cat', 'cachorro' -> 'dog', 'pássaro' ->"

**Saída do ChatGPT**

'pássaro' -> 'bird' 🐦

### Chain of Thought
- estimula o modelo a pensar passo a passo
- permite recursos de raciocínio complexos por meio de etapas intermediárias de raciocínio.

Útil para tarefas que exigem raciocínio lógico ou múltiplas etapas

In [None]:
prompt = """Se João tem 3 maçãs e ganha mais 2, quantas ele tem?
Vamos pensar passo a passo."
João tem 3 maçãs. Ele ganha mais 2. 3 + 2 = 5. Resposta: 5"""

**Saída do ChatGPT**

Correto! ✅

Vamos revisar passo a passo:

João tem 3 maçãs.

Ele ganha mais 2 maçãs.

Fazemos a conta: 3 + 2 = 5

Resposta: 5 maçãs 🍎🍎🍎🍎🍎

In [None]:
prompt = """Os números ímpares neste grupo somam um número par: 4, 8, 9, 15, 12, 2, 1.
R: Somando todos os números ímpares (9, 15, 1) dá 25. A resposta é Falso.
Os números ímpares neste grupo somam um número par: 17, 10, 19, 4, 8, 12, 24.
R: Somando todos os números ímpares (17, 19) dá 36. A resposta é Verdadeiro.
Os números ímpares neste grupo somam um número par: 16, 11, 14, 4, 8, 13, 24.
R: Somando todos os números ímpares (11, 13) dá 24. A resposta é Verdadeiro.
Os números ímpares neste grupo somam um número par: 17, 9, 10, 12, 13, 4, 2.
R: Somando todos os números ímpares (17, 9, 13) dá 39. A resposta é Falso.
Os números ímpares neste grupo somam um número par: 15, 32, 5, 13, 82, 7, 1.
A:"""

**Saída do ChatGPT**

Vamos somar os números ímpares do grupo:
15, 5, 13, 7, 1

Agora, somando:

15 + 5 = 20

20 + 13 = 33

33 + 7 = 40

40 + 1 = 41

41 é um número ímpar, portanto:

A resposta é Falso. ❌

In [None]:
prompt = """Fui ao mercado e comprei 10 maçãs. Dei 2 maçãs ao vizinho e 2 ao reparador. Então fui comprar mais 5 maçãs e comi 1. Com quantas maçãs fiquei?"""

**Saída do ChatGPT**

Vamos resolver passo a passo:

Você comprou 10 maçãs.

Deu 2 ao vizinho → 10 - 2 = 8

Deu 2 ao reparador → 8 - 2 = 6

Comprou mais 5 maçãs → 6 + 5 = 11

Comeu 1 maçã → 11 - 1 = 10

Resposta: Você ficou com 10 maçãs. 🍎🍎🍎🍎🍎🍎🍎🍎🍎🍎 ✅

`Reasoning`: é a capacidade de raciocinar e explicar o processo de pensamento por trás da resposta.

`Alumination`: quando o modelo responde de forma errada, desvirtuand o raciocínio. Normalmente requer correções e ajustes no prompt de forma a guiar o modelo para a resposta correta.

## Extra - Experimentos usando LLMs através de APIs e localmente

**Vamos testar um pouco com o Gemini :)**

[https://aistudio.google.com/](https://aistudio.google.com/)

**Observação**: Nunca compartilhe suas chaves de API ou tokens de acesso publicamente.

In [None]:
!pip install -q python-dotenv google-generativeai

Importando variáveis de ambiente para acessar a chave da API do Gemini
- coloque seu ficheiro .env na mesma pasta do notebook
- lembre-se de manter sua API Key em segredo

In [None]:
import os
from dotenv import load_dotenv
import google.generativeai as genai

# Carrega as variáveis do .env
load_dotenv(".env")

# Pega a chave da API
api_key = os.getenv("GOOGLE_API_KEY")
genai.configure(api_key=api_key)

Listando os modelos disponíveis no Gemini

In [None]:
import google.generativeai as genai

# verificando os modelos disponíveis
models = genai.list_models()

for model in models:
    print(model.name)

models/embedding-gecko-001
models/gemini-1.0-pro-vision-latest
models/gemini-pro-vision
models/gemini-1.5-pro-latest
models/gemini-1.5-pro-001
models/gemini-1.5-pro-002
models/gemini-1.5-pro
models/gemini-1.5-flash-latest
models/gemini-1.5-flash-001
models/gemini-1.5-flash-001-tuning
models/gemini-1.5-flash
models/gemini-1.5-flash-002
models/gemini-1.5-flash-8b
models/gemini-1.5-flash-8b-001
models/gemini-1.5-flash-8b-latest
models/gemini-1.5-flash-8b-exp-0827
models/gemini-1.5-flash-8b-exp-0924
models/gemini-2.5-pro-exp-03-25
models/gemini-2.5-pro-preview-03-25
models/gemini-2.5-flash-preview-04-17
models/gemini-2.5-flash-preview-05-20
models/gemini-2.5-flash-preview-04-17-thinking
models/gemini-2.5-pro-preview-05-06
models/gemini-2.0-flash-exp
models/gemini-2.0-flash
models/gemini-2.0-flash-001
models/gemini-2.0-flash-lite-001
models/gemini-2.0-flash-lite
models/gemini-2.0-flash-lite-preview-02-05
models/gemini-2.0-flash-lite-preview
models/gemini-2.0-pro-exp
models/gemini-2.0-pro-ex

Testando o modelo com um prompt simples

In [None]:
# Configurar Gemini
genai.configure(api_key=api_key)

# Usar o modelo disponível e funcional
model = genai.GenerativeModel("models/gemini-1.5-flash")

# Definir um prompt
prompt = "Explique o que é engenharia de prompts com um exemplo para iniciantes."

# Gerar a resposta
response = model.generate_content(prompt)

# Exibir a resposta
print(response.text)

Engenharia de prompts é a arte e a ciência de criar prompts (instruções) que geram as melhores respostas possíveis de um modelo de linguagem grande (LLM), como o ChatGPT, Bard, ou outros.  É como "programar" o modelo usando linguagem natural, ao invés de código de programação tradicional.  Em vez de dizer simplesmente "escreva uma história", você precisa "engenhar" seu prompt para obter o tipo de história que você deseja.

**Exemplo para iniciantes:**

Imagine que você quer uma história de ficção científica sobre um gato que viaja pelo espaço.  Um prompt ruim seria:

**Prompt Ruim:** "Escreva uma história."

Esse prompt é muito vago. O modelo pode escrever sobre qualquer coisa.

Um prompt melhor, usando engenharia de prompts, seria:

**Prompt Bom:** "Escreva uma história de ficção científica sobre um gato siamês chamado Cosmo que viaja pelo espaço em uma nave espacial feita de lata de sardinha. A história deve incluir um encontro com alienígenas amigáveis e uma busca por um queijo cósm

Vamos testar agora localmente com o `LLama`


LLM local com Mistral 7b

In [1]:
!pip install -q llama-cpp-python

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.9/67.9 MB[0m [31m9.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Installing backend dependencies ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.5/45.5 kB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for llama-cpp-python (pyproject.toml) ... [?25l[?25hdone


In [2]:
import os

# Criar diretório
os.makedirs("models", exist_ok=True)

# Baixar modelo GGUF quantizado
!wget -O models/mistral-7b-instruct.gguf https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.1-GGUF/resolve/main/mistral-7b-instruct-v0.1.Q4_K_M.gguf


--2025-05-26 00:32:24--  https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.1-GGUF/resolve/main/mistral-7b-instruct-v0.1.Q4_K_M.gguf
Resolving huggingface.co (huggingface.co)... 3.168.73.38, 3.168.73.106, 3.168.73.129, ...
Connecting to huggingface.co (huggingface.co)|3.168.73.38|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://cdn-lfs.hf.co/repos/46/12/46124cd8d4788fd8e0879883abfc473f247664b987955cc98a08658f7df6b826/14466f9d658bf4a79f96c3f3f22759707c291cac4e62fea625e80c7d32169991?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27mistral-7b-instruct-v0.1.Q4_K_M.gguf%3B+filename%3D%22mistral-7b-instruct-v0.1.Q4_K_M.gguf%22%3B&Expires=1748223144&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc0ODIyMzE0NH19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5oZi5jby9yZXBvcy80Ni8xMi80NjEyNGNkOGQ0Nzg4ZmQ4ZTA4Nzk4ODNhYmZjNDczZjI0NzY2NGI5ODc5NTVjYzk4YTA4NjU4ZjdkZjZiODI2LzE0NDY2ZjlkNjU4YmY0YTc5Zjk2YzNmM2YyMjc1OTc

In [3]:
from llama_cpp import Llama

llm = Llama(
    model_path="models/mistral-7b-instruct.gguf",
    n_ctx=1024,
    n_threads=8,  # Ajuste conforme necessário
)

prompt = "Explique o que é engenharia de prompts em linguagem simples."

output = llm(prompt, max_tokens=100)
print(output["choices"][0]["text"])


llama_model_loader: loaded meta data with 20 key-value pairs and 291 tensors from models/mistral-7b-instruct.gguf (version GGUF V2)
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = mistralai_mistral-7b-instruct-v0.1
llama_model_loader: - kv   2:                       llama.context_length u32              = 32768
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 4096
llama_model_loader: - kv   4:                          llama.block_count u32              = 32
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 14336
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:                 llama.attention



Resposta: Engenharia de prompts é um processo de pensar e planejar o que queremos dizer em linguagem simples. É como se fosse um mapa para guiar a pessoa para que compreenda o que queremos dizer. O engenheiro de prompts tem que ser criativo e pensar em uma forma que será facilmente entendida por quem está ouvindo ou lendo. O
