<h1 align="center">Prompt Engineering (Engenharia de Prompt)</h1>

Data Scientist.: Dr.Eddy Giusepe Chirinos Isidro

Este script está baseado nos tutoriais de [James Briggs](https://www.youtube.com/@jamesbriggs/playlists).

Aqui, exploraremos os fundamentos da `Engenharia de Prompt`. Começaremos instalando a biblioteca `openai`, que usaremos ao longo desses exemplos. No entanto, observe que podemos usar outros `LLMs` aqui, como os oferecidos pelo Cohere ou alternativas de código aberto disponíveis via [Hugging Face](https://huggingface.co/).

In [None]:
%pip install openai

# Estrutura de um Prompt

Um prompt pode consistir em vários componentes:

* Instruções

* Informação externa ou contexto

* Entrada ou consulta (`query`) do usuário

* Indicador de saída

Nem todos os prompts requerem todos esses componentes, mas geralmente um bom prompt usará dois ou mais deles. Vamos definir o que todos eles são com mais precisão.

As <font color="red">Instruções</font> dizem ao modelo o que fazer, normalmente como ele deve usar entradas e/ou informações externas para produzir a saída que queremos.

<font color="red">Informações externas ou contexto</font> são informações adicionais que inserimos manualmente no prompt, recuperamos por meio de um banco de dados vetorial (memória de longo prazo) ou extraímos por outros meios (chamadas de `API`, cálculos etc.).

A <font color="red">Entrada ou consulta do usuário</font> é normalmente uma consulta inserida diretamente pelo usuário do sistema.

O <font color="red">Indicador de saída</font> é o início do texto gerado. Para um modelo que gera código Python, podemos colocar `import` (já que a maioria dos scripts Python começa com uma biblioteca `import`) ou um `chatbot` pode começar com `Chatbot`:(supondo que formatemos o script do chatbot como linhas de texto intercambiável entre `User` e `Chatbot`).



Cada um desses componentes geralmente deve ser colocado na ordem em que os descrevemos. <font color="orange">Começamos com instruções, fornecemos contexto (se necessário), depois adicionamos a entrada do usuário e, finalmente, terminamos com o indicador de saída.</font>

In [2]:
prompt = """Responda a pergunta com base no contexto abaixo. Se a pergunta não pode ser respondida
usando as informações fornecidas resposta com "não sei".

Context: Large Language Models (LLMs) são os modelos mais recentes usados em NLP.
Seu desempenho superior em relação aos modelos menores os tornou incrivelmente
útil para desenvolvedores que constroem aplicativos habilitados para NLP. Esses modelos
pode ser acessado através da biblioteca 'transformers' do Hugging Face, via OpenAI
usando a biblioteca 'openai', e via Cohere usando a biblioteca 'cohere'.

Question: Quais bibliotecas e provedores de modelos oferecem LLMs?

Answer: """

Neste exemplo, temos:


```
Instruções

Contexto

Pergunta (Input do Usuário)

Indicador de Saída ("Answer: ")
```

Vamos tentar enviar isso para um modelo `GPT-3`. Para isso, você precisará de uma [chave de API OpenAI](https://platform.openai.com/account/api-keys).


Inicializamos um modelo `text-davinci-003`, assim:

In [3]:
import openai

# Obtenha a chave de API no site da OpenAI
openai.api_key = "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" # "OPENAI_API_KEY"

E faça uma geração a partir do nosso prompt.

In [4]:
# Faço uma query com text-davinci-003
res = openai.Completion.create(
    engine='text-davinci-003',
    prompt=prompt,
    max_tokens=256
)


print(res['choices'][0]['text'].strip())

Transformers do Hugging Face, OpenAI e Cohere.


Como alternativa, se tivermos as informações corretas dentro do `context`, o modelo deve responder com `"Não sei"`, vamos tentar.

In [5]:
prompt = """Responda a pergunta com base no contexto abaixo. Se a pergunta não pode ser respondida
usando as informações fornecida, responda "não sei".

Context: Bibliotecas são lugares cheios de livros.

Question: Quais bibliotecas e provedores de modelos oferecem LLMs?

Answer: """

res = openai.Completion.create(
    engine='text-davinci-003',
    prompt=prompt,
    max_tokens=256
)

print(res['choices'][0]['text'].strip())

Não sei.


Perfeito, nossas instruções estão sendo compreendidas pelo modelo. Na maioria dos casos de uso reais, não forneceremos informações externas/contexto para o modelo manualmente. Em vez disso, será um processo automático usando algo como [Long-Term Memory](https://www.pinecone.io/learn/openai-gen-qa/) para recuperar informações relevantes de uma fonte externa.

Por enquanto, isso está além do escopo do que estamos explorando aqui, você pode encontrar mais informações no link acima.

Em resumo, um `prompt` geralmente consiste nesses quatro componentes: instruções, contexto(s), entrada do usuário e o indicador de saída. Agora vamos dar uma olhada na `geração criativa` versus `geração mais rigorosa`.

# Temperatura de Geração (Generation Temperature)

O parâmetro `temperature` usado nos modelos de geração nos diz o quão `"aleatório"` o modelo pode ser. Representa a probabilidade de um modelo escolher uma palavra que não seja a primeira escolha do modelo.

Isso funciona porque o modelo está realmente atribuindo uma previsão de `probabilidade em todos os tokens` dentro de seu vocabulário a cada `"etapa"` (step) do modelo (cada nova palavra ou subpalavra).

TK visual demonstrando etapas sobre tokens

Com cada novo passo adiante, o modelo considera os tokens anteriores alimentados no modelo, cria Embeddings codificando as informações desses tokens em muitas camadas do codificador do modelo e, em seguida, passa essa `codificação` para um `decodificador`. O `decodificador` então prevê a probabilidade de cada token que o modelo conhece (ou seja, está dentro do vocabulário do modelo) com base nas informações codificadas nos Embeddings.

TK visualiza a codificação em um passo de tempo -> decodificação -> previsão sobre muitos tokens

<font color="orange">A uma temperatura do `0` o `decodificador` sempre selecionará o token previsto top (principal, ponto mais alto, etc). A uma temperatura de `1` o modelo sempre selecionará uma palavra que é prevista considerando sua probabilidade atribuída.</font>

TK visualiza a seleção da palavra sempre superior em vários intervalos de tempo quando `temp == 0`, em comparação com a seleção de palavras em vários intervalos de tempo quando `temp == 1`

Considerando tudo isso, se tivermos uma sessão de perguntas e respostas conservadora e baseada em fatos, como no exemplo anterior, faz sentido definir um temperature. <font color="pink">No entanto, se quisermos produzir alguma `escrita criativa` ou `conversas de chatbot`, podemos experimentar e aumentar o número de domínios temperature. 


Vamos tentar!
