In [1]:
# importando as principais bibliotecas
from langchain_openai import OpenAI
from dotenv import load_dotenv

In [2]:
# carregando as variáveis que estão no .env
load_dotenv()

True

In [3]:
# instanciando a classe OpenAI, ela será a base para nossa comunicação com o modelo
llm = OpenAI()

In [14]:
# agora vamos fornecer nossa pergunta ao modelo
# fazemos isso através do método invoke
# este método fornece a resposta do chatgpt de uma só vez
pergunta = 'Aqui é um teste da API, responda aí se está tudo ok'
resposta = llm.invoke(pergunta)

In [15]:
resposta

'\n\nOlá, sim, está tudo ok! Obrigado pelo teste.'

In [16]:
# criando uma nova pergunta e atribuindo à variável pergunta2
pergunta2 = 'Me fale em poucas palavras sobre a historia do Brasil, em apenas 1 parágrafo'

In [17]:
# agora aqui vamos utilizar outro método da classe OpenAI
# este método é o stream, ele simula a maneira como o chatgpt interage com o usuário
# e faz com que cada trecho da conversa seja fornecido gradualmente, 
# como se tivesse uma pessoa digitando
for trecho in llm.stream(pergunta2):
    print(trecho, end='')



A história do Brasil teve início com a chegada dos portugueses em 1500, que colonizaram o território e exploraram suas riquezas naturais. Com o passar dos anos, o país foi marcado pela escravidão, a luta pela independência, a proclamação da República, a ditadura militar e a redemocratização. Ao longo de sua trajetória, o Brasil passou por diversas transformações sociais, políticas e econômicas, e hoje é um país multicultural, com grande diversidade cultural e uma das dez maiores economias do mundo. 

In [18]:
perguntas = [
    'Qual a capital do Brasil',
    'Qual a capital da Argentina',
    'Qual a capital do Chile'
]

In [19]:
# batch é outro método da classe OpenAI
# ele aceita várias perguntas num único envio
# e retorna com respostas para cada uma delas
llm.batch(perguntas)

['\n\nA capital do Brasil é Brasília.',
 '\n\nA capital da Argentina é Buenos Aires.',
 '?\n\nA capital do Chile é Santiago.']

### ChatModels

Um modelo de chat são os que simulam diálogos, com interação entre entradas e saídas e não só como resposta de uma única pergunta, como mostrados acima.

In [4]:
# agora vamos importar a classe ChatOpenAI da lib langchain_openai
# ela vai nos fornecer a estrutura para montarmos o chat
from langchain_openai import ChatOpenAI

# instanciando o chat
chat = ChatOpenAI()

In [5]:
# aqui vamos importar algumas classes de suporte para montagem do chat
# o SystemMessage determina o comportamento do modelo LLM
# HumanMessage é a nossa interação com o modelo
# seria a mensagem que digitaríamos para ele no chatgpt solicitando algo

from langchain_core.messages import HumanMessage, SystemMessage

# colocamos esse modelo de chat dentro de uma lista
mensagens = [
    SystemMessage(content='Você atuará como um contador de piadas.'),
    HumanMessage(content='O que você acha do estado da Bahia')
]

In [12]:
# depois passamos para o método invoke
# atribuímos à variável resposta
resposta = chat.invoke(mensagens)

In [29]:
# veja que a resposta vem como AIMessage
# AIMessage é uma representação da mensagem gerada pelo modelo
resposta

AIMessage(content='Ah, eu acho que a Bahia é um estado "axé-lente"!', response_metadata={'token_usage': {'completion_tokens': 19, 'prompt_tokens': 32, 'total_tokens': 51}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-b1b7a3ef-3764-4fb2-94c1-f91f7c7c5fdc-0')

In [30]:
# para capturarmos somente o conteúdo das mensagens devemos acessar o content
resposta.content

'Ah, eu acho que a Bahia é um estado "axé-lente"!'

### Models - Conceitos Avançados

Prompt few-shot (tipo de prompt em que fornecemos exemplos para o modelo)

Este modelo de listas de dicionário abaixo é o modelo padrão para interação com a API da OpenAI, quando usamos a estrutura few-shot (fornecendo exemplos). Temos uma lista onde cada dicionário equivale a uma função e seu conteúdo. A chave 'role' especifica o papel do agente (se é um usuário, se é o sistema, se é uma IA etc), e a chave 'content' é o conteúdo da interação deste agente.

A ideia dessa aula aqui é utilizar alguns objetos do langchain para criar uma estrutura parecida com essa, mas mais eficiente.

```python
[
    {'role':'user', 'content':'Quanto é 1 + 1'},
    {'role':'assistant', 'content':'2'},
    {'role':'user', 'content':'Quanto é 10 * 5'},
    {'role':'assistant', 'content':'50'},
    {'role':'user', 'content':'Quanto é 10 + 3'}
]
```

Vamos recriar o mesmo prompt acima, agora utilizando a estrutura do LangChain.

In [28]:
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, SystemMessage, AIMessage

In [29]:
# instanciando um chat
chat = ChatOpenAI()

In [15]:
# veja que a estrutrua é a mesma
# a diferença é que agora role e content são melhor organizados em objetos
mensagens = [
    HumanMessage(content='Quanto é 1 + 1'),
    AIMessage(content='2'),
    HumanMessage(content='Quanto é 10 * 5'),
    AIMessage(content='50'),
    HumanMessage(content='Quanto é 10 + 3')
]

In [16]:
chat.invoke(mensagens)

AIMessage(content='10 + 3 é igual a 13.', response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 49, 'total_tokens': 59}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-08d4dfb3-9ef3-4052-b808-359c98b14cb7-0')

In [17]:
# veja que interessante a diferença para o exemplo anterior
# aqui só adicionamos o objeto SystemMessage e ele seguiu
# dando a resposta exatamente como queríamos, que é trazer somente o número
# no exemplo anterior esse retorno variava com resposta longa ou curta
mensagens = [
    SystemMessage(content='Responda exatamente como nos exemplos.'),
    HumanMessage(content='Quanto é 1 + 1'),
    AIMessage(content='2'),
    HumanMessage(content='Quanto é 10 * 5'),
    AIMessage(content='50'),
    HumanMessage(content='Quanto é 10 + 3')
]

In [18]:
chat.invoke(mensagens)

AIMessage(content='13', response_metadata={'token_usage': {'completion_tokens': 1, 'prompt_tokens': 64, 'total_tokens': 65}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-510ba839-cc79-4861-a51c-e45c4a2ee935-0')

Utilizando outros modelos

Aqui vamos fazer o mesmo processo acima, mas vamos utilizar um modelo diferente do da OpenAI. Agora vamos utilizar o huggingface, uma comunidade de desenvolvedores que compartilha códigos e projetos de IA. Nós só precisamos criar uma conta, acessar uma chave token e escolher um modelo. O modelo roda nos servidores da huggingface e, por ser um serviço gratuito, tem um limite de chamadas dessa api. Também podemos baixar e rodar o modelo localmente em nossa máquina. O langchain facilita todo esse trabalho em apenas algumas linhas de código.

In [58]:
# instalando bibliotecas necessárias
from langchain_community.chat_models.huggingface import ChatHuggingFace
from langchain_community.llms.huggingface_endpoint import HuggingFaceEndpoint
from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM

In [59]:
# escolhendo o modelo que iremos utlizar
# aqui é o projeto open source llama3 com 8 bilhões de parametros
modelo = 'meta-llama/Meta-Llama-3-8B-Instruct'

# instanciando a llm no haggungface e fornecendo o nome do modelo
llm = HuggingFaceEndpoint(repo_id=modelo)

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /home/kaio-peixoto/.cache/huggingface/token
Login successful


In [60]:
# instanciando um chat do huggingface e fornecendo o modelo llm
chat_hf = ChatHuggingFace(llm=llm)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [61]:
# agora vamos interagir e testar

mensagens = [
    HumanMessage(content='Vc fará contas.'),
    AIMessage(content='ok, já podemos começar?'),
    HumanMessage(content='Sim.'),
    AIMessage(content='Pergunte'),
    HumanMessage(content='2 * 8'),
    AIMessage(content='16'),
    HumanMessage(content='10 / 2'),
    AIMessage(content='5'),
    HumanMessage(content='obrigado'),
    HumanMessage(content='Agora me fale qualquer curiosidade da matemática.')
]

In [72]:
chat_hf.invoke(mensagens)

AIMessage(content='Uma curiosidade interessante é que existe um número chamado "0,999... (infinito)" que é igual a 1!\n\nIsso pode parecer estranho, mas é verdade! O número 0,999... (infinito) é uma forma de notação decimal que representa uma sequência infinita de 9s.\n\nA razão pela qual isso é igual a 1 é que, se você somar infinitas vezes 0,1, você obtém 1!\n\n0,1 + 0,01 + 0,001 + 0,0001 +... = 1\n\nIsso é conhecido como a "propriedade de convergência" e é uma das mais surpreendentes e interessantes propriedades da matemática!\n\nO que você acha disso?', id='run-ca18cf72-bd13-467f-8ee6-4303c28b432d-0')

In [27]:
chat_hf.invoke('Tell me about Paraguay in a  few lines')

AIMessage(content='Paraguay is a landlocked country located in the heart of South America, bordered by Argentina to the south and southwest, Bolivia to the northwest, and Brazil to the east and northeast. It has a population of around 7 million people and a rich cultural heritage shaped by its indigenous Guarani people, European colonizers, and African slaves. The country has a diverse geography, with the Paraguay River running through its center and the Chaco dry forest to the west. Paraguay is known for its unique blend of Spanish and indigenous culture, its vibrant folk music and dance, and its delicious cuisine featuring dishes like asado and chipá guazú.', id='run-a7cb6e2b-85bc-4b08-ad6e-b646c34c8ddf-0')

Debugando com o langchain

Atribuindo debug como True podemos ver como o langhcain está trabalhando debaixo dos panos. Traz informações que podem ser úteis para debugar.

In [63]:
import langchain

In [71]:
langchain.debug = True

In [65]:
# vamos utilizar o mesmo código e ver como o retorno de invoke() agora vem diferente
chat_hf.invoke(mensagens)

[32;1m[1;3m[llm/start][0m [1m[llm:ChatHuggingFace] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Vc fará contas.\nAI: ok, já podemos começar?\nHuman: Sim.\nAI: Pergunte\nHuman: 2 * 8\nAI: 16\nHuman: 10 / 2\nAI: 5\nHuman: obrigado\nHuman: Agora me fale qualquer curiosidade da matemática."
  ]
}
[36;1m[1;3m[llm/end][0m [1m[llm:ChatHuggingFace] [222ms] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "Uma curiosidade interessante é que existe um número chamado \"0,999... (infinito)\" que é igual a 1!\n\nIsso pode parecer estranho, mas é verdade! O número 0,999... (infinito) é uma forma de notação decimal que representa uma sequência infinita de 9s.\n\nA razão pela qual isso é igual a 1 é que, se você somar infinitas vezes 0,1, você obtém 1!\n\n0,1 + 0,01 + 0,001 + 0,0001 +... = 1\n\nIsso é conhecido como a \"propriedade de convergência\" e é uma das mais surpreendentes e interessantes propriedades da matemática!\n\nO que você acha

AIMessage(content='Uma curiosidade interessante é que existe um número chamado "0,999... (infinito)" que é igual a 1!\n\nIsso pode parecer estranho, mas é verdade! O número 0,999... (infinito) é uma forma de notação decimal que representa uma sequência infinita de 9s.\n\nA razão pela qual isso é igual a 1 é que, se você somar infinitas vezes 0,1, você obtém 1!\n\n0,1 + 0,01 + 0,001 + 0,0001 +... = 1\n\nIsso é conhecido como a "propriedade de convergência" e é uma das mais surpreendentes e interessantes propriedades da matemática!\n\nO que você acha disso?', id='run-c89fc673-358a-46ae-bcb4-05f06bfcf644-0')

Caching

Cacheamento é a técnica onde reutilizamos chamadas já feitas anteriormente. Dessa forma, ao utilizar a api da OpenAI por exemplo, evitamos enviar chamadas repetidas como se fossem novas. Por exemplo, ao fazer uma pergunta pela primeira vez, a api vai nos responder de uma forma. Caso façamos a mesma pergunta novamente ele não vai enviar esta requisição para a api, ele vai buscar no cache e retornar a mesma resposta dada pela primeira vez.

In [13]:
from langchain_openai.chat_models import ChatOpenAI
from langchain_core.messages import HumanMessage, AIMessage, SystemMessage

In [14]:
chat = ChatOpenAI(model='gpt-3.5-turbo-0125')

In [15]:
# montando prompt básico
mensagens = [
    SystemMessage(content='Você é um asisstente engraçado.'),
    HumanMessage(content='Quanto é 1 + 1?')
]

In [16]:
# importando módulos que nos ajudará a criar o cache
from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

In [17]:
# aqui criamos um cacheamento em memória, que só existirá enquanto o programa estiver rodando
# uma vez desligado o programa, o cache zera o q tinha armazenado
set_llm_cache(InMemoryCache())

Rodando a primeira vez

In [18]:
%%time

chat.invoke(mensagens)

CPU times: user 12.7 ms, sys: 312 µs, total: 13 ms
Wall time: 694 ms


AIMessage(content='Depende, você quer a resposta matemática correta ou a resposta engraçada?', response_metadata={'token_usage': {'completion_tokens': 21, 'prompt_tokens': 32, 'total_tokens': 53, 'prompt_tokens_details': {'cached_tokens': 0, 'audio_tokens': 0}, 'completion_tokens_details': {'reasoning_tokens': 0, 'audio_tokens': 0, 'accepted_prediction_tokens': 0, 'rejected_prediction_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-0d3786fa-4378-44ec-8b0d-674da490cff2-0')

Rodando novamente

Veja que a resposta é exatamente a mesma. Veja que ele demora menos tempo para carregar a resposta.

In [19]:
%%time

chat.invoke(mensagens)

CPU times: user 987 µs, sys: 0 ns, total: 987 µs
Wall time: 968 µs


AIMessage(content='Depende, você quer a resposta matemática correta ou a resposta engraçada?', response_metadata={'token_usage': {'completion_tokens': 21, 'prompt_tokens': 32, 'total_tokens': 53, 'prompt_tokens_details': {'cached_tokens': 0, 'audio_tokens': 0}, 'completion_tokens_details': {'reasoning_tokens': 0, 'audio_tokens': 0, 'accepted_prediction_tokens': 0, 'rejected_prediction_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-0d3786fa-4378-44ec-8b0d-674da490cff2-0')

Cache SQLite

Neste caso aqui o cache vai persistir, ou seja, ele guarda as informações num bd sqlite. Vc pode desligar seu programa e da próxima vez que religar o cache será mantido. Diferente do cache em memória, onde o cache só persiste no tempo de execução do programa.

In [111]:
# importando módulos que nos ajudará a criar o cache
from langchain.cache import SQLiteCache
from langchain.globals import set_llm_cache

In [112]:
set_llm_cache(SQLiteCache(database_path='files/langchain_cache_db.sqlite'))

Agora, depois de criado o novo cache sqlite, vamos rodar novamente nossa chamada.

In [113]:
%%time

chat.invoke(mensagens)

CPU times: user 23 ms, sys: 4.64 ms, total: 27.7 ms
Wall time: 6.96 s


AIMessage(content='Depende, você quer a resposta matemática correta ou a resposta engraçada?', response_metadata={'token_usage': {'completion_tokens': 20, 'prompt_tokens': 32, 'total_tokens': 52}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-b1885ebe-b11e-4e9c-b6d7-bde615f965ae-0')

Olha a diferença de tempo entre a primeira chamada e a segunda. Enquanto uma levou mais de 6 segundos, a segunda chamada levou apenas 3 milissegundos.

In [130]:
%%time

chat.invoke(mensagens)

CPU times: user 3.6 ms, sys: 0 ns, total: 3.6 ms
Wall time: 3.21 ms


AIMessage(content='Depende, você quer a resposta matemática correta ou a resposta engraçada?', response_metadata={'token_usage': {'completion_tokens': 20, 'prompt_tokens': 32, 'total_tokens': 52}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-b1885ebe-b11e-4e9c-b6d7-bde615f965ae-0')

### Prompt Templates 
Criando prompts para aplicações robustas

Um prompt para um modelo de linguagem é um conjunto e instruções ou entradas fornecidas por um usuario para guiar a resposta do modelo, ajudando-o a entender o contexto e gerar uma saída baseada em linguagem relevante e coerente.

E agora vamos fazer o uso de templates para tornar nossos prompts mais eficientes e reutilizáveis. Os templates tbm facilitam demais para escrever códigos e automações, já q oferecem uma estrutura robusta para manipular os prompts.

In [178]:
from langchain_openai.llms import OpenAI

In [179]:
llm = OpenAI()

In [180]:
# importando o objeto que nos ajudará a estruturar o prompt
from langchain.prompts import PromptTemplate

In [181]:
# vamos utilizar o método from_template()
# e inserimos uma variável 'pergunta'
# veja que a instrução ao modelo permanece rígida 
# e como o langchain permite que utilizemos isso com uma variável
# tornando muito útil para escrever programas
prompt_template = PromptTemplate.from_template('''
Responda a seguinte pergunta do usuário:
{pergunta}
''')

# vamos ver como o objeto exibe quando o chamamos
prompt_template

PromptTemplate(input_variables=['pergunta'], template='\nResponda a seguinte pergunta do usuário:\n{pergunta}\n')

In [182]:
# agora manipulando a variável...
prompt_template.format(pergunta='Qual é a capital da Bahia?')

'\nResponda a seguinte pergunta do usuário:\nQual é a capital da Bahia?\n'

In [155]:
# vamos deixar nosso prompt um pouco mais complexo
# aqui adicionamos 2 variáveis
# também inserimos o argumento partial_variables,
# que estabelece um valor default para a variável
prompt_template = PromptTemplate.from_template('''
Responda a seguinte pergunta do usuário em até {n_palavras} palavras:
{pergunta}
''', partial_variables={'n_palavras':8})

# vamos ver como o objeto exibe quando o chamamos
prompt_template

PromptTemplate(input_variables=['pergunta'], partial_variables={'n_palavras': 8}, template='\nResponda a seguinte pergunta do usuário em até {n_palavras} palavras:\n{pergunta}\n')

In [156]:
# aqui atribuimos valores aos 2 argumentos
prompt_template.format(pergunta='Quem descobriu o Brasil?', n_palavras=10)

'\nResponda a seguinte pergunta do usuário em até 10 palavras:\nQuem descobriu o Brasil?\n'

In [158]:
# agora veja o valor default em ação
prompt_template.format(pergunta='Quem descobriu o Brasil?')

'\nResponda a seguinte pergunta do usuário em até 8 palavras:\nQuem descobriu o Brasil?\n'

**Composing prompts | Unindo múltiplos prompts**

In [260]:
# vamos criar um template específico para cada fim

# este será para a contagem de palavras na resposta
template_conta_palavras = PromptTemplate.from_template('''
Responda a pergunta em até {n_palavras} palavras.''')

# aqui a escolha do idioma
template_idioma = PromptTemplate.from_template('''
Retorne a resposta em {idioma}.
''')

# e este final é o q acrescenta a pergunta
# veja que a união dos prompts é feita como se fosse uma união de strings
template_final = (
    template_conta_palavras
    + template_idioma
    + 'Responda a seguinte pergunta: {pergunta}.'
)

In [261]:
# veja que o template final reconhece as 3 variáveis
template_final

PromptTemplate(input_variables=['idioma', 'n_palavras', 'pergunta'], template='\nResponda a pergunta em até {n_palavras} palavras.\nRetorne a resposta em {idioma}.\nResponda a seguinte pergunta: {pergunta}.')

In [262]:
# agora vamos formatar o template e criar um específico
prompt = template_final.format(n_palavras=10, idioma='português', \
                               pergunta='O q é um astro?')

In [263]:
# agora mandamos para o nosso modelo responder
llm.invoke(prompt)

'\n\nUm astro é um corpo celeste de grande magnitude.'

In [264]:
print(prompt)


Responda a pergunta em até 10 palavras.
Retorne a resposta em português.
Responda a seguinte pergunta: O q é um astro?.


**Templates para Chat**

São templates q nos ajudam a estruturar e manipular prompts no contexto de uma conversa (chat).

In [270]:
# importando a classe que nos ajudará a estruturar prompts para chats
from langchain.prompts import ChatPromptTemplate

In [271]:
# aqui utilizamos o método from_template e criamos nosso template
chat_template = ChatPromptTemplate.from_template(
    'Me responda a seguinte dúvida: {duvida}'
)

In [273]:
# agora vamos manipulá-lo. Veja que aqui o método é format_messages
# pois trata-se de um chat
# veja q ele retorna um objeto já pronto para ser consumido pelo modelo
chat_template.format_messages(duvida='Quem foi Bhaskara?')

[HumanMessage(content='Me responda a seguinte dúvida: Quem foi Bhaskara?')]

In [275]:
# e agora estruturando um template baseado em mensagens
chat_template = ChatPromptTemplate.from_messages(
    [
        ('system', 'Vc é um assistente engraçado que se chama {assistente}.'),
        ('human', 'Opa, como vai? Tudo de boa?'),
        ('ai', 'Tudo em paz, parceiro. Como posso fortalecer te ajudando hoje?'),
        ('human', '{pergunta}')
    ]
)

In [277]:
# veja que o objeto já identifica as variáveis
chat_template

ChatPromptTemplate(input_variables=['assistente', 'pergunta'], messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=['assistente'], template='Vc é um assistente engraçado que se chama {assistente}.')), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], template='Opa, como vai? Tudo de boa?')), AIMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], template='Tudo em paz, parceiro. Como posso fortalecer te ajudando hoje?')), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['pergunta'], template='{pergunta}'))])

In [291]:
# ok, depois da estrutura e molde feitos
# vamos criar um prompt
prompt = chat_template.format_messages(
    assistente='Kaiowisk',
    pergunta='opa, como é seu nome'
)

In [292]:
chat = ChatOpenAI()

In [295]:
# agora vamos jogar nosso prompt pra dentro de um modelo
chat.invoke(prompt)

AIMessage(content='Meu nome é Kaiowisk, o assistente engraçado! Estou aqui para te ajudar e te fazer sorrir. E você, qual o seu nome?', response_metadata={'token_usage': {'completion_tokens': 38, 'prompt_tokens': 73, 'total_tokens': 111}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-4664379a-a567-472f-b143-caa2e16f793c-0')

**Templates de Few-shot prompting para llm**

In [300]:
# aqui a gente traz uma estrutura de pensamento e queremos que o modelo siga dessa forma
# ou seja, ele vai pensar no q deve fazer/saber antes de dar a resposta definitiva
# essa estrutura é dada na forma de few-shot prompting (uso de exemplos)

exemplos = [
    {"pergunta": "Quem viveu mais tempo, Muhammad Ali ou Alan Turing?", 
     "resposta": 
     """São necessárias perguntas de acompanhamento aqui: Sim. 
Pergunta de acompanhamento: Quantos anos Muhammad Ali tinha quando morreu? 
Resposta intermediária: Muhammad Ali tinha 74 anos quando morreu. 
Pergunta de acompanhamento: Quantos anos Alan Turing tinha quando morreu? 
Resposta intermediária: Alan Turing tinha 41 anos quando morreu. 
Então a resposta final é: Muhammad Ali 
""", 
    }, 
    {"pergunta": "Quando nasceu o fundador do craigslist?", 
     "resposta": 
"""São necessárias perguntas de acompanhamento aqui: Sim. 
Pergunta de acompanhamento: Quem foi o fundador do craigslist? 
Resposta intermediária: O craigslist foi fundado por Craig Newmark. 
Pergunta de acompanhamento: Quando nasceu Craig Newmark? 
Resposta intermediária: Craig Newmark nasceu em 6 de dezembro de 1952. 
Então a resposta final é: 6 de dezembro de 1952 
""", 
    }, 
    {"pergunta": "Quem foi o avô materno de George Washington?",
     "resposta": 
"""São necessárias perguntas de acompanhamento aqui: Sim. 
Pergunta de acompanhamento: Quem foi a mãe de George Washington? 
Resposta intermediária: A mãe de George Washington foi Mary Ball Washington. 
Pergunta de acompanhamento: Quem foi o pai de Mary Ball Washington? 
Resposta intermediária: O pai de Mary Ball Washington foi Joseph Ball. 
Então a resposta final é: Joseph Ball 
""", 
    },
    {"pergunta": "Os diretores de Jaws e Casino Royale são do mesmo país?", 
     "resposta": 
"""São necessárias perguntas de acompanhamento aqui: Sim. 
Pergunta de acompanhamento: Quem é o diretor de Jaws? 
Resposta Intermediária: O diretor de Jaws é Steven Spielberg. 
Pergunta de acompanhamento: De onde é Steven Spielberg? 
Resposta Intermediária: Estados Unidos. 
Pergunta de acompanhamento: Quem é o diretor de Casino Royale? 
Resposta Intermediária: O diretor de Casino Royale é Martin Campbell. 
Pergunta de acompanhamento: De onde é Martin Campbell? 
Resposta Intermediária: Nova Zelândia. 
Então a resposta final é: Não 
""",
    },
]

In [299]:
# importando as classes que iremos utilizar
from langchain.prompts.few_shot import FewShotPromptTemplate
from langchain.prompts.prompt import PromptTemplate

In [307]:
# aqui vamos fazer o prompt de exemplo
# repare que aqui não utilizamos o método from_template
# já colocamos os argumentos diretamente dentro da classe
# ambos funcionam, mas a forma de organizar é diferente
example_prompt = PromptTemplate(
    input_variables=['pergunta', 'resposta'],
    template='Pergunta: {pergunta}\n{resposta}'
)

In [317]:
# veja como ele comporta dentro do template de exemplo
# aqui desempacotamos a lista exemplos e pegamos seu primeiro elemento
# este elemento é um dicionário, onde suas chaves são correspondentes aos argumentos
# que example_prompt pede
example_prompt.format(**exemplos[0])

'Pergunta: Quem viveu mais tempo, Muhammad Ali ou Alan Turing?\nSão necessárias perguntas de acompanhamento aqui: Sim. \nPergunta de acompanhamento: Quantos anos Muhammad Ali tinha quando morreu? \nResposta intermediária: Muhammad Ali tinha 74 anos quando morreu. \nPergunta de acompanhamento: Quantos anos Alan Turing tinha quando morreu? \nResposta intermediária: Alan Turing tinha 41 anos quando morreu. \nEntão a resposta final é: Muhammad Ali \n'

In [310]:
# agora sim vamos criar um template de few-shot
# ele vai utilizar todos os exemplos da lista exemplos
prompt = FewShotPromptTemplate(
    examples=exemplos,
    example_prompt=example_prompt,
    suffix='Pergunta: {input}',
    input_variables=['input']
)

In [316]:
# agora vamos jogar esse prompt para o modelo
# veja que o modelo pensou exatamente como queríamos e como fornecemos no exemplo
# através de um passo a passo
llm.invoke(prompt.format(input='quem fez mais gols, Vampeta ou Pelé?'))

'\nSão necessárias perguntas de acompanhamento aqui: Sim. \nPergunta de acompanhamento: Em qual esporte Vampeta e Pelé jogavam? \nResposta intermediária: Vampeta e Pelé jogavam futebol. \nPergunta de acompanhamento: Qual foi o time em que Vampeta e Pelé jogaram? \nResposta intermediária: Vampeta jogou em vários times, mas ficou mais conhecido por sua passagem no Corinthians. Pelé jogou a maior parte de sua carreira no Santos. \nPergunta de acompanhamento: Qual foi o período em que Vampeta e Pelé jogaram? \nResposta intermediária: Vampeta jogou profissionalmente de 1992 a 2010. Pelé jogou de 1957 a 1977. \nEntão a resposta final é: Pelé'

**Templates de Few-Shot prompting para chat**

In [319]:
# importando as classes que iremos utilizar
from langchain.prompts.few_shot import FewShotChatMessagePromptTemplate

In [320]:
example_prompt = ChatPromptTemplate.from_messages(
    [
        ('human', '{pergunta}'),
        ('ai', '{resposta}')
    ]
)

In [322]:
# veja que agora a variável pergunta fica dentro do HumanMessage
# e a resposta vai para o AI, como escrevemos no template example_prompt
print(example_prompt.format_messages(**exemplos[0]))

[HumanMessage(content='Quem viveu mais tempo, Muhammad Ali ou Alan Turing?'), AIMessage(content='São necessárias perguntas de acompanhamento aqui: Sim. \nPergunta de acompanhamento: Quantos anos Muhammad Ali tinha quando morreu? \nResposta intermediária: Muhammad Ali tinha 74 anos quando morreu. \nPergunta de acompanhamento: Quantos anos Alan Turing tinha quando morreu? \nResposta intermediária: Alan Turing tinha 41 anos quando morreu. \nEntão a resposta final é: Muhammad Ali \n')]


In [324]:
# agora vamos construir outro template
# ele será responsável por estruturar em formato few-shot para ser consumido pelo modelo
few_shot_template_chat = FewShotChatMessagePromptTemplate(
    examples=exemplos,
    example_prompt=example_prompt
)

In [327]:
# veja como ficou a estrutura desse template, pronta para ser consumida pelo modelo
# essa estrutura vai dentro do template final, e lá será concatenada com a variável do usuário
few_shot_template_chat.format_messages()

[HumanMessage(content='Quem viveu mais tempo, Muhammad Ali ou Alan Turing?'),
 AIMessage(content='São necessárias perguntas de acompanhamento aqui: Sim. \nPergunta de acompanhamento: Quantos anos Muhammad Ali tinha quando morreu? \nResposta intermediária: Muhammad Ali tinha 74 anos quando morreu. \nPergunta de acompanhamento: Quantos anos Alan Turing tinha quando morreu? \nResposta intermediária: Alan Turing tinha 41 anos quando morreu. \nEntão a resposta final é: Muhammad Ali \n'),
 HumanMessage(content='Quando nasceu o fundador do craigslist?'),
 AIMessage(content='São necessárias perguntas de acompanhamento aqui: Sim. \nPergunta de acompanhamento: Quem foi o fundador do craigslist? \nResposta intermediária: O craigslist foi fundado por Craig Newmark. \nPergunta de acompanhamento: Quando nasceu Craig Newmark? \nResposta intermediária: Craig Newmark nasceu em 6 de dezembro de 1952. \nEntão a resposta final é: 6 de dezembro de 1952 \n'),
 HumanMessage(content='Quem foi o avô materno de

In [337]:
# agora vamos fazer o template final, ele q receberá a entrada do usuário final
prompt_template_final = ChatPromptTemplate.from_messages(
    [few_shot_template_chat,
    ('human', '{input}')]
)

In [339]:
# agora criando um prompt
prompt_final = prompt_template_final\
    .format_messages(input='quem fez mais gols, Ronaldo ou Romário?')

In [341]:
# vamos jogar esse prompt ao modelo e ver o q ele responde
chat.invoke(prompt_final)

AIMessage(content='Ronaldo marcou um total de 414 gols em sua carreira, enquanto Romário marcou 743 gols. Portanto, Romário fez mais gols do que Ronaldo.', response_metadata={'token_usage': {'completion_tokens': 41, 'prompt_tokens': 537, 'total_tokens': 578}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-647d994e-1b33-4e84-ad49-7c522cc541be-0')

### Output Parsers

Padronizando a resposta do modelo

Os output parsers são importantes para darmos o formato final que quisermos aos dados. Podemos deixá-los sob medida para uso da nossa aplicação, ou estruturá-lo para uma posterior análise.

Aqui vamos estruturar os dados vindos dos reviews de clientes.

In [401]:
review_cliente = """
Este soprador de folhas é bastante incrível. Ele tem 4 configurações:\
 sopro de vela, brisa suave, cidade ventosa e tornado. Chegou em dois dias,\
 bem a tempo para o presente de aniversario da minha esposa. Acho que minha\
 esposa gostou tanto que ficou sem palavras. Até agora, fui o unico a usá-lo,\
 e tenho usado em todas as manhãs alternadas para limpar as folhas do nosso gramado.\
 É um pouco mais caro do que os outros sopradores de folhas disponiveis no mercado,\
 mas acho que vale a pena pelas caracteristicas extras.
"""

Nós queremos um modelo que processa esta review para estruturá-la no seguinte formato:

```python
{
    "presente":true,
    "dias_entrega":2,
    "percepcao_de_valor":["um pouco mais caro do que os outros sopradores de folhas disponiveis no mercado"]
}
```

Primeiro vamos trabalhar com esse review sem os output parsers, para termos noção da diferença.

In [403]:
# construindo um prompt template para que o modelo estruture da forma que queremos
# veja que as instruções vão todas num texto, sem uma estrutura que garanta
# o retorno desejado

review_template = ChatPromptTemplate.from_template("""\
Para o texto a seguir, extraia as seguintes informações:\

presente: O item foi comprado para alguém? True caso verdadeiro \
e False caso Falso ou não tenha a informação

dias_entrega: Quantos dias para a entrega chegar? \
Se a resposta não for encontrada, retorne -1.

percepcao_de_valor: extraia qualquer frase sobre o valor \
ou preço do produto. Retorne como uma lista de Python.

Texto: {review}                                                                                                      

Retorne a resposta no formato JSON.                                                                                                                                                                                                     
""")

In [404]:
# veja o template sendo utilizado para criar um prompt
# com o review do cliente acima
print(review_template.format_messages(review=review_cliente))

[HumanMessage(content='Para o texto a seguir, extraia as seguintes informações:\npresente: O item foi comprado para alguém? True caso verdadeiro e False caso Falso ou não tenha a informação\n\ndias_entrega: Quantos dias para a entrega chegar? Se a resposta não for encontrada, retorne -1.\n\npercepcao_de_valor: extraia qualquer frase sobre o valor ou preço do produto. Retorne como uma lista de Python.\n\nTexto: \nEste soprador de folhas é bastante incrível. Ele tem 4 configurações: sopro de vela, brisa suave, cidade ventosa e tornado. Chegou em dois dias, bem a tempo para o presente de aniversario da minha esposa. Acho que minha esposa gostou tanto que ficou sem palavras. Até agora, fui o unico a usá-lo, e tenho usado em todas as manhãs alternadas para limpar as folhas do nosso gramado. É um pouco mais caro do que os outros sopradores de folhas disponiveis no mercado, mas acho que vale a pena pelas caracteristicas extras.\n                                                                

In [407]:
# instanciando um chat
chat = ChatOpenAI()

In [408]:
# vamos jogar nosso prompt para o modelo
resposta = chat.invoke(review_template.format_messages(review=review_cliente))

In [411]:
# veja que o modelo extrai a informação na forma que pedimos
# no entanto, essa não é a melhor maneira de fazer esse tipo de trabalho
# não podemos usar esse output como um dicionário por exemplo
print(resposta.content)

{
    "presente": true,
    "dias_entrega": 2,
    "percepcao_de_valor": ["É um pouco mais caro do que os outros sopradores de folhas disponíveis no mercado, mas acho que vale a pena pelas características extras."]
}


In [412]:
# vamos aos output parsers

# primeiro vamos importar os schemas
# eles fornecem a estrutura para construirmos cada tipo de saída
from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser

In [420]:
# agora vamos construir nossos moldes de objetos de saída
# cada schema desse será uma variável dentro do json final
shcema_presente = ResponseSchema(
    name='presente',
    type='bool',
    description='O item foi comprado para alguém? True caso verdadeiro \
e False caso Falso ou não tenha a informação'
)

shcema_entrega = ResponseSchema(
    name='dias_entrega',
    type='int',
    description='Quantos dias para a entrega chegar? \
Se a resposta não for encontrada, retorne -1.'
)

shcema_percepcao = ResponseSchema(
    name='percepcao_de_valor',
    type='list',
    description='Extraia qualquer frase sobre o valor \
ou preço do produto. Retorne como uma lista de Python.'
)

In [421]:
# esses schemas vão para a lista de schemas
# que entrará como argumento do output parser
response_schema = [
    shcema_presente,
    shcema_entrega,
    shcema_percepcao
]

# aqui criamos nosso ouputparser
output_parser = StructuredOutputParser.from_response_schemas(response_schema)

In [422]:
# vamos capturar a instrução criada pelo output_parser
schema_formatado = output_parser.get_format_instructions()

In [423]:
# vemos aqui q já cria um modelo para o arquivo json
print(schema_formatado)

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":

```json
{
	"presente": bool  // O item foi comprado para alguém? True caso verdadeiro e False caso Falso ou não tenha a informação
	"dias_entrega": int  // Quantos dias para a entrega chegar? Se a resposta não for encontrada, retorne -1.
	"percepcao_de_valor": list  // Extraia qualquer frase sobre o valor ou preço do produto. Retorne como uma lista de Python.
}
```


In [424]:
# agora vamos refazer nosso chat template, mas agora utilizando 
# essa estrutura do schema formatado
review_template = ChatPromptTemplate.from_template("""\
Para o texto a seguir, extraia as seguintes informações:\

presente, dias_entrega, percepcao_de_valor

Texto: {review}                                                                                                      

{schema}
""", partial_variables={'schema':schema_formatado})

In [439]:
# aqui usamos o template para criar um novo prompt
print(review_template.format_messages(review=review_cliente))

[HumanMessage(content='Para o texto a seguir, extraia as seguintes informações:\npresente, dias_entrega, percepcao_de_valor\n\nTexto: \nEste soprador de folhas é bastante incrível. Ele tem 4 configurações: sopro de vela, brisa suave, cidade ventosa e tornado. Chegou em dois dias, bem a tempo para o presente de aniversario da minha esposa. Acho que minha esposa gostou tanto que ficou sem palavras. Até agora, fui o unico a usá-lo, e tenho usado em todas as manhãs alternadas para limpar as folhas do nosso gramado. É um pouco mais caro do que os outros sopradores de folhas disponiveis no mercado, mas acho que vale a pena pelas caracteristicas extras.\n                                                                                                      \n\nThe output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":\n\n```json\n{\n\t"presente": bool  // O item foi comprado para alguém? True caso verdadeiro e False ca

In [428]:
# aqui nós enviamos este prompt para o modelo
# e guardamos a resposta numa variável
resposta = chat.invoke(review_template.format_messages(review=review_cliente))

In [433]:
# o atributo content retorna uma string, não um dicionário utilizável
print(resposta.content)

```json
{
	"presente": true,
	"dias_entrega": 2,
	"percepcao_de_valor": ["É um pouco mais caro do que os outros sopradores de folhas disponíveis no mercado, mas acho que vale a pena pelas características extras."]
}
```


In [434]:
# quem nos ajuda com isso é o método parse
# do objeto instanciado output_parser
# este objeto já tinha recebido a estrutura do nosso json através dos schemas
# então ele é o melhor cara pra organizar pra gente
resposta_json = output_parser.parse(resposta.content)

In [440]:
resposta_json

{'presente': True,
 'dias_entrega': 2,
 'percepcao_de_valor': ['É um pouco mais caro do que os outros sopradores de folhas disponíveis no mercado, mas acho que vale a pena pelas características extras.']}

In [441]:
# provando que é um dicionário
for k, v in resposta_json.items():
    print(f"{k}: {v}")

presente: True
dias_entrega: 2
percepcao_de_valor: ['É um pouco mais caro do que os outros sopradores de folhas disponíveis no mercado, mas acho que vale a pena pelas características extras.']
