# Conceitos avançados de Models

### Prompt few-shot

In [1]:
from langchain_openai import ChatOpenAI

chat = ChatOpenAI()

In [2]:
from langchain_core.messages import HumanMessage, AIMessage

mensagens = [
    HumanMessage(content='Quanto é 1 + 1?'),
    AIMessage(content='2'),
    HumanMessage(content='Quanto é 10 * 5?'),
    AIMessage(content='50'),
    HumanMessage(content='Quanto é 10 + 3?'),
]

chat.invoke(mensagens)

AIMessage(content='10 + 3 é igual a 13.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 11, 'prompt_tokens': 52, 'total_tokens': 63, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-3d822bd9-58c6-4c02-94ab-88aabe0cb3bd-0', usage_metadata={'input_tokens': 52, 'output_tokens': 11, 'total_tokens': 63, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

Isto é similar a formação de mensagens da api da OpenAI, mas com uma sintaxe diferente:

```python
mensagens = [
    {'role': 'user', 'content': 'Quanto é 1 + 1'},
    {'role': 'assistant', 'content': '2'},
    {'role': 'user', 'content': 'Quanto é 10 * 5'},
    {'role': 'assistant', 'content': '50'},
    {'role': 'user', 'content': 'Quanto é 10 + 3'},
]
```

## Utilizando outros modelos

In [3]:
from langchain_huggingface.chat_models.huggingface import ChatHuggingFace  # Atualizando importação!
from langchain_huggingface.llms.huggingface_endpoint import HuggingFaceEndpoint # Atualizando importação!

In [4]:
modelo = 'mistralai/Mixtral-8x7B-Instruct-v0.1'

llm = HuggingFaceEndpoint(repo_id=modelo)
chat = ChatHuggingFace(llm=llm)

  from .autonotebook import tqdm as notebook_tqdm


In [5]:
from langchain_core.messages import HumanMessage, AIMessage

mensagens = [
    HumanMessage(content='Quanto é 1 + 1?'),
    AIMessage(content='2'),
    HumanMessage(content='Quanto é 10 * 5?'),
    AIMessage(content='50'),
    HumanMessage(content='Quanto é 10 + 3?'),
]

chat.invoke(mensagens)

AIMessage(content=' 13\\*', additional_kwargs={}, response_metadata={'token_usage': ChatCompletionOutputUsage(completion_tokens=6, prompt_tokens=58, total_tokens=64), 'model': '', 'finish_reason': 'stop'}, id='run-6f554578-2c33-4228-ada5-3ab6d554416e-0')

A estrutura de chat_model utiliza a estrutura de llm como backend

In [6]:
import langchain

langchain.debug = True
chat.invoke(mensagens)
langchain.debug = False

[32;1m[1;3m[llm/start][0m [1m[llm:ChatHuggingFace] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Quanto é 1 + 1?\nAI: 2\nHuman: Quanto é 10 * 5?\nAI: 50\nHuman: Quanto é 10 + 3?"
  ]
}
[36;1m[1;3m[llm/end][0m [1m[llm:ChatHuggingFace] [196ms] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": " 13\\*",
        "generation_info": {
          "finish_reason": "stop"
        },
        "type": "ChatGeneration",
        "message": {
          "lc": 1,
          "type": "constructor",
          "id": [
            "langchain",
            "schema",
            "messages",
            "AIMessage"
          ],
          "kwargs": {
            "content": " 13\\*",
            "response_metadata": {
              "token_usage": {
                "completion_tokens": 6,
                "prompt_tokens": 58,
                "total_tokens": 64
              },
              "model": "",
              "finish_reason": "stop"
            },
   

> Atenção, nas versões mais atuais de langchain é recomendado utilizar o método set_debug para ativar o modo de debug, da seguinte forma:

In [7]:
from langchain.globals import set_debug

set_debug(True)
chat.invoke(mensagens)
set_debug(False)

[32;1m[1;3m[llm/start][0m [1m[llm:ChatHuggingFace] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Quanto é 1 + 1?\nAI: 2\nHuman: Quanto é 10 * 5?\nAI: 50\nHuman: Quanto é 10 + 3?"
  ]
}
[36;1m[1;3m[llm/end][0m [1m[llm:ChatHuggingFace] [780ms] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": " 13\\*",
        "generation_info": {
          "finish_reason": "stop"
        },
        "type": "ChatGeneration",
        "message": {
          "lc": 1,
          "type": "constructor",
          "id": [
            "langchain",
            "schema",
            "messages",
            "AIMessage"
          ],
          "kwargs": {
            "content": " 13\\*",
            "response_metadata": {
              "token_usage": {
                "completion_tokens": 6,
                "prompt_tokens": 58,
                "total_tokens": 64
              },
              "model": "",
              "finish_reason": "stop"
            },
   

Outros modelos disponíveis:

https://python.langchain.com/docs/integrations/chat/

## Caching

### Cache em memória

In [8]:
from langchain_openai.chat_models import ChatOpenAI

chat = ChatOpenAI(model='gpt-3.5-turbo-0125')

In [9]:
from langchain_core.messages import HumanMessage, SystemMessage

mensagens = [
    SystemMessage(content='Você é um assistente engraçado.'),
    HumanMessage(content='Quanto é 1 + 1?')
]

In [10]:
from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

set_llm_cache(InMemoryCache())

Rodandando a primeira vez

In [11]:
%%time

chat.invoke(mensagens)

CPU times: user 13.4 ms, sys: 0 ns, total: 13.4 ms
Wall time: 1.99 s


AIMessage(content='Depende, você quer a resposta matemática ou a resposta filosófica? Matematicamente, 1 + 1 é igual a 2. Filosoficamente, poderíamos dizer que 1 + 1 é a busca pela unidade, a tentativa de equilibrar duas partes e encontrar a harmonia. Ou simplesmente a resposta é 11, se você juntar os números.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 91, 'prompt_tokens': 30, 'total_tokens': 121, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-25fcafe0-f78e-459c-97bc-ccd84b3c70e0-0', usage_metadata={'input_tokens': 30, 'output_tokens': 91, 'total_tokens': 121, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}

Rodando novamente

In [12]:
%%time

chat.invoke(mensagens)

CPU times: user 1.04 ms, sys: 0 ns, total: 1.04 ms
Wall time: 1.04 ms


AIMessage(content='Depende, você quer a resposta matemática ou a resposta filosófica? Matematicamente, 1 + 1 é igual a 2. Filosoficamente, poderíamos dizer que 1 + 1 é a busca pela unidade, a tentativa de equilibrar duas partes e encontrar a harmonia. Ou simplesmente a resposta é 11, se você juntar os números.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 91, 'prompt_tokens': 30, 'total_tokens': 121, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-25fcafe0-f78e-459c-97bc-ccd84b3c70e0-0', usage_metadata={'input_tokens': 30, 'output_tokens': 91, 'total_tokens': 121, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}

### Cache SQLite

In [13]:
from langchain.cache import SQLiteCache
from langchain.globals import set_llm_cache

set_llm_cache(SQLiteCache(database_path='arquivos/lancgchain_cache_db.sqlite'))

In [14]:
%%time

chat.invoke(mensagens)

CPU times: user 21.5 ms, sys: 131 μs, total: 21.7 ms
Wall time: 716 ms


AIMessage(content='Depende, você quer a resposta matemática correta ou a resposta que vai te fazer rir?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 23, 'prompt_tokens': 30, 'total_tokens': 53, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-ed74a411-4d7c-451a-b150-8169996bd3bb-0', usage_metadata={'input_tokens': 30, 'output_tokens': 23, 'total_tokens': 53, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

In [15]:
%%time

chat.invoke(mensagens)

CPU times: user 55.7 ms, sys: 11.6 ms, total: 67.4 ms
Wall time: 67.1 ms


AIMessage(content='Depende, você quer a resposta matemática correta ou a resposta que vai te fazer rir?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 23, 'prompt_tokens': 30, 'total_tokens': 53, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-ed74a411-4d7c-451a-b150-8169996bd3bb-0', usage_metadata={'input_tokens': 30, 'output_tokens': 23, 'total_tokens': 53, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

In [16]:
%%time

chat.invoke(mensagens)

CPU times: user 3.28 ms, sys: 0 ns, total: 3.28 ms
Wall time: 3.01 ms


AIMessage(content='Depende, você quer a resposta matemática correta ou a resposta que vai te fazer rir?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 23, 'prompt_tokens': 30, 'total_tokens': 53, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-ed74a411-4d7c-451a-b150-8169996bd3bb-0', usage_metadata={'input_tokens': 30, 'output_tokens': 23, 'total_tokens': 53, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})