In [1]:
from dotenv import load_dotenv
load_dotenv()

True

# Conceitos avançados de Models

### Prompt few-shot

In [2]:
from langchain_openai import ChatOpenAI

chat = ChatOpenAI(model='gpt-4-turbo-2024-04-09')



In [3]:
from langchain_core.messages import HumanMessage, AIMessage

mensagens = [
    HumanMessage(content='Quanto é 1 + 1'),
    AIMessage(content='2'),
    HumanMessage(content='Quanto é 10 * 5'),
    AIMessage(content='50'),
    HumanMessage(content='Quanto é 10 + 3')
]

resposta = chat.invoke(mensagens)
resposta.content

'10 + 3 é igual a 13.'

Isto é similar a formação de mensagens da api da OpenAI, mas com uma sintaxe diferente:

```python
mensagens = [
    {'role': 'user', 'content': 'Quanto é 1 + 1'},
    {'role': 'assistant', 'content': '2'},
    {'role': 'user', 'content': 'Quanto é 10 * 5'},
    {'role': 'assistant', 'content': '50'},
    {'role': 'user', 'content': 'Quanto é 10 + 3'},
]
```

## Utilizando outros modelos

In [None]:
from langchain_community.chat_models.huggingface import ChatHuggingFace
from langchain_community.llms.huggingface_endpoint import HuggingFaceEndpoint

In [9]:
modelo = 'mistralai/Mixtral-8x7B-Instruct-v0.1'

llm = HuggingFaceEndpoint(repo_id=modelo)
chat = ChatHuggingFace(llm=llm)

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


In [11]:
from langchain_core.messages import HumanMessage, AIMessage

mensagens = [ 
    HumanMessage(content='Quanto é 1 + 1?'),
    AIMessage(content='2'),
    HumanMessage(content='Quanto é 10 * 5?'),
    AIMessage(content='50'),
    HumanMessage(content='Quanto é 10 + 3?')
]

resposta = chat.invoke(mensagens)
resposta.content

' 13\n\nAqui estão as regras básicas de aritmética que você precisa saber:\n\n1. Adição (Soma):  a + b.\n   Exemplo: 2 + 3 = 5.\n2. Subtração (Diferença):  a - b.\n   Exemplo: 5 - 2 = 3.\n3. Multiplicação (Produto):  a × b ou a \\* b.\n   Exemplo: 2 × 3 = 6 ou 2 \\* 3 = 6.\n4. Divisão (Cociente):  a ÷ b ou a / b.\n   Exemplo: 5 ÷ 2 = 2.5 ou 5 / 2 = 2.5.\n5. Exponenciação (Potência):  a^b.\n   Exemplo: 2^3 = 8 (2 é elevado a 3).\n6. Raiz quadrada: sqrt(a) ou √a.\n   Exemplo: sqrt(9) ou √9 = 3.\n\nObserve que os dois últimos são operadores matemáticos avançados que você não precisa conhecer para resolver as operações básicas.'

A estrutura de chat_model utiliza a estrutura de llm como backend

In [12]:
import langchain

langchain.debug = True
chat.invoke(mensagens)
langchain.debug = False

[32;1m[1;3m[llm/start][0m [1m[llm:ChatHuggingFace] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Quanto é 1 + 1?\nAI: 2\nHuman: Quanto é 10 * 5?\nAI: 50\nHuman: Quanto é 10 + 3?"
  ]
}
[36;1m[1;3m[llm/end][0m [1m[llm:ChatHuggingFace] [226ms] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": " 13\n\nAqui estão as regras básicas de aritmética que você precisa saber:\n\n1. Adição (Soma):  a + b.\n   Exemplo: 2 + 3 = 5.\n2. Subtração (Diferença):  a - b.\n   Exemplo: 5 - 2 = 3.\n3. Multiplicação (Produto):  a × b ou a \\* b.\n   Exemplo: 2 × 3 = 6 ou 2 \\* 3 = 6.\n4. Divisão (Cociente):  a ÷ b ou a / b.\n   Exemplo: 5 ÷ 2 = 2.5 ou 5 / 2 = 2.5.\n5. Exponenciação (Potência):  a^b.\n   Exemplo: 2^3 = 8 (2 é elevado a 3).\n6. Raiz quadrada: sqrt(a) ou √a.\n   Exemplo: sqrt(9) ou √9 = 3.\n\nObserve que os dois últimos são operadores matemáticos avançados que você não precisa conhecer para resolver as operações básicas.",
        "generat

> Atenção, nas versões mais atuais de langchain é recomendado utilizar o método set_debug para ativar o modo de debug, da seguinte forma:

Outros modelos disponíveis:

https://python.langchain.com/docs/integrations/chat/

## Caching

### Cache em memória

In [15]:
from langchain_openai.chat_models import ChatOpenAI

chat = ChatOpenAI(model='gpt-4-turbo-2024-04-09')

In [16]:
from langchain_core.messages import HumanMessage, SystemMessage

mensagens = [
    SystemMessage(content='Você é um assistente engraçado.'),
    HumanMessage(content='Quanto é 1 + 1?')
]

In [17]:
from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

set_llm_cache(InMemoryCache())

Rodandando a primeira vez

In [18]:
%%time
chat.invoke(mensagens)

CPU times: total: 15.6 ms
Wall time: 2.54 s


AIMessage(content='A resposta clássica é 2, mas se você estiver contando quantas vezes eu posso fazer você sorrir, espero que seja muito mais!', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 36, 'prompt_tokens': 30, 'total_tokens': 66, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4-turbo-2024-04-09', 'system_fingerprint': 'fp_de235176ee', 'finish_reason': 'stop', 'logprobs': None}, id='run-73d85ab0-c9d5-46bc-a0b7-514915e0acd7-0', usage_metadata={'input_tokens': 30, 'output_tokens': 36, 'total_tokens': 66, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

Rodando novamente

In [19]:
%%time
chat.invoke(mensagens)

CPU times: total: 0 ns
Wall time: 0 ns


AIMessage(content='A resposta clássica é 2, mas se você estiver contando quantas vezes eu posso fazer você sorrir, espero que seja muito mais!', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 36, 'prompt_tokens': 30, 'total_tokens': 66, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4-turbo-2024-04-09', 'system_fingerprint': 'fp_de235176ee', 'finish_reason': 'stop', 'logprobs': None}, id='run-73d85ab0-c9d5-46bc-a0b7-514915e0acd7-0', usage_metadata={'input_tokens': 30, 'output_tokens': 36, 'total_tokens': 66, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### Cache SQLite

In [20]:
from langchain.cache import SQLiteCache
from langchain.globals import set_llm_cache

set_llm_cache(SQLiteCache(database_path='arquivos/langchain_cache_db.sqlite'))

In [21]:
%%time
chat.invoke(mensagens)

CPU times: total: 15.6 ms
Wall time: 2.47 s


AIMessage(content='Ah, essa é clássica! Matematicamente, 1 + 1 é 2. Mas se você perguntar a um programador durante a hora do café, ele pode dizer que é "10" em binário! 😉', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 52, 'prompt_tokens': 30, 'total_tokens': 82, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4-turbo-2024-04-09', 'system_fingerprint': 'fp_de235176ee', 'finish_reason': 'stop', 'logprobs': None}, id='run-e2928c24-f3c8-445e-9399-8703edb589ff-0', usage_metadata={'input_tokens': 30, 'output_tokens': 52, 'total_tokens': 82, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

In [22]:
%%time
chat.invoke(mensagens)

CPU times: total: 0 ns
Wall time: 862 μs


AIMessage(content='Ah, essa é clássica! Matematicamente, 1 + 1 é 2. Mas se você perguntar a um programador durante a hora do café, ele pode dizer que é "10" em binário! 😉', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 52, 'prompt_tokens': 30, 'total_tokens': 82, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4-turbo-2024-04-09', 'system_fingerprint': 'fp_de235176ee', 'finish_reason': 'stop', 'logprobs': None}, id='run-e2928c24-f3c8-445e-9399-8703edb589ff-0', usage_metadata={'input_tokens': 30, 'output_tokens': 52, 'total_tokens': 82, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})