## Conceitos avançados de Models

#### Prompt few-shot

###### Prompt few-shot (ou "exemplo de poucos disparos", em tradução livre) é uma técnica usada em modelos de linguagem como o ChatGPT para ensinar o modelo a realizar uma tarefa específica mostrando alguns exemplos no próprio prompt.

###### 📌 Explicando de forma simples:
> ###### É como ensinar uma pessoa a resolver um problema mostrando 2 ou 3 exemplos, e depois pedindo para ela resolver um novo, seguindo o mesmo padrão.
```
Exemplo 1:
Entrada: Qual é a capital da França?
Saída: Paris

Exemplo 2:
Entrada: Qual é a capital da Alemanha?
Saída: Berlim

Nova pergunta:
Entrada: Qual é a capital da Itália?
Saída:
```


**AIMessage**: Representa uma mensagem gerada pelo modelo. <br>
**HumanMessage**: Representa uma mensagem enviada pelo usuário. <br>
**SystemMessage**: Indica ao modelo como se comportar.<br>

In [1]:
from langchain_openai.chat_models import ChatOpenAI
from langchain_core.messages import SystemMessage, HumanMessage 

In [2]:
mensagens = [
    HumanMessage("5 É?"),
    SystemMessage("ÍMPAR"),
    HumanMessage("6 É?"),
    SystemMessage("PAR"),
    HumanMessage("8 É?"),
    SystemMessage("PAR"),
    HumanMessage("2 É?")
]
chat = ChatOpenAI(model="gpt-3.5-turbo-0125")

In [3]:
chat.invoke(mensagens)

AIMessage(content='PAR', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 1, 'prompt_tokens': 48, 'total_tokens': 49, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BjGVKIvogRW4nAu5O9a9r5FRm8XWH', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--1e50d1ce-ff94-4c7b-8d64-3a17f890fe3d-0', usage_metadata={'input_tokens': 48, 'output_tokens': 1, 'total_tokens': 49, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

#### Importando outros modelos e Debug

In [4]:
# deprecated -> from langchain_community.chat_models.huggingface import ChatHuggingFace
# deprecated -> from langchain_community.llms.huggingface_endpoint import HuggingFaceEndpoint

import langchain
from langchain_huggingface import ChatHuggingFace, HuggingFaceEndpoint
from langchain_core.messages import AIMessage, HumanMessage
#from langchain_huggingface.chat_models.huggingface import HumanMessage, SystemMessage -> Alternativa

In [5]:
llm = HuggingFaceEndpoint(
    repo_id='deepseek-ai/DeepSeek-R1-0528'
)

chat = ChatHuggingFace(llm=llm)
langchain.debug = True

  from .autonotebook import tqdm as notebook_tqdm


In [6]:
mensagens = [
    HumanMessage("1 + 1 = ?"),
    AIMessage("2"),
    HumanMessage("2 + 5 = ?"),
    AIMessage("7"),
    HumanMessage("10 + 20 = ?")
]
chat.invoke(mensagens)
langchain.debug = False

[32;1m[1;3m[llm/start][0m [1m[llm:ChatHuggingFace] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: 1 + 1 = ?\nAI: 2\nHuman: 2 + 5 = ?\nAI: 7\nHuman: 10 + 20 = ?"
  ]
}
[36;1m[1;3m[llm/end][0m [1m[llm:ChatHuggingFace] [19.62s] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "<think>\nHmm, the user is asking a series of very basic addition problems. First it was 1+1, then 2+5, now 10+20. \n\nThis seems like either a young child learning math or someone testing how I handle simple queries. The pattern suggests they're progressively increasing the difficulty, though all are still quite elementary. \n\nI notice they didn't comment on my previous correct answers - just moved to the next problem. So they're likely not seeking explanations, just validation of answers. \n\nThe calculation itself is straightforward: 10+20 is clearly 30. But I wonder if they'll continue this pattern? Maybe next will be 100+200? \n\nSince they seem satisfie

## Cache

### InMemoryCache

In [7]:
from langchain_openai import ChatOpenAI
from langchain_core.caches import InMemoryCache
from langchain_core.globals import set_llm_cache
from langchain_core.messages import AIMessage, HumanMessage 

In [8]:
mensagens = [
    HumanMessage("""Você é um assistente especializado em gatos gordos.
               A dorinha é um exemplo de gata gorda que vive comendo e miando. É muit engraçada e fofa!"""),
    HumanMessage("Quem é a dorinha? Me fale mais dela")
]
chat = ChatOpenAI()

set_llm_cache(InMemoryCache())

In [9]:
%%time
chat.invoke(mensagens)

CPU times: total: 15.6 ms
Wall time: 1.39 s


AIMessage(content='Desculpe, mas a dorinha não é uma gata real, eu a inventei como um exemplo para falar sobre gatos gordos de forma genérica. No entanto, posso te ajudar com informações e dicas sobre como lidar com gatos acima do peso, se precisar.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 65, 'prompt_tokens': 67, 'total_tokens': 132, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BjGVfAxJ83jvBnT0UuoAZrGF1uQEl', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--850e5b0d-4e5b-4304-9b38-54e3618c695d-0', usage_metadata={'input_tokens': 67, 'output_tokens': 65, 'total_tokens': 132, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, '

In [10]:
%%time
chat.invoke(mensagens)

CPU times: total: 0 ns
Wall time: 1.23 ms


AIMessage(content='Desculpe, mas a dorinha não é uma gata real, eu a inventei como um exemplo para falar sobre gatos gordos de forma genérica. No entanto, posso te ajudar com informações e dicas sobre como lidar com gatos acima do peso, se precisar.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 65, 'prompt_tokens': 67, 'total_tokens': 132, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BjGVfAxJ83jvBnT0UuoAZrGF1uQEl', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--850e5b0d-4e5b-4304-9b38-54e3618c695d-0', usage_metadata={'input_tokens': 67, 'output_tokens': 65, 'total_tokens': 132, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, '

### Cache SQLite

In [None]:
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, SystemMessage

In [12]:
import os
from langchain.cache import SQLiteCache
from langchain_core.globals import set_llm_cache

# Garante que o diretório exista
os.makedirs("arquivos/cache", exist_ok=True)

set_llm_cache(SQLiteCache(database_path='arquivos/cache/cache-sqlite.sqlite'))



In [13]:
mensagens = [
    HumanMessage("1 É?"),
    SystemMessage("ÍMPAR"),
    HumanMessage("2 É?"),
    SystemMessage("PAR"),
    HumanMessage("8 É?")
]

chat = ChatOpenAI()

In [14]:
%%time
chat.invoke(mensagens)

CPU times: total: 31.2 ms
Wall time: 7.08 ms


AIMessage(content='PAR', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 1, 'prompt_tokens': 36, 'total_tokens': 37, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BjGPYVmXcEutd0jqQfBk0PfxPkojL', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--c11f9fd4-2d49-430d-8650-c25cd852d643-0', usage_metadata={'input_tokens': 36, 'output_tokens': 1, 'total_tokens': 37, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

In [15]:
%%time
chat.invoke(mensagens)

CPU times: total: 0 ns
Wall time: 2.87 ms


AIMessage(content='PAR', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 1, 'prompt_tokens': 36, 'total_tokens': 37, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BjGPYVmXcEutd0jqQfBk0PfxPkojL', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--c11f9fd4-2d49-430d-8650-c25cd852d643-0', usage_metadata={'input_tokens': 36, 'output_tokens': 1, 'total_tokens': 37, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})