### Explorando Chat Models

In [1]:
from langchain import OpenAI
llm = OpenAI(model="gpt-3.5-turbo-instruct")

  llm = OpenAI(model="gpt-3.5-turbo-instruct")


In [2]:
prompt = "Conte uma história sobre aprendizado de máquina com, no máximo, 50 palavras"
llm.invoke(prompt)

'\n\nMaria era uma estudante de computação curiosa e decidiu aprender sobre aprendizado de máquina. Ela estudou algoritmos, analisou dados e treinou modelos, até que finalmente conseguiu criar um programa que previa o tempo com precisão. Maria ficou encantada com a capacidade da máquina em aprender e aplicar conhecimento. Agora, ela sabia que o futuro da tecnologia estava nas mãos da inteligência artificial.'

### Sem diferença com o método anterior

In [3]:
prompt = "Conte uma história sobre aprendizado de máquina com, no máximo, 50 palavras"
for trecho in llm.stream(prompt):
    print(trecho, end="")



Era uma vez um jovem programador que sonhava em criar algoritmos inteligentes. Ele estudou muito sobre aprendizado de máquina e, finalmente, construiu um modelo capaz de prever se um paciente tinha ou não uma doença cardíaca. Sua ferramenta ajudou médicos a salvar vidas e ele percebeu que o verdadeiro aprendizado é colocar a tecnologia a serviço da humanidade. 

### Carregando várias perguntas de uma só vez em lote no Prompt

In [4]:
perguntas = ["O que é Memória RAM?",
             "O que é Disco Rígido?",
             "O que é o Processador"]

llm.batch(perguntas)

['\n\nA Memória RAM (Random Access Memory) é um tipo de memória volátil presente em computadores, smartphones e outros dispositivos eletrônicos. Ela é responsável por armazenar temporariamente os dados e programas que estão sendo utilizados pelo sistema operacional e pelos aplicativos em execução.\n\nAo contrário do que acontece com a memória de armazenamento (como o disco rígido), a memória RAM não armazena informações permanentemente, ou seja, ela perde os dados armazenados quando o dispositivo é desligado. Isso acontece porque a memória RAM necessita de energia elétrica para manter os dados armazenados.\n\nA velocidade da memória RAM é medida em MHz (megahertz) ou GHz (gigahertz) e quanto maior for a sua capacidade e velocidade, mais rápido será o desempenho do dispositivo. A memória RAM é essencial para o funcionamento adequado de um computador, pois permite que os programas sejam carregados e executados rapidamente. ',
 '\n\nDisco rígido (ou HD, sigla para Hard Disk) é um disposit

### Chat Models

In [5]:
from langchain_openai import ChatOpenAI

chat = ChatOpenAI(model="gpt-3.5-turbo-0125")

In [6]:
from langchain_core.messages import HumanMessage, SystemMessage

mensagens = [
    SystemMessage(content = "Você é um assistente que responde com ironia"),
    HumanMessage(content = "Qual o papel da memória cache?")]

resposta = chat.invoke(mensagens)

In [7]:
#resposta
resposta.response_metadata
#resposta.content

{'token_usage': {'completion_tokens': 67,
  'prompt_tokens': 30,
  'total_tokens': 97,
  'completion_tokens_details': {'accepted_prediction_tokens': 0,
   'audio_tokens': 0,
   'reasoning_tokens': 0,
   'rejected_prediction_tokens': 0},
  'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}},
 'model_name': 'gpt-3.5-turbo-0125',
 'system_fingerprint': None,
 'id': 'chatcmpl-C9t54zO5GWhXI1HTgfoHd1DoQnp1Y',
 'service_tier': 'default',
 'finish_reason': 'stop',
 'logprobs': None}

### Prompt Few Shot
- Pode-se especificar o contexto para aprimorar a resposta.

In [8]:
from langchain_openai import ChatOpenAI

#chat = ChatOpenAI(model="gpt-3.5-turbo-0125")
chat = ChatOpenAI()

#### No caso, as quatro primeiras interações entre HumanMessage e AIMessage servem para aprimoramento da resposta.

In [9]:
from langchain_core.messages import HumanMessage, AIMessage

mensagens = [
    HumanMessage(content = "Qual é o primeiro dia da semana?"),
    AIMessage(content="Domingo"),
    HumanMessage(content = "Qual é o terceiro dia da semana?"),
    AIMessage(content="Terça-Feira"),
    HumanMessage(content = "Qual é o quinto dia da semana?")]

chat.invoke(mensagens)

AIMessage(content='Quinta-Feira', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 5, 'prompt_tokens': 58, 'total_tokens': 63, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-C9t55XTMPXfvU5iR8L2ZQaGWWJY3E', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--f2f5ae9a-df3f-480e-89f8-45d7210cec95-0', usage_metadata={'input_tokens': 58, 'output_tokens': 5, 'total_tokens': 63, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

#### Pode-se fazer o Debug da construção da resposta

In [10]:
import langchain

langchain.debug = True
chat.invoke(mensagens)

[32;1m[1;3m[llm/start][0m [1m[llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Qual é o primeiro dia da semana?\nAI: Domingo\nHuman: Qual é o terceiro dia da semana?\nAI: Terça-Feira\nHuman: Qual é o quinto dia da semana?"
  ]
}
[36;1m[1;3m[llm/end][0m [1m[llm:ChatOpenAI] [579ms] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "Quinta-Feira",
        "generation_info": {
          "finish_reason": "stop",
          "logprobs": null
        },
        "type": "ChatGeneration",
        "message": {
          "lc": 1,
          "type": "constructor",
          "id": [
            "langchain",
            "schema",
            "messages",
            "AIMessage"
          ],
          "kwargs": {
            "content": "Quinta-Feira",
            "additional_kwargs": {
              "refusal": null
            },
            "response_metadata": {
              "token_usage": {
                "completion_tokens": 5,


AIMessage(content='Quinta-Feira', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 5, 'prompt_tokens': 58, 'total_tokens': 63, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-C9t56CcfYYVWhSjezT7vKVCuI946D', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--32edbf3a-b9f4-4b3b-ba76-637149f9159e-0', usage_metadata={'input_tokens': 58, 'output_tokens': 5, 'total_tokens': 63, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

In [11]:
# Desabilita o modo Debub
langchain.debug = False

### Cacheamento (visa a melhoria do tempo de resposta do modelo)

In [12]:
from langchain_openai.chat_models import ChatOpenAI

chat = ChatOpenAI(model="gpt-3.5-turbo-0125")

In [13]:
from langchain_core.messages import HumanMessage, SystemMessage

mensagens = [
    SystemMessage(content = "Você é um assistente irônico"),
    HumanMessage(content = "Qual é o quinto dia da semana?")]

In [14]:
from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

set_llm_cache(InMemoryCache())

In [15]:
%%time
chat.invoke(mensagens)

CPU times: total: 0 ns
Wall time: 872 ms


AIMessage(content='Ah, o quinto dia da semana é o dia em que muita gente já está contando os minutos para o final de semana, conhecido como sexta-feira. Mas se preferir olhar de outra forma, quintou... quero dizer, quinta-feira!', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 57, 'prompt_tokens': 28, 'total_tokens': 85, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-C9t57i32OXENMKREqbR9X2iVjws83', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--4a64e5bd-31c5-47ca-b8a6-ef9e6f9158a7-0', usage_metadata={'input_tokens': 28, 'output_tokens': 57, 'total_tokens': 85, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### Cacheamento no SQLite

In [16]:
from langchain.cache import SQLiteCache
from langchain.globals import set_llm_cache
#import os
#os.makedirs("files", exist_ok=True)

set_llm_cache(SQLiteCache(database_path="files/langchain_cache.sqlite"))

In [17]:
%%time
chat.invoke(mensagens)

CPU times: total: 15.6 ms
Wall time: 1.57 s


AIMessage(content='A sexta-feira. Afinal, a semana tem 5 dias, né?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 17, 'prompt_tokens': 28, 'total_tokens': 45, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-C9t59heLnBJh3agTf7aj9V6v3Y1jU', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--f991e52c-de6f-44b7-9a15-5ef982f29592-0', usage_metadata={'input_tokens': 28, 'output_tokens': 17, 'total_tokens': 45, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

In [18]:
%%time
chat.invoke(mensagens)

CPU times: total: 0 ns
Wall time: 1.51 ms


AIMessage(content='A sexta-feira. Afinal, a semana tem 5 dias, né?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 17, 'prompt_tokens': 28, 'total_tokens': 45, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-C9t59heLnBJh3agTf7aj9V6v3Y1jU', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--f991e52c-de6f-44b7-9a15-5ef982f29592-0', usage_metadata={'input_tokens': 28, 'output_tokens': 17, 'total_tokens': 45, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}, 'total_cost': 0})