### Forma simples de fazer uma chamada e dividir em chunks

In [None]:
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, SystemMessage, AIMessage

load_dotenv()

chat = ChatOpenAI(model="gpt-5-nano")

prompt = 'Conte uma história sobre aprendizado de máquina em menos de 50 palavras'

for chunk in chat.stream([HumanMessage(content=prompt)]):
    print(chunk.content, end="", flush=True)


### ChatModels
Separa entre SystemMessage e HumanMessage

In [6]:
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, SystemMessage

load_dotenv()

chat = ChatOpenAI(model="gpt-5-nano")
messages = [
    SystemMessage(content='Você é um assistente que responde com irônia'),
    HumanMessage(content='Qual o papel da memória cache?')
]

# for chunk in chat.stream(messages):
#     print(chunk.content, end="", flush=True)

response = chat.invoke(messages)
print(response.content)
print(response.usage_metadata)


Ah, a memória cache: a ajudante de palco ultrarrápida que guarda fotinhos do que a CPU acabou de usar, para não ter que acordar a dramática RAM toda vez que o programa pede algo.

Papel principal (em poucas palavras):
- Reduzir a latência média de acesso à memória: a cache guarda cópias de dados/instruções usados recentemente ou que provavelmente serão usados em breve, para a CPU pegar quase na hora.
- Hierarquia entre CPU e RAM: L1, L2, (e às vezes) L3 são caches cada vez maiores e mais lentos, mas ainda muito mais rápidos que a memória principal.
- Explorar localidade: funciona com localidade temporal (usar de novo logo) e espacial (dados próximos estão ligados), para prever o que vem a seguir.
- Organização e operação: dados são divididos em linhas/peças com tags; há políticas de substituição (LRU, FIFO, etc.) e tipos de mapeamento (direto, associativo, set-associativo).
- Coerência em multi-core: quando vários núcleos compartilham dados, rola controle de coerência (MESI, invalidaçã

### Prompt Few Shot


In [9]:
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
from langchain_core.messages import HumanMessage, SystemMessage, AIMessage

load_dotenv()

chat = ChatOpenAI(model="gpt-5-nano")

messages = [
    HumanMessage(content='Qual o primeiro dia da semana?'),
    AIMessage(content='Domingo'),
    HumanMessage(content='Qual o terceiro dia da semana?'),
    AIMessage(content='Terça-Feira'),
    HumanMessage(content='Qual o última dia da semana?'),
]

answer = chat.invoke(messages)
print(answer.content)


Sábado.


### Cacheamento InMemoryCache
Toda vez que reiniciar a aplicação o cache se perde

In [8]:
import time
from langchain_openai.chat_models import ChatOpenAI
from dotenv import load_dotenv
from langchain_core.messages import HumanMessage, SystemMessage
from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

load_dotenv()
chat = ChatOpenAI(model="gpt-5-nano")

messages = [
    SystemMessage(content='Você é um assistente irônico'),
    HumanMessage(content='Qual é o quinto dia da semana?')
]

set_llm_cache(InMemoryCache())

start_time = time.time()
response = chat.invoke(messages)
print(response.content)

end_time = time.time()
duration = end_time - start_time
print(f"--- O script demorou {duration:.2f} segundos para rodar. ---")

start_time = time.time()
response = chat.invoke(messages)
print(response.content)

end_time = time.time()
duration = end_time - start_time
print(f"--- O script demorou {duration:.2f} segundos para rodar. ---")


Quinto dia da semana? Sexta-feira. A menos que você conte começando pelo domingo — aí seria quinta-feira. Na prática moderna (ISO 8601, segunda como primeiro dia), fica sexta-feira.
--- O script demorou 6.09 segundos para rodar. ---
Quinto dia da semana? Sexta-feira. A menos que você conte começando pelo domingo — aí seria quinta-feira. Na prática moderna (ISO 8601, segunda como primeiro dia), fica sexta-feira.
--- O script demorou 0.00 segundos para rodar. ---


# Memória com SQLLiteCache


In [3]:
import time
from langchain_openai.chat_models import ChatOpenAI
from dotenv import load_dotenv
from langchain_core.messages import HumanMessage, SystemMessage
from langchain.cache import SQLiteCache
from langchain.globals import set_llm_cache

load_dotenv()
chat = ChatOpenAI(model="gpt-5-nano")

messages = [
    SystemMessage(content='Você é um assistente irônico'),
    HumanMessage(content='Qual é o quinto dia da semana?')
]

set_llm_cache(SQLiteCache(database_path='files/langchain_cache.sqlite'))

start_time = time.time()
response = chat.invoke(messages)
print(response.content)

end_time = time.time()
duration = end_time - start_time
print(f"--- O script demorou {duration:.2f} segundos para rodar. ---")

Depende de como você conta a semana.

- Se a semana começa no domingo: quinto dia é quinta-feira.
- Se a semana começa na segunda: quinto dia é sexta-feira.

No Brasil, muitas contagens começam na segunda, então o quinto dia costuma ser sexta-feira. Quer que eu siga um padrão específico para você?
--- O script demorou 0.00 segundos para rodar. ---
