## Langchain (modelos)

Modelos de linguagem utilizados para executar as tarefas específicas.

### 1. Bibliotecas

In [1]:
from dotenv import load_dotenv
import os
from langchain_openai import OpenAI
import langchain

In [2]:
# Acessando API

load_dotenv()
secret_key = os.getenv("OPEN_API_KEY")

---

### 2. Testes das funcionalidades

In [3]:
# Selecionando o modelo

llm = OpenAI(model='gpt-3.5-turbo-instruct',
            openai_api_key=secret_key)

In [4]:
prompt = 'Conte uma história sobre aprendizado de máquina'
llm.invoke(prompt)

'\n\nHá muitos anos atrás, em uma pequena vila de pescadores, vivia um jovem chamado João. Ele sempre teve um fascínio pela tecnologia e como ela poderia ajudar as pessoas em suas tarefas diárias. Mas naquela época, a tecnologia ainda era algo muito distante para a maioria das pessoas na vila.\n\nUm dia, João conheceu um viajante que lhe contou sobre a aprendizagem de máquina, uma técnica que permitia que computadores aprendessem e melhorassem a partir de dados, sem precisar serem explicitamente programados. João ficou fascinado e decidiu que queria aprender mais sobre aquela técnica.\n\nCom a ajuda do viajante, João começou a estudar sobre aprendizado de máquina e ficou impressionado com todas as possibilidades que aquela técnica poderia oferecer. Ele aprendeu sobre algoritmos, redes neurais e como os computadores poderiam aprender a tomar decisões baseadas em dados.\n\nJoão não tinha computador em casa, então ele ia até a biblioteca da vila todos os dias'

---

### 3. Stream

In [5]:
# Testando em stream

for trecho in llm.stream(prompt):
    print(trecho,end='')



Era uma vez, em uma pequena cidade no interior, vivia um jovem chamado Pedro. Ele sempre foi apaixonado por tecnologia e ciência, e passava horas estudando sobre computação e programação. Um dia, Pedro ouviu falar sobre uma nova tecnologia chamada "aprendizado de máquina", que prometia revolucionar o mundo da inteligência artificial.

Intrigado e curioso, Pedro decidiu pesquisar mais sobre o assunto e descobriu que o aprendizado de máquina consistia em ensinar computadores a aprender e tomar decisões sem serem explicitamente programados para isso. Ele ficou maravilhado com as possibilidades dessa tecnologia e decidiu se aprofundar no assunto.

Pedro começou a estudar intensamente sobre aprendizado de máquina, assistia aulas online, lia livros e participava de fóruns de discussão com outros entusiastas da área. Ele também se matriculou em um curso de especialização em inteligência artificial, onde aprendeu sobre algoritmos, modelos de dados e técnicas de análise.

Com o conhecimento a

---

### 4. Batch

**AI - assistant (course)** ✨
`Batch`

É possível ter vários prompts que podem ser executados em batch (em lote) usando LangChain. Você pode criar uma lista de perguntas e passá-las todas de uma vez para o modelo. Isso permite que você carregue várias consultas simultaneamente, o que pode otimizar o processo e economizar tempo, especialmente se você estiver trabalhando com um grande número de perguntas. Por exemplo, ao invés de enviar uma pergunta de cada vez, você pode agrupar perguntas como "O que é memória RAM?", "O que é o disco rígido?" e "O que é o processador?" e enviá-las juntas para o modelo gerar as respostas de uma só vez. Essa abordagem pode ser útil para processar informações em massa e melhorar a eficiência da interação com o modelo.

In [6]:
# Exemplo da execução em batch

In [7]:
perguntas = [
    'O que é memória RAM?',
    'O que é o disco rígido?',
    'O que é processador?'
]

llm.batch(perguntas)

['\n\nMemória RAM (Random Access Memory), também conhecida como memória principal, é um tipo de memória volátil presente em computadores e dispositivos eletrônicos que é utilizada para armazenar temporariamente informações e dados que estão sendo processados pela CPU (Unidade Central de Processamento). Ela é responsável por fornecer acesso rápido a esses dados, permitindo que o computador execute suas tarefas de forma mais eficiente. A capacidade da memória RAM é medida em gigabytes (GB) e quanto maior sua capacidade, maior a quantidade de dados que podem ser armazenados simultaneamente. Ao contrário do armazenamento em disco, a memória RAM é apagada quando o computador é desligado, por isso é considerada uma memória volátil. ',
 '\n\nO disco rígido, também conhecido como "hard drive" ou "HD", é um dispositivo de armazenamento de dados presente em computadores e outros dispositivos eletrônicos. Ele consiste em um disco magnético rotativo, que é responsável por armazenar permanentemente

---

### 5. Chat model

**AI - assistant (course)** ✨
`Chat model`

Um "chat model" é um tipo de modelo de linguagem que é projetado especificamente para lidar com entradas e saídas de mensagens de chat. Ele processa as mensagens de chat como entrada e gera respostas na forma de mensagens de chat como saída. Essa estrutura é particularmente útil para construção de chatbots, pois mantém a conversação contextual e interativa. Esses modelos são otimizados para entender as dinâmicas de um diálogo, permitindo respostas mais coerentes e relevantes às entradas dos usuários. Em LangChain, você pode criar um "chat model" usando a classe apropriada e especificar o modelo de linguagem que pretende utilizar, como o GPT. Isso facilita a implementação de aplicações interativas que imitam conversações humanas.

Classes disponíveis em langchain_core.messages, que representam diferentes tipos de mensagens em uma conversa.

`HumanMessage`: representa uma mensagem enviada por um humano para o modelo. É o equivalente a um usuário fazendo uma pergunta ou dando uma instrução.

`SystemMessage`: representa uma mensagem de sistema, usada para configurar o comportamento ou o "contexto" do modelo. É como dar instruções iniciais ao modelo antes da conversa começar.

`AIMessage`: serve para estruturar uma resposta que veio da IA, ou seja, o conteúdo gerado pelo modelo após uma entrada do humano.

Essas três juntas permitem montar um histórico de conversa, útil para manter o contexto ao longo de interações com LLMs.

| Classe         | O que faz                    |
|----------------|------------------------------------|
| `SystemMessage`| Instruções de sistema/contexto     |
| `HumanMessage` | Pergunta ou comando do humano      |
| `AIMessage`    | Resposta da IA                     |

In [8]:
# Exemplo - Chat model

In [9]:
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, SystemMessage

In [10]:
chat = ChatOpenAI(model='gpt-3.5-turbo-0125',openai_api_key=secret_key)

In [11]:
mensagens= [
    SystemMessage(content='Você é um assistente que responde com ironia'),
    HumanMessage(content='Qual o papel da memória cache?')
]

resposta = chat.invoke(mensagens)

In [12]:
# Verificando a resposta

resposta.content

'Ah, a memória cache, a eterna guardiã do universo da computação, responsável por manter em segredo os segredos mais secretos dos computadores. Ela é como o guardião das chaves do reino digital, sempre pronta para entregar os dados mais valiosos no momento certo. Uma verdadeira heroína da velocidade e eficiência computacional.'

**Metadata** é útil para:

* Para monitorar custos e consumo de tokens

* Para debug ou análise de desempenho

* Para registrar logs detalhados de interações

* Para adaptar comportamento com base no modelo usado ou latência

In [13]:
# Informações utilizadas com relação ao metadado da resposta

resposta.response_metadata

{'token_usage': {'completion_tokens': 87,
  'prompt_tokens': 30,
  'total_tokens': 117,
  'completion_tokens_details': {'accepted_prediction_tokens': 0,
   'audio_tokens': 0,
   'reasoning_tokens': 0,
   'rejected_prediction_tokens': 0},
  'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}},
 'model_name': 'gpt-3.5-turbo-0125',
 'system_fingerprint': None,
 'finish_reason': 'stop',
 'logprobs': None}

---

### 6. Prompt-few-shot

Técnica usada com modelos de linguagem como o GPT para ensinar o modelo pelo exemplo.

In [14]:
from langchain_core.messages import HumanMessage, AIMessage

In [15]:
chat = ChatOpenAI(model='gpt-3.5-turbo-0125', openai_api_key=secret_key)

In [16]:
mensagens = [
    HumanMessage(content='Qual é o primeiro dia da semana?'),
    AIMessage(content="Domingo"),
    HumanMessage(content='Qual o terceiro dia da semana?'),
    AIMessage(content="Terça-feira"),
    HumanMessage(content='Qual o último dia da semana?'),
]

In [17]:
# Imprimir cada mensagem com o tipo correspondente
for mensagem in mensagens:
    tipo = "Humano" if isinstance(mensagem, HumanMessage) else "IA"
    print(f"{tipo}: {mensagem.content}")

Humano: Qual é o primeiro dia da semana?
IA: Domingo
Humano: Qual o terceiro dia da semana?
IA: Terça-feira
Humano: Qual o último dia da semana?


In [18]:
resposta = chat.invoke(mensagens)

In [19]:
resposta.content

'Sábado.'

In [20]:
# Detalhes internos da execução
# Útil para: Diagnosticar problemas, entender melhor o fluxo de execução ou verificar o que exatamente está sendo enviado para o modelo.
langchain.debug=True
chat.invoke(mensagens)

[32;1m[1;3m[llm/start][0m [1m[llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Qual é o primeiro dia da semana?\nAI: Domingo\nHuman: Qual o terceiro dia da semana?\nAI: Terça-feira\nHuman: Qual o último dia da semana?"
  ]
}
[36;1m[1;3m[llm/end][0m [1m[llm:ChatOpenAI] [808ms] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "Sábado",
        "generation_info": {
          "finish_reason": "stop",
          "logprobs": null
        },
        "type": "ChatGeneration",
        "message": {
          "lc": 1,
          "type": "constructor",
          "id": [
            "langchain",
            "schema",
            "messages",
            "AIMessage"
          ],
          "kwargs": {
            "content": "Sábado",
            "response_metadata": {
              "token_usage": {
                "completion_tokens": 3,
                "prompt_tokens": 53,
                "total_tokens": 56,
                "comple

AIMessage(content='Sábado', response_metadata={'token_usage': {'completion_tokens': 3, 'prompt_tokens': 53, 'total_tokens': 56, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-4c7e377a-c55c-4b77-b179-738f0ebcf064-0')

In [21]:
langchain.debug=False

---

### 7. Cacheamento

* Cache é uma técnica usada em computação para armazenar temporariamente os resultados de operações custosas, para que elas não precisem ser refeitas se os mesmos dados forem requisitados novamente
* O uso de cache em aplicações com LangChain permite armazenar localmente as respostas de chamadas anteriores aos modelos de linguagem, evitando que solicitações idênticas sejam reenviadas à API
* Isso reduz significativamente o tempo de resposta, economiza no uso de tokens (e, portanto, nos custos) e melhora o desempenho da aplicação

In [22]:
from langchain_openai.chat_models import ChatOpenAI
from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache

In [23]:
chat = ChatOpenAI(model='gpt-3.5-turbo-0125', openai_api_key=secret_key)

In [24]:
mensagens = [
    SystemMessage(content='Você é um assistente irônico'),
    HumanMessage(content='Qual o quinto dia da semana?')
]

In [25]:
# Inicializando o cache em memória

set_llm_cache(InMemoryCache())

In [26]:
%%time
chat.invoke(mensagens)

CPU times: user 9.67 ms, sys: 1.61 ms, total: 11.3 ms
Wall time: 1.27 s


AIMessage(content='Ah, o famoso quinto dia da semana, também conhecido como... sexta-feira!', response_metadata={'token_usage': {'completion_tokens': 21, 'prompt_tokens': 27, 'total_tokens': 48, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-670cd339-d7e5-42ac-aca3-174e25ab3114-0')

In [27]:
%%time
chat.invoke(mensagens)

CPU times: user 1.02 ms, sys: 27 μs, total: 1.05 ms
Wall time: 972 μs


AIMessage(content='Ah, o famoso quinto dia da semana, também conhecido como... sexta-feira!', response_metadata={'token_usage': {'completion_tokens': 21, 'prompt_tokens': 27, 'total_tokens': 48, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-670cd339-d7e5-42ac-aca3-174e25ab3114-0')

---

### 8. Cache no banco de dados

Tem o mesmo propósito (evitar chamadas repetidas desnecessárias ao modelo), mas com armazenamento durável em vez de temporário

In [28]:
from langchain.cache import SQLiteCache

In [29]:
set_llm_cache(SQLiteCache(database_path='files/langchain_cache.sqlite'))

In [30]:
%%time
chat.invoke(mensagens)

CPU times: user 52 ms, sys: 46.8 ms, total: 98.9 ms
Wall time: 98 ms


AIMessage(content='O quinto dia da semana é o... quinto dia! Também conhecido como sexta-feira.', response_metadata={'token_usage': {'completion_tokens': 23, 'prompt_tokens': 27, 'total_tokens': 50, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-f8e621a9-1958-435a-902d-e9ba734c70c2-0')

In [31]:
%%time
chat.invoke(mensagens)

CPU times: user 1.83 ms, sys: 453 μs, total: 2.28 ms
Wall time: 1.82 ms


AIMessage(content='O quinto dia da semana é o... quinto dia! Também conhecido como sexta-feira.', response_metadata={'token_usage': {'completion_tokens': 23, 'prompt_tokens': 27, 'total_tokens': 50, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None}, id='run-f8e621a9-1958-435a-902d-e9ba734c70c2-0')