<a href="https://colab.research.google.com/github/DanielDialektico/rag_agentes_langchain_curso/blob/main/notebooks/langchain_model_config.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://dialektico.com/wp-content/uploads/2023/03/MiniLogoW4.png" alt="Dialéktico Logo" />

Este pequeño tutorial pertenece al curso de RAG y agentes con LangChain al que puedes acceder mediante la siguiente URL: https://www.youtube.com/playlist?list=PLlWTv9_GeWd32stuEMWpYOnxiVxnXaU6q

Sigue los videos del curso para recibir instrucciones y contexto sobre la ejecución de este Notebook.

<br>

# Se instalan e importan las librerías

In [None]:
!pip install langchain==0.3.20
!pip install langchain_deepseek==0.1.2

In [None]:
import os
import warnings
from langchain_deepseek import ChatDeepSeek
from google.colab import userdata
warnings.filterwarnings('ignore')

## Se añade valor de API key mediante un secreto

In [None]:
# Se añade la API key como variable de ambiente desde un secreto en Colab.
os.environ["DEEPSEEK_API_KEY"] = userdata.get('DEEPSEEK_API_KEY')

## Se declara el modelo a utilizar

In [None]:
# Se define el modelo.
model = ChatDeepSeek(model="deepseek-chat")

<br>

# Temperatura

La temperatura controla la aleatoriedad de las respuestas generadas. Valores más bajos producen respuestas más deterministas, mientras que valores más altos introducen mayor variabilidad (creatividad).

In [None]:
# Se define el modelo y añaden valores de parámetros.
model = ChatDeepSeek(
      model="deepseek-chat",
      temperature=0
      )
# Se añade una prompt y se imprime la respuesta.
response = model.invoke("¿Qué es un automóvil?")

response.content

In [None]:
# Se define el modelo y añaden valores de parámetros.
model = ChatDeepSeek(
      model="deepseek-chat",
      temperature=1
      )

# Se añade una prompt y se imprime la respuesta.
response = model.invoke("¿Qué es un automóvil?")

response.content

<center><img src="https://dialektico.com/wp-content/uploads/2025/03/Tab_COB1.png" alt="" /></center>

<br>

## Metadatos de la respuesta.

In [None]:
response.usage_metadata

<br>

El contenido de `response.usage_metadata` muestra información sobre el uso de tokens en una respuesta generada por un modelo de lenguaje como **DeepSeek** (o cualquier otro modelo compatible con LangChain). Aquí está el desglose de cada clave:


- **`input_tokens`: 11**  
  - Indica la cantidad de **tokens** que fueron utilizados en la consulta del usuario (*prompt*).  
  - Un token puede ser una palabra, parte de una palabra o un carácter en algunos casos.  
  - En este caso, la consulta fue corta (**11 tokens**).

- **`output_tokens`: 334**  
  - Representa el número de **tokens generados por el modelo** como respuesta.  
  - En este caso, el modelo generó **334 tokens** en su respuesta.

- **`total_tokens`: 345**  
  - Es la **suma de `input_tokens` y `output_tokens`** (11 + 334 = **345**).  
  - Esto indica la cantidad total de tokens procesados en la solicitud.

- **`input_token_details`: `{'cache_read': 0}`**  
  - Muestra detalles sobre cómo se manejaron los **tokens de entrada**.  
  - `cache_read: 0` indica que **ninguna parte de la solicitud se obtuvo desde caché**, es decir, el modelo procesó el *input* en tiempo real.

- **`output_token_details`: `{}`**  
  - Contendría detalles adicionales sobre los tokens generados, pero en este caso está vacío.

---

**¿Por qué es relevante esta información?**
- **Optimización de costos:** Si el modelo se está ejecutando en una API de pago, el costo suele depender del número de tokens usados.
- **Rendimiento:** Una alta cantidad de `output_tokens` puede indicar respuestas largas, lo que puede necesitar ajuste con `max_tokens`.
- **Caching:** Si `cache_read` fuera mayor a 0, significaría que se reutilizó información previa, reduciendo el tiempo de respuesta.

<br>

# Tokens máximos

Este parámetro configura el número máximo de tokens que se generarán en la respuesta.

In [None]:
# Se define el modelo y añaden valores de parámetros.
model = ChatDeepSeek(
      model="deepseek-chat",
      temperature=0,
      max_tokens=100
      )
# Se añade una prompt y se imprime la respuesta.
response = model.invoke("¿Qué es un automóvil?")

response.content

In [None]:
# Se imprimen los metadatos de las respuestas.
response.usage_metadata

<br>

Todas las configuraciones posibles pueden revisarse en: https://python.langchain.com/api_reference/deepseek/chat_models/langchain_deepseek.chat_models.ChatDeepSeek.html

<br>

# Información relevante:

* Cómo configurar límites de tasa de uso de la API: https://python.langchain.com/docs/how_to/chat_model_rate_limiting/
* Ajuste de recorte de mensajes: https://python.langchain.com/docs/how_to/trim_messages/

In [None]:
# Dialektico Machine learning practices © 2025 by Daniel Antonio García Escobar
# is licensed under CC BY-NC 4.0. To view a copy of this license,
# visit https://creativecommons.org/licenses/by-nc/4.0/

# Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
# Public License