# Procesamiento de datos de Salida Medianta LangChain - Parseo


En LangChain, el **parseo** es el proceso de interpretar y transformar datos de un formato a otro, asegurando que la información sea comprensible y utilizable dentro de un flujo o aplicación. Este concepto es fundamental cuando se trabaja con modelos de lenguaje, ya que los datos de entrada y salida necesitan ser procesados para garantizar coherencia y usabilidad.

---

## **¿Para qué sirve el parseo en LangChain?**

El parseo permite estructurar y manipular los datos generados por los modelos de lenguaje o ingresados por los usuarios. Sirve para:
- **Interpretar respuestas:** Extraer información específica de las respuestas del modelo en formatos estructurados (como JSON, tablas, o listas).
- **Validar entradas:** Garantizar que los datos ingresados cumplan con el formato esperado antes de ser procesados.
- **Preparar datos:** Convertir información compleja en un formato sencillo que el modelo o aplicación pueda entender fácilmente.

---

## **¿Qué tipo de cosas se pueden hacer mediante el parseo?**

LangChain ofrece herramientas para realizar diversas tareas relacionadas con el parseo, entre ellas:
- **Extraer información clave:** Identificar y extraer entidades, números, fechas, o cualquier dato específico en una respuesta.
- **Transformar formatos:** Convertir texto plano a estructuras como JSON, XML, listas o tablas.
- **Dividir texto:** Separar grandes bloques de texto en segmentos más pequeños para su análisis o procesamiento.
- **Normalizar datos:** Estandarizar respuestas o entradas para garantizar consistencia en el flujo de trabajo.
- **Integrar lógica de negocio:** Interpretar respuestas del modelo y adaptarlas a las necesidades específicas de una aplicación.

---

## **Aplicaciones del parseo en LangChain**

El parseo tiene múltiples aplicaciones prácticas en sistemas impulsados por modelos de lenguaje:
1. **Sistemas de preguntas y respuestas:**
   - Extraer respuestas específicas de documentos largos.
   - Convertir respuestas en listas de puntos clave para una mejor comprensión.

2. **Chatbots y asistentes virtuales:**
   - Interpretar comandos del usuario y traducirlos en acciones específicas.
   - Validar entradas para asegurarse de que estén en un formato esperado (por ejemplo, fechas o ubicaciones).

3. **Análisis de texto:**
   - Identificar entidades clave como nombres, lugares o valores numéricos.
   - Procesar datos generados para alimentar otras herramientas o sistemas.

4. **Integración con otros sistemas:**
   - Convertir respuestas en formatos compatibles con APIs externas, como JSON o XML.
   - Traducir salidas del modelo en datos estructurados para bases de datos o visualización.

5. **Automatización de tareas complejas:**
   - Procesar y organizar grandes cantidades de texto.
   - Estandarizar formatos paita la creación de aplicaciones robustas y precisas.


## Algunos ejemplos de Parseo

#### Inicialmente importamos las librerías requeridas.

In [1]:
from langchain.prompts import PromptTemplate, SystemMessagePromptTemplate, HumanMessagePromptTemplate, ChatPromptTemplate
from langchain_openai import ChatOpenAI
f = open('key/key_prueba.txt')
api_key = f.read()
chat = ChatOpenAI(openai_api_key=api_key)


Existen varios parseadores predefinidos en LangChain, puede ver el listado en la documentación oficial [aquí](https://python.langchain.com/api_reference/core/output_parsers.html)



### Ejemplo 1: Parsear una lista de elementos separados por comas

- En este caso no necesitamos conectar con el LLM. Supongamos que tenemos una entrada de algunos elementos y necesitamos que la convierta a una entrada lista separada por omas.

In [2]:
# Creamos una respuesta imaginaria o supuesta obtenida del LLM

respuesta = "automóvil, árbol, carretera"

- Utilizaremos el parseador `CommaSeparatedListOutputParser` para dar fomato requerido

In [3]:
from langchain.output_parsers import CommaSeparatedListOutputParser

In [6]:
output_parser = CommaSeparatedListOutputParser()

In [7]:
format_instructions = output_parser.get_format_instructions() # que devuelve las instrucciones que va a pasar al LLM

In [8]:
print(format_instructions)

Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`


In [10]:
# Creamos una respuesta imaginaria o supuesta
respuesta = "Manzana, Banana, Pera, Mango"
output_parser.parse(respuesta)

['Manzana', 'Banana', 'Pera', 'Mango']

### Ejempo 2. Parsear una respuesta obtenida el LLM

- En este caso vamos a crear una plantilla de usuario (HumanTemplate) con la concatenación de la variable 'request' (la solicitud) y la variable 'format_instructions', con las instrucciones adicionales que pasaremos al LLM. 

In [11]:
human_template = '{request}\n{format_instructions}'
human_prompt = HumanMessagePromptTemplate.from_template(human_template)

- Ahora creamos el prompt sobre la plantilla e instanciamos las variables, asignándoles la cadena de texto con la solicitud y las indicaciones

In [12]:
chat_prompt = ChatPromptTemplate.from_messages([human_prompt])
chat_prompt.format_prompt(request = "dime 5 características de los automóviles coreanos",
                          # Se proporcionan las instrucciones obtenidas del parseador
                          format_instructions = output_parser.get_format_instructions())  


ChatPromptValue(messages=[HumanMessage(content='dime 5 características de los automóviles coreanos\nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`', additional_kwargs={}, response_metadata={})])

- Ahora se obtiene a ártir del objeto prompt el texto de la petición y se guarda en 'solicitud_completa' que es la que finalmente se pasará al LLM.

In [13]:
solicitud_completa = chat_prompt.format_prompt(request = "dime 5 características de los automóviles coreanos",
                          format_instructions = output_parser.get_format_instructions()).to_messages()

In [14]:
solicitud_completa

[HumanMessage(content='dime 5 características de los automóviles coreanos\nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`', additional_kwargs={}, response_metadata={})]

In [16]:
resultado = chat.invoke(solicitud_completa)

In [17]:
resultado.content

'eficiente, moderno, económico, confiable, tecnológico'

- Para que el formato de salida sea preciso (lista separada por comas) aplicamos el parseador de LangChain

In [18]:
output_parser.parse(resultado.content)

['eficiente', 'moderno', 'económico', 'confiable', 'tecnológico']

### Ejemplo 3. Parsear datos de fecha

In [19]:
from langchain.output_parsers import DatetimeOutputParser

- Instanciamos el parceador

In [20]:
output_parser = DatetimeOutputParser()

- Podemos verificar las indicaciones asignadas al parseador para un LLM, si es el caso

In [21]:
print(output_parser.get_format_instructions())

Write a datetime string that matches the following pattern: '%Y-%m-%dT%H:%M:%S.%fZ'.

Examples: 1015-05-14T14:48:16.561024Z, 1910-08-01T06:32:13.033485Z, 1240-05-22T05:59:22.176201Z

Return ONLY this string, no other words!


- Vamos a crear la plantilla del usuario para asignarle las indicaciones

In [22]:
template_text = "{request}\n{format_instructions}" # Se crea la plantilla
human_prompt = HumanMessagePromptTemplate.from_template(template_text) # Se crea la plantilla para el prompt del usuario

- Ahora se crea la plantilla de enviar al LLM

In [23]:
chat_prompt = ChatPromptTemplate.from_messages([human_prompt])  # Se crea la plantilla de chat lista para enviar al LLM, a partir de la plantilla del usuario

- Veamos la forma que tomaria la solicitud, una vez asignados los parámetros

In [24]:
print(chat_prompt.format_prompt(request="Cuándo es el dia de la declaración de independencia de Colombia",
                         format_instructions = output_parser.get_format_instructions()))

messages=[HumanMessage(content="Cuándo es el dia de la declaración de independencia de Colombia\nWrite a datetime string that matches the following pattern: '%Y-%m-%dT%H:%M:%S.%fZ'.\n\nExamples: 1877-03-31T08:27:23.979523Z, 0423-07-18T11:56:15.909452Z, 0004-08-30T19:08:34.660279Z\n\nReturn ONLY this string, no other words!", additional_kwargs={}, response_metadata={})]


- Asignamos la solicitud a la variable  para enviarsela al LLm

In [34]:
solicitud_completa = chat_prompt.format_prompt(request="Cuándo es el dia de la declaración de independencia de Colombia",
                         format_instructions = output_parser.get_format_instructions()).to_messages()

- Y enviamos la solicitud al LLM, y recogemos la respuesta

In [36]:
solicitud_completa

[HumanMessage(content="Cuándo es el dia de la declaración de independencia de Colombia\nWrite a datetime string that matches the following pattern: '%Y-%m-%dT%H:%M:%S.%fZ'.\n\nExamples: 0647-06-12T17:42:13.399033Z, 0847-10-03T02:46:20.385155Z, 1554-11-23T11:47:32.373947Z\n\nReturn ONLY this string, no other words!", additional_kwargs={}, response_metadata={})]

In [37]:
respuesta = chat.invoke(solicitud_completa)

In [38]:
respuesta.content

'1810-07-20T00:00:00.000000Z'

- ¿Que pasa si volvemos a pasar la respuesta sobre el parseador?

In [39]:
output_parser.parse(respuesta.content)

datetime.datetime(1810, 7, 20, 0, 0)

- Devuelve un  objeto que representa la fecha y hora exacta, ya como una estructura que puedes usar para cálculos, comparaciones, o serialización.

## Solución de problemas de Parseo


### Auto-Fix Parser en LangChain // Analizador sintáctico de fijación automática

El **Auto-Fix Parser** es una utilidad de LangChain diseñada para manejar y corregir automáticamente errores en las respuestas generadas por modelos de lenguaje. Es especialmente útil cuando el modelo debe generar salidas en un formato específico (por ejemplo, JSON) y estas contienen errores o inconsistencias.---

#### **¿Qué es el Auto-Fix Parser?**
Es una herramienta que:
1. **Valida salidas**: Detecta errores en la salida generada por el modelo.
2. **Corrige automáticamente**: Solicita al modelo correcciones iterativas hasta obtener un formato válido o alcanzar un límite predefinido.
3. **Automatiza flujos**: Evita intervenciones manuales en la validación de respuestas.

---

### **Casos de Uso**
- **Generación de formatos estrictos**: JSON, listas, estructuras numéricas.
- **Integración con sistemas externos**: Cuando las respuestas deben cumplir requisitos específicos.
- **Entornos de producción**: Aumenta la confiabilidad de pipelines al manejar errores automáticamente.

---

#### **Características principales**
1. **Validación y corrección automática**:
   - Solicita al modelo corregir errores detectados.
2. **Configuración personalizable**:
   - Define formatos esperados o reglas de validación.
3. **Iteraciones limitadas**:
   - Establece un número máximo de intentos para evitar ciclos infinitos.
4. **Integración con LangChain Chains**:
   - Funciona dentro de flujos de trabajo estructurados.

---



## **Ejemplo práctico**
Uso del Auto-Fix Parser para validar y corregir una ept Exception as e:
    print("Error en el análisis:", e)


In [40]:
#  Clase para parsear con Auto-Fix, corregir iterativamente hasta obtener la salida esperada
from langchain.output_parsers import OutputFixingParser 

In [43]:
output_parser_dates = DatetimeOutputParser() # instanciamos el parser que queremos
misformatted = respuesta.content # obtenemos la respuesta, hipotéticamente incorrecta
misformatted

'1810-07-20T00:00:00.000000Z'

In [62]:
# Cambiemos la salida por una que sería incorrecta
misformatted = '1810|07-20T00:00:00.000000Z'

In [63]:
# creamos otro parser iterativo a partir de la fecha y dirigido a mi LLM
new_parser = OutputFixingParser.from_llm(parser = output_parser_dates,llm=chat) 

In [64]:
# Se aplica el parseo y vemos la respuesta
new_parser.parse(misformatted)  

datetime.datetime(1810, 7, 20, 0, 0)

### Reforzar el Paseo mediante prompt al sistema

- En este caso se añade el System Prompt como un refuerzo para indicar al LLM como queremos la salida

In [65]:
system_prompt = SystemMessagePromptTemplate.from_template("Tienes que responder únicamente con un patrón de fechas")
human_template = "{request}\n{format_instructions}"  # Para el template del usuario
human_prompt = HumanMessagePromptTemplate.from_template(template_text)

- Ahora creamos el template del chat (chat_prompt) con System_Prompt y Human_Prompt


In [66]:
chat_prompt = ChatPromptTemplate.from_messages([system_prompt,human_prompt])

- Hacemos la solicitud

In [67]:
solicitud_completa = chat_prompt.format(request = "¿Cuándo es el dia de la declaración de la independencia de USA?",
                         format_instructions = output_parser_dates.get_format_instructions()
                        )

In [68]:
solicitud_completa

"System: Tienes que responder únicamente con un patrón de fechas\nHuman: ¿Cuándo es el dia de la declaración de la independencia de USA?\nWrite a datetime string that matches the following pattern: '%Y-%m-%dT%H:%M:%S.%fZ'.\n\nExamples: 1135-06-26T05:05:11.098122Z, 1240-10-27T15:44:30.398026Z, 0157-04-10T12:11:25.095629Z\n\nReturn ONLY this string, no other words!"

- Y enviamos la solicitud al LLM

In [69]:
resultado = chat.invoke(solicitud_completa)

In [70]:
resultado.content

'1776-07-04T00:00:00.000000Z'

In [71]:
output_parser_dates.parse(resultado.content)

datetime.datetime(1776, 7, 4, 0, 0)

# Serialización de Prompts

- Es posible que desees guardar, compartir o cargar objetos de prompts. 
- Langchain permite guardar fácilmente plantillas de mensajes como archivos JSON para leer o compartir, muy
útil cuando hay plantillas complejas que distribuir o reutilizar.

### Guardar la plantilla de prompt

In [72]:
plantilla = "Pregunta: {pregunta_usuario}\n\nRespuesta: Vamos a verlo paso a paso."
prompt = PromptTemplate(template=plantilla)
prompt.save("prompt.json")

### Abrir plantillas guardadas

In [73]:
# Cargamos la clase load_prompt

from langchain.prompts import load_prompt

In [74]:
prompt_cargado = load_prompt('prompt.json')

- Verificamos

In [75]:
prompt_cargado

PromptTemplate(input_variables=['pregunta_usuario'], input_types={}, partial_variables={}, template='Pregunta: {pregunta_usuario}\n\nRespuesta: Vamos a verlo paso a paso.')