<a href="https://colab.research.google.com/github/juanfranbrv/curso-langchain/blob/main/9999.%20Ejercicios" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Soluciones a los ejercicios cuaderno **3: Output parsers**
---



# **Preparando el entorno del cuaderno**
---

In [None]:
%%capture --no-stderr

# Importar la librer√≠a `userdata` de Google Colab.
# Esta librer√≠a se utiliza para acceder a datos de usuario almacenados de forma segura en el entorno de Colab.
from google.colab import userdata

# Obtener las claves API de diferentes servicios desde el almacenamiento seguro de Colab.
OPENAI_API_KEY=userdata.get('OPENAI_API_KEY')
GROQ_API_KEY=userdata.get('GROQ_API_KEY')
GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')
HUGGINGFACEHUB_API_TOKEN=userdata.get('HUGGINGFACEHUB_API_TOKEN')

# Instalar las librer√≠as necesarias usando pip.
# El flag `-qU` instala en modo silencioso (`-q`) y actualiza las librer√≠as si ya est√°n instaladas (`-U`).
%pip install langchain -qU  # Instalar la librer√≠a principal de LangChain.

# Instalar las integraciones de LangChain con diferentes proveedores de LLMs.
%pip install langchain-openai -qU
%pip install langchain-groq -qU
%pip install langchain-google-genai -qU
%pip install langchain-huggingface -qU

# Instalamos Rich para mejorar la salida
%pip install rich -qU

# Importar las clases necesarias de LangChain para crear plantillas de prompt.
# `ChatPromptTemplate` es la clase base para plantillas de chat.
# `SystemMessagePromptTemplate` se usa para mensajes del sistema (instrucciones iniciales).
# `HumanMessagePromptTemplate` se usa para mensajes del usuario.
from langchain.prompts import PromptTemplate, ChatPromptTemplate, SystemMessagePromptTemplate, HumanMessagePromptTemplate

# Importar las clases para interactuar con los diferentes LLMs a trav√©s de LangChain.
from langchain_openai import ChatOpenAI
from langchain_groq import ChatGroq
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_huggingface import HuggingFaceEndpoint

# Importamos las librerias para formatear mejor la salida
from IPython.display import Markdown, display
from rich import print as rprint

# **üë®üèª‚Äçüè´ Ejercicio 1: Extractor de Informaci√≥n de Pel√≠culas**

**Objetivo**: Crear un sistema que extraiga informaci√≥n estructurada sobre pel√≠culas a partir de una consulta simple.

**Descripci√≥n**: Implementa un programa utilizando LangChain y `StructuredOutputParser` que tome como entrada el nombre de una pel√≠cula y genere una ficha t√©cnica con informaci√≥n relevante como t√≠tulo, director, g√©nero, a√±o, puntuaci√≥n y resumen.

**Requisitos**:

1. Utilizar `ResponseSchema` para definir la estructura de los campos a extraer
2. Implementar un `StructuredOutputParser` para procesar la respuesta del modelo
3. Crear un `PromptTemplate` que incluya las instrucciones de formato
4. Integrar el sistema con un modelo de lenguaje (ChatOpenAI o ChatGroq)
5. Procesar y mostrar la informaci√≥n de manera estructurada

**Entregable**: Un script de Python que, al ejecutarse con el nombre de una pel√≠cula como entrada, genere una ficha t√©cnica estructurada con la informaci√≥n solicitada.

**Nivel**: Medio

**Aplicaci√≥n pr√°ctica**: Este sistema puede ser √∫til para crear bases de datos de pel√≠culas, generar fichas t√©cnicas autom√°ticas o construir sistemas de recomendaci√≥n basados en atributos espec√≠ficos de las pel√≠culas.

### Resuelve el ejerciccio en este cuaderno. Una solucion la puedes encontrar en el repositorio de esta serie de cuadernos.
https://github.com/juanfranbrv/curso-langchain

In [None]:
from langchain.output_parsers import StructuredOutputParser, ResponseSchema

#Creamos un esquema de respuesta (ResponseSchema) para cada campo que queremos extraer:
esquema_respuesta = [
            ResponseSchema(name="titulo", description="Titulo de la pel√≠cula."),
            ResponseSchema(name="director", description="Nombre del director de la pel√≠cula"),
            ResponseSchema(name="genero", description="Genero cinematografico de  la pelicula"),
            ResponseSchema(name="a√±o", description="A√±o de estreno de la pel√≠cula"),
            ResponseSchema(name="puntuacion", description="N√∫mero de estrellas 1,2,3,4,5"),
            ResponseSchema(name="resumen", description="Resumen de la cr√≠tica de la pel√≠cula")
                    ]

# Crear el StructuredOutputParser
output_parser = StructuredOutputParser.from_response_schemas(esquema_respuesta)

# Obtener el formato de instrucciones del parser
format_instructions = output_parser.get_format_instructions()
format_instructions

# Crear el prompt
plantilla = """
        Genera la siguiente informacion sobre esta {pelicula}:
            Titulo
            Director
            Genero
            Puntuacion

        solo devuelve la informacion solicitada en el formato indicado


        {format_instructions}
        """

# Generar el prompt para el LLM
prompt_template = PromptTemplate(
    template=plantilla,
    input_variables=["pelicula"],
    partial_variables={"format_instructions": format_instructions}
)

pelicula = "El se√±or de los anillos"
prompt = prompt_template.format(pelicula=pelicula)


# Instanciamos el modelo (comenta el que no desees usar)
modelo = ChatOpenAI(model="gpt-4o-mini", api_key=OPENAI_API_KEY, temperature=0.7)
modelo = ChatGroq(model="llama-3.3-70b-versatile", api_key=GROQ_API_KEY,temperature=0.7)

respuesta = modelo.invoke(prompt).content

# Parseamos la respuesta con el parser de salida
respuesta_formateada = output_parser.parse(respuesta)

print(respuesta)
rprint(type(respuesta))
rprint("---")
rprint(respuesta_formateada)
rprint(type(respuesta_formateada))



```json
{
	"titulo": "El Se√±or de los Anillos",
	"director": "Peter Jackson",
	"genero": "Aventura, Fantas√≠a",
	"a√±o": "2001",
	"puntuacion": "5",
	"resumen": "Una adaptaci√≥n √©pica y emocionante de la novela de J.R.R. Tolkien, con una narrativa rica y personajes bien desarrollados."
}
```


# üë®üèª‚Äçüè´ **Ejercicio: Extractor de informaci√≥n personal de un texto**

**Objetivo**:  
Crear un programa que **extraiga informaci√≥n estructurada** de un texto utilizando `with_structured_output()`. La informaci√≥n a extraer incluye:

- Nombre completo
    
- Edad (n√∫mero entero)
    
- Poblaci√≥n (ciudad o pa√≠s)
    
- Correo electr√≥nico
    
- Lista de informaci√≥n adicional


**Requerimientos**:

1. **Esquema Pydantic**:  
    Define una clase `InformacionExtraida` usando `pydantic.BaseModel` con los campos solicitados y sus descripciones.
    
2. **Prompt Template**:  
    Crea un prompt que indique al modelo de lenguaje qu√© informaci√≥n extraer y en qu√© formato.
    
3. **Modelo con salida estructurada**:  
    Usa `with_structured_output()` para configurar el modelo y garantizar que la salida cumpla con el esquema definido.
    
4. **Pruebas**:  
    Ejecuta el programa con el texto de ejemplo y muestra los resultados estructurados.

### Resuelve el ejercicio en este cuaderno. Una solucion la puedes encontrar en el repositorio de esta serie de cuadernos.
https://github.com/juanfranbrv/curso-langchain

In [None]:
from typing import List
from pydantic import BaseModel, Field


class InformacionExtraida(BaseModel):
    nombre: str = Field(description="Nombre completo de la persona")
    edad: int = Field(description="Edad de la persona")
    poblacion: str = Field(description="Ciudad o pa√≠s de residencia")
    correo: str = Field(description="Correo electr√≥nico v√°lido")
    otros: List[str] = Field(description="Lista de informaci√≥n adicional relevante")


plantilla = """
Extrae esta informaci√≥n del texto:
- Nombre completo
- Edad (n√∫mero entero)
- Poblaci√≥n (ciudad/pa√≠s)
- Correo electr√≥nico
- Otra informaci√≥n relevante (lista)

Texto: {texto}

Solo devuelve la informaci√≥n solicitada, nada m√°s.
"""

prompt_template = PromptTemplate(
    template=plantilla,
    input_variables=["texto"]
)

# Instanciamos el modelo (comenta el que no desees usar)
modelo = ChatOpenAI(model="gpt-4o-mini", api_key=OPENAI_API_KEY, temperature=0.7)
# modelo = ChatGroq(model="llama-3.3-70b-versatile", api_key=GROQ_API_KEY,temperature=0.7)

modelo_struct = modelo.with_structured_output(InformacionExtraida)


texto_ejemplo = """
Hola, soy Carlos P√©rez, tengo 28 a√±os.
Vivo en Buenos Aires y mi email es carlos@example.com.
Trabajo como ingeniero y me gusta el f√∫tbol.
"""

prompt = prompt_template.format(texto=texto_ejemplo)
resultado = modelo_struct.invoke(prompt)

rprint(resultado)
rprint(type(resultado))
print("\n\n")


# Uso del resultado estructurado
print(f"Nombre: {resultado.nombre}")
print(f"Edad: {resultado.edad}")
print(f"Poblaci√≥n: {resultado.poblacion}")
print(f"Correo: {resultado.correo}")
print("Otros:")
for otro in resultado.otros:
    print(f"  - {otro}")





Nombre: Pedro
Edad: 0
Poblaci√≥n: 
Correo: pedro@test.com
Otros:


# üë®üèª‚Äçüè´  **Ejercicio: Extracci√≥n de Recetas Estructuradas**

#### **Objetivo**

Crear un script en Python que:

1. Extraiga el texto de una p√°gina web de recetas.
    
2. Utilice un modelo de lenguaje (LLM) para estructurar la informaci√≥n en un formato espec√≠fico.
    
3. Muestre los resultados de forma organizada usando Pydantic.


### **Requerimientos**

1. **Extracci√≥n de texto web**:
    
    - Usar `requests` y `BeautifulSoup` para obtener el texto crudo de una URL de receta.
        
        
2. **Modelado de datos con Pydantic**:
    
    - Definir 3 clases:
        
        - `Ingrediente` (nombre y cantidad).
            
        - `Paso` (n√∫mero y descripci√≥n).
            
        - `Receta` (t√≠tulo, lista de ingredientes, lista de pasos).
            
3. **Prompt Engineering**:
    
    - Crear un prompt que indique al LLM extraer: t√≠tulo, ingredientes y pasos de la receta.
        
4. **Configuraci√≥n del LLM**:
    
    - Usar `with_structured_output()` para garantizar que la salida del modelo coincida con el esquema `Receta`.
        
5. **Pruebas y visualizaci√≥n**:
    
    - Mostrar el resultado estructurado y acceder a sus campos (ej: `resultado.titulo`).

In [None]:
%pip install requests beautifulsoup4 -qU

import requests
from bs4 import BeautifulSoup

url = "https://www.bonviveur.es/recetas/coles-de-bruselas-en-freidora-de-aire"
url = "https://www.directoalpaladar.com/postres/tarta-mango-postre-perfecto-para-cualquier-ocasion"

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
texto_raw= soup.get_text()

# =====================

from typing import List
from pydantic import BaseModel, Field

class Ingrediente(BaseModel):
    nombre: str = Field(description="Nombre del ingrediente")
    cantidad: str = Field(description="Cantidad del ingrediente")

class Paso(BaseModel):
    numero: int = Field(description="N√∫mero del paso")
    descripcion: str = Field(description="Descripci√≥n del paso")

class Receta(BaseModel):
    titulo: str = Field(description="T√≠tulo de la receta")
    ingredientes: List[Ingrediente] = Field(description="Lista de ingredientes")
    pasos: List[Paso] = Field(description="Lista de pasos")

plantilla = """
Extrae esta informaci√≥n de la receta:
- T√≠tulo
- Ingredientes (lista de objetos con nombre y cantidad)
- Pasos (lista de objetos con n√∫mero y descripci√≥n)

Receta: {texto}
"""

prompt_template = PromptTemplate(
    template=plantilla,
    input_variables=["texto"]
)

# Instanciamos el modelo (comenta el que no desees usar)
modelo = ChatOpenAI(model="gpt-4o-mini", api_key=OPENAI_API_KEY, temperature=0.7)
# modelo = ChatGroq(model="llama-3.3-70b-versatile", api_key=GROQ_API_KEY,temperature=0.7)


modelo_struct = modelo.with_structured_output(Receta)

prompt = prompt_template.format(texto=texto_raw)
resultado = modelo_struct.invoke(prompt)

rprint(resultado)
rprint(type(resultado))
print("\n\n")





