# **Parseo de documentos y validaci√≥n con Pydantic** üîßüìã  

Este notebook forma parte del curso de **IA Generativa** de la [Fundaci√≥n GoodJob](https://www.fundaciongoodjob.org/).  

En este bloque vamos a recorrer un camino que comienza con los **datos en bruto** ; documentos no estructurados como PDFs, p√°ginas web o respuestas de APIs‚Äî y termina con **objetos Python limpios y validados**, listos para usarse en cualquier aplicaci√≥n.  

<div style="display: flex; justify-content: space-around; align-items: center; margin: 20px 0;">
  <img src="../notebooks/sources/llamaindex.png" alt="LlamaIndex" style="width:40%; height:auto;"/>
  <span style="font-size: 2em; font-weight: bold;">+</span>
  <img src="../notebooks/sources/pydantic.jpg" alt="Pydantic" style="width:40%; height:auto;"/>
</div>  

Para ello, nos apoyaremos en dos piezas clave:  
- **LlamaIndex**, que nos permitir√° leer y transformar documentos de muy distinta naturaleza en un formato unificado y manejable.  
- **Pydantic**, que nos ayudar√° a garantizar que la informaci√≥n extra√≠da sigue un esquema coherente, evitando errores y asegurando consistencia en todo el pipeline.  

La idea es entender c√≥mo se combinan estas herramientas. Primero veremos c√≥mo LlamaIndex act√∫a como capa de ingesta y parsing, capaz de convertir tanto documentos locales como datos de una API en representaciones estructuradas. A continuaci√≥n, abordaremos la necesidad de controlar lo que devuelve un modelo: los LLMs son potentes, pero tambi√©n pueden ser inconsistentes en la forma en que entregan resultados. Ah√≠ es donde entra **Pydantic**, imponiendo reglas claras sobre qu√© forma deben tener los datos finales.  

Al final de este recorrido habremos construido un **flujo completo**: desde la carga de documentos y APIs, pasando por su procesamiento con LlamaIndex, hasta la validaci√≥n final con Pydantic. No se trata solo de ‚Äúleer datos‚Äù, sino de transformarlos en conocimiento fiable y utilizable dentro de un proyecto real.  


## 1. **Contexto: ¬øPor qu√© parsear documentos con LlamaIndex?** ü§î

### **El problema t√≠pico**

En el mundo real, los datos no vienen en formatos perfectos. Nos enfrentamos a:

- **üìÑ PDFs** con texto desestructurado
- **üåê HTML** con informaci√≥n dispersa  
- **üìß Emails** con formatos inconsistentes
- **üìä Documentos financieros** con tablas y gr√°ficos

### **¬øQu√© ofrece LlamaIndex?**

LlamaIndex convierte todos estos documentos desestructurados en **nodes** que los modelos de lenguaje pueden consumir eficientemente.

```
Documento desestructurado ‚Üí LlamaIndex ‚Üí Nodes ‚Üí Modelo LLM ‚Üí Respuesta estructurada
```

### **La ventaja clave: Unificaci√≥n**

No importa si la fuente es:
- Un PDF de 100 p√°ginas
- Una API REST con datos financieros  
- Un sitio web con noticias

**El pipeline es consistente** ‚Üí mismo c√≥digo, misma l√≥gica, mismos resultados.

---


## 2. **Parseo de documentos con LlamaIndex** üìö

### **Conceptos fundamentales**

LlamaIndex trabaja con dos abstracciones principales:

- **`Document`**: Representa un documento completo (PDF, HTML, texto)
- **`Node`**: Fragmentos peque√±os de informaci√≥n que el modelo puede procesar

```python
# Flujo t√≠pico
Document ‚Üí Splitter ‚Üí [Node, Node, Node, ...] ‚Üí Vector Store ‚Üí Query Engine
```

### **Conectores disponibles**

LlamaIndex incluye m√∫ltiples conectores para diferentes fuentes:

| Conector | Uso | Ejemplo |
|----------|-----|---------|
| `SimpleDirectoryReader` | Archivos locales | PDFs, TXT, DOCX |
| `PDFReader` | PDFs espec√≠ficos | Reportes financieros |
| `WebPageReader` | P√°ginas web | Art√≠culos, blogs |
| `WikipediaReader` | Wikipedia | Datos enciclop√©dicos |
| `NotionPageReader` | Notion | Documentaci√≥n |
| `...`| ... | ...|

Si bien los conectores mencionados en la tabla anterior son algunos de los m√°s importantes y vers√°tiles ‚Äîespecialmente `SimpleDirectoryReader`, `PDFReader` y `WebPageReader`‚Äî, existen muchos otros disponibles que pueden adaptarse a diferentes necesidades y fuentes de datos.

Puedes explorar la lista completa de conectores y ejemplos de uso en la [documentaci√≥n oficial de LlamaIndex](https://docs.llamaindex.ai/en/stable/examples/).

### **Metadatos: la clave del contexto**

Cada `Node` no solo contiene texto, sino tambi√©n metadatos asociados que enriquecen su valor. Estos metadatos son atributos que describen el fragmento y permiten a los modelos trabajar con informaci√≥n m√°s precisa y relevante.
```python
metadata = {
    "fecha": "2024-03-15",
    "fuente": "api_financiera", 
    "autor": "analyst_bot",
    "categoria": "earnings_report"
}
```

### ‚≠ê ¬øPor qu√© son importantes los metadatos?

| Icono | Funci√≥n | Ejemplo |
|-------|---------|---------|
| üß≠ **Contextualizaci√≥n** | Explican de d√≥nde proviene la informaci√≥n y en qu√© condiciones fue generada. | *‚ÄúInforme de resultados trimestral publicado en marzo de 2024‚Äù* |
| üîç **Filtrado inteligente** | Permiten restringir consultas seg√∫n criterios espec√≠ficos. | *‚ÄúBuscar solo art√≠culos posteriores a 2022‚Äù* <br> *‚Äúusar √∫nicamente la fuente `api_financiera`‚Äù* |
| ‚öñÔ∏è **Priorizaci√≥n y relevancia** | Diferencian nodos con contenido similar en funci√≥n de su origen o fiabilidad. | *Dar m√°s peso a un documento oficial que a un blog an√≥nimo* |
| üìë **Trazabilidad** | Cada respuesta puede rastrearse hasta el documento de origen. | *Clave en entornos regulados donde se exige justificar la procedencia* |

---

‚ú® En conjunto, los metadatos convierten texto plano en **informaci√≥n estructurada, explicable y confiable**.  



In [5]:
# Imports necesarios
import os
import json
import requests
from datetime import datetime
from typing import List, Optional, Dict, Any
from pathlib import Path

# LlamaIndex imports
from llama_index.core import (
    Document, 
    VectorStoreIndex, 
    SimpleDirectoryReader,
    Settings
)
from llama_index.core.node_parser import SimpleNodeParser
from llama_index.core.schema import NodeWithScore
from llama_index.readers.web import SimpleWebPageReader
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding

# Pydantic imports
from pydantic import BaseModel, Field, validator
from pydantic.types import constr
from enum import Enum

# Configurar LlamaIndex
Settings.llm = OpenAI(model="gpt-4o-mini", temperature=0.0)
Settings.embed_model = OpenAIEmbedding()

print("‚úÖ Configuraci√≥n completada")
print(f"üìö LlamaIndex configurado con {Settings.llm.model}")
print(f"üìö LlamaIndex Embedding configurado con {Settings.embed_model.model_name}")

print("üîß Pydantic listo para validaci√≥n")


‚úÖ Configuraci√≥n completada
üìö LlamaIndex configurado con gpt-4o-mini
üìö LlamaIndex Embedding configurado con text-embedding-ada-002
üîß Pydantic listo para validaci√≥n


### **2.1 SimpleDirectoryReader: Carga de documentos**

El componente `SimpleDirectoryReader` constituye uno de los mecanismos m√°s vers√°tiles de LlamaIndex para la ingesta de datos.  
De acuerdo con la [documentaci√≥n oficial](https://docs.llamaindex.ai/en/stable/module_guides/loading/simpledirectoryreader/), este lector no se limita a archivos de texto plano, sino que admite m√∫ltiples formatos habituales en entornos profesionales y de investigaci√≥n.  

---

#### üìÅ **Tipos de archivos soportados**

| Extensi√≥n           | Tipo de contenido    | Uso com√∫n                                   |
|---------------------|----------------------|---------------------------------------------|
| `.csv`              | Datos tabulares      | Datasets, reportes financieros              |
| `.pdf`              | Documento PDF        | Contratos, informes t√©cnicos o acad√©micos   |
| `.docx`             | Documento Word       | Documentaci√≥n corporativa                   |
| `.md`               | Markdown             | Manuales y documentaci√≥n t√©cnica            |
| `.ipynb`            | Jupyter Notebook     | Notebooks de an√°lisis y experimentaci√≥n     |
| `.jpeg/.jpg/.png`   | Im√°genes             | OCR, procesamiento de contenido visual      |
| `.mp3/.mp4`         | Audio y v√≠deo        | Generaci√≥n de transcripciones autom√°ticas   |

---

#### üè∑Ô∏è **Metadatos asociados a cada documento**

Adem√°s del contenido textual, `SimpleDirectoryReader` enriquece cada documento con un conjunto de metadatos normalizados.  
Estos metadatos facilitan tareas de filtrado, trazabilidad y organizaci√≥n dentro de un pipeline de procesamiento. Entre los m√°s relevantes se incluyen:  

- **`file_path`**: ruta completa del archivo en el sistema de ficheros.  
- **`file_name`**: nombre original del archivo.  
- **`file_type`**: tipo MIME detectado autom√°ticamente.  
- **`file_size`**: tama√±o del archivo en bytes.  
- **`creation_date`** y **`last_modified_date`**: fechas de creaci√≥n y √∫ltima modificaci√≥n, normalizadas a UTC.  

---

En consecuencia, `SimpleDirectoryReader` debe considerarse no solo como un cargador de documentos, sino como una **herramienta de ingesta integral**, capaz de proporcionar tanto el contenido como el contexto necesario para un procesamiento fiable con modelos de lenguaje.  


In [29]:
# Ejemplo 1: Carga simple de documentos locales
data_path = Path("../data")

# Verificar qu√© archivos tenemos
if data_path.exists():
    files = list(data_path.glob("*.csv"))
    print("üìÅ Archivos encontrados:")
    for file in files:
        print(f"  - {file.name}")
else:
    print("‚ùå Directorio data/ no encontrado")

# Cargar documentos con SimpleDirectoryReader
reader = SimpleDirectoryReader(
            input_dir="../data",
            recursive=False,  # Buscar en subdirectorios
            required_exts=[".csv", ".txt", ".md", ".pdf"],  # Solo estos tipos
            num_files_limit=10,  # M√°ximo 10 archivos para el ejemplo
            encoding="utf-8"  # Codificaci√≥n espec√≠fica
        )

documents = reader.load_data(num_workers=4)

print(f"\n‚úÖ Cargados {len(documents)} documentos")

# Inspeccionar el primer documento
if documents:
    for doc, tipo in zip(documents, ["CSV","PDF"]):
        print(f"\nüìÑ Documento {tipo}:")
        print(f"  - ID: {doc.doc_id}")
        print(f"  - Metadatos: {doc.metadata}")
    print(f"  - Texto (primeros 200 chars): {doc.text[:200]}...")
        


üìÅ Archivos encontrados:
  - partner_headlines_sample.csv

‚úÖ Cargados 40 documentos

üìÑ Documento CSV:
  - ID: 816c911d-fd21-4b31-aa28-8584e20d8c42
  - Metadatos: {'page_label': '1', 'file_name': 'BOE-A-1978-31229-consolidado.pdf', 'file_path': 'c:\\Users\\Alejandro\\OneDrive - Universidad de Oviedo\\Ciencia e Ingenier√≠a de Datos\\Personal\\GoodJob\\curso-llamaindex-pydantic\\notebooks\\..\\data\\BOE-A-1978-31229-consolidado.pdf', 'file_type': 'application/pdf', 'file_size': 329735, 'creation_date': '2025-09-10', 'last_modified_date': '2025-09-10'}

üìÑ Documento PDF:
  - ID: 015dc779-1569-4811-93f7-f7024f6bac34
  - Metadatos: {'page_label': '2', 'file_name': 'BOE-A-1978-31229-consolidado.pdf', 'file_path': 'c:\\Users\\Alejandro\\OneDrive - Universidad de Oviedo\\Ciencia e Ingenier√≠a de Datos\\Personal\\GoodJob\\curso-llamaindex-pydantic\\notebooks\\..\\data\\BOE-A-1978-31229-consolidado.pdf', 'file_type': 'application/pdf', 'file_size': 329735, 'creation_date': '2025-09-10', 

### **2.2 WebPageReader: Parseo de p√°ginas web**

El componente `WebPageReader` permite la ingesta de contenido directamente desde sitios web.  
De acuerdo con la [documentaci√≥n oficial](https://docs.llamaindex.ai/en/stable/api_reference/readers/https://docs.llamaindex.ai/en/stable/examples/data_connectors/WebPageDemo/#using-simplewebpagereader), LlamaIndex recomienda en muchos casos el uso de servicios externos especializados en *web scraping* y *web crawling*.  
Esto se debe a que dichos servicios ofrecen mayor robustez frente a cambios en la estructura de las p√°ginas, adem√°s de funcionalidades avanzadas como manejo de JavaScript din√°mico, crawling masivo o almacenamiento en cach√©.  

No obstante, aunque no es el foco de este curso, es importante se√±alar que implementar procesos b√°sicos de scraping directamente en Python no resulta complejo.  
Existen librer√≠as ampliamente utilizadas que permiten recuperar y procesar el contenido de p√°ginas web de manera sencilla, entre ellas:  

- **`requests`** ‚Üí para realizar peticiones HTTP.  
- **`BeautifulSoup`** (`bs4`) ‚Üí para el parseo y extracci√≥n de informaci√≥n del HTML.  
- **`playwright`** o **`selenium`** ‚Üí cuando es necesario interactuar con p√°ginas que renderizan contenido din√°mico con JavaScript.  
- **`scrapy`** ‚Üí casos de scraping m√°s ‚Äúserios‚Äù (crawling, control de concurrencia, reintentos, deduplicaci√≥n)

De este modo, `WebPageReader` puede integrarse con estos enfoques: bien apoy√°ndose en soluciones externas m√°s completas, o bien complement√°ndose con librer√≠as est√°ndar de Python para casos m√°s simples.  

En definitiva, este lector convierte p√°ginas web en nodos procesables, lo que ampl√≠a el abanico de fuentes de informaci√≥n que pueden incorporarse a un pipeline de IA.  


In [30]:
from llama_index.core import SummaryIndex
from llama_index.readers.web import SimpleWebPageReader
from IPython.display import Markdown, display
import os

urls = []
with open("../llamaindex_docs_crawler/outputs/llamaindex_docs.jsonl", "r", encoding="utf-8") as f:
    for linea in f:
        urls.append(json.loads(linea)["url"])
documents = SimpleWebPageReader(html_to_text=True).load_data(
    urls[0:15] # Sample 15 pages
)
index = SummaryIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query("What integrations does LlamaIndex support?")
display(Markdown(f"{response}"))


LlamaIndex supports a variety of integrations, including:

- **LlamaPacks**: Code templates for features that can be downloaded and edited.
- **Data Loaders**: Tools for loading data from various sources.
- **Agent Tools**: Tools that enhance the capabilities of agents.
- **LLMs**: Integration with numerous large language models.
- **Observability/Tracing/Evaluation**: Tools for monitoring and evaluating applications.
- **Experiment Tracking**: Integrations for tracking experiments.
- **Structured Outputs**: Tools for managing structured outputs.
- **Storage and Managed Indexes**: Options for storing and managing indexes.
- **Application Frameworks**: Support for frameworks like Streamlit and Chainlit.
- **Distributed Compute**: Integrations for distributed computing solutions.
- **Other**: Various additional integrations, including plugins for ChatGPT and other tools.

For a complete list and more details, you can explore LlamaHub, which hosts these integrations.

## 3. **Uso de APIs como fuentes de datos** üåê

### Patrones de uso (¬øcu√°ndo indexar vs. llamar en tiempo real?)

- üóÑÔ∏è **Ingesta est√°tica (‚Üí √≠ndice vectorial):** llamas a la API, conviertes la respuesta en `Document`s y los indexas. Ideal para cat√°logos, FAQs o docs que cambian poco.

- ‚ö° **Consulta din√°mica (agente + tools):** el agente invoca la API en tiempo real (`FunctionTool`/`OpenAPI`). √ötil para datos vol√°tiles (clima, precios, m√©tricas).

- üîÄ **H√≠brido (RAG + herramientas):** un router decide: si la pregunta es del corpus ‚Üí √≠ndice; si necesita frescura ‚Üí API.


In [31]:
# Ejemplo 2: Cargar datos desde API p√∫blica
# Subir un directorio en sys.path para permitir importaciones relativas
import os, sys, json
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), "..")))

from src.apis.news_api import fetch_news

from llama_index.core import Document, VectorStoreIndex, Settings
from llama_index.core.node_parser import SentenceSplitter  # ‚Üê usamos SentenceSplitte

TOPICS_OF_INTEREST = ["AI", "Apple Inc.", "Tesla"]
all_docs = []

for interesting_topic in TOPICS_OF_INTEREST : 
    print(f"üåê Buscando noticias para : {interesting_topic}")
    api_documents = fetch_news(query = interesting_topic)
    
    if api_documents:
        print(f"‚úÖ Cargados {api_documents.total} documentos desde API")
        
        # Mostrar ejemplo
        articles = api_documents.articles
        if not articles : 
            print("Ups , No articles found ...")
            continue
        
        for article in articles : 
            print(f"\nüìÑ Documento desde API:")
            print(f"  - Fuente: {article.source}")
            print(f"  - URL: {article.url}")
            print(f"  - Fecha: {article.published_at}")
            print(f"  - Descripci√≥n: {article.description[:150]}...")
            
            payload = article.model_dump_json(by_alias=True, exclude_none=True)
            doc = Document(
            text=json.dumps(payload, ensure_ascii=False),
            metadata={
                "topic": interesting_topic,
                "source": article.source,
                "url": str(article.url),                         # <- HttpUrl ‚Üí str
                "publishedAt": article.published_at.isoformat(), # <- datetime ‚Üí ISO
                "title": article.title,
            },
        )
        all_docs.append(doc)

if not all_docs:
    print(" Nada que indexar. Revisa filtros/consulta de la API.")
else:
    # Segmentaci√≥n por frases/chunks
    # Settings.node_parser = SentenceSplitter(chunk_size=1024, chunk_overlap=128)

    index = VectorStoreIndex.from_documents(all_docs)
    qe = index.as_query_engine(similarity_top_k=4)


üåê Buscando noticias para : AI
‚úÖ Cargados 10 documentos desde API

üìÑ Documento desde API:
  - Fuente: Redes-sociales.com
  - URL: https://www.redes-sociales.com/innovacion-acelerada-en-ifa-2025-pcs-copilot-y-windows-11/
  - Fecha: 2025-09-12 16:47:25+00:00
  - Descripci√≥n: Durante la m√°s reciente edici√≥n de la IFA de Berl√≠n 2025, Acer y Lenovo sorprendieron con innovaciones significativas dentro del campo tecnol√≥gico, pr...

üìÑ Documento desde API:
  - Fuente: El Financiero
  - URL: https://www.elfinanciero.com.mx/monterrey/2025/09/12/lanza-uanl-estrategia-de-ia-esencia/
  - Fecha: 2025-09-12 16:03:39+00:00
  - Descripci√≥n: La universidad incorpora cinco ejes estrat√©gicos de inteligencia artificial para impulsar innovaci√≥n, responsabilidad social y competitividad acad√©mic...

üìÑ Documento desde API:
  - Fuente: Nacion.com
  - URL: https://www.nacion.com/economia/microsoft-anuncia-inversion-en-capacidad/3Y2LMXEB45G2VOR22FHP7GL2V4/story/
  - Fecha: 2025-09-12 15:51:54

In [33]:
# Ejemplo de consulta (puedes cambiarla por algo ligado a tus noticias)
resp = qe.query("Dame un resumen sobre las ultimas noticas de apple")
print("\nüß† Respuesta RAG:")
print(resp)


üß† Respuesta RAG:
Recientemente, se ha reportado una experiencia negativa relacionada con el cambio de un Apple Watch defectuoso. Durante unas vacaciones en Calpe, un usuario enfrent√≥ dificultades al intentar reemplazar su dispositivo, lo que convirti√≥ su verano en una pesadilla. La situaci√≥n destaca los problemas que algunos clientes pueden encontrar al gestionar productos defectuosos de la marca. Para m√°s detalles, se puede consultar el art√≠culo completo en Adslzone.net.


## 4. **Validaci√≥n y estructuraci√≥n con Pydantic** ‚úÖ

### **El problema: respuestas inconsistentes**

Los modelos de lenguaje pueden devolver respuestas en formatos variables:

```python
# Respuesta 1
"La empresa Apple gan√≥ $123.9 billones en Q4"

# Respuesta 2  
"Ganancias: $123,900,000,000 (Q4 2023)"

# Respuesta 3
"Revenue for Apple in fourth quarter: 123.9B USD"
```



In [51]:
prompt = (
        "Dime los ingresos de Apple en el cuarto trimestre de 2023, "
        "pero responde con un formato estructurado json."
        "Devuelve unicamente el json sin ```json"
        )      
llm_text = Settings.llm.complete(prompt).text
samples = [
    'La empresa Apple gan√≥ $123.9 billones en Q4',
    'Ganancias: $123,900,000,000 (Q4 2023)',
    'Revenue for Apple in fourth quarter: 123.9B USD',
]

for sam in samples : 
    llm_text = Settings.llm.complete(prompt + sam).text
    print(f"LLM_TEXT : {llm_text}")
    data = json.loads(llm_text)
    print(f"Json data : {data}")






LLM_TEXT : ```json
{
  "empresa": "Apple",
  "trimestre": "Q4 2023",
  "ingresos": 123.9,
  "unidad": "billones"
}
```


JSONDecodeError: Expecting value: line 1 column 1 (char 0)


### **La soluci√≥n: Pydantic BaseModel**
Aunque los modelos de IA son cada vez m√°s potentes y en ocasiones pueden devolver directamente un JSON v√°lido, no debemos confiar ciegamente en ello.

En entornos reales, los LLM suelen introducir variaciones, errores de sintaxis o formatos ambiguos. Por eso, una buena pr√°ctica es tipar y validar la informaci√≥n en nuestro lado de la aplicaci√≥n.

Pydantic nos permite definir **schemas estrictos** que garantizan:

- ‚úÖ **Tipos de datos** correctos
- ‚úÖ **Validaciones** personalizadas  
- ‚úÖ **Formatos** consistentes
- ‚úÖ **Errores** descriptivos

De esta manera, no importa c√≥mo var√≠e la salida del LLM: nuestro sistema siempre recibe un objeto Python tipado, seguro y predecible.

In [1]:
# Ejemplo 3: Definir modelos Pydantic para validaci√≥n
import os, sys, json
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), "..")))
from models.earnings_model import AnalisisFinanciero

# Ejemplo de uso del modelo
print("üìã Modelo Pydantic definido: AnalisisFinanciero")
print("\nüîç Schema del modelo:")
print(json.dumps(AnalisisFinanciero.schema(), indent=2, ensure_ascii=False))


üìã Modelo Pydantic definido: AnalisisFinanciero

üîç Schema del modelo:
{
  "$defs": {
    "SentimentoEnum": {
      "description": "Enum para sentimientos posibles",
      "enum": [
        "positivo",
        "negativo",
        "neutral"
      ],
      "title": "SentimentoEnum",
      "type": "string"
    }
  },
  "additionalProperties": false,
  "description": "Modelo para an√°lisis de informaci√≥n financiera extra√≠da de documentos",
  "properties": {
    "empresa": {
      "description": "Nombre de la empresa analizada",
      "maxLength": 100,
      "minLength": 1,
      "title": "Empresa",
      "type": "string"
    },
    "trimestre": {
      "description": "Trimestre del reporte (ej: Q4 2023)",
      "pattern": "Q[1-4]\\s\\d{4}",
      "title": "Trimestre",
      "type": "string"
    },
    "ingresos": {
      "description": "Ingresos en billones de USD",
      "exclusiveMinimum": 0,
      "title": "Ingresos",
      "type": "number"
    },
    "sentimiento": {
      "$ref"

C:\Users\Alejandro\AppData\Local\Temp\ipykernel_14512\1930544089.py:9: PydanticDeprecatedSince20: The `schema` method is deprecated; use `model_json_schema` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.11/migration/
  print(json.dumps(AnalisisFinanciero.schema(), indent=2, ensure_ascii=False))


In [2]:

from llama_index.core import Settings, VectorStoreIndex, Document
from llama_index.readers.web import SimpleWebPageReader
apple_reports_urls = [
    "https://www.apple.com/newsroom/2025/07/apple-reports-third-quarter-results/",
    "https://www.apple.com/newsroom/2025/05/apple-reports-second-quarter-results/",
    "https://www.apple.com/newsroom/2025/01/apple-reports-first-quarter-results/",
    "https://www.apple.com/newsroom/2024/10/apple-reports-fourth-quarter-results/",
]
reader = SimpleWebPageReader(html_to_text=True, metadata_fn=lambda url: {"url": url})
docs = reader.load_data(apple_reports_urls)

index = VectorStoreIndex.from_documents(
    docs,
)

# 4) Query engine con parser tipado
qe = index.as_query_engine(
    output_cls=AnalisisFinanciero,          # <- fuerza JSON parseable a AnalisisFinanciero
    response_mode="tree_summarize",
)


resp = qe.query("Extrae el an√°lisis financiero de Apple para el tercer trimestre 2025 (Q3 2025).")
af: AnalisisFinanciero = resp  # ya viene parseado al modelo
print(af)

{"empresa":"Apple Inc.","trimestre":"Q3 2025","ingresos":94.0,"sentimiento":"positivo","puntos_clave":["June quarter revenue record with double-digit growth in iPhone, Mac, and Services","Quarterly diluted earnings per share of $1.57, up 12 percent year over year","Services revenue reaches new all-time high","Cash dividend declared of $0.26 per share of common stock","Live streaming of financial results conference call available"],"fecha_analisis":"2025-09-13"}


## üéØ **Conclusiones y pr√≥ximos pasos**

### **¬øQu√© hemos logrado hoy?**

1. **üìÑ Parseo inteligente de documentos**: Aprendiste a usar **LlamaIndex** para leer PDFs, p√°ginas web y otros formatos con una sola API unificada.  
2. **ü§ñ LLMs al servicio del estructurado**: No solo indexamos texto, sino que aplicamos **consultas guiadas** para extraer campos concretos en formato JSON.  
3. **‚úÖ Validaci√≥n estricta con Pydantic**: Cada salida del LLM pasa por un **esquema tipado**, garantizando consistencia y evitando errores como listas demasiado largas o valores fuera del Enum.  
4. **üîÑ Robustez con validadores**: Implementamos **fallbacks y normalizaci√≥n** para corregir autom√°ticamente desviaciones comunes (ej. recortar bullets a m√°ximo 5, coerci√≥n de strings a enums).  
5. **‚ö° Pipeline escalable**: El mismo enfoque funciona para parsear 1 documento o miles, integrando APIs en tiempo real y almacenando metadata validada en los objetos `Document`.

### üöÄ **¬øPor qu√© es relevante?**

Porque este patr√≥n une lo mejor de los **LLMs** (capacidad de comprender y resumir documentos complejos) con la **seguridad tipada de Pydantic** (estructura confiable, lista para usarse en bases de datos, APIs o dashboards).  
Esto es especialmente √∫til en proyectos donde los datos no siguen un formato estructurado, donde **los agentes** devuelven formatos v√°lidos.


### üõ£Ô∏è **Cierre del curso y pr√≥ximos pasos**

Hoy hemos finalizado este curso con √©xito. üéâ  
A lo largo de las sesiones hemos recorrido un camino completo:

- ‚úÖ ‚ú® **Introducci√≥n a LLMs, agentes y tools**
- ‚úÖ ü§ñ **Sistemas multi-agente y ChromaDB**
- ‚úÖ üèóÔ∏è **Validaci√≥n con Pydantic**
- ‚úÖ üìÑ **Parseo avanzado de documentos**
- ‚¨ú üöÄ **Despliegue en producci√≥n**

Con esto ya cuentas con las bases para dise√±ar **pipelines de extracci√≥n y validaci√≥n robustos**, capaces de combinar **IA generativa** con **control estructural** para aplicaciones confiables en entornos reales.

---

**¬°Felicidades a tod@s! üéâ**  
Ahora toca avanzar y profundizar en el resto de sesiones del programa, donde exploraremos herramientas como  **n8n** y temas avanzados como  **MCP** y **A2A protocol**. üöÄ


