# D√≠a 4: Pydantic vs Dataclasses

## Descripci√≥n General

En Python moderno, tenemos dos herramientas principales para crear clases de datos: **dataclasses** (parte de la biblioteca est√°ndar desde Python 3.7) y **Pydantic** (una biblioteca externa especializada en validaci√≥n de datos). Ambas reducen el c√≥digo boilerplate al crear clases que principalmente almacenan datos, pero tienen diferencias fundamentales en su prop√≥sito y capacidades.

En este notebook aprender√°s cu√°ndo usar cada una, sus ventajas y desventajas, y c√≥mo elegir la herramienta correcta para tu caso de uso espec√≠fico en proyectos de IA y ciencia de datos.

## Objetivos de Aprendizaje

Al finalizar este notebook, ser√°s capaz de:

1. Comprender las diferencias fundamentales entre dataclasses y Pydantic
2. Crear clases de datos usando ambas herramientas con sintaxis correcta
3. Implementar validaci√≥n de datos autom√°tica con Pydantic
4. Decidir cu√°ndo usar dataclasses vs Pydantic seg√∫n el contexto
5. Aplicar mejores pr√°cticas de validaci√≥n de datos en proyectos de IA

## 1. Python Dataclasses: Lo B√°sico

### üéØ Contexto: Por Qu√© Importa

**Problema real en Data/IA**: 

Tienes 15 clases de configuraci√≥n (ModelConfig, DatasetConfig, TrainingConfig...). Cada una necesita `__init__`, `__repr__`, `__eq__`. **200 l√≠neas de boilerplate** üí• A√±adir un par√°metro = modificar 5 lugares. **30 minutos por cambio**.

Con dataclasses: **20 l√≠neas totales**. A√±adir par√°metro = **una l√≠nea**. **30 segundos** ‚úÖ 60x m√°s r√°pido.

**Ejemplo concreto para juniors**:

Clase `User` con 5 atributos. Sin dataclass: **25 l√≠neas** (init, repr, eq). Con dataclass: **6 l√≠neas** ‚úÖ 75% menos c√≥digo.

**Consecuencias de NO usarlo**:
- **C√≥digo repetitivo** ‚Üí 5x m√°s l√≠neas para clases simples
- **Errores en __eq__** ‚Üí olvidas comparar un atributo
- **Mantenimiento caro** ‚Üí a√±adir atributo = modificar 5 m√©todos
- **Tiempo perdido** ‚Üí escribir boilerplate en lugar de l√≥gica

### üìö El Concepto

**Definici√≥n t√©cnica**:

**Dataclass**: Decorador que genera autom√°ticamente `__init__()`, `__repr__()`, `__eq__()` y otros m√©todos especiales bas√°ndose en anotaciones de tipo.

**C√≥mo funciona internamente**:
1. Lees anotaciones de tipo de la clase
2. Generas `__init__()` que asigna cada atributo
3. Generas `__repr__()` que muestra todos los atributos
4. Generas `__eq__()` que compara todos los atributos
5. Opcionalmente generas `__hash__()`, `__lt__()`, etc.

**Terminolog√≠a clave**:
- **Boilerplate**: C√≥digo repetitivo sin valor de negocio
- **Type hints**: Anotaciones de tipo (`name: str`)
- **M√©todos especiales**: `__init__`, `__repr__`, `__eq__`, etc.
- **Decorador**: Funci√≥n que modifica una clase (`@dataclass`)

### El Problema que Resuelven

Antes de Python 3.7, crear una clase simple para almacenar datos requer√≠a mucho c√≥digo repetitivo (boilerplate):

```
Clase tradicional
‚îú‚îÄ‚îÄ __init__() - asignar cada atributo manualmente
‚îú‚îÄ‚îÄ __repr__() - representaci√≥n en string
‚îú‚îÄ‚îÄ __eq__() - comparaci√≥n de igualdad
‚îî‚îÄ‚îÄ Mucho c√≥digo repetitivo
```

Las **dataclasses** automatizan la generaci√≥n de estos m√©todos especiales.

In [None]:
# ‚ùå BAD: Too much boilerplate for a simple data container
class UserOldStyle:
    """User data container - old style with boilerplate."""
    
    def __init__(self, name: str, age: int, email: str) -> None:
        self.name = name
        self.age = age
        self.email = email
    
    def __repr__(self) -> str:
        return f"UserOldStyle(name={self.name!r}, age={self.age!r}, email={self.email!r})"
    
    def __eq__(self, other: object) -> bool:
        if not isinstance(other, UserOldStyle):
            return NotImplemented
        return (self.name, self.age, self.email) == (other.name, other.age, other.email)

# Test the old style
user1 = UserOldStyle("Alice", 30, "alice@example.com")
print(user1)
print(f"Equals itself: {user1 == user1}")

**Problemas**:
- **25 l√≠neas** para 3 atributos ‚Üí 80% es boilerplate
- **Propenso a errores** ‚Üí olvidas un atributo en `__eq__`
- **Mantenimiento caro** ‚Üí a√±adir atributo = modificar 3 m√©todos
- **Tiempo perdido** ‚Üí escribir c√≥digo repetitivo

In [None]:
# ‚úÖ GOOD: Dataclass with automatic method generation
from dataclasses import dataclass

@dataclass
class User:
    """User data container using dataclass."""
    name: str
    age: int
    email: str

# Test the dataclass - much cleaner!
user2 = User("Alice", 30, "alice@example.com")
print(user2)
print(f"Equals itself: {user2 == user2}")

# Dataclass automatically generates __init__, __repr__, __eq__
user3 = User("Alice", 30, "alice@example.com")
print(f"user2 == user3: {user2 == user3}")

**Ventajas**:
- **6 l√≠neas** vs 25 ‚Üí 75% menos c√≥digo ‚úÖ
- **Sin errores** ‚Üí m√©todos generados correctamente
- **F√°cil mantenimiento** ‚Üí a√±adir atributo = una l√≠nea
- **Legible** ‚Üí enfoque en datos, no en boilerplate

### üí° Aprendizaje Clave

**Puntos cr√≠ticos a recordar**:
1. **Dataclass = menos boilerplate** ‚Üí genera m√©todos autom√°ticamente
2. **Type hints obligatorios** ‚Üí `name: str` (no opcional)
3. **Solo para datos** ‚Üí sin l√≥gica de negocio compleja
4. **Inmutabilidad opcional** ‚Üí `@dataclass(frozen=True)`
5. **Valores por defecto** ‚Üí `age: int = 0`

**C√≥mo desarrollar intuici√≥n**:
- **Preg√∫ntate**: "¬øEs solo un contenedor de datos?"
  - S√ç ‚Üí dataclass ‚úÖ
  - NO (hay l√≥gica) ‚Üí clase normal ‚úÖ

- **Preg√∫ntate**: "¬øNecesito type hints?"
  - S√ç ‚Üí dataclass (mejor que dict) ‚úÖ
  - NO ‚Üí dict puede estar bien ‚úÖ

**Cu√°ndo usar / NO usar**:
- ‚úÖ **Usar cuando**:
  - Contenedor de datos sin l√≥gica
  - Configuraci√≥n de aplicaci√≥n
  - DTOs (Data Transfer Objects)
  - Respuestas de funciones con m√∫ltiples valores
- ‚ùå **NO usar cuando**:
  - Hay l√≥gica de negocio compleja
  - Necesitas validaci√≥n en runtime (usa Pydantic)
  - Estructura muy din√°mica (usa dict)

**Referencia oficial:** [PEP 557 - Data Classes](https://peps.python.org/pep-0557/)

## 2. Pydantic: Validaci√≥n de Datos Autom√°tica

### üéØ Contexto: Por Qu√© Importa

**Problema real en Data/IA**: 

API recibe configuraci√≥n de modelo desde JSON. Usuario env√≠a `learning_rate: "not a number"`. Dataclass lo acepta sin validar. **C√≥digo explota 30 minutos despu√©s** en training loop üí• Pierdes $50 de GPU. Debug = 2 horas.

Con Pydantic: **Rechaza inmediatamente** con error claro. Usuario corrige en 30 segundos ‚úÖ $0 perdidos.

**Ejemplo concreto para juniors**:

Formulario web con edad. Usuario escribe "abc". Dataclass acepta string. **C√≥digo explota** al calcular `age + 1` üí•

Con Pydantic: **Rechaza inmediatamente** "abc no es n√∫mero" ‚úÖ Usuario corrige antes de enviar.

**Consecuencias de NO usarlo**:
- **Bugs tard√≠os** ‚Üí datos inv√°lidos explotan despu√©s (no inmediatamente)
- **Debugging caro** ‚Üí rastrear origen de dato inv√°lido = horas
- **Dinero perdido** ‚Üí GPU/recursos desperdiciados en datos malos
- **Validaci√≥n manual** ‚Üí c√≥digo repetitivo en cada endpoint
- **Experiencia mala** ‚Üí errores confusos para usuarios

### üìö El Concepto

**Definici√≥n t√©cnica**:

**Pydantic**: Biblioteca que valida datos en runtime y convierte tipos autom√°ticamente usando type hints. Hereda de `BaseModel` en lugar de usar `@dataclass`.

**C√≥mo funciona internamente**:
1. Usuario crea instancia con datos (pueden ser tipos incorrectos)
2. Pydantic lee type hints de la clase
3. Intenta convertir cada valor al tipo esperado (coerci√≥n)
4. Si conversi√≥n falla ‚Üí lanza `ValidationError` con detalles
5. Si conversi√≥n exitosa ‚Üí crea instancia con tipos correctos
6. Valida restricciones adicionales (`Field(gt=0)`)

**Terminolog√≠a clave**:
- **Validaci√≥n**: Verificar que datos cumplen reglas
- **Coerci√≥n de tipos**: Convertir autom√°ticamente ("25" ‚Üí 25)
- **ValidationError**: Excepci√≥n con detalles de qu√© fall√≥
- **Field()**: Funci√≥n para a√±adir restricciones (rangos, longitudes)
- **BaseModel**: Clase base de Pydantic (como `@dataclass`)

### El Problema que Resuelve

Las dataclasses no validan los datos autom√°ticamente. Si pasas un tipo incorrecto, Python lo acepta sin quejarse:

```
Problema con dataclasses
‚îú‚îÄ‚îÄ No valida tipos en runtime
‚îú‚îÄ‚îÄ No convierte tipos autom√°ticamente
‚îú‚îÄ‚îÄ No valida restricciones (ej: edad > 0)
‚îî‚îÄ‚îÄ Requiere validaci√≥n manual
```

**Pydantic** resuelve esto con validaci√≥n autom√°tica y conversi√≥n de tipos.

In [None]:
# ‚ùå BAD: Dataclass accepts invalid data without validation
from dataclasses import dataclass

@dataclass
class UserDataclass:
    """User with dataclass - no runtime validation."""
    name: str
    age: int
    email: str

# This creates an invalid user - age is a string!
invalid_user = UserDataclass("Bob", "not a number", "bob@example.com")
print(f"Invalid user created: {invalid_user}")
print(f"Age type: {type(invalid_user.age)}")

# This will cause errors later in the code
try:
    next_year_age = invalid_user.age + 1  # TypeError!
except TypeError as e:
    print(f"Error: {e}")

**Problemas**:
- **Acepta datos inv√°lidos** ‚Üí age es string, no int
- **Error tard√≠o** ‚Üí explota despu√©s (no inmediatamente)
- **Debugging dif√≠cil** ‚Üí rastrear origen del dato malo
- **Sin conversi√≥n** ‚Üí no intenta convertir "25" a 25
- **Sin restricciones** ‚Üí no valida age > 0

In [None]:
# ‚úÖ GOOD: Pydantic validates and coerces types automatically
from pydantic import BaseModel, EmailStr, Field

class UserPydantic(BaseModel):
    """User with Pydantic - automatic validation."""
    name: str
    age: int = Field(gt=0, lt=150)  # age must be between 0 and 150
    email: str

# Pydantic converts string "25" to int 25
valid_user = UserPydantic(name="Bob", age="25", email="bob@example.com")
print(f"Valid user: {valid_user}")
print(f"Age type: {type(valid_user.age)}")
print(f"Age value: {valid_user.age}")

# Pydantic rejects invalid data
try:
    invalid_user = UserPydantic(name="Charlie", age="not a number", email="charlie@example.com")
except Exception as e:
    print(f"\nValidation error: {type(e).__name__}")
    print(f"Details: {e}")

**Ventajas**:
- **Validaci√≥n inmediata** ‚Üí rechaza datos malos al instante ‚úÖ
- **Conversi√≥n autom√°tica** ‚Üí "25" ‚Üí 25 (coerci√≥n)
- **Restricciones** ‚Üí age entre 0-150 (Field)
- **Errores claros** ‚Üí mensaje detallado de qu√© fall√≥
- **Sin c√≥digo manual** ‚Üí validaci√≥n autom√°tica

### üí° Aprendizaje Clave

**Puntos cr√≠ticos a recordar**:
1. **Pydantic = validaci√≥n autom√°tica** ‚Üí rechaza datos inv√°lidos
2. **Coerci√≥n de tipos** ‚Üí convierte "25" a 25 autom√°ticamente
3. **Field() para restricciones** ‚Üí rangos, longitudes, patrones
4. **ValidationError detallado** ‚Üí sabe exactamente qu√© fall√≥
5. **Hereda de BaseModel** ‚Üí no usa `@dataclass`

**C√≥mo desarrollar intuici√≥n**:
- **Preg√∫ntate**: "¬øLos datos vienen de fuera?"
  - S√ç (API, usuario, archivo) ‚Üí Pydantic ‚úÖ
  - NO (interno, confiable) ‚Üí dataclass ‚úÖ

- **Preg√∫ntate**: "¬øNecesito validaci√≥n en runtime?"
  - S√ç ‚Üí Pydantic ‚úÖ
  - NO ‚Üí dataclass ‚úÖ

- **Preg√∫ntate**: "¬øLos tipos pueden estar incorrectos?"
  - S√ç (JSON, CSV) ‚Üí Pydantic (convierte) ‚úÖ
  - NO ‚Üí dataclass ‚úÖ

**Cu√°ndo usar / NO usar**:
- ‚úÖ **Usar cuando**:
  - Datos de APIs externas (JSON)
  - Input de usuarios (formularios)
  - Configuraci√≥n desde archivos
  - Necesitas validaci√≥n compleja
  - Trabajas con FastAPI
- ‚ùå **NO usar cuando**:
  - Datos internos confiables
  - Performance cr√≠tica (overhead de validaci√≥n)
  - No necesitas validaci√≥n
  - Quieres evitar dependencias externas

**Beneficios medibles**:
- **Bugs reducidos 70%** ‚Üí validaci√≥n temprana
- **Debugging -80% tiempo** ‚Üí errores claros inmediatos
- **C√≥digo -60%** ‚Üí sin validaci√≥n manual

**Referencia oficial:** [Pydantic Documentation](https://docs.pydantic.dev/)

## 3. Comparaci√≥n: Dataclasses vs Pydantic

### üéØ Contexto: Por Qu√© Importa

**Problema real en Data/IA**: 

Equipo usa **Pydantic para todo** (incluso datos internos). Overhead de validaci√≥n = **+15% tiempo de ejecuci√≥n** en pipeline de 10M registros üí• +2 horas por run. $200/mes extra en compute.

Cambiar a dataclass para datos internos: **-15% tiempo** ‚úÖ $200/mes ahorrados.

**Ejemplo concreto para juniors**:

Usas **dataclass para API** (sin validaci√≥n). Usuario env√≠a `age: "abc"`. **C√≥digo explota** 30 minutos despu√©s üí• 2 horas de debugging.

Con Pydantic: **Rechaza inmediatamente** ‚úÖ Usuario corrige en 30 segundos.

**Consecuencias de elegir mal**:
- **Pydantic everywhere** ‚Üí overhead innecesario (+10-20% tiempo)
- **Dataclass para APIs** ‚Üí bugs tard√≠os (datos inv√°lidos)
- **Tiempo perdido** ‚Üí debugging de datos malos
- **Dinero perdido** ‚Üí recursos desperdiciados

### üìö El Concepto: Tabla Comparativa

| Caracter√≠stica | Dataclasses | Pydantic |
|----------------|-------------|----------|
| **Biblioteca** | Est√°ndar (Python 3.7+) | Externa (pip install pydantic) |
| **Validaci√≥n de tipos** | Solo type hints (no runtime) | Validaci√≥n autom√°tica en runtime |
| **Conversi√≥n de tipos** | No | S√≠ (coerci√≥n autom√°tica) |
| **Validaci√≥n personalizada** | Manual | Decoradores y Field() |
| **Serializaci√≥n JSON** | Manual (con asdict()) | Autom√°tica (.model_dump(), .model_dump_json()) |
| **Performance** | M√°s r√°pido | Ligeramente m√°s lento (por validaci√≥n) |
| **Caso de uso** | Estructuras de datos internas | APIs, configuraci√≥n, datos externos |
| **Curva de aprendizaje** | Muy simple | Moderada |
| **Dependencias** | Ninguna (stdlib) | Requiere instalaci√≥n |
| **Overhead** | M√≠nimo | 10-20% (validaci√≥n) |

### Pregunta de Comprensi√≥n

¬øPor qu√© Pydantic es m√°s lento que dataclasses? ¬øVale la pena el costo?

**Respuesta**: Pydantic valida y convierte tipos en runtime, lo que a√±ade overhead (10-20%). Vale la pena para datos externos (APIs, usuarios) donde bugs por datos inv√°lidos cuestan mucho m√°s que el overhead. No vale la pena para datos internos confiables.

In [None]:
# Demonstrating Pydantic's type coercion
from pydantic import BaseModel
from typing import List

class DataPoint(BaseModel):
    """Data point for ML model."""
    feature_1: float
    feature_2: float
    label: int
    tags: List[str]

# Pydantic converts strings to appropriate types
data = DataPoint(
    feature_1="3.14",  # string -> float
    feature_2=2,        # int -> float
    label="1",          # string -> int
    tags=["train", "validated"]
)

print(f"Data: {data}")
print(f"feature_1 type: {type(data.feature_1)}")
print(f"feature_2 type: {type(data.feature_2)}")
print(f"label type: {type(data.label)}")

# This is extremely useful when reading data from JSON, CSV, or APIs

In [None]:
# JSON serialization comparison
from dataclasses import dataclass, asdict
from pydantic import BaseModel
import json

@dataclass
class ConfigDataclass:
    """Configuration using dataclass."""
    model_name: str
    learning_rate: float
    epochs: int

class ConfigPydantic(BaseModel):
    """Configuration using Pydantic."""
    model_name: str
    learning_rate: float
    epochs: int

# Dataclass: manual conversion
config_dc = ConfigDataclass("bert-base", 0.001, 10)
config_dc_json = json.dumps(asdict(config_dc))
print(f"Dataclass JSON: {config_dc_json}")

# Pydantic: automatic conversion
config_pyd = ConfigPydantic(model_name="bert-base", learning_rate=0.001, epochs=10)
config_pyd_json = config_pyd.model_dump_json()
print(f"Pydantic JSON: {config_pyd_json}")

# Pydantic: easy parsing from JSON
json_str = '{"model_name": "gpt-2", "learning_rate": "0.002", "epochs": "20"}'
config_from_json = ConfigPydantic.model_validate_json(json_str)
print(f"\nParsed from JSON: {config_from_json}")
print(f"learning_rate type: {type(config_from_json.learning_rate)}")

## 4. ¬øCu√°ndo Usar Cada Una?: Gu√≠a de Decisi√≥n

### üéØ Contexto: Por Qu√© Importa

**Problema real en Data/IA**: 

Startup usa **dataclass para API** (sin validaci√≥n). Cliente env√≠a `batch_size: -100`. **Training explota** despu√©s de 2 horas üí• $300 de GPU perdidos. Debug = 4 horas. Cliente molesto.

Con Pydantic: **Rechaza inmediatamente** "batch_size debe ser > 0" ‚úÖ Cliente corrige en 30 segundos. $0 perdidos.

**Ejemplo concreto para juniors**:

Usas **Pydantic para todo** (incluso resultados internos de funciones). Pipeline procesa 1M registros. Overhead de validaci√≥n = **+20% tiempo** üí• 10 minutos extra por run.

Con dataclass para datos internos: **-20% tiempo** ‚úÖ 10 minutos ahorrados.

**Consecuencias de elegir mal**:
- **Dataclass para APIs** ‚Üí bugs tard√≠os, dinero perdido, clientes molestos
- **Pydantic everywhere** ‚Üí overhead innecesario, c√≥digo m√°s lento
- **Sin criterio** ‚Üí mezclar ambos sin raz√≥n, confusi√≥n en equipo

### üìö El Concepto: √Årbol de Decisi√≥n

**C√≥mo decidir**:

```
¬øLos datos vienen de fuera de tu control?
‚îÇ
‚îú‚îÄ S√ç (API, usuario, archivo) ‚Üí ¬øNecesitas validaci√≥n?
‚îÇ       ‚îÇ
‚îÇ       ‚îú‚îÄ S√ç ‚Üí PYDANTIC ‚úÖ
‚îÇ       ‚îÇ       Ejemplo: API request, config file, CSV
‚îÇ       ‚îÇ
‚îÇ       ‚îî‚îÄ NO ‚Üí ¬øPor qu√© no? (casi siempre necesitas)
‚îÇ
‚îî‚îÄ NO (interno, confiable) ‚Üí ¬øNecesitas performance?
        ‚îÇ
        ‚îú‚îÄ S√ç ‚Üí DATACLASS ‚úÖ
        ‚îÇ       Ejemplo: resultados intermedios, cache
        ‚îÇ
        ‚îî‚îÄ NO ‚Üí DATACLASS igual (m√°s simple)
```

**Regla de oro**: **Dataclasses para datos internos, Pydantic para datos externos**.

**Terminolog√≠a clave**:
- **Datos externos**: De APIs, usuarios, archivos (no conf√≠as 100%)
- **Datos internos**: Generados por tu c√≥digo (conf√≠as 100%)
- **Overhead**: Costo adicional de validaci√≥n (~10-20%)
- **Fail fast**: Fallar inmediatamente (mejor que tarde)

### Usa **Dataclasses** cuando:

1. ‚úÖ Trabajas con estructuras de datos **internas** de tu aplicaci√≥n
2. ‚úÖ No necesitas validaci√≥n de datos en runtime
3. ‚úÖ Quieres **m√°xima performance** (sin overhead de validaci√≥n)
4. ‚úÖ Prefieres usar solo la **biblioteca est√°ndar** (sin dependencias externas)
5. ‚úÖ Los datos ya est√°n validados o vienen de fuentes confiables

**Ejemplos concretos**:
- Resultados intermedios de c√°lculos
- Cache de datos ya validados
- Estructuras de datos en algoritmos
- Respuestas de funciones internas
- DTOs entre capas de tu aplicaci√≥n

### Usa **Pydantic** cuando:

1. ‚úÖ Recibes datos de **fuentes externas** (APIs, archivos, usuarios)
2. ‚úÖ Necesitas **validaci√≥n autom√°tica** de tipos y restricciones
3. ‚úÖ Trabajas con **JSON** frecuentemente (APIs REST, configuraciones)
4. ‚úÖ Quieres **conversi√≥n autom√°tica** de tipos (strings a n√∫meros, etc.)
5. ‚úÖ Necesitas **validaciones complejas** (rangos, formatos, dependencias entre campos)

**Ejemplos concretos**:
- Modelos de API con FastAPI
- Configuraci√≥n desde archivos YAML/JSON
- Parseo de datos de ML desde CSV
- Input de usuarios (formularios)
- Respuestas de APIs externas

### Casos de Uso Lado a Lado

#### Caso 1: API Endpoint (FastAPI)

**Decisi√≥n**: **PYDANTIC** ‚úÖ

**Por qu√©**: Datos vienen de usuarios (no conf√≠as), necesitas validaci√≥n inmediata.

In [None]:
from pydantic import BaseModel, Field

class TrainingRequest(BaseModel):
    """API request for model training - needs validation."""
    model_name: str = Field(min_length=1)
    learning_rate: float = Field(gt=0, lt=1)
    batch_size: int = Field(gt=0)
    epochs: int = Field(gt=0, le=1000)

# Pydantic validates automatically
try:
    request = TrainingRequest(
        model_name="bert",
        learning_rate="0.001",  # String -> float (coercion)
        batch_size=32,
        epochs=10
    )
    print(f"Valid request: {request}")
except Exception as e:
    print(f"Validation error: {e}")

#### Caso 2: Resultado Interno de Funci√≥n

**Decisi√≥n**: **DATACLASS** ‚úÖ

**Por qu√©**: Datos internos (conf√≠as), no necesitas validaci√≥n, quieres performance.

In [None]:
from dataclasses import dataclass
from typing import List

@dataclass
class TrainingMetrics:
    """Internal training metrics - no validation needed."""
    epoch: int
    loss: float
    accuracy: float
    learning_rate: float

def train_epoch(model, data) -> TrainingMetrics:
    """Train one epoch and return metrics."""
    # Training logic...
    return TrainingMetrics(
        epoch=1,
        loss=0.5,
        accuracy=0.85,
        learning_rate=0.001
    )

metrics = train_epoch(None, None)
print(f"Metrics: {metrics}")

#### Caso 3: Configuraci√≥n desde Archivo

**Decisi√≥n**: **PYDANTIC** ‚úÖ

**Por qu√©**: Datos de archivo (puede estar corrupto), necesitas validaci√≥n y conversi√≥n.

In [None]:
from pydantic import BaseModel, Field
import json

class AppConfig(BaseModel):
    """Application configuration from file - needs validation."""
    api_key: str = Field(min_length=10)
    max_retries: int = Field(gt=0, le=10)
    timeout: float = Field(gt=0)
    debug: bool = False

# Simulate reading from file
config_json = '''
{
    "api_key": "secret123456",
    "max_retries": "3",
    "timeout": "30.0",
    "debug": "true"
}
'''

# Pydantic validates and converts types
config = AppConfig.model_validate_json(config_json)
print(f"Config: {config}")
print(f"max_retries type: {type(config.max_retries)}")

### üí° Aprendizaje Clave

**Puntos cr√≠ticos a recordar**:
1. **Regla de oro** ‚Üí Dataclass interno, Pydantic externo
2. **Fail fast** ‚Üí Pydantic rechaza inmediatamente (mejor que tarde)
3. **Performance** ‚Üí Dataclass m√°s r√°pido (sin overhead validaci√≥n)
4. **Coerci√≥n** ‚Üí Pydantic convierte tipos ("25" ‚Üí 25)
5. **Stdlib vs dependencia** ‚Üí Dataclass sin instalar, Pydantic requiere pip

**C√≥mo desarrollar intuici√≥n**:
- **Preg√∫ntate**: "¬øConf√≠o 100% en estos datos?"
  - NO ‚Üí Pydantic (validaci√≥n) ‚úÖ
  - S√ç ‚Üí Dataclass (performance) ‚úÖ

- **Preg√∫ntate**: "¬øVienen de fuera de mi c√≥digo?"
  - S√ç (API, usuario, archivo) ‚Üí Pydantic ‚úÖ
  - NO (interno) ‚Üí Dataclass ‚úÖ

- **Preg√∫ntate**: "¬øQu√© pasa si los datos son inv√°lidos?"
  - Explota tarde (caro) ‚Üí Pydantic ‚úÖ
  - Imposible (conf√≠as) ‚Üí Dataclass ‚úÖ

- **Preg√∫ntate**: "¬øNecesito conversi√≥n de tipos?"
  - S√ç (JSON, CSV) ‚Üí Pydantic ‚úÖ
  - NO ‚Üí Dataclass ‚úÖ

**Cu√°ndo usar / NO usar**:
- ‚úÖ **Dataclass cuando**:
  - Datos internos confiables
  - Performance cr√≠tica
  - Sin dependencias externas
  - Resultados de funciones
  - Cache de datos
- ‚úÖ **Pydantic cuando**:
  - APIs (FastAPI, requests)
  - Configuraci√≥n desde archivos
  - Input de usuarios
  - Parseo de CSV/JSON
  - Necesitas validaci√≥n compleja
- ‚ùå **NO mezcles sin raz√≥n**:
  - Usa uno u otro consistentemente
  - Documenta por qu√© elegiste cada uno

**Patr√≥n com√∫n**:
```python
# 1. Entrada: Pydantic (validaci√≥n)
class APIRequest(BaseModel):
    data: List[float]

# 2. Procesamiento: Dataclass (performance)
@dataclass
class ProcessedData:
    mean: float
    std: float

# 3. Salida: Pydantic (serializaci√≥n)
class APIResponse(BaseModel):
    result: ProcessedData
```

**Beneficios medibles**:
- **Pydantic en APIs** ‚Üí 70% menos bugs por datos inv√°lidos
- **Dataclass interno** ‚Üí 15-20% m√°s r√°pido que Pydantic
- **Fail fast** ‚Üí 80% menos tiempo de debugging

**Referencia oficial:** [Pydantic vs Dataclasses](https://docs.pydantic.dev/latest/why/)

## Ejercicios Pr√°cticos

### Ejercicio 1: Convertir Dataclass a Pydantic (B√°sico)

Tienes una dataclass que representa un modelo de ML. Convi√©rtela a Pydantic y a√±ade validaciones:

- `model_name` no puede estar vac√≠o
- `learning_rate` debe estar entre 0 y 1
- `batch_size` debe ser mayor que 0
- `epochs` debe estar entre 1 y 1000

In [None]:
# TODO: Convert this dataclass to Pydantic with validations
from dataclasses import dataclass

@dataclass
class MLModelConfig:
    """ML model configuration."""
    model_name: str
    learning_rate: float
    batch_size: int
    epochs: int

# Your Pydantic version here:
# from pydantic import BaseModel, Field
#
# class MLModelConfig(BaseModel):
#     ...

# Test your implementation
# config = MLModelConfig(model_name="bert", learning_rate=0.001, batch_size=32, epochs=10)
# print(config)

### Ejercicio 2: Validaci√≥n Personalizada (Intermedio)

Crea un modelo Pydantic para un dataset de ML que valide:

- `dataset_name`: string no vac√≠o
- `num_samples`: entero positivo
- `num_features`: entero positivo
- `train_split`: float entre 0 y 1
- `test_split`: float entre 0 y 1
- **Validaci√≥n adicional**: `train_split + test_split` debe ser <= 1.0

In [None]:
# TODO: Create a Pydantic model with custom validation
from pydantic import BaseModel, Field, model_validator

# Your implementation here:
# class DatasetConfig(BaseModel):
#     dataset_name: str = Field(min_length=1)
#     num_samples: int = Field(gt=0)
#     num_features: int = Field(gt=0)
#     train_split: float = Field(ge=0, le=1)
#     test_split: float = Field(ge=0, le=1)
#     
#     @model_validator(mode='after')
#     def check_splits_sum(self):
#         # TODO: Validate that train_split + test_split <= 1.0
#         pass

# Test your implementation
# valid_config = DatasetConfig(
#     dataset_name="iris",
#     num_samples=150,
#     num_features=4,
#     train_split=0.7,
#     test_split=0.3
# )
# print(valid_config)

### Ejercicio 3: JSON Parsing con Pydantic (Avanzado)

Crea un modelo Pydantic que parsee configuraciones de experimentos de ML desde JSON. El JSON puede venir con tipos incorrectos (strings en lugar de n√∫meros).

Requisitos:
- Parsear JSON con conversi√≥n autom√°tica de tipos
- Validar que todos los campos sean v√°lidos
- Exportar de vuelta a JSON
- Manejar errores de validaci√≥n apropiadamente

In [None]:
# TODO: Create a Pydantic model for experiment configuration
from pydantic import BaseModel, Field
from typing import List
import json

# Example JSON (with string numbers)
experiment_json = '''
{
    "experiment_name": "bert_finetuning",
    "model_type": "transformer",
    "learning_rate": "0.0001",
    "batch_size": "16",
    "epochs": "5",
    "metrics": ["accuracy", "f1", "precision"]
}
'''

# Your Pydantic model here:
# class ExperimentConfig(BaseModel):
#     ...

# Parse and validate
# try:
#     config = ExperimentConfig.model_validate_json(experiment_json)
#     print(f"Parsed config: {config}")
#     print(f"\nAs JSON: {config.model_dump_json(indent=2)}")
# except Exception as e:
#     print(f"Validation error: {e}")

## Resumen

En este notebook hemos aprendido:

1. **Dataclasses** reducen el boilerplate al generar autom√°ticamente `__init__()`, `__repr__()`, y `__eq__()`
2. **Pydantic** a√±ade validaci√≥n autom√°tica de tipos y conversi√≥n de datos en runtime
3. **Dataclasses** son ideales para estructuras de datos internas donde no necesitas validaci√≥n
4. **Pydantic** es esencial para datos externos (APIs, archivos, configuraciones) que requieren validaci√≥n
5. Pydantic facilita el trabajo con JSON mediante serializaci√≥n y parsing autom√°ticos

### Pr√≥ximos Pasos

En el siguiente notebook exploraremos **Error Handling y Exceptions**, aprendiendo c√≥mo manejar errores de validaci√≥n y otros problemas de manera robusta en aplicaciones de IA.

## Preguntas de Autoevaluaci√≥n

### 1. ¬øCu√°l es la principal diferencia entre dataclasses y Pydantic?

**Respuesta:** Dataclasses generan m√©todos especiales autom√°ticamente pero no validan datos en runtime. Pydantic valida y convierte tipos autom√°ticamente, lo que lo hace ideal para datos externos.

### 2. ¬øPor qu√© Pydantic convierte `"25"` (string) a `25` (int) autom√°ticamente?

**Respuesta:** Pydantic realiza coerci√≥n de tipos (type coercion) para facilitar el trabajo con datos externos como JSON, donde los n√∫meros a menudo vienen como strings. Esto reduce el c√≥digo de conversi√≥n manual.

### 3. ¬øCu√°ndo deber√≠as usar dataclasses en lugar de Pydantic?

**Respuesta:** Usa dataclasses para estructuras de datos internas donde no necesitas validaci√≥n y quieres m√°xima performance. Son perfectas para resultados intermedios de c√°lculos o estructuras de datos que t√∫ controlas completamente.

### 4. ¬øC√≥mo defines una validaci√≥n personalizada en Pydantic?

**Respuesta:** Puedes usar `Field()` para validaciones simples (rangos, longitudes) o `@model_validator` para validaciones complejas que involucran m√∫ltiples campos.

### 5. ¬øPor qu√© Pydantic es m√°s lento que dataclasses?

**Respuesta:** Pydantic realiza validaci√≥n y conversi√≥n de tipos en runtime, lo que a√±ade overhead computacional. Sin embargo, este costo es generalmente insignificante comparado con los beneficios de validaci√≥n autom√°tica y prevenci√≥n de errores.

### 6. ¬øQu√© ventaja tiene Pydantic para trabajar con APIs REST?

**Respuesta:** Pydantic facilita el parsing y serializaci√≥n de JSON autom√°ticamente con `model_validate_json()` y `model_dump_json()`, y valida que los datos recibidos cumplan con el esquema esperado.

### 7. ¬øPuedes usar dataclasses y Pydantic juntos en el mismo proyecto?

**Respuesta:** S√≠, es una pr√°ctica com√∫n. Usa Pydantic en los l√≠mites de tu aplicaci√≥n (APIs, configuraci√≥n) para validar datos externos, y dataclasses internamente para estructuras de datos donde no necesitas validaci√≥n.

## Recursos y Referencias Oficiales

### Documentaci√≥n Oficial

- **[PEP 557 - Data Classes](https://peps.python.org/pep-0557/)**: Propuesta oficial de Python para dataclasses
  - Explica el dise√±o y motivaci√≥n detr√°s de dataclasses
  - Incluye ejemplos de uso y comparaciones con alternativas

- **[Python dataclasses Documentation](https://docs.python.org/3/library/dataclasses.html)**: Documentaci√≥n oficial de la biblioteca est√°ndar
  - Referencia completa de decoradores y funciones
  - Ejemplos de uso avanzado (frozen, order, etc.)

- **[Pydantic Documentation](https://docs.pydantic.dev/)**: Documentaci√≥n oficial de Pydantic
  - Gu√≠as completas de validaci√≥n y conversi√≥n de tipos
  - Ejemplos de uso con FastAPI y otras bibliotecas

- **[Pydantic - Why Pydantic?](https://docs.pydantic.dev/latest/why/)**: Comparaci√≥n oficial con alternativas
  - Explica cu√°ndo usar Pydantic vs dataclasses
  - Benchmarks de performance

### Est√°ndares/PEPs

- **[PEP 484 - Type Hints](https://peps.python.org/pep-0484/)**: Base de los type hints en Python
  - Fundamental para entender c√≥mo funcionan dataclasses y Pydantic

### Herramientas Relacionadas

- **[FastAPI](https://fastapi.tiangolo.com/)**: Framework web que usa Pydantic extensivamente
  - Ejemplos pr√°cticos de Pydantic en APIs REST
  - Validaci√≥n autom√°tica de requests y responses

- **[attrs](https://www.attrs.org/)**: Alternativa a dataclasses con m√°s features
  - Precursor de dataclasses con funcionalidad adicional

### Mejores Pr√°cticas

- **[Real Python - Data Classes](https://realpython.com/python-data-classes/)**: Tutorial completo sobre dataclasses
  - Ejemplos pr√°cticos y casos de uso

- **[Real Python - Pydantic](https://realpython.com/python-pydantic/)**: Tutorial completo sobre Pydantic
  - Validaci√≥n avanzada y casos de uso reales

### Notas Importantes

- Todos los enlaces est√°n actualizados a partir de 2024
- Se recomienda revisar la documentaci√≥n oficial regularmente
- Pydantic v2 (2023+) tiene cambios significativos respecto a v1