# Pandera: Validaci√≥n de Esquemas para Pandas

Este notebook demuestra c√≥mo usar Pandera para validar esquemas de DataFrames.

**Referencia:** [Pandera](../calidad/herramientas/pandera-validacion-pandas.md)

**Objetivos:**
- Definir esquemas de validaci√≥n
- Validar DataFrames
- Integrar en pipelines

## 1. Instalaci√≥n

In [None]:
# Descomenta para instalar
# !pip install pandera

print("üí° Para instalar: pip install pandera")

## 2. Importar librer√≠as

In [None]:
import pandas as pd
import numpy as np

# Pandera (usar la nueva forma recomendada)
try:
    import pandera.pandas as pa
    from pandera import Column, Check
    print("‚úÖ Pandera importado")
except ImportError:
    try:
        # Fallback a la forma antigua si la nueva no est√° disponible
        import pandera as pa
        from pandera import Column, Check
        print("‚úÖ Pandera importado (forma antigua)")
    except ImportError:
        print("‚ö†Ô∏è Pandera no instalado. Ejecuta: pip install pandera")
    print("‚ö†Ô∏è Pandera no instalado. Ejecuta: pip install pandera")

## 3. Definir esquema

In [None]:
try:
    # Definir esquema
    # Nota: M√∫ltiples Check deben pasarse como lista en el par√°metro 'checks'
    schema = pa.DataFrameSchema({
        "nombre": Column(str),
        "edad": Column(int, checks=[Check.ge(0), Check.le(120)]),  # Lista de checks
        "email": Column(str, checks=Check.str_matches(r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$')),
        "precio": Column(float, checks=Check.gt(0)),
    })
    
    print("‚úÖ Esquema definido")
    print("\nEsquema:")
    print("  - nombre: string")
    print("  - edad: int, entre 0 y 120")
    print("  - email: string, formato email v√°lido")
    print("  - precio: float, mayor que 0")
    
except NameError:
    print("üí° Pandera no est√° instalado. Ejemplo de esquema:")
    print("""
    schema = pa.DataFrameSchema({
        "nombre": Column(str),
        "edad": Column(int, checks=[Check.ge(0), Check.le(120)]),
        "email": Column(str, checks=Check.str_matches(r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$')),
        "precio": Column(float, checks=Check.gt(0)),
    })
    """)
except Exception as e:
    print(f"‚ö†Ô∏è Error al definir esquema: {type(e).__name__}")
    print(f"   {str(e)[:200]}")
    print("\nüí° Intenta usar la forma alternativa:")
    print("""
    schema = pa.DataFrameSchema({
        "nombre": Column(str),
        "edad": Column(int, checks=Check.between(0, 120)),
        "email": Column(str, checks=Check.str_matches(r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$')),
        "precio": Column(float, checks=Check.gt(0)),
    })
    """)

## 4. Validar DataFrame v√°lido

In [None]:
# Crear DataFrame v√°lido
df_valido = pd.DataFrame({
    'nombre': ['Juan', 'Mar√≠a'],
    'edad': [28, 35],
    'email': ['juan@example.com', 'maria@example.com'],
    'precio': [10.5, 20.0]
})

print("DataFrame a validar:")
print(df_valido)

try:
    # Validar
    df_validado = schema.validate(df_valido)
    print("\n‚úÖ Validaci√≥n exitosa!")
    print(df_validado)
except NameError:
    print("\nüí° Pandera no instalado. El DataFrame es v√°lido seg√∫n el esquema.")
except Exception as e:
    print(f"\n‚ùå Error de validaci√≥n: {type(e).__name__}")
    print(f"   {str(e)[:300]}")
    print("\nüí° Verifica que el esquema est√© correctamente definido.")

## 5. Validar DataFrame inv√°lido

In [None]:
# Crear DataFrame inv√°lido
df_invalido = pd.DataFrame({
    'nombre': ['Juan', 'Mar√≠a'],
    'edad': [28, 150],  # 150 est√° fuera de rango
    'email': ['juan@example.com', 'email-invalido'],  # Email inv√°lido
    'precio': [10.5, -5.0]  # Precio negativo
})

print("DataFrame a validar (con errores):")
print(df_invalido)

try:
    # Intentar validar (deber√≠a fallar)
    df_validado = schema.validate(df_invalido)
    print("\n‚úÖ Validaci√≥n exitosa (inesperado)")
except Exception as e:
    print(f"\n‚ùå Error de validaci√≥n (esperado):")
    print(f"   {type(e).__name__}")
    print(f"   {str(e)[:200]}...")
except NameError:
    print("\nüí° Pandera no instalado. Este DataFrame fallar√≠a la validaci√≥n:")
    print("   - edad: 150 est√° fuera de rango (0-120)")
    print("   - email: 'email-invalido' no es un email v√°lido")
    print("   - precio: -5.0 no es mayor que 0")

## 6. Integraci√≥n en pipeline

In [None]:
try:
    # Esquema de entrada
    schema_entrada = pa.DataFrameSchema({
        "fecha": Column("datetime64[ns]"),
        "producto_id": Column(int),
        "cantidad": Column(int, checks=Check.gt(0)),
        "precio": Column(float, checks=Check.gt(0)),
    })
    
    # Esquema de salida
    schema_salida = pa.DataFrameSchema({
        "fecha": Column("datetime64[ns]"),
        "producto_id": Column(int),
        "total": Column(float, checks=Check.gt(0)),
    })
    
    def pipeline_con_validacion(df):
        # Validar entrada
        df = schema_entrada.validate(df)
        
        # Transformar
        df['total'] = df['cantidad'] * df['precio']
        df = df[['fecha', 'producto_id', 'total']]
        
        # Validar salida
        df = schema_salida.validate(df)
        
        return df
    
    # Ejemplo de uso
    df_ejemplo = pd.DataFrame({
        'fecha': pd.date_range('2024-01-01', periods=5, freq='D'),
        'producto_id': [1, 2, 3, 4, 5],
        'cantidad': [2, 3, 1, 4, 2],
        'precio': [10.0, 20.0, 15.0, 25.0, 30.0]
    })
    
    resultado = pipeline_con_validacion(df_ejemplo)
    print("‚úÖ Pipeline con validaci√≥n ejecutado")
    print(resultado)
    
except NameError:
    print("üí° Pandera no instalado. Ejemplo de pipeline con validaci√≥n:")
    print("""
    def pipeline_con_validacion(df):
        # Validar entrada
        df = schema_entrada.validate(df)
        
        # Transformar
        df['total'] = df['cantidad'] * df['precio']
        
        # Validar salida
        df = schema_salida.validate(df)
        
        return df
    """)