# Validaciones en Pipelines

Este notebook demuestra c√≥mo implementar validaciones efectivas en pipelines de datos.

**Referencia:** [Validaciones](../calidad/validaciones/validaciones.md)

**Objetivos:**
- Validar esquemas de datos
- Validar rangos y reglas de negocio
- Integrar validaciones en pipelines

## 1. Importar librer√≠as

In [None]:
import pandas as pd
import numpy as np

print("‚úÖ Librer√≠as importadas")

## 2. Validaci√≥n de esquema

In [None]:
def validar_esquema(df, esquema_esperado):
    """Valida que el DataFrame tenga el esquema esperado."""
    errores = []
    
    # Verificar columnas
    columnas_esperadas = set(esquema_esperado.keys())
    columnas_actuales = set(df.columns)
    
    if columnas_esperadas != columnas_actuales:
        faltantes = columnas_esperadas - columnas_actuales
        extras = columnas_actuales - columnas_esperadas
        
        if faltantes:
            errores.append(f"Columnas faltantes: {faltantes}")
        if extras:
            errores.append(f"Columnas no esperadas: {extras}")
    
    # Verificar tipos
    for col, tipo_esperado in esquema_esperado.items():
        if col in df.columns:
            tipo_actual = str(df[col].dtype)
            if tipo_actual != tipo_esperado:
                errores.append(
                    f"Columna {col}: esperado {tipo_esperado}, actual {tipo_actual}"
                )
    
    if errores:
        raise ValueError(f"Errores de esquema:\n" + "\n".join(errores))
    
    return True

print("‚úÖ Funci√≥n de validaci√≥n de esquema definida")

In [None]:
# Ejemplo de uso
df = pd.DataFrame({
    'nombre': ['Juan', 'Mar√≠a'],
    'edad': [28, 35],
    'precio': [10.5, 20.0]
})

esquema = {
    'nombre': 'object',
    'edad': 'int64',
    'precio': 'float64'
}

try:
    validar_esquema(df, esquema)
    print("‚úÖ Esquema v√°lido")
except ValueError as e:
    print(f"‚ùå Error: {e}")

## 3. Validaci√≥n de rangos

In [None]:
def validar_rangos(df):
    """Valida rangos de valores."""
    errores = []
    
    # Edad entre 0 y 120
    if 'edad' in df.columns:
        fuera_rango = df[(df['edad'] < 0) | (df['edad'] > 120)]
        if len(fuera_rango) > 0:
            errores.append(f"Edades fuera de rango: {len(fuera_rango)} filas")
    
    # Precio positivo
    if 'precio' in df.columns:
        negativos = df[df['precio'] < 0]
        if len(negativos) > 0:
            errores.append(f"Precios negativos: {len(negativos)} filas")
    
    if errores:
        raise ValueError("Errores de rango:\n" + "\n".join(errores))
    
    return True

print("‚úÖ Funci√≥n de validaci√≥n de rangos definida")

In [None]:
# Ejemplo con datos v√°lidos
df_valido = pd.DataFrame({
    'edad': [25, 30, 35],
    'precio': [10.5, 20.0, 15.0]
})

try:
    validar_rangos(df_valido)
    print("‚úÖ Rangos v√°lidos")
except ValueError as e:
    print(f"‚ùå Error: {e}")

In [None]:
# Ejemplo con datos inv√°lidos
df_invalido = pd.DataFrame({
    'edad': [25, 150, 35],  # 150 fuera de rango
    'precio': [10.5, -5.0, 15.0]  # Precio negativo
})

try:
    validar_rangos(df_invalido)
    print("‚úÖ Rangos v√°lidos")
except ValueError as e:
    print(f"‚ùå Error detectado (esperado):")
    print(f"   {e}")

## 4. Validaci√≥n de completitud

In [None]:
def validar_completitud(df, umbral=0.95):
    """Valida completitud m√≠nima."""
    errores = []
    
    for col in df.columns:
        completitud = (1 - df[col].isnull().sum() / len(df)) * 100
        if completitud < umbral * 100:
            errores.append(
                f"Columna {col}: completitud {completitud:.2f}% < {umbral*100}%"
            )
    
    if errores:
        raise ValueError("Errores de completitud:\n" + "\n".join(errores))
    
    return True

print("‚úÖ Funci√≥n de validaci√≥n de completitud definida")

In [None]:
# Ejemplo
df_completo = pd.DataFrame({
    'nombre': ['Juan', 'Mar√≠a', 'Pedro'],
    'edad': [25, 30, 35],
    'email': ['juan@email.com', 'maria@email.com', 'pedro@email.com']
})

try:
    validar_completitud(df_completo, umbral=0.95)
    print("‚úÖ Completitud v√°lida")
except ValueError as e:
    print(f"‚ùå Error: {e}")

## 5. Pipeline con validaciones

In [None]:
def pipeline_con_validaciones(df):
    """Pipeline con validaciones integradas."""
    print("üöÄ Iniciando pipeline con validaciones...")
    
    # 1. Validar esquema
    esquema = {
        'nombre': 'object',
        'edad': 'int64',
        'precio': 'float64'
    }
    print("\nüìã Validando esquema...")
    validar_esquema(df, esquema)
    print("‚úÖ Esquema v√°lido")
    
    # 2. Validar rangos
    print("\nüìä Validando rangos...")
    validar_rangos(df)
    print("‚úÖ Rangos v√°lidos")
    
    # 3. Validar completitud
    print("\nüìà Validando completitud...")
    validar_completitud(df)
    print("‚úÖ Completitud v√°lida")
    
    # 4. Transformar
    print("\nüîÑ Transformando datos...")
    df['total'] = df['precio'] * 1.21  # IVA
    
    print("\n‚úÖ Pipeline completado exitosamente")
    return df

print("‚úÖ Pipeline con validaciones definido")

In [None]:
# Ejecutar pipeline
df_ejemplo = pd.DataFrame({
    'nombre': ['Producto A', 'Producto B', 'Producto C'],
    'edad': [25, 30, 35],
    'precio': [100.0, 200.0, 150.0]
})

resultado = pipeline_con_validaciones(df_ejemplo)
print("\nResultado:")
print(resultado)

## 6. Resumen

In [None]:
print("=" * 60)
print("TIPOS DE VALIDACIONES")
print("=" * 60)
print("\n‚úÖ Validaci√≥n de esquema: Estructura y tipos")
print("‚úÖ Validaci√≥n de rangos: Valores en rangos esperados")
print("‚úÖ Validaci√≥n de completitud: Valores nulos")
print("‚úÖ Validaci√≥n de reglas de negocio: L√≥gica de negocio")
print("\n" + "=" * 60)
print("\nüí° Las validaciones deben fallar r√°pido y claro")
print("üí° Mejor detener el pipeline que procesar datos incorrectos")
print("=" * 60)

---

**Pr√≥ximo paso:** Lee [Validaciones](../calidad/validaciones/validaciones.md) para m√°s detalles.