# Testing de Datos

Este notebook demuestra c√≥mo escribir tests efectivos para transformaciones de datos.

**Referencia:** [Testing de Datos](../calidad/validaciones/testing-de-datos.md)

**Objetivos:**
- Escribir tests unitarios para transformaciones
- Tests de integridad
- Tests de calidad
- Tests de reglas de negocio

## 1. Importar librer√≠as

In [None]:
import pandas as pd
import numpy as np

# Para testing (pytest)
try:
    import pytest
    print("‚úÖ pytest disponible")
except ImportError:
    print("üí° Para instalar: pip install pytest")

print("‚úÖ Librer√≠as importadas")

## 2. Funciones a testear

In [None]:
def calcular_total(precio, cantidad):
    """Calcula el total de una venta."""
    return precio * cantidad

def limpiar_nombres(df):
    """Limpia nombres en un DataFrame."""
    df = df.copy()
    if 'nombre' in df.columns:
        df['nombre'] = df['nombre'].str.strip().str.title()
    return df

def transformar_ventas(df):
    """Transforma datos de ventas."""
    df = df.copy()
    df['total'] = df['precio'] * df['cantidad']
    df = df[df['total'] > 0]  # Filtrar totales negativos
    return df

print("‚úÖ Funciones definidas")

## 3. Tests unitarios

In [None]:
# Test 1: calcular_total
def test_calcular_total():
    """Test de funci√≥n calcular_total."""
    assert calcular_total(10, 2) == 20
    assert calcular_total(5.5, 3) == 16.5
    assert calcular_total(0, 10) == 0
    print("‚úÖ test_calcular_total: PAS√ì")

test_calcular_total()

In [None]:
# Test 2: limpiar_nombres
def test_limpiar_nombres():
    """Test de limpieza de nombres."""
    df = pd.DataFrame({
        'nombre': ['  juan  ', 'MAR√çA', 'carlos']
    })
    
    resultado = limpiar_nombres(df)
    
    assert resultado['nombre'].tolist() == ['Juan', 'Mar√≠a', 'Carlos']
    print("‚úÖ test_limpiar_nombres: PAS√ì")

test_limpiar_nombres()

## 4. Tests de integridad

In [None]:
# Test: Sin p√©rdida de filas cr√≠ticas
def test_sin_perdida_filas_criticas():
    """Verifica que no se pierdan filas cr√≠ticas."""
    df_entrada = pd.DataFrame({
        'id': [1, 2, 3, 4, 5],
        'es_critico': [True, False, True, False, False],
        'precio': [10, 20, 30, 40, 50]
    })
    
    # Simular transformaci√≥n que podr√≠a eliminar filas
    # IMPORTANTE: Las filas cr√≠ticas deben preservarse incluso si no cumplen el filtro
    df_salida = df_entrada[
        (df_entrada['precio'] > 15) | (df_entrada['es_critico'] == True)
    ].copy()
    
    # Verificar que filas cr√≠ticas no se perdieron
    ids_criticos = df_entrada[df_entrada['es_critico'] == True]['id'].tolist()
    ids_en_salida = df_salida['id'].tolist()
    
    for id_critico in ids_criticos:
        assert id_critico in ids_en_salida, f"ID cr√≠tico {id_critico} perdido"
    
    print("‚úÖ test_sin_perdida_filas_criticas: PAS√ì")
    print(f"   IDs cr√≠ticos preservados: {ids_criticos}")
    print(f"   IDs en salida: {ids_en_salida}")

test_sin_perdida_filas_criticas()

In [None]:
# Test: Suma conservada
def test_suma_conservada():
    """Verifica que sumas se conserven."""
    df_entrada = pd.DataFrame({
        'precio': [10, 20, 30, 40, 50]
    })
    
    df_salida = transformar_ventas(pd.DataFrame({
        'precio': [10, 20, 30, 40, 50],
        'cantidad': [1, 1, 1, 1, 1]
    }))
    
    total_entrada = df_entrada['precio'].sum()
    total_salida = df_salida['total'].sum()
    
    # Permitir peque√±a diferencia por redondeo
    assert abs(total_entrada - total_salida) < 0.01, "Suma no se conserva"
    print("‚úÖ test_suma_conservada: PAS√ì")

test_suma_conservada()

## 5. Tests de calidad

In [None]:
# Test: Completitud m√≠nima
def test_completitud_minima(df, umbral=0.95):
    """Verifica completitud m√≠nima."""
    for col in df.columns:
        completitud = (1 - df[col].isnull().sum() / len(df)) * 100
        assert completitud >= umbral * 100, \
            f"Completitud de {col} es {completitud}%, menor que {umbral*100}%"

# Ejemplo
df_ejemplo = pd.DataFrame({
    'col1': [1, 2, 3, 4, 5],
    'col2': [1, 2, None, 4, 5],  # 80% completitud
    'col3': [1, 2, 3, 4, 5]
})

try:
    test_completitud_minima(df_ejemplo, umbral=0.95)
    print("‚úÖ test_completitud_minima: PAS√ì")
except AssertionError as e:
    print(f"‚ö†Ô∏è test_completitud_minima: FALL√ì (esperado para col2)")
    print(f"   {str(e)[:100]}")

In [None]:
# Test: Sin duplicados
def test_sin_duplicados(df, columnas_unicas):
    """Verifica que no haya duplicados."""
    for col in columnas_unicas:
        if col in df.columns:
            duplicados = df[col].duplicated().sum()
            assert duplicados == 0, f"Duplicados encontrados en {col}: {duplicados}"

# Ejemplo
df_ejemplo = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'email': ['a@email.com', 'b@email.com', 'c@email.com', 'd@email.com', 'e@email.com']
})

test_sin_duplicados(df_ejemplo, ['id', 'email'])
print("‚úÖ test_sin_duplicados: PAS√ì")

## 6. Tests de reglas de negocio

In [None]:
# Test: Regla de negocio - descuento m√°ximo
def test_descuento_maximo(df):
    """Verifica que descuentos no excedan 50%."""
    if 'descuento' in df.columns:
        descuento_max = df['descuento'].max()
        assert descuento_max <= 0.5, f"Descuento m√°ximo {descuento_max} excede 50%"

# Ejemplo
df_ventas = pd.DataFrame({
    'producto': ['A', 'B', 'C'],
    'precio': [100, 200, 300],
    'descuento': [0.1, 0.2, 0.3]  # Todos < 50%
})

test_descuento_maximo(df_ventas)
print("‚úÖ test_descuento_maximo: PAS√ì")

## 7. Resumen de tests

In [None]:
print("=" * 60)
print("RESUMEN DE TESTS")
print("=" * 60)
print("\n‚úÖ Tests unitarios: Funciones individuales")
print("‚úÖ Tests de integridad: Sin p√©rdida de datos")
print("‚úÖ Tests de calidad: M√©tricas de calidad")
print("‚úÖ Tests de reglas de negocio: Validaciones de negocio")
print("\n" + "=" * 60)
print("\nüí° Para ejecutar con pytest:")
print("   pytest nombre_archivo.py -v")
print("=" * 60)