C√≥mo funciona:

Construcci√≥n de rules

Para cada columna lee de stats su tipo, min/max o lista de categor√≠as y si el conteo < total ‚Üí permite nulos.

Funci√≥n validate

Recorre las reglas y avisa de: ‚Ä¢ Filas nulas donde no se permiten. ‚Ä¢ Valores num√©ricos fuera de rango. ‚Ä¢ Categor√≠as no listadas en ‚Äúallowed‚Äù.

Reporte de errores

Devuelve un dict con mensajes por columna; √∫til para logs o alertas autom√°ticas en tu pipeline.

‚Äî Si prefieres un framework ya hecho, echa un vistazo a pandera o pandas_schema, que simplifican este patr√≥n y te dan validaci√≥n tipo‚Äìschema.

Con ese bloque de c√≥digo ya tienes en tus manos un validador autom√°tico que:

Extrae estad√≠sticas de tu DataFrame (df.describe(include='all').T).

Genera un esquema de ‚Äúreglas‚Äù (rangos num√©ricos, categor√≠as permitidas, si acepta nulos).

Aplica esas reglas a cualquier DataFrame (el mismo u otro) y te devuelve una lista de errores por columna.

¬øQu√© haces con esto?

ùêÇùê®ùê¶ùê©ùê´ùê®ùêõùêöùê´ ùê•ùêö ùêúùêöùê•ùê¢ùêùùêöùêù ùêùùêû ùê≠ùêÆ ùêùùêöùê≠ùê®ùê¨

Tras cargar y limpiar datos, ejecuta validate(df, rules).

Si hay filas con valores fuera de rango o categor√≠as inesperadas, te lo informa.

As√≠ detectas errores de scraping, conversiones mal hechas o outliers.

ùêèùêûùê´ùêüùê¢ùê•ùêöùê´ ùêßùêÆùêûùêØùêöùê¨ ùêüùêÆùêßùêúùê¢ùê®ùêßùêöùê•ùê¢ùêùùêöùêùùêûùê¨

Mejora las reglas: por ejemplo, excluye el 1% de outliers ajustando min/max.

A√±ade validaciones de longitud de string, formatos de fecha espec√≠ficos, etc.

ùêàùêßùê≠ùêûùê†ùê´ùêöùê´ ùêûùêß ùê≠ùêÆ ùê©ùê¢ùê©ùêûùê•ùê¢ùêßùêû ùêùùêû ùêùùêöùê≠ùê®ùê¨

Inserta este bloque al final de tu ETL o notebook.

Si validate arroja errores, det√©n el pipeline, corrige origen de datos o ajusta reglas.

Te permitir√° automatizar chequeos y asegurar que nunca llegan datos ‚Äúrotos‚Äù a tu modelo.

ùêãùê®ùê†ùê¨ ùê≤ ùê¶ùêûùê≠ùê´ùê¢ùêúùêöùê¨

Guarda validation_errors en un archivo o base de datos.

Monitoriza cu√°ntos errores tienes por d√≠a/versi√≥n de dataset para medir estabilidad.

ùêîùê¨ùêö ùêüùê´ùêöùê¶ùêûùê∞ùê®ùê´ùê§ùê¨ ùêûùê¨ùê≠ùêöùêßùêùùêöùê´ùêù

Si te interesa un enfoque m√°s declarativo, mira pandera:

Defines un esquema con Column, Range, Category, etc.

Aplicas schema.validate(df) y obtienes reportes claros y tipados.

‚Äî En resumen, lo que haces con ese c√≥digo es convertir tu EDA en un guardia que vigila cada fila/columna de tus datos. Cada vez que ingrese un nuevo batch, lo pasas por validate y s√≥lo dejas avanzar datos ‚Äúlimpios‚Äù. Esto eleva tu EDA de un an√°lisis manual a un proceso reproducible y robusto.

In [None]:
import pandas as pd

# 1. C√°lculo de estad√≠sticas
stats = df.describe(include='all').T

# 2. Generaci√≥n de reglas en un dict
rules = {}

for col, row in stats.iterrows():
    n_total = df.shape[0]
    n_nonnull = int(row['count'])
    # Regla com√∫n: ¬øpermitimos nulos?
    allow_null = (n_nonnull < n_total)
    
    if pd.api.types.is_numeric_dtype(df[col]):
        # Para num√©ricos: rango [min, max]
        rules[col] = {
            'type': 'numeric',
            'min': row['min'],
            'max': row['max'],
            'allow_null': allow_null
        }
    else:
        # Para categ√≥ricos/objetos: lista de valores permitidos
        unique_vals = list(df[col].dropna().unique())
        rules[col] = {
            'type': 'categorical',
            'allowed': unique_vals,
            'allow_null': allow_null
        }

# 3. Funci√≥n de validaci√≥n
def validate(df, rules):
    errors = {}
    for col, rule in rules.items():
        series = df[col]
        # 3.1 Nulos no permitidos
        if not rule['allow_null']:
            n_null = series.isnull().sum()
            if n_null:
                errors.setdefault(col, []).append(f"{n_null} nulls")
        # 3.2 Chequeo por tipo
        if rule['type'] == 'numeric':
            below = (series < rule['min']).sum()
            above = (series > rule['max']).sum()
            if below or above:
                errors.setdefault(col, []).append(
                  f"{below} below {rule['min']}, {above} above {rule['max']}"
                )
        else:  # categ√≥rico
            invalid = series[~series.isin(rule['allowed']) & series.notna()]
            if not invalid.empty:
                errs = invalid.value_counts().to_dict()
                errors.setdefault(col, []).append(f"invalid categories: {errs}")
    return errors

# 4. Ejecutar validaci√≥n
validation_errors = validate(df, rules)
if validation_errors:
    for col, msgs in validation_errors.items():
        print(f"{col}:")
        for m in msgs:
            print("   -", m)
else:
    print("‚úÖ Todos los checks pasaron correctamente.")
