# Caso 14: Data Quality y Error Handling

**Objetivo**: Aprender a manejar datos corruptos, validar calidad y configurar alertas.

## üìã Contenido

1. Generar datos con errores
2. Leer con manejo de bad records
3. Aplicar validaciones de negocio
4. Quarantine de datos inv√°lidos
5. Reportes de calidad

---

## Realidad en Producci√≥n

SIEMPRE hay:
- Registros corruptos (JSON malformado)
- Nulls inesperados
- Datos fuera de rango
- Duplicados
- Schema mismatches

In [None]:
# Setup
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession.builder \
    .appName("Caso 14: Data Quality") \
    .config("spark.sql.adaptive.enabled", "true") \
    .getOrCreate()

print("‚úÖ Spark Session creado")
print(f"   Version: {spark.version}")

## Paso 1: Generar Datos con Errores

Vamos a simular datos reales con problemas comunes.

In [None]:
import json
import os

# Crear directorio
os.makedirs("/tmp/test_data", exist_ok=True)

# Generar datos buenos y malos
data = []

# Buenos registros (900)
for i in range(1, 901):
    data.append(json.dumps({
        "customer_id": i,
        "name": f"Customer {i}",
        "email": f"customer{i}@example.com",
        "age": 25 + (i % 50),
        "phone": f"+1-555-{i:04d}"
    }))

# Registros con problemas (100)
# Email inv√°lido (30)
for i in range(901, 931):
    data.append(json.dumps({
        "customer_id": i,
        "name": f"Customer {i}",
        "email": "invalid-email",  # ‚ùå No tiene @
        "age": 30,
        "phone": f"+1-555-{i:04d}"
    }))

# Age inv√°lido (20)
for i in range(931, 951):
    data.append(json.dumps({
        "customer_id": i,
        "name": f"Customer {i}",
        "email": f"customer{i}@example.com",
        "age": -5,  # ‚ùå Edad negativa
        "phone": f"+1-555-{i:04d}"
    }))

# Null customer_id (20)
for i in range(951, 971):
    data.append(json.dumps({
        "customer_id": None,  # ‚ùå ID nulo
        "name": f"Customer {i}",
        "email": f"customer{i}@example.com",
        "age": 30,
        "phone": f"+1-555-{i:04d}"
    }))

# JSON malformado (30)
for i in range(971, 1001):
    data.append('{"customer_id": ' + str(i) + ', "name": "Bad')  # ‚ùå JSON incompleto

# Escribir archivo
with open("/tmp/test_data/customers.json", "w") as f:
    f.write("\n".join(data))

print(f"‚úÖ Generados 1000 registros:")
print(f"   ‚Ä¢ 900 buenos")
print(f"   ‚Ä¢ 30 con email inv√°lido")
print(f"   ‚Ä¢ 20 con age negativo")
print(f"   ‚Ä¢ 20 con customer_id NULL")
print(f"   ‚Ä¢ 30 con JSON malformado")

## Paso 2: Leer con PERMISSIVE Mode

Spark puede manejar registros corruptos autom√°ticamente.

In [None]:
# Leer con manejo de bad records
print("üìñ Leyendo datos con PERMISSIVE mode...")

raw_df = spark.read \
    .option("mode", "PERMISSIVE") \
    .option("columnNameOfCorruptRecord", "_corrupt_record") \
    .json("/tmp/test_data/customers.json")

print(f"   Total registros le√≠dos: {raw_df.count()}")

# Separar buenos y malos
good_records = raw_df.filter(col("_corrupt_record").isNull()).drop("_corrupt_record")
bad_records = raw_df.filter(col("_corrupt_record").isNotNull())

print(f"\nüìä Separaci√≥n autom√°tica:")
print(f"   ‚Ä¢ Registros buenos: {good_records.count()}")
print(f"   ‚Ä¢ Registros corruptos: {bad_records.count()}")

print("\n‚ùå Ejemplos de registros corruptos:")
bad_records.select("_corrupt_record").show(3, truncate=False)

## Paso 3: Aplicar Validaciones de Negocio

Ahora validamos reglas de negocio en registros que no est√°n corruptos.

In [None]:
# Aplicar validaciones de negocio
print("‚úÖ Aplicando validaciones de negocio...")

validated = good_records.withColumn(
    "quality_status",
    when(col("customer_id").isNull(), lit("NULL_ID"))
    .when(~col("email").contains("@"), lit("INVALID_EMAIL"))
    .when((col("age") < 0) | (col("age") > 120), lit("INVALID_AGE"))
    .when(col("phone").isNull(), lit("NULL_PHONE"))
    .otherwise(lit("VALID"))
)

# Estad√≠sticas de calidad
print("\nüìä Resultados de validaci√≥n:")
quality_stats = validated.groupBy("quality_status").count().orderBy(desc("count"))
quality_stats.show()

# Calcular porcentajes
total = validated.count()
for row in quality_stats.collect():
    status = row["quality_status"]
    count = row["count"]
    pct = (count / total) * 100
    symbol = "‚úÖ" if status == "VALID" else "‚ùå"
    print(f"   {symbol} {status}: {count:,} ({pct:.1f}%)")

## Paso 4: Separar Datos V√°lidos e Inv√°lidos

In [None]:
# Separar v√°lidos e inv√°lidos
valid_records = validated.filter(col("quality_status") == "VALID").drop("quality_status")
invalid_records = validated.filter(col("quality_status") != "VALID")

print(f"üì¶ Datos limpios: {valid_records.count():,} registros")
print(f"‚ö†Ô∏è  Datos problem√°ticos: {invalid_records.count():,} registros")

print("\n‚úÖ Muestra de datos V√ÅLIDOS:")
valid_records.show(5)

print("\n‚ùå Muestra de datos INV√ÅLIDOS:")
invalid_records.select("customer_id", "name", "email", "age", "quality_status").show(10)

## Paso 5: Quarantine - Guardar Datos Problem√°ticos

Los datos inv√°lidos se guardan para an√°lisis posterior.

In [None]:
# Guardar en quarantine con metadata
print("üì¶ Guardando registros inv√°lidos en quarantine...")

invalid_with_metadata = invalid_records \
    .withColumn("quarantined_at", current_timestamp()) \
    .withColumn("source_file", lit("customers.json")) \
    .withColumn("reason", col("quality_status"))

invalid_with_metadata.write \
    .mode("overwrite") \
    .partitionBy("reason") \
    .parquet("/tmp/quarantine/customers")

print(f"   ‚úÖ {invalid_with_metadata.count():,} registros en quarantine")

# Verificar quarantine por raz√≥n
print("\nüìä Distribuci√≥n de problemas en quarantine:")
spark.read.parquet("/tmp/quarantine/customers") \
    .groupBy("reason") \
    .count() \
    .orderBy(desc("count")) \
    .show()

## Paso 6: Guardar Datos Limpios

Los datos v√°lidos van a la tabla limpia para procesamiento.

In [None]:
# Guardar datos limpios
print("üíæ Guardando datos limpios...")

valid_records.write \
    .mode("overwrite") \
    .parquet("/tmp/clean_data/customers")

print(f"   ‚úÖ {valid_records.count():,} registros guardados")

# Verificar
clean_data = spark.read.parquet("/tmp/clean_data/customers")
print(f"\nüìä Datos limpios verificados: {clean_data.count():,} registros")
clean_data.show(5)

## Paso 7: Reporte de Calidad

Generar reporte completo de data quality.

In [None]:
# Reporte de calidad completo
total_input = 1000
corrupt_records_count = bad_records.count()
invalid_records_count = invalid_records.count()
valid_records_count = valid_records.count()

quality_score = (valid_records_count / total_input) * 100

print("=" * 70)
print("üìä REPORTE DE DATA QUALITY")
print("=" * 70)
print(f"\nüì• INPUT:")
print(f"   Total registros: {total_input:,}")

print(f"\n‚ùå PROBLEMAS DETECTADOS:")
print(f"   ‚Ä¢ JSON corruptos: {corrupt_records_count:,} ({(corrupt_records_count/total_input)*100:.1f}%)")
print(f"   ‚Ä¢ Validaci√≥n fallida: {invalid_records_count:,} ({(invalid_records_count/total_input)*100:.1f}%)")
print(f"   ‚Ä¢ Total problem√°ticos: {corrupt_records_count + invalid_records_count:,}")

print(f"\n‚úÖ DATOS LIMPIOS:")
print(f"   ‚Ä¢ Registros v√°lidos: {valid_records_count:,} ({quality_score:.1f}%)")

print(f"\nüìä QUALITY SCORE: {quality_score:.1f}%")

if quality_score >= 95:
    print("   üü¢ EXCELENTE - Calidad alta")
elif quality_score >= 90:
    print("   üü° ACEPTABLE - Revisar problemas")
else:
    print("   üî¥ CR√çTICO - Requiere atenci√≥n inmediata")

print("\nüìã ACCIONES:")
print(f"   ‚Ä¢ Datos limpios ‚Üí /tmp/clean_data/customers")
print(f"   ‚Ä¢ Quarantine ‚Üí /tmp/quarantine/customers")
print(f"   ‚Ä¢ Revisar registros en quarantine y corregir upstream")
print("=" * 70)

## üéØ Conclusiones

### ‚úÖ Lo que Aprendimos

1. **PERMISSIVE mode** captura registros corruptos autom√°ticamente
2. **Validaciones de negocio** con expresiones condicionales
3. **Quarantine tables** para datos problem√°ticos
4. **Particionamiento por raz√≥n** de fallo
5. **Reportes de calidad** con m√©tricas claras

### üí° Best Practices

- ‚úÖ **Nunca fallar el pipeline** por bad data
- ‚úÖ **Separar datos limpios de problem√°ticos**
- ‚úÖ **Alertar** cuando calidad cae bajo umbral
- ‚úÖ **Metadata en quarantine** (timestamp, source, reason)
- ‚úÖ **Revisar quarantine regularmente** y corregir upstream

### üö® En Producci√≥n

```python
# Alerting autom√°tico
if quality_score < 90:
    send_alert("Data quality critical: {}%".format(quality_score))
```

### üîó Pr√≥ximos Pasos

- Ver **Caso 13**: CDC - Validar datos CDC
- Ver **Caso 15**: Streaming - Quality en tiempo real
- Implementar con **Great Expectations** para validaciones avanzadas