# Great Expectations para Calidad de Datos

Este notebook demuestra c√≥mo usar Great Expectations para validar datos.

**Referencia:** [Great Expectations](../calidad/herramientas/great-expectations-para-calidad.md)

**Objetivos:**
- Crear expectativas sobre datos
- Validar autom√°ticamente
- Generar reportes de calidad

## 1. Instalaci√≥n

In [None]:
# Descomenta para instalar
# !pip install great-expectations

print("üí° Para instalar: pip install great-expectations")

## 2. Importar librer√≠as

In [None]:
import pandas as pd
import numpy as np

# Great Expectations
try:
    import great_expectations as gx
    print("‚úÖ Great Expectations importado")
except ImportError:
    print("‚ö†Ô∏è Great Expectations no instalado. Ejecuta: pip install great-expectations")

## 3. Crear datos de ejemplo

In [None]:
# Crear datos de ejemplo
np.random.seed(42)
df = pd.DataFrame({
    'id': range(1, 101),
    'nombre': [f'Usuario {i}' for i in range(1, 101)],
    'edad': np.random.randint(18, 80, 100),
    'email': [f'user{i}@email.com' for i in range(1, 101)],
    'salario': np.random.uniform(30000, 100000, 100)
})

print(f"‚úÖ Datos creados: {len(df)} registros")
df.head()

## 4. Usar Great Expectations (si est√° instalado)

In [None]:
try:
    # Crear contexto (para notebooks, usa contexto est√°ndar)
    context = gx.get_context()
    
    # Crear datasource
    datasource = context.sources.add_pandas("my_datasource")
    
    # Crear asset
    asset = datasource.add_dataframe_asset(name="my_dataframe")
    
    # Crear validator
    validator = context.get_validator(
        datasource_name="my_datasource",
        data_asset_name="my_dataframe",
        dataframe=df
    )
    
    print("‚úÖ Validator creado")
    
    # Definir expectativas
    validator.expect_column_values_to_not_be_null("nombre")
    validator.expect_column_values_to_be_between("edad", min_value=0, max_value=120)
    validator.expect_column_values_to_be_unique("id")
    validator.expect_column_values_to_be_between("salario", min_value=0)
    
    print("‚úÖ Expectativas definidas")
    
    # Validar
    results = validator.validate()
    print("\n‚úÖ Validaci√≥n completada")
    print(f"\nResultados: {results.success}")
    
    # Mostrar detalles de las expectativas
    if hasattr(results, 'results'):
        print(f"\nüìä Expectativas ejecutadas: {len(results.results)}")
        for i, result in enumerate(results.results, 1):
            estado = "‚úÖ" if result.success else "‚ùå"
            print(f"   {estado} {result.expectation_config.expectation_type}")
    
except (NameError, AttributeError) as e:
    print(f"\nüí° Great Expectations no est√° instalado o hay un error de configuraci√≥n.")
    print(f"   Error: {str(e)}")
    print("\nEjemplo de c√≥digo que usar√≠as:")
    print("""
    import great_expectations as gx
    
    context = gx.get_context()
    datasource = context.sources.add_pandas("my_datasource")
    asset = datasource.add_dataframe_asset(name="my_dataframe")
    
    validator = context.get_validator(
        datasource_name="my_datasource",
        data_asset_name="my_dataframe",
        dataframe=df
    )
    
    # Expectativas
    validator.expect_column_values_to_not_be_null('nombre')
    validator.expect_column_values_to_be_between('edad', 0, 120)
    
    # Validar
    results = validator.validate()
    """)

## 5. Validaci√≥n manual (alternativa sin GX)

In [None]:
# Validaci√≥n manual equivalente
def validar_datos(df):
    """Valida datos manualmente."""
    resultados = {}
    
    # Expectativa 1: nombre no nulo
    resultados['nombre_no_nulo'] = df['nombre'].notna().all()
    
    # Expectativa 2: edad en rango
    resultados['edad_en_rango'] = df['edad'].between(0, 120).all()
    
    # Expectativa 3: id √∫nico
    resultados['id_unico'] = df['id'].is_unique
    
    # Expectativa 4: salario positivo
    resultados['salario_positivo'] = (df['salario'] > 0).all()
    
    return resultados

resultados = validar_datos(df)
print("=== RESULTADOS DE VALIDACI√ìN ===")
for expectativa, resultado in resultados.items():
    estado = "‚úÖ" if resultado else "‚ùå"
    print(f"{estado} {expectativa}: {resultado}")

print(f"\n‚úÖ Todas las validaciones pasaron: {all(resultados.values())}")