# üöÄ Lab DataOps: Governan√ßa e Qualidade de Dados com PySpark e Great Expectations

## Objetivos do Laborat√≥rio

Neste laborat√≥rio pr√°tico, voc√™ ir√°:
- Implementar **testes de qualidade de dados** automatizados com **Great Expectations**
- Aplicar as **6 dimens√µes da qualidade** na pr√°tica
- Criar um **pipeline DataOps** com valida√ß√µes profissionais
- Simular cen√°rios reais de **governan√ßa de dados**
- Gerar **relat√≥rios de qualidade** automatizados

### Conceitos Aplicados
- **DataOps**: Automa√ß√£o e monitoramento cont√≠nuo
- **Governan√ßa**: Regras, pol√≠ticas e responsabilidades
- **Qualidade**: Acur√°cia, Completude, Consist√™ncia, Pontualidade, Unicidade e Validade
- **Great Expectations**: Framework profissional para valida√ß√£o de dados

## 1. Configura√ß√£o do Ambiente PySpark e Great Expectations

Primeiro, vamos configurar o ambiente PySpark e Great Expectations para nosso laborat√≥rio profissional de qualidade de dados.

In [None]:
# Instala√ß√£o do Great Expectations (execute apenas uma vez)
# !pip install great-expectations

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
import pandas as pd
from datetime import datetime, timedelta
import random
import os

# Great Expectations imports
import great_expectations as gx
from great_expectations.core.batch import RuntimeBatchRequest
from great_expectations.profile.user_configurable_profiler import UserConfigurableProfiler
from great_expectations.checkpoint import SimpleCheckpoint
from great_expectations.exceptions import DataContextError

# Inicializar Spark Session
spark = SparkSession.builder \
    .appName("DataOps_Governanca_Lab_GX") \
    .config("spark.sql.adaptive.enabled", "true") \
    .getOrCreate()

print(f"‚úÖ Spark Session iniciada: {spark.version}")
print(f"üìä Contexto: {spark.sparkContext.appName}")
print(f"üéØ Great Expectations vers√£o: {gx.__version__}")

## 2. Cria√ß√£o de Dados de Exemplo

Vamos criar um dataset simulando dados de **clientes de e-commerce** com problemas de qualidade intencionais para demonstrar os conceitos de governan√ßa.

In [None]:
# Dados simulados com problemas de qualidade intencionais
dados_clientes = [
    (1, "Jo√£o Silva", "joao@email.com", "11999887766", "2023-01-15", "Ativo", 25, "SP"),
    (2, "Maria Santos", "maria.santos@gmail.com", "11888776655", "2023-02-20", "Ativo", 32, "RJ"),
    (3, "Pedro", "pedro@invalid", "119999", "2023-03-10", "Inativo", 150, "MG"),  # Problemas: email inv√°lido, telefone incompleto, idade imposs√≠vel
    (4, "Ana Costa", "ana@email.com", "11777665544", "2023-04-05", "Ativo", 28, "SP"),
    (1, "Jo√£o Silva", "joao@email.com", "11999887766", "2023-01-15", "Ativo", 25, "SP"),  # Duplicata
    (5, "", "carlos@email.com", "11666554433", "2023-05-12", "Pendente", None, "RS"),  # Nome vazio, idade nula
    (6, "Lucia Oliveira", "lucia@email.com", "11555443322", "2022-12-01", "Ativo", 45, "BA"),
    (7, "Roberto Lima", "roberto@email.com", "11444332211", "2023-06-18", "Cancelado", 38, "PR"),  # Status n√£o padr√£o
    (8, "Fernanda", None, "11333221100", "2023-07-22", "Ativo", 29, "SC"),  # Email nulo
    (9, "Marcos Pereira", "marcos@email.com", "11222110099", "2023-08-30", "Ativo", -5, "GO")  # Idade negativa
]

# Schema definido (Governan√ßa: Padr√µes de Dados)
schema_clientes = StructType([
    StructField("id_cliente", IntegerType(), False),
    StructField("nome", StringType(), True),
    StructField("email", StringType(), True),
    StructField("telefone", StringType(), True),
    StructField("data_cadastro", StringType(), True),
    StructField("status", StringType(), True),
    StructField("idade", IntegerType(), True),
    StructField("estado", StringType(), True)
])

df_clientes = spark.createDataFrame(dados_clientes, schema_clientes)
print("üìã Dataset de clientes criado com problemas de qualidade intencionais")
df_clientes.show()

## 3. Configura√ß√£o do Great Expectations

Vamos configurar o Great Expectations para criar um **Data Context** e definir nossas **Expectativas de Qualidade**.

In [None]:
# Configurar diret√≥rio do Great Expectations
project_dir = "/tmp/gx_lab_dataops"
os.makedirs(project_dir, exist_ok=True)
os.chdir(project_dir)

# Inicializar Data Context do Great Expectations
try:
    context = gx.get_context()
    print("üìÅ Contexto Great Expectations existente carregado")
except DataContextError:
    context = gx.get_context(project_root_dir=project_dir)
    print("üìÅ Novo contexto Great Expectations criado")

# Converter DataFrame Spark para Pandas para Great Expectations
df_clientes_pandas = df_clientes.toPandas()

print(f"‚úÖ Great Expectations configurado")
print(f"üìä Dataset convertido: {len(df_clientes_pandas)} registros")

## 4. Cria√ß√£o de Expectativas de Qualidade com Great Expectations

Vamos criar **Expectativas** (Expectations) que representam as **6 dimens√µes da qualidade de dados**.

In [None]:
# Configurar Datasource para Great Expectations
datasource_config = {
    "name": "clientes_datasource",
    "class_name": "Datasource",
    "execution_engine": {
        "class_name": "PandasExecutionEngine"
    },
    "data_connectors": {
        "runtime_data_connector": {
            "class_name": "RuntimeDataConnector",
            "batch_identifiers": ["default_identifier_name"]
        }
    }
}

# Adicionar datasource ao contexto
try:
    context.add_datasource(**datasource_config)
    print("‚úÖ Datasource 'clientes_datasource' criado")
except Exception as e:
    print(f"üìã Datasource j√° existe ou erro: {str(e)[:100]}...")

# Criar Expectation Suite (conjunto de expectativas)
suite_name = "clientes_quality_suite"
try:
    suite = context.create_expectation_suite(suite_name, overwrite_existing=True)
    print(f"‚úÖ Expectation Suite '{suite_name}' criado")
except Exception as e:
    suite = context.get_expectation_suite(suite_name)
    print(f"üìã Expectation Suite '{suite_name}' j√° existe")

## 5. Definindo Expectativas das 6 Dimens√µes da Qualidade

Vamos criar expectativas espec√≠ficas para cada dimens√£o da qualidade usando Great Expectations.

In [None]:
# Criar batch request para os dados
batch_request = RuntimeBatchRequest(
    datasource_name="clientes_datasource",
    data_connector_name="runtime_data_connector",
    data_asset_name="clientes_dataset",
    runtime_parameters={"batch_data": df_clientes_pandas},
    batch_identifiers={"default_identifier_name": "clientes_batch"}
)

# Obter validator para criar expectativas
validator = context.get_validator(
    batch_request=batch_request,
    expectation_suite_name=suite_name
)

print("üéØ CRIANDO EXPECTATIVAS DAS 6 DIMENS√ïES DA QUALIDADE")
print("=" * 60)

# 1. COMPLETUDE (Completeness) - Campos n√£o podem ser nulos
print("\nüìä 1. COMPLETUDE - Campos obrigat√≥rios")
validator.expect_column_values_to_not_be_null("id_cliente")
validator.expect_column_values_to_not_be_null("nome")
validator.expect_column_values_to_not_be_null("email")
print("   ‚úÖ Expectativas de completude criadas")

# 2. UNICIDADE (Uniqueness) - Valores √∫nicos
print("\nüîë 2. UNICIDADE - Chaves √∫nicas")
validator.expect_column_values_to_be_unique("id_cliente")
validator.expect_column_values_to_be_unique("email")
print("   ‚úÖ Expectativas de unicidade criadas")

# 3. VALIDADE (Validity) - Formatos e dom√≠nios
print("\n‚úÖ 3. VALIDADE - Formatos e dom√≠nios")
# Email v√°lido
validator.expect_column_values_to_match_regex(
    "email", 
    r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"
)
# Idade v√°lida (0-120)
validator.expect_column_values_to_be_between("idade", min_value=0, max_value=120)
# Status v√°lido
validator.expect_column_values_to_be_in_set("status", ["Ativo", "Inativo", "Pendente"])
print("   ‚úÖ Expectativas de validade criadas")

# 4. CONSIST√äNCIA (Consistency) - Regras de neg√≥cio
print("\nüîÑ 4. CONSIST√äNCIA - Regras de neg√≥cio")
# Telefone deve ter 11 d√≠gitos
validator.expect_column_value_lengths_to_equal("telefone", 11)
# Data de cadastro n√£o pode ser futura
validator.expect_column_values_to_be_dateutil_parseable("data_cadastro")
print("   ‚úÖ Expectativas de consist√™ncia criadas")

# 5. PONTUALIDADE (Timeliness) - Dados atuais
print("\n‚è∞ 5. PONTUALIDADE - Dados atuais")
# Data de cadastro deve ser dos √∫ltimos 2 anos
data_limite = (datetime.now() - timedelta(days=730)).strftime("%Y-%m-%d")
validator.expect_column_values_to_be_between(
    "data_cadastro", 
    min_value=data_limite, 
    max_value=datetime.now().strftime("%Y-%m-%d")
)
print("   ‚úÖ Expectativas de pontualidade criadas")

# 6. ACUR√ÅCIA (Accuracy) - Dados corretos
print("\nüéØ 6. ACUR√ÅCIA - Dados corretos")
# Nome n√£o pode ser vazio
validator.expect_column_values_to_not_match_regex("nome", r"^\s*$")
# Estado deve ser sigla v√°lida (2 caracteres)
validator.expect_column_value_lengths_to_equal("estado", 2)
print("   ‚úÖ Expectativas de acur√°cia criadas")

# Salvar expectation suite
validator.save_expectation_suite(discard_failed_expectations=False)
print("\nüíæ Expectation Suite salvo com sucesso!")

## 6. Execu√ß√£o das Valida√ß√µes com Great Expectations

Agora vamos executar todas as valida√ß√µes e gerar um **relat√≥rio de qualidade** profissional.

In [None]:
# Executar valida√ß√µes
print("üîç EXECUTANDO VALIDA√á√ïES DE QUALIDADE")
print("=" * 50)

# Validar os dados
validation_result = validator.validate()

# Analisar resultados
print(f"\nüìä RESULTADOS DA VALIDA√á√ÉO:")
print(f"   Total de expectativas: {validation_result.statistics['evaluated_expectations']}")
print(f"   Expectativas que passaram: {validation_result.statistics['successful_expectations']}")
print(f"   Expectativas que falharam: {validation_result.statistics['unsuccessful_expectations']}")
print(f"   Taxa de sucesso: {validation_result.statistics['success_percent']:.1f}%")

# Status geral
if validation_result.success:
    print("\n‚úÖ VALIDA√á√ÉO PASSOU - Dados dentro dos padr√µes de qualidade")
else:
    print("\n‚ùå VALIDA√á√ÉO FALHOU - Problemas de qualidade detectados")
    print("\nüö® PROBLEMAS ENCONTRADOS:")
    
    for result in validation_result.results:
        if not result.success:
            expectation_type = result.expectation_config.expectation_type
            column = result.expectation_config.kwargs.get('column', 'N/A')
            print(f"   ‚ùå {expectation_type} - Coluna: {column}")
            if 'partial_unexpected_count' in result.result:
                print(f"      Registros com problema: {result.result['partial_unexpected_count']}")

## 7. Cria√ß√£o de Checkpoint para Automa√ß√£o

Vamos criar um **Checkpoint** para automatizar as valida√ß√µes no pipeline DataOps.

In [None]:
# Criar checkpoint para automa√ß√£o
checkpoint_name = "clientes_quality_checkpoint"

checkpoint_config = {
    "name": checkpoint_name,
    "config_version": 1.0,
    "template_name": None,
    "module_name": "great_expectations.checkpoint",
    "class_name": "Checkpoint",
    "run_name_template": "%Y%m%d-%H%M%S-clientes-validation",
    "expectation_suite_name": suite_name,
    "batch_request": {
        "datasource_name": "clientes_datasource",
        "data_connector_name": "runtime_data_connector",
        "data_asset_name": "clientes_dataset"
    },
    "action_list": [
        {
            "name": "store_validation_result",
            "action": {"class_name": "StoreValidationResultAction"},
        },
        {
            "name": "update_data_docs",
            "action": {"class_name": "UpdateDataDocsAction"},
        },
    ],
}

# Adicionar checkpoint
try:
    context.add_checkpoint(**checkpoint_config)
    print(f"‚úÖ Checkpoint '{checkpoint_name}' criado com sucesso")
except Exception as e:
    print(f"üìã Checkpoint j√° existe: {str(e)[:100]}...")

print("\nüîÑ EXECUTANDO CHECKPOINT AUTOMATIZADO")
print("=" * 50)

# Executar checkpoint
checkpoint_result = context.run_checkpoint(
    checkpoint_name=checkpoint_name,
    batch_request={
        "runtime_parameters": {"batch_data": df_clientes_pandas},
        "batch_identifiers": {"default_identifier_name": "clientes_batch"}
    }
)

print(f"‚úÖ Checkpoint executado - Sucesso: {checkpoint_result.success}")

## 8. Corre√ß√£o de Dados e Re-valida√ß√£o

Vamos corrigir os problemas identificados e executar novamente as valida√ß√µes.

In [None]:
def corrigir_dados_qualidade_gx(df_spark):
    """
    Aplica corre√ß√µes baseadas nos resultados do Great Expectations
    """
    print("üîß APLICANDO CORRE√á√ïES DE QUALIDADE")
    print("=" * 50)
    
    # 1. Remover duplicatas (manter primeira ocorr√™ncia)
    df_corrigido = df_spark.dropDuplicates(["id_cliente"])
    print(f"‚úÖ Duplicatas removidas: {df_spark.count() - df_corrigido.count()} registros")
    
    # 2. Corrigir idades inv√°lidas
    df_corrigido = df_corrigido.withColumn(
        "idade",
        when((col("idade") < 0) | (col("idade") > 120), None)
        .otherwise(col("idade"))
    )
    print("‚úÖ Idades inv√°lidas corrigidas")
    
    # 3. Padronizar status
    df_corrigido = df_corrigido.withColumn(
        "status",
        when(col("status") == "Cancelado", "Inativo")
        .otherwise(col("status"))
    )
    print("‚úÖ Status padronizados")
    
    # 4. Remover registros com campos cr√≠ticos vazios
    df_corrigido = df_corrigido.filter(
        col("nome").isNotNull() & 
        (col("nome") != "") &
        col("email").isNotNull()
    )
    print("‚úÖ Registros com campos cr√≠ticos vazios removidos")
    
    print(f"\nüìä Registros ap√≥s corre√ß√£o: {df_corrigido.count()}")
    return df_corrigido

# Aplicar corre√ß√µes
df_clientes_corrigido = corrigir_dados_qualidade_gx(df_clientes)
df_clientes_corrigido_pandas = df_clientes_corrigido.toPandas()

print("\nüìã Dados ap√≥s corre√ß√£o:")
df_clientes_corrigido.show()

## 9. Re-valida√ß√£o com Dados Corrigidos

Vamos executar as valida√ß√µes novamente com os dados corrigidos.

In [None]:
print("üîÑ RE-VALIDA√á√ÉO COM DADOS CORRIGIDOS")
print("=" * 50)

# Executar checkpoint com dados corrigidos
checkpoint_result_corrigido = context.run_checkpoint(
    checkpoint_name=checkpoint_name,
    batch_request={
        "runtime_parameters": {"batch_data": df_clientes_corrigido_pandas},
        "batch_identifiers": {"default_identifier_name": "clientes_batch_corrigido"}
    }
)

# Comparar resultados
validation_result_corrigido = checkpoint_result_corrigido.list_validation_results()[0]

print("\nüìä COMPARA√á√ÉO DE RESULTADOS")
print("=" * 40)
print(f"DADOS ORIGINAIS:")
print(f"   Taxa de sucesso: {validation_result.statistics['success_percent']:.1f}%")
print(f"   Expectativas que falharam: {validation_result.statistics['unsuccessful_expectations']}")

print(f"\nDADOS CORRIGIDOS:")
print(f"   Taxa de sucesso: {validation_result_corrigido.statistics['success_percent']:.1f}%")
print(f"   Expectativas que falharam: {validation_result_corrigido.statistics['unsuccessful_expectations']}")

if validation_result_corrigido.success:
    print("\nüéâ SUCESSO! Dados corrigidos passaram em todas as valida√ß√µes")
else:
    print("\n‚ö†Ô∏è Ainda existem problemas nos dados corrigidos")

## 10. Gera√ß√£o de Relat√≥rios de Qualidade

Vamos gerar **Data Docs** - relat√≥rios HTML profissionais do Great Expectations.

In [None]:
# Gerar Data Docs (relat√≥rios HTML)
print("üìà GERANDO RELAT√ìRIOS DE QUALIDADE (DATA DOCS)")
print("=" * 50)

try:
    # Construir Data Docs
    context.build_data_docs()
    
    # Obter URLs dos relat√≥rios
    data_docs_sites = context.get_docs_sites_urls()
    
    print("‚úÖ Relat√≥rios de qualidade gerados com sucesso!")
    print("\nüìä RELAT√ìRIOS DISPON√çVEIS:")
    
    for site_name, url in data_docs_sites.items():
        print(f"   üìã {site_name}: {url}")
        
    print("\nüí° Abra os URLs acima no navegador para visualizar os relat√≥rios detalhados")
    
except Exception as e:
    print(f"‚ö†Ô∏è Erro ao gerar Data Docs: {str(e)}")

# Resumo executivo
print("\nüìã RESUMO EXECUTIVO DE QUALIDADE")
print("=" * 50)
print(f"üìä Dataset Original:")
print(f"   - Registros: {len(df_clientes_pandas)}")
print(f"   - Taxa de qualidade: {validation_result.statistics['success_percent']:.1f}%")
print(f"   - Status: {'‚úÖ APROVADO' if validation_result.success else '‚ùå REPROVADO'}")

print(f"\nüìä Dataset Corrigido:")
print(f"   - Registros: {len(df_clientes_corrigido_pandas)}")
print(f"   - Taxa de qualidade: {validation_result_corrigido.statistics['success_percent']:.1f}%")
print(f"   - Status: {'‚úÖ APROVADO' if validation_result_corrigido.success else '‚ùå REPROVADO'}")

melhoria = validation_result_corrigido.statistics['success_percent'] - validation_result.statistics['success_percent']
print(f"\nüéØ Melhoria alcan√ßada: +{melhoria:.1f} pontos percentuais")

## 11. Pipeline DataOps Automatizado com Great Expectations

Vamos criar uma fun√ß√£o que integra tudo em um **pipeline DataOps** completo.

In [None]:
def pipeline_dataops_great_expectations(df_spark, context, checkpoint_name):
    """
    Pipeline DataOps completo usando Great Expectations
    """
    print("üöÄ PIPELINE DATAOPS COM GREAT EXPECTATIONS")
    print("=" * 60)
    
    pipeline_result = {
        "timestamp": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
        "status": "EXECUTANDO",
        "etapas_concluidas": [],
        "problemas_encontrados": [],
        "metricas_qualidade": {}
    }
    
    try:
        # Etapa 1: Valida√ß√£o inicial
        print("\nüìä Etapa 1: Valida√ß√£o inicial dos dados")
        df_pandas = df_spark.toPandas()
        
        checkpoint_result = context.run_checkpoint(
            checkpoint_name=checkpoint_name,
            batch_request={
                "runtime_parameters": {"batch_data": df_pandas},
                "batch_identifiers": {"default_identifier_name": "pipeline_batch"}
            }
        )
        
        validation_result = checkpoint_result.list_validation_results()[0]
        pipeline_result["etapas_concluidas"].append("validacao_inicial")
        pipeline_result["metricas_qualidade"]["inicial"] = validation_result.statistics
        
        print(f"   Taxa de qualidade inicial: {validation_result.statistics['success_percent']:.1f}%")
        
        # Etapa 2: Corre√ß√£o autom√°tica (se necess√°rio)
        if not validation_result.success:
            print("\nüîß Etapa 2: Aplicando corre√ß√µes autom√°ticas")
            df_corrigido = corrigir_dados_qualidade_gx(df_spark)
            pipeline_result["etapas_concluidas"].append("correcao_automatica")
            
            # Etapa 3: Re-valida√ß√£o
            print("\nüîç Etapa 3: Re-valida√ß√£o dos dados corrigidos")
            df_corrigido_pandas = df_corrigido.toPandas()
            
            checkpoint_result_final = context.run_checkpoint(
                checkpoint_name=checkpoint_name,
                batch_request={
                    "runtime_parameters": {"batch_data": df_corrigido_pandas},
                    "batch_identifiers": {"default_identifier_name": "pipeline_batch_final"}
                }
            )
            
            validation_result_final = checkpoint_result_final.list_validation_results()[0]
            pipeline_result["etapas_concluidas"].append("revalidacao")
            pipeline_result["metricas_qualidade"]["final"] = validation_result_final.statistics
            
            print(f"   Taxa de qualidade final: {validation_result_final.statistics['success_percent']:.1f}%")
            
            # Determinar status final
            if validation_result_final.success:
                pipeline_result["status"] = "‚úÖ SUCESSO"
                print("\nüéâ PIPELINE CONCLU√çDO COM SUCESSO!")
            else:
                pipeline_result["status"] = "‚ö†Ô∏è SUCESSO PARCIAL"
                print("\n‚ö†Ô∏è Pipeline conclu√≠do com melhorias, mas ainda h√° problemas")
        else:
            pipeline_result["status"] = "‚úÖ SUCESSO"
            print("\nüéâ DADOS J√Å EST√ÉO EM CONFORMIDADE!")
        
        # Etapa 4: Gera√ß√£o de relat√≥rios
        print("\nüìà Etapa 4: Gerando relat√≥rios de qualidade")
        context.build_data_docs()
        pipeline_result["etapas_concluidas"].append("relatorios_gerados")
        
    except Exception as e:
        pipeline_result["status"] = "‚ùå ERRO"
        pipeline_result["erro"] = str(e)
        print(f"\nüí• ERRO NO PIPELINE: {e}")
    
    return pipeline_result

# Executar pipeline completo
resultado_pipeline = pipeline_dataops_great_expectations(
    df_clientes, 
    context, 
    checkpoint_name
)

print(f"\nüìã Status final do pipeline: {resultado_pipeline['status']}")
print(f"üìÖ Timestamp: {resultado_pipeline['timestamp']}")
print(f"‚úÖ Etapas conclu√≠das: {', '.join(resultado_pipeline['etapas_concluidas'])}")

## 12. Conclus√µes e Pr√≥ximos Passos

### üéØ O que Aprendemos com Great Expectations

Neste laborat√≥rio, implementamos um **pipeline DataOps profissional** usando Great Expectations:

#### ‚úÖ Vantagens do Great Expectations:
- **Padroniza√ß√£o**: Expectativas consistentes e reutiliz√°veis
- **Automa√ß√£o**: Checkpoints para execu√ß√£o automatizada
- **Relat√≥rios**: Data Docs profissionais em HTML
- **Integra√ß√£o**: F√°cil integra√ß√£o com pipelines de dados
- **Versionamento**: Controle de vers√£o das expectativas

#### ‚úÖ 6 Dimens√µes Implementadas:
- **Completude**: `expect_column_values_to_not_be_null`
- **Unicidade**: `expect_column_values_to_be_unique`
- **Validade**: `expect_column_values_to_match_regex`, `expect_column_values_to_be_between`
- **Consist√™ncia**: `expect_column_value_lengths_to_equal`
- **Pontualidade**: `expect_column_values_to_be_between` (datas)
- **Acur√°cia**: `expect_column_values_to_not_match_regex`

#### ‚úÖ Pipeline DataOps Completo:
- **Valida√ß√£o autom√°tica** com checkpoints
- **Corre√ß√£o de dados** baseada em resultados
- **Re-valida√ß√£o** para confirmar melhorias
- **Relat√≥rios autom√°ticos** para stakeholders

### üöÄ Pr√≥ximos Passos

Para evoluir este laborat√≥rio:

1. **Integra√ß√£o com Orquestradores**:
   - Apache Airflow com Great Expectations
   - Prefect para workflows complexos

2. **Alertas Avan√ßados**:
   - Slack/Teams para notifica√ß√µes
   - Email autom√°tico para Data Stewards

3. **M√©tricas Avan√ßadas**:
   - Profiling autom√°tico de dados
   - Detec√ß√£o de drift de dados

### üí° Li√ß√µes Principais

> **"Great Expectations transforma valida√ß√µes ad-hoc em um sistema profissional de qualidade"**

- **Expectativas s√£o c√≥digo**: Version√°veis e test√°veis
- **Automa√ß√£o √© fundamental**: Checkpoints eliminam trabalho manual
- **Relat√≥rios s√£o essenciais**: Data Docs facilitam comunica√ß√£o
- **Integra√ß√£o √© chave**: Great Expectations funciona com qualquer pipeline

## üßπ Limpeza do Ambiente

In [None]:
# Finalizar Spark Session
spark.stop()
print("‚úÖ Spark Session finalizada")
print("üéì Laborat√≥rio Great Expectations conclu√≠do com sucesso!")
print("\nüìö Continue explorando Great Expectations para DataOps profissional!")
print("\nüîó Recursos adicionais:")
print("   - Documenta√ß√£o: https://docs.greatexpectations.io/")
print("   - Galeria de Expectativas: https://greatexpectations.io/expectations/")
print("   - Comunidade: https://greatexpectations.io/community/")