# üöÄ Lab DataOps: Governan√ßa e Qualidade de Dados com Great Expectations

## Objetivos do Laborat√≥rio

Neste laborat√≥rio pr√°tico, voc√™ ir√°:
- Implementar **testes de qualidade de dados** automatizados com **Great Expectations**
- Aplicar as **6 dimens√µes da qualidade** na pr√°tica
- Criar um **pipeline DataOps** com valida√ß√µes profissionais
- Simular cen√°rios reais de **governan√ßa de dados**
- Gerar **relat√≥rios de qualidade** automatizados

### Conceitos Aplicados
- **DataOps**: Automa√ß√£o e monitoramento cont√≠nuo
- **Governan√ßa**: Regras, pol√≠ticas e responsabilidades
- **Qualidade**: Acur√°cia, Completude, Consist√™ncia, Pontualidade, Unicidade e Validade
- **Great Expectations**: Framework profissional para valida√ß√£o de dados

## 1. Configura√ß√£o do Ambiente

In [None]:
import pandas as pd
from datetime import datetime, timedelta
import os

# Great Expectations imports
try:
    import great_expectations as gx
    print(f"‚úÖ Great Expectations vers√£o: {gx.__version__}")
except ImportError:
    print("‚ùå Great Expectations n√£o encontrado. Instalando...")
    !pip install great-expectations==0.18.8 sqlalchemy==1.4.46
    import great_expectations as gx
    print(f"‚úÖ Great Expectations instalado: {gx.__version__}")

print("üìä Ambiente configurado com sucesso!")

## 2. Cria√ß√£o de Dados de Exemplo

In [None]:
# Dados simulados com problemas de qualidade intencionais
dados_clientes = {
    'id_cliente': [1, 2, 3, 4, 1, 5, 6, 7, 8, 9],  # Duplicata no ID 1
    'nome': ['Jo√£o Silva', 'Maria Santos', 'Pedro', 'Ana Costa', 'Jo√£o Silva', '', 'Lucia Oliveira', 'Roberto Lima', 'Fernanda', 'Marcos Pereira'],
    'email': ['joao@email.com', 'maria.santos@gmail.com', 'pedro@invalid', 'ana@email.com', 'joao@email.com', 'carlos@email.com', 'lucia@email.com', 'roberto@email.com', None, 'marcos@email.com'],
    'telefone': ['11999887766', '11888776655', '119999', '11777665544', '11999887766', '11666554433', '11555443322', '11444332211', '11333221100', '11222110099'],
    'data_cadastro': ['2023-01-15', '2023-02-20', '2023-03-10', '2023-04-05', '2023-01-15', '2023-05-12', '2022-12-01', '2023-06-18', '2023-07-22', '2023-08-30'],
    'status': ['Ativo', 'Ativo', 'Inativo', 'Ativo', 'Ativo', 'Pendente', 'Ativo', 'Cancelado', 'Ativo', 'Ativo'],
    'idade': [25, 32, 150, 28, 25, None, 45, 38, 29, -5],  # Problemas: 150 (imposs√≠vel), None, -5 (negativa)
    'estado': ['SP', 'RJ', 'MG', 'SP', 'SP', 'RS', 'BA', 'PR', 'SC', 'GO']
}

df_clientes = pd.DataFrame(dados_clientes)
print("üìã Dataset de clientes criado com problemas de qualidade intencionais")
print(f"üìä Total de registros: {len(df_clientes)}")
display(df_clientes)

## 3. Configura√ß√£o do Great Expectations

In [None]:
# Configurar diret√≥rio do Great Expectations
project_dir = "/tmp/gx_lab_dataops"
os.makedirs(project_dir, exist_ok=True)
os.chdir(project_dir)

# Inicializar Data Context do Great Expectations
try:
    context = gx.get_context()
    print("üìÅ Contexto Great Expectations carregado")
except:
    context = gx.get_context(project_root_dir=project_dir)
    print("üìÅ Novo contexto Great Expectations criado")

print(f"‚úÖ Great Expectations configurado")
print(f"üìä Dataset preparado: {len(df_clientes)} registros")

## 4. Cria√ß√£o de Expectativas de Qualidade

In [None]:
# Criar validator usando a API simplificada
try:
    validator = context.sources.pandas_default.read_dataframe(df_clientes)
    print("‚úÖ Validator criado com sucesso")
except Exception as e:
    print(f"‚ö†Ô∏è Erro: {e}")
    print("üîß Tentando m√©todo alternativo...")
    # M√©todo alternativo mais b√°sico
    validator = gx.validator.validator.Validator(
        execution_engine=gx.execution_engine.PandasExecutionEngine(),
        interactive_evaluation=True
    )
    validator.load_batch_list([gx.core.batch.Batch(data=df_clientes)])
    print("‚úÖ Validator criado com m√©todo alternativo")

## 5. Definindo Expectativas das 6 Dimens√µes da Qualidade

In [None]:
print("üéØ CRIANDO EXPECTATIVAS DAS 6 DIMENS√ïES DA QUALIDADE")
print("=" * 60)

# 1. COMPLETUDE (Completeness) - Campos n√£o podem ser nulos
print("\nüìä 1. COMPLETUDE - Campos obrigat√≥rios")
validator.expect_column_values_to_not_be_null("id_cliente")
validator.expect_column_values_to_not_be_null("nome")
validator.expect_column_values_to_not_be_null("email")
print("   ‚úÖ Expectativas de completude criadas")

# 2. UNICIDADE (Uniqueness) - Valores √∫nicos
print("\nüîë 2. UNICIDADE - Chaves √∫nicas")
validator.expect_column_values_to_be_unique("id_cliente")
validator.expect_column_values_to_be_unique("email")
print("   ‚úÖ Expectativas de unicidade criadas")

# 3. VALIDADE (Validity) - Formatos e dom√≠nios
print("\n‚úÖ 3. VALIDADE - Formatos e dom√≠nios")
# Email v√°lido
validator.expect_column_values_to_match_regex(
    "email", 
    r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"
)
# Idade v√°lida (0-120)
validator.expect_column_values_to_be_between("idade", min_value=0, max_value=120)
# Status v√°lido
validator.expect_column_values_to_be_in_set("status", ["Ativo", "Inativo", "Pendente"])
print("   ‚úÖ Expectativas de validade criadas")

# 4. CONSIST√äNCIA (Consistency) - Regras de neg√≥cio
print("\nüîÑ 4. CONSIST√äNCIA - Regras de neg√≥cio")
# Telefone deve ter 11 d√≠gitos
validator.expect_column_value_lengths_to_equal("telefone", 11)
# Data de cadastro n√£o pode ser futura
validator.expect_column_values_to_be_dateutil_parseable("data_cadastro")
print("   ‚úÖ Expectativas de consist√™ncia criadas")

# 5. PONTUALIDADE (Timeliness) - Dados atuais
print("\n‚è∞ 5. PONTUALIDADE - Dados atuais")
# Data de cadastro deve ser dos √∫ltimos 2 anos
data_limite = (datetime.now() - timedelta(days=730)).strftime("%Y-%m-%d")
validator.expect_column_values_to_be_between(
    "data_cadastro", 
    min_value=data_limite, 
    max_value=datetime.now().strftime("%Y-%m-%d")
)
print("   ‚úÖ Expectativas de pontualidade criadas")

# 6. ACUR√ÅCIA (Accuracy) - Dados corretos
print("\nüéØ 6. ACUR√ÅCIA - Dados corretos")
# Nome n√£o pode ser vazio
validator.expect_column_values_to_not_match_regex("nome", r"^\s*$")
# Estado deve ser sigla v√°lida (2 caracteres)
validator.expect_column_value_lengths_to_equal("estado", 2)
print("   ‚úÖ Expectativas de acur√°cia criadas")

print("\nüíæ Todas as expectativas criadas com sucesso!")

## 6. Execu√ß√£o das Valida√ß√µes

In [None]:
# Executar valida√ß√µes
print("üîç EXECUTANDO VALIDA√á√ïES DE QUALIDADE")
print("=" * 50)

# Validar os dados
validation_result = validator.validate()

# Analisar resultados
print(f"\nüìä RESULTADOS DA VALIDA√á√ÉO:")
print(f"   Total de expectativas: {validation_result.statistics['evaluated_expectations']}")
print(f"   Expectativas que passaram: {validation_result.statistics['successful_expectations']}")
print(f"   Expectativas que falharam: {validation_result.statistics['unsuccessful_expectations']}")
print(f"   Taxa de sucesso: {validation_result.statistics['success_percent']:.1f}%")

# Status geral
if validation_result.success:
    print("\n‚úÖ VALIDA√á√ÉO PASSOU - Dados dentro dos padr√µes de qualidade")
else:
    print("\n‚ùå VALIDA√á√ÉO FALHOU - Problemas de qualidade detectados")
    print("\nüö® PROBLEMAS ENCONTRADOS:")
    
    for result in validation_result.results:
        if not result.success:
            expectation_type = result.expectation_config.expectation_type
            column = result.expectation_config.kwargs.get('column', 'N/A')
            print(f"   ‚ùå {expectation_type} - Coluna: {column}")
            if 'partial_unexpected_count' in result.result:
                print(f"      Registros com problema: {result.result['partial_unexpected_count']}")

## 7. Corre√ß√£o de Dados e Re-valida√ß√£o

In [None]:
def corrigir_dados_qualidade(df):
    """
    Aplica corre√ß√µes baseadas nos resultados das valida√ß√µes
    """
    print("üîß APLICANDO CORRE√á√ïES DE QUALIDADE")
    print("=" * 50)
    
    df_corrigido = df.copy()
    
    # 1. Remover duplicatas (manter primeira ocorr√™ncia)
    antes = len(df_corrigido)
    df_corrigido = df_corrigido.drop_duplicates(subset=['id_cliente'], keep='first')
    print(f"‚úÖ Duplicatas removidas: {antes - len(df_corrigido)} registros")
    
    # 2. Corrigir idades inv√°lidas
    df_corrigido.loc[(df_corrigido['idade'] < 0) | (df_corrigido['idade'] > 120), 'idade'] = None
    print("‚úÖ Idades inv√°lidas corrigidas")
    
    # 3. Padronizar status
    df_corrigido.loc[df_corrigido['status'] == 'Cancelado', 'status'] = 'Inativo'
    print("‚úÖ Status padronizados")
    
    # 4. Remover registros com campos cr√≠ticos vazios
    antes = len(df_corrigido)
    df_corrigido = df_corrigido.dropna(subset=['nome', 'email'])
    df_corrigido = df_corrigido[df_corrigido['nome'].str.strip() != '']
    print(f"‚úÖ Registros com campos cr√≠ticos vazios removidos: {antes - len(df_corrigido)} registros")
    
    print(f"\nüìä Registros ap√≥s corre√ß√£o: {len(df_corrigido)}")
    return df_corrigido

# Aplicar corre√ß√µes
df_clientes_corrigido = corrigir_dados_qualidade(df_clientes)

print("\nüìã Dados ap√≥s corre√ß√£o:")
display(df_clientes_corrigido)

## 8. Re-valida√ß√£o com Dados Corrigidos

In [None]:
print("üîÑ RE-VALIDA√á√ÉO COM DADOS CORRIGIDOS")
print("=" * 50)

# Criar novo validator com dados corrigidos
try:
    validator_corrigido = context.sources.pandas_default.read_dataframe(df_clientes_corrigido)
    print("‚úÖ Novo validator criado")
except Exception as e:
    print(f"‚ö†Ô∏è Usando m√©todo alternativo: {str(e)[:50]}...")
    validator_corrigido = gx.validator.validator.Validator(
        execution_engine=gx.execution_engine.PandasExecutionEngine(),
        interactive_evaluation=True
    )
    validator_corrigido.load_batch_list([gx.core.batch.Batch(data=df_clientes_corrigido)])

# Aplicar as mesmas expectativas
print("üéØ Aplicando expectativas aos dados corrigidos...")

# Completude
validator_corrigido.expect_column_values_to_not_be_null("id_cliente")
validator_corrigido.expect_column_values_to_not_be_null("nome")
validator_corrigido.expect_column_values_to_not_be_null("email")

# Unicidade
validator_corrigido.expect_column_values_to_be_unique("id_cliente")
validator_corrigido.expect_column_values_to_be_unique("email")

# Validade
validator_corrigido.expect_column_values_to_match_regex("email", r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$")
validator_corrigido.expect_column_values_to_be_between("idade", min_value=0, max_value=120)
validator_corrigido.expect_column_values_to_be_in_set("status", ["Ativo", "Inativo", "Pendente"])

# Consist√™ncia
validator_corrigido.expect_column_value_lengths_to_equal("telefone", 11)
validator_corrigido.expect_column_values_to_be_dateutil_parseable("data_cadastro")

# Pontualidade
data_limite = (datetime.now() - timedelta(days=730)).strftime("%Y-%m-%d")
validator_corrigido.expect_column_values_to_be_between("data_cadastro", min_value=data_limite, max_value=datetime.now().strftime("%Y-%m-%d"))

# Acur√°cia
validator_corrigido.expect_column_values_to_not_match_regex("nome", r"^\s*$")
validator_corrigido.expect_column_value_lengths_to_equal("estado", 2)

# Executar valida√ß√£o
validation_result_corrigido = validator_corrigido.validate()

# Comparar resultados
print("\nüìä COMPARA√á√ÉO DE RESULTADOS")
print("=" * 40)
print(f"DADOS ORIGINAIS:")
print(f"   Taxa de sucesso: {validation_result.statistics['success_percent']:.1f}%")
print(f"   Expectativas que falharam: {validation_result.statistics['unsuccessful_expectations']}")

print(f"\nDADOS CORRIGIDOS:")
print(f"   Taxa de sucesso: {validation_result_corrigido.statistics['success_percent']:.1f}%")
print(f"   Expectativas que falharam: {validation_result_corrigido.statistics['unsuccessful_expectations']}")

if validation_result_corrigido.success:
    print("\nüéâ SUCESSO! Dados corrigidos passaram em todas as valida√ß√µes")
else:
    print("\n‚ö†Ô∏è Ainda existem problemas nos dados corrigidos")
    
melhoria = validation_result_corrigido.statistics['success_percent'] - validation_result.statistics['success_percent']
print(f"\nüéØ Melhoria alcan√ßada: +{melhoria:.1f} pontos percentuais")

## 9. Gera√ß√£o de Relat√≥rios de Qualidade

In [None]:
# Gerar Data Docs (relat√≥rios HTML)
print("üìà GERANDO RELAT√ìRIOS DE QUALIDADE (DATA DOCS)")
print("=" * 50)

try:
    # Construir Data Docs
    context.build_data_docs()
    
    # Obter URLs dos relat√≥rios
    data_docs_sites = context.get_docs_sites_urls()
    
    print("‚úÖ Relat√≥rios de qualidade gerados com sucesso!")
    print("\nüìä RELAT√ìRIOS DISPON√çVEIS:")
    
    for site_name, url in data_docs_sites.items():
        print(f"   üìã {site_name}: {url}")
        
    print("\nüí° Abra os URLs acima no navegador para visualizar os relat√≥rios detalhados")
    
except Exception as e:
    print(f"‚ö†Ô∏è Erro ao gerar Data Docs: {str(e)}")

# Resumo executivo
print("\nüìã RESUMO EXECUTIVO DE QUALIDADE")
print("=" * 50)
print(f"üìä Dataset Original:")
print(f"   - Registros: {len(df_clientes)}")
print(f"   - Taxa de qualidade: {validation_result.statistics['success_percent']:.1f}%")
print(f"   - Status: {'‚úÖ APROVADO' if validation_result.success else '‚ùå REPROVADO'}")

print(f"\nüìä Dataset Corrigido:")
print(f"   - Registros: {len(df_clientes_corrigido)}")
print(f"   - Taxa de qualidade: {validation_result_corrigido.statistics['success_percent']:.1f}%")
print(f"   - Status: {'‚úÖ APROVADO' if validation_result_corrigido.success else '‚ùå REPROVADO'}")

melhoria = validation_result_corrigido.statistics['success_percent'] - validation_result.statistics['success_percent']
print(f"\nüéØ Melhoria alcan√ßada: +{melhoria:.1f} pontos percentuais")

## 10. Conclus√µes

### üéØ O que Aprendemos com Great Expectations

Neste laborat√≥rio, implementamos um **pipeline DataOps profissional** usando Great Expectations:

#### ‚úÖ Vantagens do Great Expectations:
- **Padroniza√ß√£o**: Expectativas consistentes e reutiliz√°veis
- **Automa√ß√£o**: Valida√ß√µes automatizadas
- **Relat√≥rios**: Data Docs profissionais em HTML
- **Integra√ß√£o**: F√°cil integra√ß√£o com pipelines de dados
- **Versionamento**: Controle de vers√£o das expectativas

#### ‚úÖ 6 Dimens√µes Implementadas:
- **Completude**: `expect_column_values_to_not_be_null`
- **Unicidade**: `expect_column_values_to_be_unique`
- **Validade**: `expect_column_values_to_match_regex`, `expect_column_values_to_be_between`
- **Consist√™ncia**: `expect_column_value_lengths_to_equal`
- **Pontualidade**: `expect_column_values_to_be_between` (datas)
- **Acur√°cia**: `expect_column_values_to_not_match_regex`

### üí° Li√ß√µes Principais

> **"Great Expectations transforma valida√ß√µes ad-hoc em um sistema profissional de qualidade"**

- **Expectativas s√£o c√≥digo**: Version√°veis e test√°veis
- **Automa√ß√£o √© fundamental**: Elimina trabalho manual
- **Relat√≥rios s√£o essenciais**: Facilitam comunica√ß√£o
- **Integra√ß√£o √© chave**: Funciona com qualquer pipeline