# Explora√ß√£o de Dados - TechCommerce DataOps

## An√°lise Explorat√≥ria dos Datasets Brutos

Este notebook realiza uma an√°lise completa dos datasets raw antes da limpeza autom√°tica, identificando problemas de qualidade nas 6 dimens√µes (Completude, Unicidade, Validade, Consist√™ncia, Acur√°cia, Temporalidade).

In [None]:
# 1. IMPORTAR BIBLIOTECAS NECESS√ÅRIAS
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import re
from datetime import datetime
import warnings

warnings.filterwarnings('ignore')

# Configurar estilo
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("‚úì Bibliotecas importadas com sucesso")
print(f"Pandas: {pd.__version__}")
print(f"NumPy: {np.__version__}")

## 2. Configura√ß√£o de Caminhos e Fun√ß√µes Auxiliares

In [None]:
# Definir caminhos
PROJECT_ROOT = '/workspaces/dataops-governance-lab/desafio_techcommerce'
RAW_DATA_PATH = os.path.join(PROJECT_ROOT, 'data', 'raw')
PROCESSED_DATA_PATH = os.path.join(PROJECT_ROOT, 'data', 'processed')
QUALITY_DATA_PATH = os.path.join(PROJECT_ROOT, 'data', 'quality')

print(f"Project Root: {PROJECT_ROOT}")
print(f"Raw Data Path: {RAW_DATA_PATH}")

# Fun√ß√£o para an√°lise de qualidade
def analise_qualidade(df, dataset_name):
    """Analisa qualidade de um dataset nas 6 dimens√µes."""
    print(f"\n{'='*70}")
    print(f"AN√ÅLISE DE QUALIDADE: {dataset_name.upper()}")
    print(f"{'='*70}")
    
    print(f"\nüìä DIMENS√ïES DA QUALIDADE:")
    print(f"{'Dimens√£o':<20} {'M√©trica':<30} {'Valor':<15}")
    print("-" * 65)
    
    # 1. COMPLETUDE (NOT NULL)
    completude = (1 - df.isnull().sum().sum() / (len(df) * len(df.columns))) * 100
    print(f"{'Completude':<20} {'% Campos Preenchidos':<30} {completude:.1f}%")
    
    # 2. UNICIDADE (Duplicatas)
    duplicatas = len(df) - len(df.drop_duplicates())
    pct_dup = (duplicatas / len(df)) * 100 if len(df) > 0 else 0
    print(f"{'Unicidade':<20} {'% Registros Duplicados':<30} {pct_dup:.1f}%")
    
    # 3. VALIDADE (Tipos e formatos)
    print(f"{'Validade':<20} {'Problemas Detectados':<30} {'Verificar abaixo':<15}")
    
    # 4. CONSIST√äNCIA (FK, relacionamentos)
    print(f"{'Consist√™ncia':<20} {'Relacionamentos':<30} {'Verificar abaixo':<15}")
    
    # 5. ACUR√ÅCIA (Valores calculados)
    print(f"{'Acur√°cia':<20} {'Valores Derivados':<30} {'Verificar abaixo':<15}")
    
    # 6. TEMPORALIDADE (Datas)
    print(f"{'Temporalidade':<20} {'Datas V√°lidas':<30} {'Verificar abaixo':<15}")
    
    return completude, pct_dup

## 3. Carregar Datasets Raw

In [None]:
# Carregar datasets
print("Carregando datasets raw...\n")

df_clientes_raw = pd.read_csv(os.path.join(RAW_DATA_PATH, 'clientes.csv'), sep=',')
df_produtos_raw = pd.read_csv(os.path.join(RAW_DATA_PATH, 'produtos.csv'), sep=',')
df_vendas_raw = pd.read_csv(os.path.join(RAW_DATA_PATH, 'vendas.csv'), sep=',')
df_logistica_raw = pd.read_csv(os.path.join(RAW_DATA_PATH, 'logistica.csv'), sep=',')

datasets = {
    'clientes': df_clientes_raw,
    'produtos': df_produtos_raw,
    'vendas': df_vendas_raw,
    'logistica': df_logistica_raw
}

# Resumo dos datasets
print("RESUMO DOS DATASETS:")
print("=" * 70)
for name, df in datasets.items():
    print(f"{name.ljust(15)}: {len(df)} linhas √ó {len(df.columns)} colunas")
    print(f"  Colunas: {', '.join(df.columns.tolist())}")
    print(f"  Mem√≥ria: {df.memory_usage(deep=True).sum() / 1024:.2f} KB\n")

## 4. An√°lise Detalhada por Dataset

In [None]:
# An√°lise CLIENTES
print("\n" + "="*70)
print("DATASET: CLIENTES")
print("="*70)

print("\nüìã PREVIEW:")
print(df_clientes_raw.to_string())

print("\nüìä AN√ÅLISE DE QUALIDADE:")
print(f"Completude por coluna:")
for col in df_clientes_raw.columns:
    completude = (1 - df_clientes_raw[col].isnull().sum() / len(df_clientes_raw)) * 100
    print(f"  {col:<20}: {completude:.1f}%")

print(f"\n‚ùå PROBLEMAS DETECTADOS:")
print(f"  1. Duplicata: id_cliente=1 aparece {len(df_clientes_raw[df_clientes_raw['id_cliente'] == 1])}x")
print(f"  2. Email vazio: {df_clientes_raw['email'].isnull().sum()} registros")
print(f"  3. Email inv√°lido: pedro@invalid n√£o segue padr√£o")
print(f"  4. Nome vazio: {df_clientes_raw['nome'].isnull().sum()} registros")
print(f"  5. Telefone incompleto: 119999 (< 11 d√≠gitos)")

analise_qualidade(df_clientes_raw, 'clientes')

In [None]:
# An√°lise PRODUTOS
print("\n" + "="*70)
print("DATASET: PRODUTOS")
print("="*70)

print("\nüìã PREVIEW:")
print(df_produtos_raw.to_string())

print("\nüìä AN√ÅLISE DE QUALIDADE:")
for col in df_produtos_raw.columns:
    completude = (1 - df_produtos_raw[col].isnull().sum() / len(df_produtos_raw)) * 100
    print(f"  {col:<20}: {completude:.1f}%")

print(f"\n‚ùå PROBLEMAS DETECTADOS:")
print(f"  1. Duplicata: id_produto=105 √© duplicado de 101")
print(f"  2. Categoria vazia: {df_produtos_raw['categoria'].isnull().sum()} registros")
print(f"  3. Pre√ßo negativo: -29.99")
print(f"  4. Estoque zero: {(df_produtos_raw['estoque'].astype(float) == 0).sum()} produtos")

analise_qualidade(df_produtos_raw, 'produtos')

In [None]:
# An√°lise VENDAS
print("\n" + "="*70)
print("DATASET: VENDAS")
print("="*70)

print("\nüìã PREVIEW:")
print(df_vendas_raw.to_string())

print("\nüìä AN√ÅLISE DE QUALIDADE:")
for col in df_vendas_raw.columns:
    completude = (1 - df_vendas_raw[col].isnull().sum() / len(df_vendas_raw)) * 100
    print(f"  {col:<20}: {completude:.1f}%")

print(f"\n‚ùå PROBLEMAS DETECTADOS:")
print(f"  1. FK inv√°lida: id_cliente=999 n√£o existe em clientes")
print(f"  2. Quantidade negativa: {(pd.to_numeric(df_vendas_raw['quantidade'], errors='coerce') < 0).sum()}")
print(f"  3. Valor total incorreto: venda 1003 (3 √ó 29.99 = 89.97, mas tem 89.97 ‚úì)")
print(f"  4. Data futura: 2024-12-31 (data_venda > hoje)")
print(f"  5. Valor negativo: -199.99")

analise_qualidade(df_vendas_raw, 'vendas')

In [None]:
# An√°lise LOG√çSTICA
print("\n" + "="*70)
print("DATASET: LOG√çSTICA")
print("="*70)

print("\nüìã PREVIEW:")
print(df_logistica_raw.to_string())

print("\nüìä AN√ÅLISE DE QUALIDADE:")
for col in df_logistica_raw.columns:
    completude = (1 - df_logistica_raw[col].isnull().sum() / len(df_logistica_raw)) * 100
    print(f"  {col:<20}: {completude:.1f}%")

print(f"\n‚ùå PROBLEMAS DETECTADOS:")
print(f"  1. Data vazia: {df_logistica_raw['data_envio'].isnull().sum()} registros")
print(f"  2. FK inv√°lida: id_venda=1003,1004 em vendas com problemas")
print(f"  3. Datas inconsistentes: data_entrega < data_envio")
print(f"  4. Status vazio: {df_logistica_raw['status_entrega'].isnull().sum() + (df_logistica_raw['status_entrega'] == '').sum()}")

analise_qualidade(df_logistica_raw, 'logistica')

## 5. Resumo de Problemas e Pr√≥ximos Passos

In [None]:
# Criar resumo consolidado
problemas_resumo = {
    'Dataset': ['Clientes', 'Produtos', 'Vendas', 'Log√≠stica'],
    'Duplicatas': [1, 1, 0, 0],
    'Campos Nulos': [2, 1, 0, 2],
    'Valores Inv√°lidos': [3, 2, 4, 1],
    'FKs Inv√°lidas': [0, 0, 1, 1],
    'Datas Futuras': [0, 0, 1, 0],
    'Total Problemas': [6, 4, 6, 4]
}

df_resumo = pd.DataFrame(problemas_resumo)
print("\n" + "="*70)
print("RESUMO DE PROBLEMAS POR DATASET")
print("="*70)
print(df_resumo.to_string(index=False))

print("\nüìà IMPACTO ESTIMADO:")
print(f"  ‚Ä¢ Clientes: 5 de 5 registros afetados (100%)")
print(f"  ‚Ä¢ Produtos: 5 de 5 registros afetados (100%)")
print(f"  ‚Ä¢ Vendas: 5 de 5 registros afetados (100%)")
print(f"  ‚Ä¢ Log√≠stica: 4 de 4 registros afetados (100%)")

print(f"\nüéØ PR√ìXIMOS PASSOS:")
print(f"  1. Executar pipeline_ingestao.py para limpeza autom√°tica")
print(f"  2. Validar com Great Expectations (43 expectations)")
print(f"  3. Gerar Data Docs para visualiza√ß√£o de resultados")
print(f"  4. Monitorar m√©tricas cont√≠nuas de qualidade")

# Salvar resumo
df_resumo.to_csv(os.path.join(QUALITY_DATA_PATH, 'df_summary_problemas.csv'), index=False)
print(f"\n‚úì Resumo salvo em: {QUALITY_DATA_PATH}/df_summary_problemas.csv")