In [6]:
# 02_LIMPEZA_DADOS.PY - PROCESSAMENTO E VALIDAÇÃO DE DADOS
# ========================================================

import pandas as pd
import numpy as np
import zipfile
import os
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

def carregar_dados():
    """
    Carrega dados de múltiplas fontes com fallback automático
    
    Estratégia de carregamento:
    1. Arquivos ZIP compactados
    2. CSVs individuais no diretório
    3. Dataset sintético para testes
    
    Returns:
        dict: Dicionário com DataFrames das tabelas
    """
    print("PROCESSAMENTO DE DADOS - MÓDULO DE ETL")
    print("=" * 50)
    
    # Tentativa 1: Carregar de arquivos ZIP
    arquivos_zip = ['banvic_data.zip', 'dados.zip', 'data.zip']
    
    for arquivo_zip in arquivos_zip:
        if os.path.exists(arquivo_zip):
            try:
                dados = {}
                with zipfile.ZipFile(arquivo_zip, 'r') as zip_ref:
                    for arquivo in zip_ref.namelist():
                        if arquivo.endswith('.csv'):
                            nome_tabela = arquivo.replace('.csv', '').replace('/', '')
                            dados[nome_tabela] = pd.read_csv(zip_ref.open(arquivo))
                
                print(f"Fonte de dados: {arquivo_zip}")
                print(f"Tabelas carregadas: {list(dados.keys())}")
                return dados
                
            except Exception as e:
                print(f"Falha no carregamento de {arquivo_zip}: {e}")
                continue
    
    # Tentativa 2: CSVs individuais no diretório atual
    arquivos_csv = ['transacoes.csv', 'clientes.csv', 'contas.csv', 'agencias.csv']
    arquivos_encontrados = [arq for arq in arquivos_csv if os.path.exists(arq)]
    
    if arquivos_encontrados:
        try:
            dados = {}
            for arquivo in arquivos_encontrados:
                nome_tabela = arquivo.replace('.csv', '')
                dados[nome_tabela] = pd.read_csv(arquivo)
            
            print(f"CSVs processados: {arquivos_encontrados}")
            return dados
            
        except Exception as e:
            print(f"Erro no processamento dos CSVs: {e}")
    
    # Fallback: Dataset sintético para desenvolvimento
    print("Utilizando dataset sintético para desenvolvimento e testes...")
    return gerar_dataset_sintetico()

def gerar_dataset_sintetico():
    """
    Gera dataset sintético baseado no modelo de dados bancários
    Utilizado quando dados reais não estão disponíveis
    """
    np.random.seed(42)  # Seed fixo para reprodutibilidade
    
    # Geração da tabela de transações
    n_transacoes = 5000
    data_base = datetime(2022, 1, 1)
    
    transacoes = pd.DataFrame({
        'cod_transacao': range(1, n_transacoes + 1),
        'data_transacao': pd.date_range(data_base, periods=n_transacoes, freq='2H'),
        'valor_transacao': np.random.uniform(10, 5000, n_transacoes),
        'nome_transacao': np.random.choice([
            'Transferencia', 'Deposito', 'Saque', 'Pagamento', 
            'TED', 'DOC', 'Pix'
        ], n_transacoes),
        'num_conta': np.random.randint(1000, 1100, n_transacoes)
    })
    
    # Tabela de contas correntes
    contas = pd.DataFrame({
        'num_conta': range(1000, 1100),
        'cod_agencia': np.random.randint(1, 11, 100),
        'saldo_atual': np.random.uniform(100, 50000, 100),
        'data_abertura': pd.date_range('2020-01-01', periods=100, freq='3D')
    })
    
    # Cadastro de agências
    agencias = pd.DataFrame({
        'cod_agencia': range(1, 11),
        'nome_agencia': [f'Agencia_{i}' for i in range(1, 11)],
        'cidade': np.random.choice(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte'], 10)
    })
    
    # Base de clientes
    clientes = pd.DataFrame({
        'cod_cliente': range(1, 101),
        'nome_cliente': [f'Cliente_{i}' for i in range(1, 101)],
        'idade': np.random.randint(18, 80, 100),
        'data_nascimento': pd.date_range('1943-01-01', '2005-01-01', periods=100)
    })
    
    return {
        'transacoes': transacoes,
        'contas': contas,
        'agencias': agencias,
        'clientes': clientes
    }

def processar_coluna_temporal(df, nome_coluna):
    """
    Padroniza e valida colunas com dados temporais
    
    Args:
        df: DataFrame de origem
        nome_coluna: Nome da coluna a ser processada
    
    Returns:
        bool: Status da operação (True=sucesso, False=falha)
    """
    try:
        print(f"   Processando: {nome_coluna}")
        print(f"   Tipo atual: {df[nome_coluna].dtype}")
        
        # Verificar se já está no formato correto
        if pd.api.types.is_datetime64_any_dtype(df[nome_coluna]):
            print(f"   Status: Formato datetime já aplicado")
            return True
        
        # Aplicar conversão para datetime
        df[nome_coluna] = pd.to_datetime(df[nome_coluna], errors='coerce')
        
        # Validar resultado da conversão
        registros_validos = df[nome_coluna].notna().sum()
        if registros_validos > 0:
            print(f"   Status: Conversão realizada ({registros_validos} registros válidos)")
            data_min = df[nome_coluna].min()
            data_max = df[nome_coluna].max()
            print(f"   Intervalo temporal: {data_min} até {data_max}")
            return True
        else:
            print(f"   Erro: Conversão resultou em dados inválidos")
            return False
            
    except Exception as e:
        print(f"   Erro crítico na conversão: {e}")
        return False

def executar_limpeza_dados():
    """
    Coordena o processo completo de limpeza e validação dos dados
    
    Operações executadas:
    - Carregamento de dados
    - Padronização de colunas temporais
    - Remoção de registros duplicados
    - Análise de qualidade dos dados
    - Validação final
    """
    print("\nMÓDULO DE LIMPEZA E VALIDAÇÃO")
    print("=" * 50)
    
    # Carregar dados das fontes disponíveis
    dados = carregar_dados()
    
    if dados is None:
        print("ERRO CRÍTICO: Falha no carregamento dos dados")
        return None
    
    print(f"\nIniciando processamento de {len(dados)} tabelas...")
    
    # Processar cada tabela individualmente
    for nome_tabela, df in dados.items():
        print(f"\nTabela: {nome_tabela}")
        print(f"   Dimensões iniciais: {df.shape}")
        
        # Identificar e processar colunas temporais
        colunas_temporais = [col for col in df.columns if 'data' in col.lower()]
        if colunas_temporais:
            for coluna in colunas_temporais:
                processar_coluna_temporal(df, coluna)
        
        # Remover registros duplicados
        registros_iniciais = df.shape[0]
        df.drop_duplicates(inplace=True)
        registros_finais = df.shape[0]
        duplicatas_removidas = registros_iniciais - registros_finais
        
        if duplicatas_removidas > 0:
            print(f"   Duplicatas eliminadas: {duplicatas_removidas}")
        
        # Análise de completude dos dados
        valores_nulos = df.isnull().sum().sum()
        if valores_nulos > 0:
            print(f"   Valores missing detectados: {valores_nulos}")
        
        print(f"   Dimensões finais: {df.shape}")
    
    print("\n" + "="*50)
    print("PROCESSAMENTO CONCLUÍDO")
    print("="*50)
    
    # Validação específica para dados transacionais
    if 'transacoes' in dados:
        trans = dados['transacoes']
        if 'data_transacao' in trans.columns:
            if pd.api.types.is_datetime64_any_dtype(trans['data_transacao']):
                print("\nValidação: Dataset transacional aprovado para análise")
                print(f"Período coberto: {trans['data_transacao'].min()} até {trans['data_transacao'].max()}")
                print(f"Volume de transações: {len(trans):,}")
            else:
                print("\nAtenção: Dados transacionais necessitam de tratamento adicional")
    
    return dados

# Execução principal do módulo
if __name__ == "__main__":
    # Executar pipeline de limpeza
    dados_processados = executar_limpeza_dados()
    
    if dados_processados:
        print(f"\nSUCESSO: {len(dados_processados)} tabelas processadas e validadas")
        
        # Disponibilizar dados no namespace global
        globals()['dados'] = dados_processados
        
        print("\nVariável 'dados' disponibilizada para módulos subsequentes")
        print("Pipeline pronto para fase de análise exploratória")
    else:
        print("\nFALHA: Pipeline de processamento interrompido")

# Compatibilidade com ambiente Jupyter
try:
    if 'get_ipython' in globals():
        dados = executar_limpeza_dados()
        if dados:
            print("\nDados integrados ao ambiente Jupyter (variável 'dados')")
except:
    pass


MÓDULO DE LIMPEZA E VALIDAÇÃO
PROCESSAMENTO DE DADOS - MÓDULO DE ETL
Utilizando dataset sintético para desenvolvimento e testes...

Iniciando processamento de 4 tabelas...

Tabela: transacoes
   Dimensões iniciais: (5000, 5)
   Processando: data_transacao
   Tipo atual: datetime64[ns]
   Status: Formato datetime já aplicado
   Dimensões finais: (5000, 5)

Tabela: contas
   Dimensões iniciais: (100, 4)
   Processando: data_abertura
   Tipo atual: datetime64[ns]
   Status: Formato datetime já aplicado
   Dimensões finais: (100, 4)

Tabela: agencias
   Dimensões iniciais: (10, 3)
   Dimensões finais: (10, 3)

Tabela: clientes
   Dimensões iniciais: (100, 4)
   Processando: data_nascimento
   Tipo atual: datetime64[ns]
   Status: Formato datetime já aplicado
   Dimensões finais: (100, 4)

PROCESSAMENTO CONCLUÍDO

Validação: Dataset transacional aprovado para análise
Período coberto: 2022-01-01 00:00:00 até 2023-02-21 14:00:00
Volume de transações: 5,000

SUCESSO: 4 tabelas processadas e v