In [1]:
# Parâmetros do pipeline
bucket_name = 'experimento-lucas-barbosa'
input_config_path = 'config.json'
output_validation_file = 'validacao_resultado.json'
pasta_raw = 'raw/'

In [2]:
import boto3
import pandas as pd
import json
import os
from datetime import datetime

In [3]:
print(f"Início da validação: {datetime.now()}")
print(f"Usando configuração: {input_config_path}")
print(f"Bucket: {bucket_name}")

Início da validação: 2025-07-22 14:14:52.159581
Usando configuração: config.json
Bucket: experimento-lucas-barbosa


In [4]:
# Baixar e carregar configuração
s3 = boto3.client('s3')
s3.download_file('experimento-lucas-barbosa', 'config/config.json', 'config.json')

with open('config.json', 'r') as f:
    config = json.load(f)

print(f"Configuração carregada: {config}")

# Extrair variáveis do config para usar nas funções
COLUNAS_OBRIGATORIAS = config['colunas_obrigatorias']
GRUPO_CONTROLE = config['grupo_controle']
print(f"Colunas obrigatórias: {COLUNAS_OBRIGATORIAS}")
print(f"Grupo controle: {GRUPO_CONTROLE}")

Configuração carregada: {'bucket_name': 'experimento-lucas-barbosa', 'pasta_raw': 'raw/', 'pasta_processed': 'processed/', 'pasta_archive': 'archive/', 'colunas_obrigatorias': ['id_experimento', 'id_customer', 'grupo', 'uso', 'valor', 'timestamp'], 'grupo_controle': 'GC'}
Colunas obrigatórias: ['id_experimento', 'id_customer', 'grupo', 'uso', 'valor', 'timestamp']
Grupo controle: GC


In [5]:
# Função para validar arquivo
def validar_arquivo(df, nome):
    erros = []
    
    # Verificar colunas obrigatórias
    faltam = set(COLUNAS_OBRIGATORIAS) - set(df.columns)
    if faltam:
        erros.append(f"Colunas faltando: {faltam}")
    
    # Verificar se tem grupo controle
    if 'grupo' in df.columns and GRUPO_CONTROLE not in df['grupo'].values:
        erros.append(f"Grupo controle '{GRUPO_CONTROLE}' não encontrado")
    
    # Verificar se não está vazio
    if len(df) == 0:
        erros.append("Arquivo vazio")
    
    # Verificar valores nulos em colunas críticas
    colunas_criticas = ['id_experimento', 'id_customer', 'grupo']
    for col in colunas_criticas:
        if col in df.columns and df[col].isnull().any():
            erros.append(f"Valores nulos encontrados na coluna '{col}'")
    
    return len(erros) == 0, erros

In [6]:
# Conectar ao S3 e listar arquivos
response = s3.list_objects_v2(Bucket=bucket_name, Prefix=pasta_raw)
arquivos_novos = []
arquivos_processados = []

if 'Contents' in response:
    for obj in response['Contents']:
        key = obj['Key']
        if key.endswith('.csv') and key != pasta_raw:
            nome = key.split('/')[-1]
            # Verificar se já foi processado (sem try/except)
            head_key = f"{config['pasta_processed']}metricas_{nome}"
            
            # Usar head_object diretamente - se falhar, arquivo não foi processado
            try:
                s3.head_object(Bucket=bucket_name, Key=head_key)
                arquivos_processados.append(nome)
            except s3.exceptions.NoSuchKey:
                arquivos_novos.append(key)
            except Exception:
                # Se der outro erro, considera como não processado
                arquivos_novos.append(key)

print(f"Novos arquivos a validar: {len(arquivos_novos)}")
print(f"Arquivos já processados: {len(arquivos_processados)}")
if arquivos_novos:
    print(f"Arquivos novos: {[k.split('/')[-1] for k in arquivos_novos]}")

Novos arquivos a validar: 2
Arquivos já processados: 0
Arquivos novos: ['experimento_teste.csv', 'experimento_teste_2.csv']


In [7]:
# Validar e salvar resultado
resultado = {
    'timestamp': datetime.now().isoformat(),
    'arquivos_validos': [],
    'arquivos_invalidos': []
}

for key in arquivos_novos:
    nome = key.split('/')[-1]
    print(f"\nValidando {nome}")
    
    try:
        # Ler arquivo do S3
        df = pd.read_csv(s3.get_object(Bucket=bucket_name, Key=key)['Body'])
        
        # Validar arquivo
        valido, erros = validar_arquivo(df, nome)
        
        if valido:
            # Criar diretório temporário se necessário
            tmp_dir = '/tmp/processing/temp'
            os.makedirs(tmp_dir, exist_ok=True)
            caminho_tmp = f"{tmp_dir}/{nome}"
            
            # Salvar arquivo temporariamente
            df.to_csv(caminho_tmp, index=False)
            
            resultado['arquivos_validos'].append({
                'key': key,
                'nome': nome,
                'linhas': len(df),
                'colunas': list(df.columns)
            })
            print(f"✓ {nome} válido – {len(df)} linhas")
        else:
            resultado['arquivos_invalidos'].append({
                'key': key,
                'nome': nome,
                'erros': erros
            })
            print(f"✗ {nome} inválido: {erros}")
            
    except Exception as e:
        resultado['arquivos_invalidos'].append({
            'key': key,
            'nome': nome,
            'erros': [f"Erro ao processar: {str(e)}"]
        })
        print(f"✗ {nome} erro: {str(e)}")

print(f"\nResumo: {len(resultado['arquivos_validos'])} válidos, {len(resultado['arquivos_invalidos'])} inválidos")


Validando experimento_teste.csv
✓ experimento_teste.csv válido – 20 linhas

Validando experimento_teste_2.csv
✗ experimento_teste_2.csv inválido: ["Colunas faltando: {'id_experimento'}"]

Resumo: 1 válidos, 1 inválidos


In [8]:
# Salvar resultado da validação
with open(output_validation_file, 'w') as f:
    json.dump(resultado, f, indent=2)

print(f"Resultado da validação salvo em {output_validation_file}")

# Determinar status final
if len(arquivos_novos) == 0:
    status = 'nenhum_arquivo_novo'
elif len(resultado['arquivos_invalidos']) == 0:
    status = 'todos_validos'
elif len(resultado['arquivos_validos']) == 0:
    status = 'todos_invalidos'
else:
    status = 'parcialmente_valido'

print(f"Status final: {status}")

Resultado da validação salvo em validacao_resultado.json
Status final: parcialmente_valido


In [9]:
# Upload do resultado para S3 (sem try/except)
s3.upload_file(output_validation_file, bucket_name, f'artifacts/{output_validation_file}')
print(f"Resultado enviado para s3://{bucket_name}/artifacts/{output_validation_file}")

Resultado enviado para s3://experimento-lucas-barbosa/artifacts/validacao_resultado.json
