In [1]:
import boto3
import pandas as pd
import json
import os
from datetime import datetime

In [2]:
print(f"Início da validação: {datetime.now()}")

Início da validação: 2025-07-18 13:33:21.649392


In [3]:
#Carregar configurações
describe = "Carrega config.json gerado pelo 00_config.ipynb"
with open('config.json') as f:
    config = json.load(f)

BUCKET_NAME = config['bucket_name']
PASTA_RAW    = config['pasta_raw']
COLUNAS_OBRIGATORIAS = config['colunas_obrigatorias']
GRUPO_CONTROLE       = config['grupo_controle']

print("Configurações carregadas:")
print(f"  Bucket: {BUCKET_NAME}")
print(f"  Pasta raw: {PASTA_RAW}")

Configurações carregadas:
  Bucket: experimento-lucas-barbosa
  Pasta raw: raw/


In [4]:
# Conectar ao S3 e listar arquivos

describe = "Lista arquivos CSV em raw/"
s3 = boto3.client('s3')
response = s3.list_objects_v2(Bucket=BUCKET_NAME, Prefix=PASTA_RAW)
arquivos_novos = []
arquivos_processados = []

if 'Contents' in response:
    for obj in response['Contents']:
        key = obj['Key']
        if key.endswith('.csv') and key != PASTA_RAW:
            nome = key.split('/')[-1]
            head_key = f"{config['pasta_processed']}metricas_{nome}"
            try:
                s3.head_object(Bucket=BUCKET_NAME, Key=head_key)
                arquivos_processados.append(nome)
            except:
                arquivos_novos.append(key)

print(f"Novos arquivos a validar: {len(arquivos_novos)}")


Novos arquivos a validar: 1


In [5]:
# Função de validação
def validar_arquivo(df, nome):
    erros=[]
    faltam=set(COLUNAS_OBRIGATORIAS)-set(df.columns)
    if faltam: erros.append(f"Colunas faltando: {faltam}")
    if GRUPO_CONTROLE not in df['grupo'].values:
        erros.append(f"Grupo controle '{GRUPO_CONTROLE}' não encontrado")
    if (df['uso']<0).any(): erros.append("Uso negativo")
    if (df['valor']<0).any(): erros.append("Valor negativo")
    try:
        df['uso']=pd.to_numeric(df['uso'])
        df['valor']=pd.to_numeric(df['valor'])
    except:
        erros.append("Campos não numéricos")
    return (len(erros)==0), erros

In [6]:
# Validar e salvar resultado
resultado={
    'timestamp': datetime.now().isoformat(),
    'arquivos_validos': [],
    'arquivos_invalidos': []
}
for key in arquivos_novos:
    nome=key.split('/')[-1]
    print(f"\nValidando {nome}")
    df=pd.read_csv(s3.get_object(Bucket=BUCKET_NAME,Key=key)['Body'])
    valido,erros=validar_arquivo(df,nome)
    if valido:
        tmp_dir='/tmp/processing/temp'; os.makedirs(tmp_dir,exist_ok=True)
        caminho_tmp=f"{tmp_dir}/{nome}"
        df.to_csv(caminho_tmp,index=False)
        resultado['arquivos_validos'].append({'key':key,'nome':nome})
        print(f"✓ {nome} válido – salvo em {caminho_tmp}")
    else:
        resultado['arquivos_invalidos'].append({'key':key,'nome':nome,'erros':erros})
        print(f"✗ {nome} inválido: {erros}")
with open('validacao_resultado.json','w') as f:
    json.dump(resultado,f,indent=2)
print(f"\nResumo: {len(resultado['arquivos_validos'])} válidos, {len(resultado['arquivos_invalidos'])} inválidos")


Validando experimento_teste_2.csv
✗ experimento_teste_2.csv inválido: ["Colunas faltando: {'id_experimento'}"]

Resumo: 0 válidos, 1 inválidos
