In [1]:
# Par√¢metros do pipeline
input_config_path = 'config.json'
input_validacao_path = 'validacao_resultado.json'
output_metricas_path = 'metricas_completas.csv'

In [2]:
import boto3
import json
import pandas as pd
from datetime import datetime
import os

In [3]:
print(f"In√≠cio do c√°lculo: {datetime.now()}")
print(f"Configura√ß√£o: {input_config_path}")
print(f"Valida√ß√£o: {input_validacao_path}")
print(f"Sa√≠da: {output_metricas_path}")

In√≠cio do c√°lculo: 2025-07-21 17:54:11.269825
Configura√ß√£o: config.json
Valida√ß√£o: validacao_resultado.json
Sa√≠da: metricas_completas.csv


In [4]:
s3 = boto3.client('s3')

# Baixar config.json
s3.download_file('experimento-lucas-barbosa', f'config/{input_config_path}', 'config.json')
with open('config.json', 'r') as f:
    config = json.load(f)

print(f"Configura√ß√£o carregada: {config}")

# Baixar validacao_resultado.json
s3.download_file('experimento-lucas-barbosa', f'artifacts/{input_validacao_path}', 'validacao_resultado.json')
with open('validacao_resultado.json', 'r') as f:
    validacao = json.load(f)

print(f"Valida√ß√£o carregada: {len(validacao.get('arquivos_validos', []))} arquivos v√°lidos")

# Extrair vari√°veis do config para uso
bucket_name = config['bucket_name']
pasta_raw = config['pasta_raw']
pasta_processed = config['pasta_processed']
grupo_controle = config['grupo_controle']
colunas_obrigatorias = config.get('colunas_obrigatorias', ['id_experimento', 'id_customer', 'grupo', 'uso', 'valor', 'timestamp'])

print(f"Bucket: {bucket_name}")
print(f"Grupo controle: {grupo_controle}")

Configura√ß√£o carregada: {'bucket_name': 'experimento-lucas-barbosa', 'pasta_raw': 'raw/', 'pasta_processed': 'processed/', 'pasta_archive': 'archive/', 'colunas_obrigatorias': ['id_experimento', 'id_customer', 'grupo', 'uso', 'valor', 'timestamp'], 'grupo_controle': 'GC'}
Valida√ß√£o carregada: 1 arquivos v√°lidos
Bucket: experimento-lucas-barbosa
Grupo controle: GC


In [5]:
# --- Fun√ß√µes de C√°lculo de M√©tricas --- 

def calcular_metricas_basicas(df_grupo: pd.DataFrame, id_experimento: str, grupo: str, arquivo_origem: str) -> list:
    """Calcula m√©tricas b√°sicas para um grupo espec√≠fico."""
    metricas = []
    timestamp = datetime.now().isoformat()
    total_usuarios = len(df_grupo)

    # Taxa de Convers√£o
    conversao = (df_grupo['uso'] > 0).sum() / total_usuarios * 100 if total_usuarios else 0
    metricas.append({'id_experimento': id_experimento, 'grupo': grupo, 'metrica': 'taxa_conversao', 'valor': round(conversao, 2), 'timestamp': timestamp, 'arquivo_origem': arquivo_origem})

    # Uso M√©dio
    uso_medio = df_grupo['uso'].mean() if total_usuarios else 0
    metricas.append({'id_experimento': id_experimento, 'grupo': grupo, 'metrica': 'uso_medio', 'valor': round(uso_medio, 2), 'timestamp': timestamp, 'arquivo_origem': arquivo_origem})

    # Valor M√©dio
    valor_medio = df_grupo['valor'].mean() if total_usuarios else 0
    metricas.append({'id_experimento': id_experimento, 'grupo': grupo, 'metrica': 'valor_medio', 'valor': round(valor_medio, 2), 'timestamp': timestamp, 'arquivo_origem': arquivo_origem})
    
    # N√∫mero de Usu√°rios √önicos
    usuarios_unicos = df_grupo['id_customer'].nunique() if 'id_customer' in df_grupo.columns else total_usuarios
    metricas.append({'id_experimento': id_experimento, 'grupo': grupo, 'metrica': 'usuarios_unicos', 'valor': usuarios_unicos, 'timestamp': timestamp, 'arquivo_origem': arquivo_origem})

    # --- Adicione novas m√©tricas b√°sicas aqui! --- 
    # Exemplo: Valor Total
    # valor_total = df_grupo['valor'].sum() if total_usuarios else 0
    # metricas.append({'id_experimento': id_experimento, 'grupo': grupo, 'metrica': 'valor_total', 'valor': round(valor_total, 2), 'timestamp': timestamp, 'arquivo_origem': arquivo_origem})

    return metricas

def calcular_lifts(df_metricas_basicas: pd.DataFrame, id_experimento: str, grupo_controle: str, arquivo_origem: str) -> list:
    """Calcula m√©tricas de lift comparando grupos com o grupo de controle."""
    lifts = []
    timestamp = datetime.now().isoformat()

    df_gc = df_metricas_basicas[df_metricas_basicas['grupo'] == grupo_controle]

    for metrica_base in ['taxa_conversao', 'uso_medio', 'valor_medio', 'usuarios_unicos']:
        base_rows = df_gc[df_gc['metrica'] == metrica_base]
        if base_rows.empty:
            print(f"  ‚ö†Ô∏è M√©trica base '{metrica_base}' n√£o encontrada para o grupo de controle. Pulando lifts.")
            continue
        valor_controle = base_rows['valor'].iloc[0]

        if valor_controle <= 0:
            print(f"  ‚ö†Ô∏è Valor de controle para '{metrica_base}' √© zero ou negativo. Pulando lifts.")
            continue

        for grupo in df_metricas_basicas['grupo'].unique():
            if grupo == grupo_controle: continue

            grupo_rows = df_metricas_basicas[(df_metricas_basicas['grupo'] == grupo) & (df_metricas_basicas['metrica'] == metrica_base)]
            if grupo_rows.empty:
                print(f"  ‚ö†Ô∏è M√©trica '{metrica_base}' n√£o encontrada para o grupo '{grupo}'. Pulando lift.")
                continue
            valor_grupo = grupo_rows['valor'].iloc[0]

            lift_valor = round((valor_grupo - valor_controle) / valor_controle * 100, 2)
            lifts.append({'id_experimento': id_experimento, 'grupo': grupo, 'metrica': f'lift_{metrica_base}', 'valor': lift_valor, 'timestamp': timestamp, 'arquivo_origem': arquivo_origem})
    
    # --- Adicione novas m√©tricas de lift aqui! --- 
    # Se voc√™ adicionou 'valor_total' acima, pode adicionar o lift aqui:
    # if 'valor_total' in df_metricas_basicas['metrica'].values:
    #     base_total = df_gc[df_gc['metrica'] == 'valor_total']['valor'].iloc[0]
    #     if base_total > 0:
    #         for grupo in df_metricas_basicas['grupo'].unique():
    #             if grupo == grupo_controle: continue
    #             val_total = df_metricas_basicas[(df_metricas_basicas['grupo'] == grupo) & (df_metricas_basicas['metrica'] == 'valor_total')]['valor'].iloc[0]
    #             lifts.append({'id_experimento': id_experimento, 'grupo': grupo, 'metrica': 'lift_valor_total', 'valor': round((val_total - base_total) / base_total * 100, 2), 'timestamp': timestamp, 'arquivo_origem': arquivo_origem})

    return lifts

print("‚úÖ Fun√ß√µes de c√°lculo de m√©tricas definidas.")

‚úÖ Fun√ß√µes de c√°lculo de m√©tricas definidas.


In [6]:
# --- Processamento Principal --- 

arquivos_validos = validacao.get('arquivos_validos', [])
print(f"\nüîÑ Processando {len(arquivos_validos)} arquivos v√°lidos")

if len(arquivos_validos) == 0:
    print("‚ö†Ô∏è Nenhum arquivo v√°lido para processar")
    df_final = pd.DataFrame(columns=[
        'id_experimento', 'grupo', 'metrica', 'valor', 'timestamp', 'arquivo_origem'
    ])
else:
    todas_metricas = []
    
    for arquivo_info in arquivos_validos:
        arquivo_key = arquivo_info['key']
        nome_arquivo = arquivo_info['nome']
        
        print(f"\nüìÅ Processando {nome_arquivo}...")
        
        try:
            # Ler arquivo do S3
            df = pd.read_csv(s3.get_object(Bucket=bucket_name, Key=arquivo_key)['Body'])
            
            # Processar cada experimento dentro do arquivo
            for id_exp in df['id_experimento'].unique():
                df_exp = df[df['id_experimento'] == id_exp]
                
                # Calcular m√©tricas b√°sicas para cada grupo
                metricas_basicas_exp = []
                for grupo in df_exp['grupo'].unique():
                    df_grupo = df_exp[df_exp['grupo'] == grupo]
                    metricas_basicas_exp.extend(calcular_metricas_basicas(df_grupo, id_exp, grupo, nome_arquivo))
                
                df_metricas_basicas_exp = pd.DataFrame(metricas_basicas_exp)
                
                # Calcular lifts
                lifts_exp = calcular_lifts(df_metricas_basicas_exp, id_exp, grupo_controle, nome_arquivo)
                
                # Combinar e adicionar √† lista geral
                todas_metricas.extend(metricas_basicas_exp)
                todas_metricas.extend(lifts_exp)
                
                print(f"  ‚úì Experimento {id_exp}: {len(metricas_basicas_exp)} m√©tricas b√°sicas + {len(lifts_exp)} lifts")
                
        except Exception as e:
            print(f"  ‚úó Erro ao processar {nome_arquivo}: {e}")
            continue
    
    # Combinar todas as m√©tricas em um DataFrame final
    if todas_metricas:
        df_final = pd.DataFrame(todas_metricas)
        print(f"\nüéâ Total de m√©tricas calculadas: {len(df_final)}")
    else:
        print("\n‚ö†Ô∏è Nenhuma m√©trica foi calculada")
        df_final = pd.DataFrame(columns=[
            'id_experimento', 'grupo', 'metrica', 'valor', 'timestamp', 'arquivo_origem'
        ])


üîÑ Processando 1 arquivos v√°lidos

üìÅ Processando experimento_teste.csv...
  ‚úì Experimento exp_005: 12 m√©tricas b√°sicas + 8 lifts
  ‚úì Experimento exp_001: 12 m√©tricas b√°sicas + 8 lifts
  ‚úì Experimento exp_004: 8 m√©tricas b√°sicas + 4 lifts
  ‚úì Experimento exp_002: 12 m√©tricas b√°sicas + 8 lifts
  ‚úì Experimento exp_003: 8 m√©tricas b√°sicas + 4 lifts

üéâ Total de m√©tricas calculadas: 84


In [7]:
# Salvar e mostrar resultados
df_final.to_csv(output_metricas_path, index=False)
print(f"\nüíæ M√©tricas salvas em {output_metricas_path}")

# Mostrar resumo detalhado
if len(df_final) > 0:
    print(f"\nüìä Resumo das m√©tricas calculadas:")
    print(f"  ‚Ä¢ Experimentos: {df_final['id_experimento'].nunique()}")
    print(f"  ‚Ä¢ Grupos: {df_final['grupo'].nunique()}")
    print(f"  ‚Ä¢ Tipos de m√©trica: {df_final['metrica'].nunique()}")
    print(f"  ‚Ä¢ Total de registros: {len(df_final)}")
    
    print(f"\nüìà M√©tricas por tipo:")
    for metrica, count in df_final['metrica'].value_counts().items():
        print(f"  ‚Ä¢ {metrica}: {count} registros")
    
    print(f"\nüîç Primeiras 5 linhas:")
    print(df_final.head())
else:
    print("\n‚ö†Ô∏è Nenhuma m√©trica foi gerada")


üíæ M√©tricas salvas em metricas_completas.csv

üìä Resumo das m√©tricas calculadas:
  ‚Ä¢ Experimentos: 5
  ‚Ä¢ Grupos: 3
  ‚Ä¢ Tipos de m√©trica: 8
  ‚Ä¢ Total de registros: 84

üìà M√©tricas por tipo:
  ‚Ä¢ taxa_conversao: 13 registros
  ‚Ä¢ uso_medio: 13 registros
  ‚Ä¢ valor_medio: 13 registros
  ‚Ä¢ usuarios_unicos: 13 registros
  ‚Ä¢ lift_taxa_conversao: 8 registros
  ‚Ä¢ lift_uso_medio: 8 registros
  ‚Ä¢ lift_valor_medio: 8 registros
  ‚Ä¢ lift_usuarios_unicos: 8 registros

üîç Primeiras 5 linhas:
  id_experimento grupo          metrica   valor                   timestamp  \
0        exp_005    GC   taxa_conversao  100.00  2025-07-21T17:54:11.556469   
1        exp_005    GC        uso_medio    2.50  2025-07-21T17:54:11.556469   
2        exp_005    GC      valor_medio   87.16  2025-07-21T17:54:11.556469   
3        exp_005    GC  usuarios_unicos    2.00  2025-07-21T17:54:11.556469   
4        exp_005    G1   taxa_conversao  100.00  2025-07-21T17:54:11.557422   

         

In [8]:
# Upload do resultado para S3
if pasta_processed:
    processed_path = f"{pasta_processed}{output_metricas_path}"
    s3.upload_file(output_metricas_path, bucket_name, processed_path)
    print(f"Resultado em s3://{bucket_name}/{processed_path}")

Resultado em s3://experimento-lucas-barbosa/processed/metricas_completas.csv
