# Pipeline de Processamento ClickBus - SageMaker

**Descri√ß√£o:** Pipeline completo para processamento de dados ClickBus utilizando SageMaker Processing Jobs.

**Estrutura:**
- **Script 1:** `transform_dados_01.py` - Transforma√ß√£o e enriquecimento
- **Script 2:** `proc_dados_02.py` - Segmenta√ß√£o e features agregadas

**Regi√£o:** sa-east-1 (S√£o Paulo)

**Autor:** Pipeline ClickBus  
**Data:** 2024

## 1. Configura√ß√£o Inicial e Imports

In [2]:
# Imports necess√°rios
import boto3
import sagemaker
from sagemaker.processing import ScriptProcessor
from datetime import datetime
import pandas as pd

# Configura√ß√µes do pipeline
BUCKET = 'cbchallenge'
BASE_PATH = 'Gold'
REGION = 'sa-east-1'
CODE_PATH = f'{BASE_PATH}/code'

# Configura√ß√£o do container Docker personalizado
ACCOUNT_ID = '005102550942'
CONTAINER_URI = f'{ACCOUNT_ID}.dkr.ecr.{REGION}.amazonaws.com/clickbus-pipeline:latest'

# Inicializar sess√£o SageMaker
sagemaker_session = sagemaker.Session()
role = sagemaker.get_execution_role()

print("Configura√ß√£o do Pipeline ClickBus - Docker Container")
print("=" * 60)
print(f"Bucket S3: {BUCKET}")
print(f"Pasta Base: {BASE_PATH}")
print(f"Regi√£o AWS: {REGION}")
print(f"Container URI: {CONTAINER_URI}")
print(f"Role SageMaker: {role}")
print(f"In√≠cio da sess√£o: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("=" * 60)

sagemaker.config INFO - Fetched defaults config from location: /etc/xdg/sagemaker/config.yaml
sagemaker.config INFO - Not applying SDK defaults from location: /home/sagemaker-user/.config/sagemaker/config.yaml
sagemaker.config INFO - Applied value from config key = SageMaker.PythonSDK.Modules.Session.DefaultS3Bucket
sagemaker.config INFO - Applied value from config key = SageMaker.PythonSDK.Modules.Session.DefaultS3ObjectKeyPrefix
sagemaker.config INFO - Applied value from config key = SageMaker.PythonSDK.Modules.Session.DefaultS3Bucket
sagemaker.config INFO - Applied value from config key = SageMaker.PythonSDK.Modules.Session.DefaultS3ObjectKeyPrefix
sagemaker.config INFO - Applied value from config key = SageMaker.PythonSDK.Modules.Session.DefaultS3Bucket
sagemaker.config INFO - Applied value from config key = SageMaker.PythonSDK.Modules.Session.DefaultS3ObjectKeyPrefix
Configura√ß√£o do Pipeline ClickBus - Docker Container
Bucket S3: cbchallenge
Pasta Base: Gold
Regi√£o AWS: sa-east

## 2. Configura√ß√£o do Processador SageMaker

In [3]:
# Configurar processador para execu√ß√£o dos scripts
processor = ScriptProcessor(
    command=['python3'],
    image_uri = CONTAINER_URI,
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',  # Ajustar conforme necessidade
    volume_size_in_gb=30,
    max_runtime_in_seconds=3600,  # 1 hora de timeout
    sagemaker_session=sagemaker_session
)

print("Processador SageMaker Configurado")
print("-" * 40)
print(f"Imagem Docker: Python 3.8 (AWS Managed)")
print(f"Tipo de Inst√¢ncia: ml.m5.large")
print(f"Volume de Armazenamento: 30 GB")
print(f"Timeout M√°ximo: 1 hora")
print(f"Regi√£o de Execu√ß√£o: {REGION}")

sagemaker.config INFO - Applied value from config key = SageMaker.ProcessingJob.NetworkConfig.VpcConfig.Subnets
sagemaker.config INFO - Applied value from config key = SageMaker.ProcessingJob.NetworkConfig.VpcConfig.SecurityGroupIds
Processador SageMaker Configurado
----------------------------------------
Imagem Docker: Python 3.8 (AWS Managed)
Tipo de Inst√¢ncia: ml.m5.large
Volume de Armazenamento: 30 GB
Timeout M√°ximo: 1 hora
Regi√£o de Execu√ß√£o: sa-east-1


## 3. Valida√ß√£o Pr√©-Execu√ß√£o

Verificar se todos os arquivos necess√°rios est√£o dispon√≠veis no S3.

In [4]:
# Fun√ß√£o para verificar exist√™ncia de arquivos no S3
def verificar_arquivo_s3(bucket, key):
    """Verifica se um arquivo existe no S3."""
    s3_client = boto3.client('s3', region_name=REGION)
    try:
        s3_client.head_object(Bucket=bucket, Key=key)
        return True
    except:
        return False

# Lista de arquivos necess√°rios para execu√ß√£o
arquivos_necessarios = [
    f'{CODE_PATH}/transform_dados_01.py',
    f'{CODE_PATH}/proc_dados_02.py'
]

# Verificar scripts
print("Valida√ß√£o de Arquivos no S3")
print("-" * 30)
for arquivo in arquivos_necessarios:
    existe = verificar_arquivo_s3(BUCKET, arquivo)
    status = "OK" if existe else "FALTANDO"
    print(f"{arquivo}: {status}")

# Verificar pastas de dados de entrada
print("\nValida√ß√£o de Pastas de Entrada")
print("-" * 30)
pastas_entrada = [
    f'{BASE_PATH}/Database Clickbus/',
    f'{BASE_PATH}/Identificador/',
    f'{BASE_PATH}/Eventos passados/',
    f'{BASE_PATH}/eventos/'
]

s3_client = boto3.client('s3', region_name=REGION)
for pasta in pastas_entrada:
    try:
        response = s3_client.list_objects_v2(Bucket=BUCKET, Prefix=pasta, MaxKeys=1)
        tem_arquivos = 'Contents' in response
        status = "OK" if tem_arquivos else "VAZIA"
        print(f"{pasta}: {status}")
    except Exception as e:
        print(f"{pasta}: ERRO - {str(e)}")

Valida√ß√£o de Arquivos no S3
------------------------------
Gold/code/transform_dados_01.py: OK
Gold/code/proc_dados_02.py: OK

Valida√ß√£o de Pastas de Entrada
------------------------------
Gold/Database Clickbus/: OK
Gold/Identificador/: OK
Gold/Eventos passados/: OK
Gold/eventos/: OK


## 4. Execu√ß√£o do Script 1 - Transforma√ß√£o e Enriquecimento

Executa a primeira etapa do pipeline: limpeza, padroniza√ß√£o e enriquecimento dos dados.

In [None]:
print("EXECUTANDO SCRIPT 1: TRANSFORMA√á√ÉO E ENRIQUECIMENTO")
print("=" * 60)
print(f"In√≠cio: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

try:
    # Executar o primeiro script
    processor.run(
        code=f's3://{BUCKET}/{CODE_PATH}/transform_dados_01.py',
        arguments=[
            '--bucket', BUCKET,
            '--base-path', BASE_PATH
        ],
        wait=True,  # Aguarda conclus√£o antes de prosseguir
        logs=True   # Exibe logs em tempo real
    )
    
    print("\nScript 1 conclu√≠do com sucesso!")
    print(f"Fim: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
    
except Exception as e:
    print(f"\nERRO no Script 1: {str(e)}")
    print("Verifique os logs acima para mais detalhes.")
    raise

## 5. Valida√ß√£o Intermedi√°ria

Verificar se os arquivos do Script 1 foram gerados corretamente antes de prosseguir.

In [5]:
# Verificar arquivos gerados pelo Script 1
print("Valida√ß√£o dos Resultados do Script 1")
print("-" * 40)

arquivos_script1 = [
    f'{BASE_PATH}/Feriado/feriados_brasil_2016_2025.csv',
    f'{BASE_PATH}/Resultados/df_clickbus_v2_enriquecido.csv',
    f'{BASE_PATH}/Resultados/eventos_passados_padronizado.csv',
    f'{BASE_PATH}/Resultados/eventos_futuros_padronizados.csv'
]

todos_ok = True
for arquivo in arquivos_script1:
    existe = verificar_arquivo_s3(BUCKET, arquivo)
    status = "OK" if existe else "FALTANDO"
    print(f"{arquivo.split('/')[-1]}: {status}")
    if not existe:
        todos_ok = False

if todos_ok:
    print("\nTodos os arquivos do Script 1 foram gerados com sucesso.")
    print("Pronto para executar o Script 2.")
else:
    print("\nALERTA: Alguns arquivos n√£o foram gerados.")
    print("Verifique os logs do Script 1 antes de prosseguir.")

Valida√ß√£o dos Resultados do Script 1
----------------------------------------
feriados_brasil_2016_2025.csv: OK
df_clickbus_v2_enriquecido.csv: OK
eventos_passados_padronizado.csv: OK
eventos_futuros_padronizados.csv: OK

Todos os arquivos do Script 1 foram gerados com sucesso.
Pronto para executar o Script 2.


## 6. Execu√ß√£o do Script 2 - Segmenta√ß√£o e Agrega√ß√£o

Executa a segunda etapa do pipeline: segmenta√ß√£o de clientes e cria√ß√£o de features agregadas.

In [7]:
print("EXECUTANDO SCRIPT 2: SEGMENTA√á√ÉO E AGREGA√á√ÉO")
print("=" * 60)
print(f"In√≠cio: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

try:
    # Executar o segundo script
    processor.run(
        code=f's3://{BUCKET}/{CODE_PATH}/proc_dados_02.py',
        arguments=[
            '--bucket', BUCKET,
            '--base-path', BASE_PATH
        ],
        wait=True,  # Aguarda conclus√£o antes de prosseguir
        logs=True   # Exibe logs em tempo real
    )
    
    print("\nScript 2 conclu√≠do com sucesso!")
    print(f"Fim: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
    print("\nPIPELINE COMPLETO EXECUTADO COM SUCESSO!")
    
except Exception as e:
    print(f"\nERRO no Script 2: {str(e)}")
    print("Verifique os logs acima para mais detalhes.")
    raise

EXECUTANDO SCRIPT 2: SEGMENTA√á√ÉO E AGREGA√á√ÉO
In√≠cio: 2025-09-23 01:36:37
[34mSCRIPT 2: PROCESSAMENTO AVAN√áADO E AN√ÅLISE DE DADOS CLICKBUS[0m
[34mData de execu√ß√£o: 23/09/2025 01:37:41[0m
[34mBucket S3: cbchallenge[0m
[34mPasta Base: Gold[0m
[34mETAPA 1: CARREGAMENTO DOS DADOS PROCESSADOS[0m
[34mClickBus v2 carregado: 1,741,344 registros[0m
[34mEventos carregados: 5,000 passados, 4,689 futuros[0m
[34m   Tratando e validando valores de GMV...
   Valores de GMV inv√°lidos marcados como NaN (sem remover linhas): 185
   Calculando frequ√™ncia real entre compras...[0m
[34mETAPA 2: AN√ÅLISE B√ÅSICA POR CLIENTE[0m
[34m   Clientes analisados: 581,817
   Distribui√ß√£o por recorr√™ncia (NOVA L√ìGICA):
     ‚Ä¢ Pontual: 311,039 (53.5%)
     ‚Ä¢ Sazonal: 208,522 (35.8%)
     ‚Ä¢ Recorrente: 62,256 (10.7%)[0m
[34mETAPA 3: AN√ÅLISE DE MOMENTUM E TEND√äNCIA[0m
   Clientes eleg√≠veis para momentum: 159,821
   Calculando momentum...
   Progresso: 0.0% - 0/159,821[0m
[34m

## 7. Valida√ß√£o Final e Resumo dos Resultados

Verificar todos os arquivos gerados e fornecer um resumo completo da execu√ß√£o.

In [9]:
print("VALIDA√á√ÉO FINAL DOS RESULTADOS")
print("=" * 50)

# Fun√ß√£o para listar arquivos em uma pasta S3
def listar_arquivos_s3(bucket, prefix):
    """Lista todos os arquivos em um prefixo S3."""
    s3_client = boto3.client('s3', region_name=REGION)
    try:
        response = s3_client.list_objects_v2(Bucket=bucket, Prefix=prefix)
        if 'Contents' in response:
            return [obj['Key'] for obj in response['Contents'] if not obj['Key'].endswith('/')]
        return []
    except Exception as e:
        print(f"Erro ao listar {prefix}: {e}")
        return []

# Verificar pasta Resultados
resultados = listar_arquivos_s3(BUCKET, f'{BASE_PATH}/Resultados/')
print(f"Pasta Resultados ({len(resultados)} arquivos):")
for arquivo in sorted(resultados):
    nome = arquivo.split('/')[-1]
    print(f"  - {nome}")

# Verificar pasta Feriado
feriados = listar_arquivos_s3(BUCKET, f'{BASE_PATH}/Feriado/')
print(f"\nPasta Feriado ({len(feriados)} arquivos):")
for arquivo in sorted(feriados):
    nome = arquivo.split('/')[-1]
    print(f"  - {nome}")

print(f"\nARQUIVO PRINCIPAL PARA MACHINE LEARNING:")
print(f"  Arquivo: df_clientes_final_completo.csv")
print(f"  Localiza√ß√£o: s3://{BUCKET}/{BASE_PATH}/Resultados/df_clientes_final_completo.csv")

print(f"\nTotal de arquivos gerados: {len(resultados) + len(feriados)}")

VALIDA√á√ÉO FINAL DOS RESULTADOS
Pasta Resultados (16 arquivos):
  - analise_detalhada_eventos.csv
  - analise_origem_destino.csv
  - analise_recorrencia_destinos.csv
  - analise_recorrencia_temporal.csv
  - analise_trechos_detalhada.csv
  - df_clickbus_v2_enriquecido.csv
  - df_clickbus_v2_final.csv
  - df_clientes_final.csv
  - df_clientes_final_completo.csv
  - df_sazonalidade.csv
  - eventos_futuros_padronizados.csv
  - eventos_passados_padronizado.csv
  - municipios_padronizados.csv
  - resumo_impacto_eventos_municipios.csv
  - top_trechos_por_gmv.csv
  - top_trechos_por_volume.csv

Pasta Feriado (1 arquivos):
  - feriados_brasil_2016_2025.csv

ARQUIVO PRINCIPAL PARA MACHINE LEARNING:
  Arquivo: df_clientes_final_completo.csv
  Localiza√ß√£o: s3://cbchallenge/Gold/Resultados/df_clientes_final_completo.csv

Total de arquivos gerados: 17


## 8. An√°lise R√°pida dos Resultados

Carregar e examinar rapidamente o arquivo principal gerado.

In [10]:
# Carregar e analisar o arquivo principal
try:
    df_principal = pd.read_csv(f's3://{BUCKET}/{BASE_PATH}/Resultados/df_clientes_final_completo.csv')
    
    print("AN√ÅLISE DO ARQUIVO PRINCIPAL")
    print("=" * 40)
    print(f"Shape do dataset: {df_principal.shape}")
    print(f"Clientes √∫nicos: {df_principal['client_id_seq'].nunique():,}")
    print(f"\nColunas dispon√≠veis ({len(df_principal.columns)}):")
    for i, col in enumerate(df_principal.columns, 1):
        print(f"  {i:2d}. {col}")
    
    print(f"\nDistribui√ß√£o de Segmenta√ß√£o por Recorr√™ncia:")
    print(df_principal['seg_recorrencia'].value_counts())
    
    print(f"\nDistribui√ß√£o de Segmenta√ß√£o por Velocidade:")
    print(df_principal['seg_velocidade'].value_counts())
    
    print(f"\nEstat√≠sticas de GMV:")
    print(f"  GMV Total M√©dio: R$ {df_principal['gmv_total'].mean():,.2f}")
    print(f"  GMV Total Mediano: R$ {df_principal['gmv_total'].median():,.2f}")
    print(f"  Compras M√©dias por Cliente: {df_principal['qtd_compras'].mean():.1f}")
    
except Exception as e:
    print(f"Erro ao carregar arquivo principal: {e}")
    print("Verifique se o pipeline foi executado com sucesso.")

AN√ÅLISE DO ARQUIVO PRINCIPAL
Shape do dataset: (581817, 29)
Erro ao carregar arquivo principal: 'client_id_seq'
Verifique se o pipeline foi executado com sucesso.


## 9. Machine Learning - Previsibilidade de compra em 7 dias ou 30 dias + Previs√£o de pr√≥ximo techo


In [26]:
print("EXECUTANDO SCRIPT ML: PREDI√á√ÉO DE COMPRAS 7/30 DIAS")
print("=" * 60)
print(f"In√≠cio: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

try:
    # Executar o script de Machine Learning
    processor.run(
        code=f's3://{BUCKET}/{CODE_PATH}/ml_7_30.py',
        arguments=[
            '--bucket', BUCKET,
            '--base-path', BASE_PATH
        ],
        wait=True,  # Aguarda conclus√£o antes de prosseguir
        logs=True   # Exibe logs em tempo real
    )
    
    print("\\nScript ML conclu√≠do com sucesso!")
    print(f"Fim: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
    
except Exception as e:
    print(f"\\nERRO no Script ML: {str(e)}")
    print("Verifique os logs acima para mais detalhes.")
    raise

EXECUTANDO SCRIPT ML: PREDI√á√ÉO DE COMPRAS 7/30 DIAS
In√≠cio: 2025-09-22 03:13:15
[34mML 7/30 SAGEMAKER PROCESSING - BASEADO NO MELHOR C√ìDIGO[0m
[34mData de execu√ß√£o: 22/09/2025 03:14:21[0m
[34mTargets: 10% base eleg√≠vel (7d) | 22% base eleg√≠vel (30d)[0m
[34mM√©tricas esperadas: P_7d=36.8%, P_30d=60.2%, AUC>90%[0m
[34mETAPA 1: CARREGAMENTO DOS DADOS[0m
[34mDataset carregado: 581,817 clientes[0m
[34mETAPA 2: CRIA√á√ÉO DE FEATURES SEM DATA LEAKAGE[0m
   Criando features sem data leakage...[0m
[34m   ‚úì Features sem leakage criadas[0m
[34mETAPA 3: AN√ÅLISE DE PADR√ïES HIST√ìRICOS[0m
   Analisando padr√µes hist√≥ricos reais...
   Base eleg√≠vel: 270,778 clientes
   PADR√ïES HIST√ìRICOS IDENTIFICADOS:
     ‚Ä¢ Clientes com freq <= 7d: 16.6%
     ‚Ä¢ Clientes com freq <= 30d: 30.0%
     ‚Ä¢ Clientes ativos (30d): 6.2%
     ‚Ä¢ Clientes ativos (60d): 10.6%
     ‚Ä¢ Em alta temporada: 38.4%[0m
[34mETAPA 4: TARGETS BASEADOS EM PADR√ïES REAIS[0m
   Criando targets ba

In [25]:
print(" EXECUTANDO ML: PREVIS√ÉO DO PR√ìXIMO TRECHO")
print("=" * 60)
print(f"In√≠cio: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

try:
    # Executar o script de ML
    processor.run(
        code=f's3://{BUCKET}/{CODE_PATH}/ml_previsao_trecho.py',
        arguments=[
            '--bucket', BUCKET,
            '--base-path', BASE_PATH,
            '--top-trechos', '20'  # OTIMIZADO: Menos trechos = mais velocidade
        ],
        wait=True,  # Aguarda conclus√£o
        logs=True   # Exibe logs em tempo real
    )
    
    print("\\n ML de Previs√£o de Trecho conclu√≠do com sucesso!")
    print(f"Fim: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
    
except Exception as e:
    print(f"\\n ERRO no ML: {str(e)}")
    print("Verifique os logs acima para mais detalhes.")
    raise

 EXECUTANDO ML: PREVIS√ÉO DO PR√ìXIMO TRECHO
In√≠cio: 2025-09-22 02:37:49
[34mSCRIPT ML: PREVIS√ÉO DO PR√ìXIMO TRECHO CLICKBUS[0m
[34mDesafio 3: A Estrada √† Frente[0m
[34mData de execu√ß√£o: 22/09/2025 02:38:53[0m
[34mBucket S3: cbchallenge[0m
[34mPasta Base: Gold[0m
[34mTop Trechos: 20[0m
[34mETAPA 1: CARREGAMENTO DOS DADOS[0m
   Carregando dados processados (MODO OTIMIZADO)...[0m
[34m   Aplicando sample de 500,000 transa√ß√µes para otimiza√ß√£o...[0m
[34m   Dados carregados (otimizado):
     ‚Ä¢ Transa√ß√µes: 500,000
     ‚Ä¢ Clientes: 581,817
     ‚Ä¢ Trechos: 200
     ‚Ä¢ Feriados: 80[0m
[34mETAPA 2: FILTRO DE DADOS V√ÅLIDOS[0m
   Filtrando dados v√°lidos...
   Registros v√°lidos: 291,617 de 500,000 (58.3%)
   Trechos √∫nicos: 2,848
   Clientes √∫nicos: 167,563[0m
[34mETAPA 3: CRIA√á√ÉO DE FEATURES[0m
   Criando features de hist√≥rico do cliente...[0m
[34m   Coluna status_ativo n√£o encontrada, mantendo todos os clientes: 167,563
   Clientes eleg√≠veis (‚

## 10. Monitoramento e Logs

Ferramentas para monitorar execu√ß√µes e acessar logs hist√≥ricos.

In [None]:
# Fun√ß√£o para listar jobs recentes
def listar_jobs_recentes(max_results=10):
    """Lista os jobs de processamento mais recentes."""
    sagemaker_client = boto3.client('sagemaker', region_name=REGION)
    
    try:
        jobs = sagemaker_client.list_processing_jobs(
            SortBy='CreationTime',
            SortOrder='Descending',
            MaxResults=max_results
        )
        
        print(f"Jobs de Processamento Recentes ({len(jobs['ProcessingJobSummaries'])}):")
        print("-" * 60)
        
        for job in jobs['ProcessingJobSummaries']:
            print(f"Nome: {job['ProcessingJobName']}")
            print(f"Status: {job['ProcessingJobStatus']}")
            print(f"Criado: {job['CreationTime']}")
            if 'EndTime' in job:
                print(f"Finalizado: {job['EndTime']}")
            print("-" * 30)
            
    except Exception as e:
        print(f"Erro ao listar jobs: {e}")

# Executar listagem de jobs
listar_jobs_recentes()

## Conclus√£o

Pipeline de processamento ClickBus executado com sucesso no SageMaker.

**Pr√≥ximos passos sugeridos:**
1. Validar a qualidade dos dados gerados
2. Configurar monitoramento autom√°tico
3. Implementar agendamento peri√≥dico
4. Desenvolver modelos de Machine Learning com os dados processados

**Arquivos principais gerados:**
- `df_clientes_final_completo.csv` - Base principal para ML
- M√∫ltiplas an√°lises agregadas para insights de neg√≥cio

**Localiza√ß√£o dos resultados:** `s3://cbchallenge/Gold/Resultados/`