In [2]:
#############################################################################
# CÉLULA 1: IMPORTAÇÃO DE BIBLIOTECAS
# ---------------------------------------------------------------------------
# Objetivo: Carregar todas as ferramentas necessárias para o script.
#############################################################################
import os
import pandas as pd
from faker import Faker
import numpy as np
from datetime import datetime, timedelta
import random
import uuid
import json
from supabase import create_client, Client
from dotenv import load_dotenv

print("CÉLULA 1: Bibliotecas importadas com sucesso.")

CÉLULA 1: Bibliotecas importadas com sucesso.


In [10]:
#############################################################################
# CÉLULA 2: GERAÇÃO DOS DADOS (USERS E EVENTS)
# ---------------------------------------------------------------------------
# Objetivo: Criar os DataFrames 'users_df' e 'events_df' em memória,
# simulando um funil de conversão realista.
#############################################################################

# Inicialização de constantes e geradores
fake = Faker()
num_users = 1000
campaigns = ['google_gestao_agil', 'facebook_freelancer', 'organic']

# Estruturas para armazenar os dados em memória de forma eficiente
users_list = []
events_list = []
# --- CORREÇÃO 3: Garantir e-mails únicos ---
generated_emails = set() # Usamos um set para checagem rápida de e-mails já gerados

print(f"\nCÉLULA 2: Iniciando a geração de dados para {num_users} usuários...")

# Loop principal para criar cada usuário e seus eventos sequenciais
for i in range(num_users):
    # --- Dados base do usuário ---
    visitor_id = str(uuid.uuid4())
    signup_time = fake.date_time_between(start_date='-90d', end_date='-1d')
    acquisition_campaign = random.choice(campaigns)

    # Garante que o e-mail gerado é único
    email = fake.email()
    while email in generated_emails:
        email = fake.email()
    generated_emails.add(email)

    user_data = {
        'user_id': i + 1,
        'visitor_id': visitor_id,
        'email': email, # Usa o e-mail único garantido
        'signup_date': signup_time.isoformat(),
        'plan': 'trial',
        'status': 'active',
        'acquisition_campaign': acquisition_campaign # Campo temporário para a lógica do funil
    }

    # --- Lógica do Funil de Conversão ---
    # 1. Evento Inicial: Todos os usuários se registam (trial_signup)
    events_list.append({
        'visitor_id': visitor_id,
        'event_type': 'trial_signup',
        'timestamp': signup_time.isoformat(),
        'first_touch': json.dumps({'campaign': acquisition_campaign})
    })

    # 2. Transição 1: Verificação de E-mail (user_verified) - 95% de chance
    if random.random() < 0.95:
        verification_time = signup_time + timedelta(minutes=random.randint(1, 60))
        events_list.append({
            'visitor_id': visitor_id,
            'event_type': 'user_verified',
            'timestamp': verification_time.isoformat()
        })

        # 3. Transição 2: Criação de Projeto (project_created) - Probabilidade depende da campanha
        prob_create_project = 0.55 if user_data['acquisition_campaign'] == 'google_gestao_agil' else 0.30
        if random.random() < prob_create_project:
            project_time = verification_time + timedelta(hours=random.randint(1, 48))
            events_list.append({
                'visitor_id': visitor_id,
                'event_type': 'project_created',
                'timestamp': project_time.isoformat()
            })

            # 4. Transição 3: Assinatura Paga (subscription_started) - Probabilidade depende da campanha
            prob_subscribe = 0.40 if user_data['acquisition_campaign'] == 'google_gestao_agil' else 0.15
            if random.random() < prob_subscribe:
                subscription_time = project_time + timedelta(days=random.randint(1, 14))
                events_list.append({
                    'visitor_id': visitor_id,
                    'event_type': 'subscription_started',
                    'timestamp': subscription_time.isoformat(),
                    'event_properties': json.dumps({'plan': 'pro', 'price': 49.9})
                })
                # Atualiza o registro do usuário original na memória
                user_data['plan'] = 'pro'
                user_data['status'] = 'converted'

    users_list.append(user_data)

# Remove a coluna auxiliar de campanha antes de criar o DataFrame final
for user in users_list:
    del user['acquisition_campaign']

# Criação dos DataFrames a partir das listas
users_df = pd.DataFrame(users_list)
events_df = pd.DataFrame(events_list)

print(f"Geração concluída.")
print(f"Total de usuários para inserção: {len(users_df)}")
print(f"Total de eventos para inserção: {len(events_df)}")
print(f"Usuários convertidos (plano 'pro'): {len(users_df[users_df['plan'] == 'pro'])}")


CÉLULA 2: Iniciando a geração de dados para 1000 usuários...
Geração concluída.
Total de usuários para inserção: 1000
Total de eventos para inserção: 2408
Usuários convertidos (plano 'pro'): 93


In [11]:
#############################################################################
# CÉLULA 3: CONEXÃO E INSERÇÃO NO SUPABASE
# ---------------------------------------------------------------------------
# Objetivo: Conectar ao banco de dados Supabase e carregar os DataFrames
# gerados na célula anterior, usando uma função robusta de inserção em lotes.
#############################################################################

print("\nCÉLULA 3: Iniciando conexão com o Supabase...")

# Encontre estes valores em Project Settings > API no seu painel Supabase
# IMPORTANTE: A URL e a Chave DEVEM estar DENTRO das aspas ""
url: str = "https://oteqjiqifwhmqdjblmyl.supabase.co" 
key: str = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Im90ZXFqaXFpZndobXFkamJsbXlsIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NTU2MzIwMDIsImV4cCI6MjA3MTIwODAwMn0.SQIeGGn4TIqqT8OlLpvDxzQAlyERJ5OZXwQlKx9gwO4"

# O bloco 'if' de verificação foi removido para simplificar. 
# O script agora tentará conectar diretamente com as credenciais acima.

try:
    supabase: Client = create_client(url, key)
    print("Conexão com Supabase estabelecida com sucesso!")
except Exception as e:
    print(f"Erro ao conectar com o Supabase: {e}")
    # Se houver erro aqui, verifique se a URL e a Chave estão corretas.
    exit()

# --- CORREÇÃO 1: Limpar tabelas antes de inserir ---
# Para evitar o erro de 'duplicate key', deletamos os dados antigos.
# Deletamos 'user_events' primeiro por causa da chave estrangeira.
print("\nLimpando tabelas existentes para garantir uma nova inserção...")
try:
    supabase.table('user_events').delete().gt('event_id', -1).execute()
    supabase.table('users').delete().gt('user_id', -1).execute()
    print("Tabelas 'users' e 'user_events' limpas com sucesso.")
except Exception as e:
    print(f"Erro ao limpar as tabelas: {e}")


def insert_data_in_batches(table_name, dataframe, batch_size=100):
    """
    Insere dados de um DataFrame em uma tabela do Supabase em lotes (batches).
    Esta abordagem é mais robusta para grandes volumes de dados, evitando timeouts.
    """
    if dataframe.empty:
        print(f"Nenhum dado para inserir na tabela '{table_name}'.")
        return

    print(f"\nIniciando inserção de {len(dataframe)} registros na tabela '{table_name}' em lotes de {batch_size}...")
    
    total_inserted = 0
    for start in range(0, len(dataframe), batch_size):
        end = start + batch_size
        batch_df = dataframe.iloc[start:end]
        
        # --- CORREÇÃO 2: Tratar valores NaN ---
        # Substitui valores NaN (não compatíveis com JSON) por None (null em JSON)
        batch_df = batch_df.replace({np.nan: None})
        
        data_to_insert = batch_df.to_dict(orient='records')
        
        print(f"  Inserindo lote: registros {start+1} a {min(end, len(dataframe))}...")
        
        try:
            response = supabase.table(table_name).insert(data_to_insert, count='exact').execute()
            
            if response.count is not None:
                total_inserted += response.count
            else:
                print(f"  Erro no lote iniciando no registro {start+1}. A resposta não continha uma contagem.")

        except Exception as e:
            print(f"  Ocorreu uma exceção ao inserir o lote iniciando no registro {start+1}: {e}")
            continue
            
    print(f"\nInserção na tabela '{table_name}' concluída.")
    print(f"Total de registros inseridos com sucesso: {total_inserted}/{len(dataframe)}")

# Executando a inserção para ambas as tabelas
insert_data_in_batches('users', users_df)
insert_data_in_batches('user_events', events_df)


CÉLULA 3: Iniciando conexão com o Supabase...
Conexão com Supabase estabelecida com sucesso!

Limpando tabelas existentes para garantir uma nova inserção...
Tabelas 'users' e 'user_events' limpas com sucesso.

Iniciando inserção de 1000 registros na tabela 'users' em lotes de 100...
  Inserindo lote: registros 1 a 100...
  Inserindo lote: registros 101 a 200...
  Inserindo lote: registros 201 a 300...
  Inserindo lote: registros 301 a 400...
  Inserindo lote: registros 401 a 500...
  Inserindo lote: registros 501 a 600...
  Inserindo lote: registros 601 a 700...
  Inserindo lote: registros 701 a 800...
  Inserindo lote: registros 801 a 900...
  Inserindo lote: registros 901 a 1000...

Inserção na tabela 'users' concluída.
Total de registros inseridos com sucesso: 1000/1000

Iniciando inserção de 2408 registros na tabela 'user_events' em lotes de 100...
  Inserindo lote: registros 1 a 100...
  Inserindo lote: registros 101 a 200...
  Inserindo lote: registros 201 a 300...
  Inserindo l

In [12]:
#############################################################################
# CÉLULA 4: FINALIZAÇÃO
# ---------------------------------------------------------------------------
# Objetivo: Exibir uma mensagem final confirmando a conclusão do processo.
#############################################################################
print("\n--- Processo Finalizado ---")
print("CÉLULA 4: Tarefa de hoje concluída. Verifique a integridade dos dados diretamente no painel do Supabase.")


--- Processo Finalizado ---
CÉLULA 4: Tarefa de hoje concluída. Verifique a integridade dos dados diretamente no painel do Supabase.
