In [1]:
# ===========================================================================
# SCRIPT DE SIMULAÇÃO DE DADOS PARA O PROJETO INSIGHTOS
# ===========================================================================
#
# Autor: Jessica Rocha
# Data: 27 de Agosto de 2025
#
# Objetivo:
# Este script tem como finalidade gerar um dataset sintético e realista
# para popular o banco de dados do projeto. A simulação inclui a criação
# de utilizadores e uma sequência de eventos baseada num funil de conversão
# probabilístico, refletindo um comportamento de utilizador autêntico.
#
# ===========================================================================

# --- CÉLULA 1: CONFIGURAÇÃO INICIAL E IMPORTAÇÃO DE BIBLIOTECAS ---

# Começo por importar todas as ferramentas que vou precisar ao longo do script.
import os
import pandas as pd  # Essencial para manipular os dados em formato de tabela (DataFrame).
from faker import Faker  # Para gerar dados falsos com aparência real (nomes, e-mails).
import numpy as np  # Útil para operações numéricas e aleatórias.
from datetime import datetime, timedelta  # Para trabalhar com datas e horas.
import random  # Para a lógica de probabilidade do nosso funil.
import uuid  # Para gerar identificadores únicos para os visitantes (visitor_id).
import json  # Para formatar as propriedades dos eventos como JSON.
from supabase import create_client, Client  # A biblioteca para comunicar com o Supabase.

print("CÉLULA 1: Bibliotecas importadas e prontas para uso.")

CÉLULA 1: Bibliotecas importadas e prontas para uso.


In [3]:
# --- CÉLULA 2: GERAÇÃO DOS DADOS SINTÉTICOS ---

# Defino as minhas variáveis de controlo para a simulação.
fake = Faker() # Crio uma instância do Faker para gerar os dados.
num_users = 1000  # O número total de utilizadores que quero simular.
campaigns = ['google_gestao_agil', 'facebook_freelancer', 'organic'] # As campanhas de marketing de origem.

# Crio listas vazias para armazenar os dicionários de cada utilizador e evento.
# Esta abordagem é mais eficiente em termos de memória do que adicionar linhas a um DataFrame diretamente.
users_list = []
events_list = []

# Para garantir que não gero e-mails duplicados, crio um 'set'.
# Um 'set' é como uma lista, mas não permite itens repetidos e é muito rápido para verificações.
generated_emails = set()

print(f"\nCÉLULA 2: A iniciar a geração de dados para {num_users} utilizadores...")

# Este é o loop principal. Para cada um dos 1000 utilizadores, vou simular a sua jornada.
for i in range(num_users):
    # Crio os dados base para cada utilizador.
    visitor_id = str(uuid.uuid4())
    signup_time = fake.date_time_between(start_date='-90d', end_date='-1d')
    acquisition_campaign = random.choice(campaigns)

    # Garanto que cada e-mail é único.
    email = fake.email()
    while email in generated_emails:
        email = fake.email() # Se o e-mail já existir, gero um novo.
    generated_emails.add(email) # Adiciono o novo e-mail único ao meu set de controlo.

    # Monto o dicionário com os dados do utilizador.
    # O status inicial de todos é 'trial' e 'active'.
    user_data = {
        'user_id': i + 1,
        'visitor_id': visitor_id,
        'email': email,
        'signup_date': signup_time.isoformat(),
        'plan': 'trial',
        'status': 'active',
        'acquisition_campaign': acquisition_campaign # Coluna temporária para a lógica do funil.
    }

    # --- Lógica do Funil de Conversão ---
    # Agora, simulo os eventos que este utilizador específico realiza.

    # 1. Evento de Inscrição (trial_signup): Todos os utilizadores fazem isto.
    events_list.append({
        'visitor_id': visitor_id,
        'event_type': 'trial_signup',
        'timestamp': signup_time.isoformat(),
        'first_touch': json.dumps({'campaign': acquisition_campaign})
    })

    # 2. Verificação de E-mail (user_verified): Simulo uma probabilidade de 95%.
    if random.random() < 0.95: # random.random() gera um número entre 0.0 e 1.0.
        verification_time = signup_time + timedelta(minutes=random.randint(1, 60))
        events_list.append({
            'visitor_id': visitor_id,
            'event_type': 'user_verified',
            'timestamp': verification_time.isoformat()
        })

        # 3. Criação de Projeto (project_created): A probabilidade depende da campanha de origem.
        # Utilizadores da campanha 'google_gestao_agil' têm uma chance maior (55% vs 30%).
        prob_create_project = 0.55 if user_data['acquisition_campaign'] == 'google_gestao_agil' else 0.30
        if random.random() < prob_create_project:
            project_time = verification_time + timedelta(hours=random.randint(1, 48))
            events_list.append({
                'visitor_id': visitor_id,
                'event_type': 'project_created',
                'timestamp': project_time.isoformat()
            })

            # 4. Início de Assinatura (subscription_started): O passo final do funil.
            # A probabilidade também é maior para a campanha 'google_gestao_agil' (40% vs 15%).
            prob_subscribe = 0.40 if user_data['acquisition_campaign'] == 'google_gestao_agil' else 0.15
            if random.random() < prob_subscribe:
                subscription_time = project_time + timedelta(days=random.randint(1, 14))
                events_list.append({
                    'visitor_id': visitor_id,
                    'event_type': 'subscription_started',
                    'timestamp': subscription_time.isoformat(),
                    'event_properties': json.dumps({'plan': 'pro', 'price': 49.9})
                })
                # Se o utilizador assina, atualizo o seu status na lista de utilizadores.
                user_data['plan'] = 'pro'
                user_data['status'] = 'converted'

    # Adiciono o dicionário do utilizador (atualizado ou não) à minha lista principal.
    users_list.append(user_data)

# Antes de criar o DataFrame final, removo a coluna temporária que usei para a lógica do funil.
for user in users_list:
    del user['acquisition_campaign']

# Finalmente, converto as minhas listas de dicionários em DataFrames do pandas.
users_df = pd.DataFrame(users_list)
events_df = pd.DataFrame(events_list)

# Imprimo um resumo para verificar se os dados foram gerados como esperado.
print("Geração de dados concluída.")
print(f"Total de utilizadores para inserção: {len(users_df)}")
print(f"Total de eventos para inserção: {len(events_df)}")
print(f"Utilizadores convertidos (plano 'pro'): {len(users_df[users_df['plan'] == 'pro'])}")


CÉLULA 2: A iniciar a geração de dados para 1000 utilizadores...
Geração de dados concluída.
Total de utilizadores para inserção: 1000
Total de eventos para inserção: 2438
Utilizadores convertidos (plano 'pro'): 101


In [4]:
# --- CÉLULA 3: CONEXÃO E INSERÇÃO NO BANCO DE DADOS ---

print("\nCÉLULA 3: A iniciar a conexão com o Supabase...")

# Defino as minhas credenciais de API para a conexão.
# Estes valores são encontrados em Project Settings > API no painel do Supabase.
url: str = "https://oteqjiqifwhmqdjblmyl.supabase.co"
key: str = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Im90ZXFqaXFpZndobXFkamJsbXlsIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NTU2MzIwMDIsImV4cCI6MjA3MTIwODAwMn0.SQIeGGn4TIqqT8OlLpvDxzQAlyERJ5OZXwQlKx9gwO4"

# Crio o cliente de conexão com o Supabase.
try:
    supabase: Client = create_client(url, key)
    print("Conexão com o Supabase estabelecida com sucesso!")
except Exception as e:
    print(f"Erro ao conectar com o Supabase: {e}")
    exit() # Se a conexão falhar, o script para aqui.

# Para garantir que cada execução do script é limpa, eu apago os dados existentes nas tabelas.
# Apago primeiro 'user_events' por causa da relação de chave estrangeira com 'users'.
print("\nA limpar as tabelas para garantir uma nova inserção...")
try:
    supabase.table('user_events').delete().gt('event_id', -1).execute()
    supabase.table('users').delete().gt('user_id', -1).execute()
    print("Tabelas 'users' e 'user_events' limpas com sucesso.")
except Exception as e:
    print(f"Erro ao limpar as tabelas: {e}")

# Criei uma função para inserir os dados. Isto torna o código mais organizado e reutilizável.
# A função insere os dados em lotes (batches) para ser mais eficiente com grandes volumes.
def insert_data_in_batches(table_name, dataframe, batch_size=100):
    if dataframe.empty:
        print(f"Nenhum dado para inserir na tabela '{table_name}'.")
        return

    print(f"\nA iniciar a inserção de {len(dataframe)} registos na tabela '{table_name}'...")
    
    total_inserted = 0
    # Este loop divide o DataFrame em pedaços de 'batch_size' e insere um de cada vez.
    for start in range(0, len(dataframe), batch_size):
        end = start + batch_size
        batch_df = dataframe.iloc[start:end]
        
        # O formato JSON não aceita valores 'NaN' do pandas, então eu converto-os para 'None'.
        batch_df = batch_df.replace({np.nan: None})
        
        data_to_insert = batch_df.to_dict(orient='records')
        
        print(f"  A inserir lote: registos {start+1} a {min(end, len(dataframe))}...")
        
        try:
            response = supabase.table(table_name).insert(data_to_insert, count='exact').execute()
            if response.count is not None:
                total_inserted += response.count
        except Exception as e:
            print(f"  Ocorreu uma exceção ao inserir o lote: {e}")
            continue
            
    print(f"\nInserção na tabela '{table_name}' concluída.")
    print(f"Total de registos inseridos com sucesso: {total_inserted}/{len(dataframe)}")

# Chamo a minha função de inserção para ambas as tabelas.
insert_data_in_batches('users', users_df)
insert_data_in_batches('user_events', events_df)


CÉLULA 3: A iniciar a conexão com o Supabase...
Conexão com o Supabase estabelecida com sucesso!

A limpar as tabelas para garantir uma nova inserção...
Tabelas 'users' e 'user_events' limpas com sucesso.

A iniciar a inserção de 1000 registos na tabela 'users'...
  A inserir lote: registos 1 a 100...
  A inserir lote: registos 101 a 200...
  A inserir lote: registos 201 a 300...
  A inserir lote: registos 301 a 400...
  A inserir lote: registos 401 a 500...
  A inserir lote: registos 501 a 600...
  A inserir lote: registos 601 a 700...
  A inserir lote: registos 701 a 800...
  A inserir lote: registos 801 a 900...
  A inserir lote: registos 901 a 1000...

Inserção na tabela 'users' concluída.
Total de registos inseridos com sucesso: 1000/1000

A iniciar a inserção de 2438 registos na tabela 'user_events'...
  A inserir lote: registos 1 a 100...
  A inserir lote: registos 101 a 200...
  A inserir lote: registos 201 a 300...
  A inserir lote: registos 301 a 400...
  A inserir lote: reg

In [5]:
#############################################################################
# CÉLULA 4: FINALIZAÇÃO
# ---------------------------------------------------------------------------
# Objetivo: Exibir uma mensagem final confirmando a conclusão do processo.
#############################################################################
print("\n--- Processo Finalizado ---")
print("CÉLULA 4: Tarefa de hoje concluída. Verifique a integridade dos dados diretamente no painel do Supabase.")


--- Processo Finalizado ---
CÉLULA 4: Tarefa de hoje concluída. Verifique a integridade dos dados diretamente no painel do Supabase.
