In [None]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# Número de transações simuladas
n = 10000

# Gerar IDs de transação e usuário
ids_transacoes = [f"TX{i:06d}" for i in range(n)]
ids_usuarios = [f"U{random.randint(1, 1000):04d}" for _ in range(n)]

# Gerar valores de transações com distribuição normal e outliers
valores = np.round(np.random.normal(loc=200, scale=50, size=n), 2)
valores[np.random.choice(n, size=200, replace=False)] *= 10  # Outliers

# Gerar datas e horários aleatórios
data_inicio = datetime(2024, 1, 1)
datas = [data_inicio + timedelta(minutes=random.randint(0, 60*24*90)) for _ in range(n)]

# Extrair hora para análise de turno
horas = [dt.hour for dt in datas]

# Canais
canais = np.random.choice(['app', 'web', 'ATM'], size=n, p=[0.5, 0.3, 0.2])

# Localização (latitude e longitude dentro do Brasil)
latitudes = np.random.uniform(-30.0, -3.0, n)
longitudes = np.random.uniform(-70.0, -34.0, n)

# Dispositivos
dispositivos = np.random.choice(['iPhone', 'Android', 'Windows', 'Linux'], size=n)

# Rótulo de fraude: 2% das transações são fraudulentas
fraudes = np.random.choice([0, 1], size=n, p=[0.98, 0.02])

# Criar DataFrame
df = pd.DataFrame({
    'id_transacao': ids_transacoes,
    'id_usuario': ids_usuarios,
    'valor': valores,
    'data_hora': datas,
    'hora': horas,
    'canal': canais,
    'latitude': latitudes,
    'longitude': longitudes,
    'dispositivo': dispositivos,
    'fraude': fraudes
})

# Salvar para usar no projeto
df.to_csv('data/transacoes.csv', index=False)
print(df.head())
