In [2]:
# Instalar bibliotecas
!pip install pandas numpy faker



In [3]:
# Imports
import pandas as pd
import numpy as np
from faker import Faker
from datetime import datetime, timedelta
import random

# Configurações globais
fake = Faker()
np.random.seed(42)
random.seed(42)

In [4]:
# --- GENERATE A DUMMY DATASET
def gerar_dataset(num_linhas=5000):
    dados = []

    for _ in range(num_linhas):
        valor_transacao = round(np.random.exponential(scale=300), 2)
        data_hora = fake.date_time_between(start_date='-2y', end_date='now')
        localizacao = f"{round(random.uniform(-90, 90), 6)}, {round(random.uniform(-180, 180), 6)}"
        data_criacao_conta = data_hora - timedelta(days=random.randint(30, 3650))
        classe_transacoes_anteriores = random.choice([0, 1])
        classe_rotulo = np.random.choice([0, 1], p=[0.9, 0.1])  # 10% de fraude
        recorrencia_valor = random.choice([0, 1])
        idade_titular = random.randint(18, 85)
        cartao_temporario = random.choice([0, 1])
        limite_credito = random.choice([1000, 2000, 5000, 10000, 20000])
        nome_lista_devedores = random.choice([0, 1])
        num_cartoes_complementares = random.randint(0, 5)
        data_ativacao_cartao = data_criacao_conta + timedelta(days=random.randint(0, 90))
        transacoes_outro_pais = random.randint(0, 10)
        transacoes_suspeitas = random.randint(0, 5)
        valor_medio_transacoes = round(np.random.normal(loc=300, scale=100), 2)
        historico_pagamento = random.choice(["bom", "atrasado", "inadimplente"])
        emprego_fixo = random.choice([0, 1])
        tempo_ultima_transacao = data_hora - timedelta(seconds=random.randint(0, 86400 * 30))
        dispositivo_novo = random.choice([0, 1])

        dados.append([
            valor_transacao, data_hora, localizacao, data_criacao_conta,
            classe_transacoes_anteriores, classe_rotulo, recorrencia_valor,
            idade_titular, cartao_temporario, limite_credito,
            nome_lista_devedores, num_cartoes_complementares, data_ativacao_cartao,
            transacoes_outro_pais, transacoes_suspeitas, valor_medio_transacoes,
            historico_pagamento, emprego_fixo, tempo_ultima_transacao,
            dispositivo_novo
        ])

    colunas = [
        "Valor da Transação", "Data/Hora da Transação", "Localização da Transação",
        "Data criação conta recebedor", "Classe(transações anteriores)", "Classe (rótulo)",
        "Recorrência de envios do mesmo valor", "Idade do titular do cartão",
        "Classe(cartão temporário)", "Limite de crédito", "Classe(nome lista devedores)",
        "Número de cartões complementares", "Data ativação do cartão",
        "Numero transações para outro pais", "Número de transações suspeitas anteriormente",
        "Valor médio das transações do usuário", "Classe(histórico pagamento)",
        "Classe(emprego fixo)", "Tempo desde a ultima transação", "Dispositivo de acesso novo?"
    ]

    return pd.DataFrame(dados, columns=colunas)


In [5]:
# Gerar o dataset
df = gerar_dataset()

# Visualizar as primeiras linhas
df.head()


Unnamed: 0,Valor da Transação,Data/Hora da Transação,Localização da Transação,Data criação conta recebedor,Classe(transações anteriores),Classe (rótulo),Recorrência de envios do mesmo valor,Idade do titular do cartão,Classe(cartão temporário),Limite de crédito,Classe(nome lista devedores),Número de cartões complementares,Data ativação do cartão,Numero transações para outro pais,Número de transações suspeitas anteriormente,Valor médio das transações do usuário,Classe(histórico pagamento),Classe(emprego fixo),Tempo desde a ultima transação,Dispositivo de acesso novo?
0,140.78,2024-01-19 05:23:06,"25.096824, -170.996128",2020-11-19 05:23:06,0,1,0,35,0,20000,0,4,2021-01-12 05:23:06,0,0,364.77,bom,0,2024-01-07 22:18:56,0
1,50.89,2024-02-03 10:02:05,"11.024111, 77.767061",2016-02-23 10:02:05,1,0,0,75,1,1000,0,5,2016-04-17 10:02:05,5,2,452.3,bom,0,2024-01-18 01:52:26,0
2,17.95,2024-08-11 13:30:53,"-73.305748, -145.182104",2015-01-10 13:30:53,1,0,1,23,1,20000,0,3,2015-01-20 13:30:53,8,2,457.92,inadimplente,1,2024-07-14 12:51:03,0
3,6.24,2023-09-04 07:49:27,"36.822931, -163.503222",2021-01-14 07:49:27,1,1,0,47,0,10000,1,3,2021-04-05 07:49:27,5,1,376.74,atrasado,1,2023-08-25 03:43:51,1
4,535.93,2025-05-30 02:29:43,"36.327656, 66.07716",2024-07-12 02:29:43,0,0,0,38,1,10000,1,5,2024-10-08 02:29:43,8,1,253.66,inadimplente,1,2025-05-27 09:19:23,0


In [6]:
# Salvar o arquivo no diretório atual
df.to_csv("transacoes_fraude.csv", index=False)
print("✅ Dataset salvo como 'transacoes_fraude.csv'")

✅ Dataset salvo como 'transacoes_fraude.csv'
