In [23]:
# ===================================================
# üö© Dataset Simulado ‚Äî Detec√ß√£o de Fraudes Banc√°rias
# ===================================================

# ========================
# üîß Importa√ß√£o de Bibliotecas
# ========================
import pandas as pd
import numpy as np
import random
import seaborn as sns
import matplotlib.pyplot as plt

# ========================
# ‚öôÔ∏è Defini√ß√£o dos Par√¢metros
# ========================
N_REGISTROS = 50000
PERCENTUAL_FRAUDE = 0.01  # 1%
N_FRAUDE = int(N_REGISTROS * PERCENTUAL_FRAUDE)
N_LEGITIMO = N_REGISTROS - N_FRAUDE

# ========================
# üî® Fun√ß√µes Geradoras
# ========================
def gerar_idade(n):
    return np.random.randint(18, 70, n)

def gerar_renda(n):
    return np.random.normal(5000, 2000, n).clip(1000, 20000)

def gerar_limite_credito(renda):
    return renda * np.random.uniform(1.5, 3.5, len(renda))

def gerar_valor_transacao(n):
    return np.random.exponential(500, n).clip(10, 5000)

def gerar_horario_transacao(n):
    return np.random.randint(0, 24, n)

def gerar_tipo_estabelecimento(n):
    return np.random.choice(
        ['Supermercado', 'Farm√°cia', 'Eletr√¥nicos', 'Posto de Combust√≠vel', 'Roupas', 'E-commerce'], n
    )

def gerar_dispositivo(n):
    return np.random.choice(
        ['App Mobile', 'Web', 'POS F√≠sico'], n
    )

def gerar_distancia_residencia(n):
    return np.random.exponential(10, n).clip(0, 100)

def gerar_tempo_cliente(n):
    return np.random.randint(0, 120, n)  # em meses

def gerar_score_credito(n):
    return np.random.randint(300, 900, n)

def gerar_historico_atrasos(n):
    return np.random.poisson(1, n)

def gerar_primeira_compra(n):
    return np.random.choice(['Sim', 'N√£o'], n, p=[0.2, 0.8])

# ========================
# ‚úÖ Dados Leg√≠timos
# ========================
dados_legitimos = pd.DataFrame({
    'idade': gerar_idade(N_LEGITIMO),
    'renda': gerar_renda(N_LEGITIMO).round(2),
    'limite_credito': gerar_limite_credito(gerar_renda(N_LEGITIMO)).round(2),
    'valor_transacao': gerar_valor_transacao(N_LEGITIMO).round(2),
    'horario_transacao': gerar_horario_transacao(N_LEGITIMO),
    'tipo_estabelecimento': gerar_tipo_estabelecimento(N_LEGITIMO),
    'dispositivo': gerar_dispositivo(N_LEGITIMO),
    'distancia_residencia_km': gerar_distancia_residencia(N_LEGITIMO).round(2),
    'tempo_cliente_meses': gerar_tempo_cliente(N_LEGITIMO),
    'score_credito': gerar_score_credito(N_LEGITIMO),
    'historico_atrasos': gerar_historico_atrasos(N_LEGITIMO),
    'primeira_compra_estabelecimento': gerar_primeira_compra(N_LEGITIMO),
    'status_fraude': 'N√£o'
})

# ========================
# üö© Dados Fraudulentos
# ========================
dados_fraude = pd.DataFrame({
    'idade': gerar_idade(N_FRAUDE),
    'renda': (gerar_renda(N_FRAUDE) * np.random.uniform(0.5, 1.0, N_FRAUDE)).round(2),
    'limite_credito': gerar_limite_credito(
        np.random.normal(4000, 1500, N_FRAUDE).clip(500, 15000)
    ).round(2),
    'valor_transacao': (gerar_valor_transacao(N_FRAUDE) * np.random.uniform(2, 5, N_FRAUDE)).clip(10, 20000).round(2),
    'horario_transacao': np.random.choice([0,1,2,3,4,22,23], N_FRAUDE),
    'tipo_estabelecimento': np.random.choice(['E-commerce', 'Eletr√¥nicos'], N_FRAUDE),
    'dispositivo': np.random.choice(['Web', 'App Mobile'], N_FRAUDE),
    'distancia_residencia_km': (gerar_distancia_residencia(N_FRAUDE) + np.random.uniform(50, 200, N_FRAUDE)).round(2),
    'tempo_cliente_meses': (gerar_tempo_cliente(N_FRAUDE) * np.random.uniform(0, 0.5, N_FRAUDE)).astype(int),
    'score_credito': (gerar_score_credito(N_FRAUDE) * np.random.uniform(0.5, 0.8, N_FRAUDE)).astype(int),
    'historico_atrasos': gerar_historico_atrasos(N_FRAUDE) + np.random.poisson(2, N_FRAUDE),
    'primeira_compra_estabelecimento': 'Sim',
    'status_fraude': 'Sim'
})

# ========================
# üîó Combinar e Organizar
# ========================
df = pd.concat([dados_legitimos, dados_fraude]).sample(frac=1, random_state=42).reset_index(drop=True)

# ========================
# üìã Visualiza√ß√£o Harm√¥nica
# ========================
pd.set_option('display.float_format', '{:,.2f}'.format)  # formato dos n√∫meros

print("\nüìä Visualiza√ß√£o Amostra do Dataset:\n")
display(df.head(10))

print("\nüîç Distribui√ß√£o de Fraude:\n")
print(df['status_fraude'].value_counts())

# ========================
# üíæ Salvar Dataset (substituindo o existente)
# ========================
import os

# Caminho para a pasta processed (que j√° existe)
caminho_arquivo = 'fraude_detector/data/processed/dataset_processado.csv'

# Salvar o DataFrame (substituir√° o arquivo anterior)
df.to_csv(caminho_arquivo, index=False)

print(f"\n‚úÖ Dataset sobrescrito em: '{caminho_arquivo}'")


üìä Visualiza√ß√£o Amostra do Dataset:



Unnamed: 0,idade,renda,limite_credito,valor_transacao,horario_transacao,tipo_estabelecimento,dispositivo,distancia_residencia_km,tempo_cliente_meses,score_credito,historico_atrasos,primeira_compra_estabelecimento,status_fraude
0,38,5288.48,9649.42,179.3,6,Farm√°cia,App Mobile,0.15,22,350,0,N√£o,N√£o
1,35,2329.95,18582.75,141.57,4,Eletr√¥nicos,POS F√≠sico,7.62,98,554,0,N√£o,N√£o
2,62,1000.0,13621.39,750.91,8,Supermercado,App Mobile,17.59,61,615,0,N√£o,N√£o
3,46,3248.36,11441.22,103.87,2,Posto de Combust√≠vel,Web,20.56,23,428,0,N√£o,N√£o
4,44,2061.15,7119.78,67.44,19,E-commerce,POS F√≠sico,3.9,0,731,1,N√£o,N√£o
5,28,6688.04,10103.65,575.36,3,Roupas,POS F√≠sico,0.47,24,561,1,N√£o,N√£o
6,25,6253.21,2330.7,472.3,16,Eletr√¥nicos,App Mobile,2.96,116,527,1,N√£o,N√£o
7,46,1467.0,16042.03,1827.01,19,E-commerce,App Mobile,4.29,36,423,1,N√£o,N√£o
8,27,4087.84,9008.18,1270.63,9,E-commerce,Web,4.24,83,538,2,N√£o,N√£o
9,29,8266.37,18100.46,248.17,13,E-commerce,App Mobile,6.66,48,865,2,N√£o,N√£o



üîç Distribui√ß√£o de Fraude:

status_fraude
N√£o    49500
Sim      500
Name: count, dtype: int64

‚úÖ Dataset sobrescrito em: 'fraude_detector/data/processed/dataset_processado.csv'


In [25]:
import os
import pandas as pd

# 1. Definir caminho RELATIVO (assumindo que o script est√° na raiz do projeto)
caminho_pasta = './fraude_detector/data/processed'
caminho_arquivo = os.path.join(caminho_pasta, 'dataset_processado.csv')

# 2. Criar pasta (se n√£o existir) com verifica√ß√£o
os.makedirs(caminho_pasta, exist_ok=True)

# 3. Salvar o arquivo
try:
    df.to_csv(caminho_arquivo, index=False)
    print(f"‚úÖ Arquivo salvo em: {os.path.abspath(caminho_arquivo)}")
except Exception as e:
    print(f"‚ùå Erro ao salvar: {e}")

‚úÖ Arquivo salvo em: C:\Users\Victo\fraude_detector\data\processed\fraude_detector\data\processed\dataset_processado.csv
