In [1]:
import pandas as pd
import numpy as np
import os

# 상대 경로 기준으로 디렉토리 생성
relative_path = "data/datasets"
os.makedirs(relative_path, exist_ok=True)

# 랜덤 데이터 생성
num_samples = 1000

# 카테고리별 가격대 설정
categories = {
    "레플리카 유니폼": {"mean": 80000, "std": 20000},
    "어센틱 유니폼": {"mean": 150000, "std": 30000},
    "플레이어 유니폼": {"mean": 300000, "std": 50000},
    "모자": {"mean": 40000, "std": 10000},
    "사인볼": {"mean": 150000, "std": 50000},
    "응원 도구": {"mean": 20000, "std": 5000},
    "기타 한정판 굿즈": {"mean": 300000, "std": 100000},
}

# KBO 구단 목록
teams = [
    "LG 트윈스", "두산 베어스", "키움 히어로즈", "KIA 타이거즈",
    "삼성 라이온즈", "롯데 자이언츠", "NC 다이노스", "SSG 랜더스",
    "한화 이글스", "KT 위즈"
]

In [2]:
# 랜덤 데이터 생성
np.random.seed(42)
category_list = np.random.choice(list(categories.keys()), num_samples)
team_list = np.random.choice(teams, num_samples)  # 유저 선호 팀
data = {
    "transaction_id": range(1, num_samples + 1),
    "user_id": np.random.randint(1000, 2000, num_samples),
    "preferred_team": team_list,
    "product_id": np.random.randint(500, 1000, num_samples),
    "category": category_list,
    "price": [
        max(0, round(np.random.normal(categories[cat]["mean"], categories[cat]["std"]) / 10) * 10)
        for cat in category_list
    ],
    "transaction_time": np.random.randint(0, 24, num_samples),  # 24시간 기준
    "user_transaction_count": np.random.randint(1, 20, num_samples),
    "is_new_account": np.random.choice([0, 1], num_samples, p=[0.8, 0.2]),
    "review_count": np.random.randint(0, 50, num_samples),
}

# DataFrame 생성
df = pd.DataFrame(data)

In [3]:
# 평균 가격 추가
df["avg_price"] = df["category"].apply(
    lambda x: categories[x]["mean"]
)

# 사기 여부 추가 (현실적 조건)
df["is_fraud"] = (
    (df["is_new_account"] == 1) &  # 신규 계정
    (df["price"] < df["avg_price"] * 0.5) |  # 평균 시세보다 50% 이상 낮은 가격
    (df["transaction_time"] >= 23)  # 심야 거래
).astype(int)

In [4]:
# 데이터 저장
df.to_csv(os.path.join(relative_path, "fraud_dataset_baseball_detailed.csv"), index=False)
print("야구 굿즈 데이터셋이 생성되었습니다!")

야구 굿즈 데이터셋이 생성되었습니다!
