In [None]:
import pandas as pd
import numpy as np
from faker import Faker
import random

fake = Faker()
Faker.seed(0)
np.random.seed(0)
random.seed(0)

# Parametrlər
n_sampless = 40000  

def generate_transaction_data(n):
    data = []

    transaction_types = ['online', 'pos', 'atm', 'mobile_app']
    transaction_categories = [
        'travel', 'food', 'shopping', 'entertainment',
        'healthcare', 'utilities', 'education',
        'charity', 'other'
    ]
  
    merchants = [
    # E-Ticarət
    'Amazon', 'AliExpress',

    # Restoranlar
    'McDonalds', 'Starbucks', 'KFC',

    # Nəqliyyat və Səyahət
    'Bolt', 'Turkish Airlines',

    # Subscriptions
    'Netflix', 'YouTube Premium', 'Spotify',

    # Sağlamlıq
    'Aptek+', 'Baku Med Center',

    # Dövlət Xidmətləri
    'Azercell',  'Azəriqaz', 'Azərsu',

    # Bank
    'ABB', 'Kapital Bank'
]

    locations = [
        'Baku', 'Ganja', 'Sumqayit', 'Sheki', 'Shirvan', 'Mingachevir', 'Lankaran', 'Nakhchivan', 'Xankendi',
        'Quba', 'Gabala', 'Zaqatala'
    ]
    genders = ['Female', 'Male']

    merchant_category_map = {
    'Amazon': 'shopping',
    'AliExpress': 'shopping',
    'McDonalds': 'food',
    'Starbucks': 'food',
    'KFC': 'food',
    'Bolt': 'travel',
    'Turkish Airlines': 'travel',
    'Netflix': 'entertainment',
    'YouTube Premium': 'subscriptions',
    'Spotify': 'subscriptions',
    'Aptek+': 'healthcare',
    'Baku Med Center': 'healthcare',
    'Azercell': 'utilities',
    'Azəriqaz': 'utilities',
    'Azərsu': 'utilities',
    'ABB': 'banking',
    'Kapital Bank': 'banking'
}

    for i in range(n):
        transaction_id = i + 1
        card_id = fake.credit_card_number()
        timestamp = fake.date_time_this_year()
        amount = round(random.uniform(1, 5000), 2)
        merchant = random.choice(list(merchant_category_map.keys()))
        transaction_type = random.choice(transaction_types)
        transaction_category = merchant_category_map[merchant]
        location = random.choice(locations)
        gender = random.choice(genders)
        account_balance = round(random.uniform(100, 10000), 2)
        

        # Fraud ehtimalı (anomal davranışlara əsasən)
        if transaction_type in ['online', 'mobile_app', 'atm'] and amount > 3000:
            is_fraud = np.random.choice([0, 1], p=[0.5, 0.5])
        elif merchant in ['Amazon', 'Kapital Bank', 'Aptek+','Turkish Airlines','Baku Med Center'] and amount > 3000:
            is_fraud = np.random.choice([0, 1], p=[0.5, 0.5])
        elif location == 'Shirvan' and transaction_type == 'atm' and amount > 1000:
            is_fraud = np.random.choice([0, 1], p=[0.7, 0.3])
        elif transaction_category in ['healthcare', 'entertainment', 'travel'] and amount > 2000:
            is_fraud = np.random.choice([0, 1], p=[0.85, 0.15])
        else:
            is_fraud = np.random.choice([0, 1], p=[0.98, 0.02])  # normal hallarda

        data.append([
            transaction_id, card_id, timestamp, amount,
            merchant, transaction_type, transaction_category, location,
            gender, account_balance, is_fraud
        ])

    columns = [
        'transaction_id', 'card_id', 'timestamp', 'amount',
        'merchant', 'transaction_type', 'transaction_category', 'location',
        'gender', 'account_balance', 'is_fraud'
    ]
    
    return pd.DataFrame(data, columns=columns)


df = generate_transaction_data(n_sampless)

# CSV faylı kimi saxlamaq 
df.to_csv(r"C:/Users/\user/Documents/fraud_transactions7.csv", index=False)



eal fraud dataları hüquqi və etik səbəblərlə paylaşılmır, ona görə də bu layihədə real həyatdakı davranışları təqlid edən (yəni synthetic) bir dataset yaratdım.

Bu datasetdə is_fraud dəyəri sadəcə random deyil. Onu real həyatda müşahidə olunan davranışlara əsaslanaraq ehtimallarla təyin etmişəm:

Məsələn:
Online və 3000 AZN-dən yuxarı əməliyyat → 50% fraud ehtimalı

Şirvanda ATM + 1000 AZN-dən çox → 30% ehtimal

Travel, Healthcare və Entertainment kateqoriyası + yüksək məbləğ → 15%

Digər hallarda isə → cəmi 2% ehtimal

Bu real fraud davranışlarını öyrətmək üçün çox vacibdir, çünki modelə nə "sağlam", nə "şübhəli" nümunələr təqdim etməsək, o öyrənə bilməz.



In [2]:
df

Unnamed: 0,transaction_id,card_id,timestamp,amount,merchant,transaction_type,transaction_category,location,gender,account_balance,is_fraud
0,1,6504876475938248,2025-01-28 03:15:45,4222.26,Azəriqaz,online,utilities,Shirvan,Male,4108.85,1
1,2,2720489241157817,2025-03-10 16:47:13,3919.21,Spotify,mobile_app,subscriptions,Mingachevir,Female,5096.40,1
2,3,6593877840801600,2025-04-29 19:38:49,1409.91,Starbucks,atm,food,Xankendi,Female,3170.46,0
3,4,30535139332877,2025-01-18 17:05:49,3649.43,Aptek+,mobile_app,healthcare,Xankendi,Female,3602.53,1
4,5,2278714841858399,2025-04-17 06:16:37,1581.67,Turkish Airlines,mobile_app,travel,Nakhchivan,Male,716.57,0
...,...,...,...,...,...,...,...,...,...,...,...
39995,39996,373104092920676,2025-01-24 20:32:14,3668.18,Bolt,mobile_app,travel,Shirvan,Female,9217.95,1
39996,39997,4621775195380,2025-03-08 22:04:51,3167.19,Azercell,atm,utilities,Zaqatala,Male,9621.85,1
39997,39998,2264739382237923,2025-01-29 02:37:00,3586.00,KFC,atm,food,Shirvan,Female,8684.24,1
39998,39999,3544298758611534,2025-05-24 23:38:00,3360.81,Spotify,mobile_app,subscriptions,Sumqayit,Female,2942.60,0
