In [15]:
!pip install faker



In [17]:
import random
from faker import Faker
import csv
from datetime import datetime, timedelta

fake = Faker('ar_SA')

# قوالب متغيرة
saudi_banks = ["البنك الأهلي", "الراجحي", "الرياض", "ساب", "الانماء", "سامبا", "البلاد", "العربي الوطني"]
gov_entities = ["أبشر", "الجوازات", "وزارة العمل", "المرور", "وزارة الصحة", "هيئة الزكاة", "التأمينات الاجتماعية"]
telecom_companies = ["STC", "زين", "موبايلي", "الاتصالات السعودية", "GO", "Virgin Mobile"]
ecom_sites = ["نون", "أمازون", "نمشي", "جرير", "إكسترا", "سوق", "علي بابا"]
saudi_cities = ["الرياض", "جدة", "الدمام", "مكة", "المدينة", "الخبر", "الطائف"]
saudi_names = ["محمد", "فهد", "نورة", "خالد", "عبدالله", "لطيفة", "سعود"]
products = ["آيفون 15 برو", "ماك بوك", "ساعة أبل", "جالكسي Z فولد", "QLED TV", "بلاي ستيشن 5"]
amounts = ["500", "1,000", "5,000", "10,000", "25,000", "50,000", "100,000", "500,000"]
jobs = ["مدخل بيانات", "مسوق إلكتروني", "مشرف مواقع", "موظف استقبال", "سائق خاص", "محلل مالي"]
domains = ["sa-update", "ksa-verify", "alrajhi-support", "stc-offer", "moi-alert", "customs-pay"]
tlds = ["com", "net", "org", "info", "live", "sa", "xyz"]
emojis = ["💰", "🚀", "⚠️", "🎁", "✨", "⭐", "🔥", "💯", "✅", "❌"]

# وظيفة لإضافة أخطاء إملائية
def add_typos(text):
    arabic_typos = {
        'ا': ['إ', 'أ', 'آ'],
        'ة': ['ه'],
        'ى': ['ي'],
        'ئ': ['ي'],
        'ء': ['أ'],
        'ر': ['ز'],
        'س': ['ش']
    }
    words = text.split()
    for i in range(len(words)):
        if random.random() > 0.7 and len(words[i]) > 3:
            char = random.choice(list(arabic_typos.keys()))
            if char in words[i]:
                words[i] = words[i].replace(char, random.choice(arabic_typos[char]), 1)
    return " ".join(words)

# وظيفة لتوليد روابط وهمية
def generate_fake_link():
    return f"https://{random.choice(domains)}.{random.choice(tlds)}/{fake.uri_path()}"

# أنواع الاحتيال الرئيسية مع أوزانها
scam_types = [
    ("مالي", 25),
    ("حكومي", 20),
    ("عروض", 15),
    ("توظيف", 12),
    ("تقني", 10),
    ("شحن", 8),
    ("اجتماعي", 5),
    ("ديني", 5)
]

# توليد الرسائل
messages = []
for _ in range(5000):
    scam_type = random.choices(
        [st[0] for st in scam_types],
        weights=[st[1] for st in scam_types]
    )[0]

    # بناء الرسالة حسب النوع
    if scam_type == "مالي":
        templates = [
            f"تنبيه عاجل من {random.choice(saudi_banks)}: تم تعليق بطاقتك بسبب نشاط مشبوه. التحديث المطلوب خلال 24 ساعة: {generate_fake_link()}",
            f"عميلنا العزيز: يوجد محاولة سحب بقيمة {random.choice(amounts)} ريال من حسابك. أوقف العملية الآن: {generate_fake_link()}",
            f"إشعار من {random.choice(saudi_banks)}: حسابك بحاجة لتحديث بيانات الهوية. تجنب الإيقاف: https://bit.ly/{fake.word()}",
            f"تم اكتشاف عملية تحويل مشبوهة من حسابك بمبلغ {random.choice(amounts)} ريال. تأكيد الهوية فوراً: {generate_fake_link()}"
        ]

    elif scam_type == "حكومي":
        templates = [
            f"{random.choice(gov_entities)}: يوجد مشكلة في وثيقتك الرسمية. التصحيح خلال 48 ساعة ضروري: {generate_fake_link()}",
            f"تنبيه من {random.choice(gov_entities)}: لديك غرامة مالية لم تسدد. تجنب المضاعفات: {generate_fake_link()}",
            f"عاجل: إخطار من النيابة العامة برقم {fake.random_number(digits=8)}. التفاصيل: {generate_fake_link()}",
            f"وزارة الداخلية: مطلوب تحديث بيانات الإقامة قبل {datetime.now().strftime('%d-%m-%Y')}. الرابط: {generate_fake_link()}"
        ]

    elif scam_type == "عروض":
        templates = [
            f"مبروك! فزت بـ {random.choice(products)} من {random.choice(ecom_sites)}. تأكيد الجائزة خلال ساعتين: {generate_fake_link()}",
            f"عرض حصري لسكان {random.choice(saudi_cities)}: خصم 70% على {random.choice(['الأجهزة الإلكترونية','الملابس','الأثاث'])}. التسجيل: {generate_fake_link()}",
            f"عروض اليوم الوطني: {random.choice(products)} بسعر {random.choice(['499','799','999'])} ريال فقط! العرض ينتهي اليوم: {generate_fake_link()}",
            f"STC: استرد {random.choice(['100','200','300'])} ريال من فاتورتك الأخيرة. الرابط: {generate_fake_link()}"
        ]

    elif scam_type == "توظيف":
        templates = [
            f"وظيفة شاغرة: {random.choice(jobs)} براتب {random.choice(['8,000','10,000','12,000'])} ريال. إرسال السيرة على الواتساب: 05{random.randint(2,9)}{fake.random_number(digits=7)}",
            f"مشروع عمل حر في {random.choice(saudi_cities)}: دخل شهري يصل لـ {random.choice(amounts)} ريال. اشتراك عبر: t.me/{fake.user_name()}_{fake.random_number(digits=4)}",
            f"فرصة لسيدات {random.choice(saudi_cities)}: عمل عن بعد براتب {random.choice(['5,000','6,500','7,200'])} ريال. تواصل عبر: 05{random.randint(2,9)}{fake.random_number(digits=7)}",
            f"مطلوب {random.randint(20,50)} شخص للعمل في خدمة العملاء. راتب أساسي {random.choice(['6,000','7,500'])} + حوافز. التقديم: {generate_fake_link()}"
        ]

    elif scam_type == "تقني":
        templates = [
            f"تنبيه أمني: حسابك في {random.choice(ecom_sites)} معرض للاختراق. التحقق الآن: {generate_fake_link()}",
            f"فيروس خطير تم اكتشافه في جهازك! إزالته فوراً عبر: {generate_fake_link()}",
            f"أي شخص حسابه انستقرام مسروق أو محظور، أرجعه له في ١٠ دقايق. شغلي مضمون ومجرب. تواصل خاص.",
            f"عرض خاص: شحن 100 ريال رصيد مقابل 50 ريال فقط! ارسل 'نعم' للرقم 05{random.randint(2,9)}{fake.random_number(digits=7)}"
        ]

    elif scam_type == "شحن":
        templates = [
            f"شحنتك رقم {fake.random_number(digits=10)} معلقة لعدم دفع رسوم جمركية بقيمة {random.choice(['19.99','29.50','49.00'])} ريال. الدفع: {generate_fake_link()}",
            f"طلبك من {random.choice(ecom_sites)} يحتاج تأكيد عنوان التوصيل خلال ساعة: {generate_fake_link()}",
            f"أرامكس: شحنتك متوقفة في جمارك {random.choice(saudi_cities)}. دفع {random.choice(['15','25','35'])} ريال للتخليص: {generate_fake_link()}",
            f"تأكيد طلب: لديك {random.randint(1,3)} قطع لم يتم تسليمها. تحديث العنوان: {generate_fake_link()}"
        ]

    elif scam_type == "اجتماعي":
        templates = [
            f"مساعدة عاجلة: ابنة أخي بحاجة عملية جراحية بتكلفة {random.choice(['80,000','120,000'])} ريال. التبرعات على الرقم 05{random.randint(2,9)}{fake.random_number(digits=7)}",
            f"أختكم {random.choice(['نورة','سارة','فاطمة'])} تبحث عن زواج شرعي. التواصل خاص للجادين فقط.",
            f"فقدت محفظتي في {random.choice(saudi_cities)} وأحتاج {random.choice(['200','500'])} ريال لإكمال سفرتي. الله يجزاكم خير: 05{random.randint(2,9)}{fake.random_number(digits=7)}",
            f"جمعية خيرية: كفالة يتيم بـ 500 ريال شهرياً. سجل الآن: {generate_fake_link()}"
        ]

    elif scam_type == "ديني":
        templates = [
            f"بمناسبة شهر رمضان: عمرة مجانية لـ {random.randint(50,200)} شخص. سارع بالتسجيل: {generate_fake_link()}",
            f"هيئة الزكاة: توجد مبالغ زكاة غير مسددة باسمك. السداد خلال 24 ساعة: {generate_fake_link()}",
            f"وقف خيري في {random.choice(['مكة','المدينة'])}: تبرع بـ {random.choice(['1000','5000'])} ريال لبناء مسجد. الرابط: {generate_fake_link()}",
            f"كفالة حاج: ساهم بـ {random.choice(['3000','5000'])} ريال لإرسال حاج. التبرع: 05{random.randint(2,9)}{fake.random_number(digits=7)}"
        ]

    # اختيار نموذج وإضافة تحسينات
    msg = random.choice(templates)

    # إضافة عناصر إضافية
    if random.random() > 0.3:
        urgency = ["⏰", "🚨", "❗", "‼️", "🔥"]
        deadlines = ["خلال ساعة", "قبل 24 ساعة", "فوراً", "اليوم فقط", "قبل منتصف الليل"]
        msg = f"{random.choice(urgency)} {msg} {random.choice(deadlines)}"

    if random.random() > 0.5:
        msg = f"{random.choice(emojis)} {msg}"

    if random.random() > 0.6:
        msg = add_typos(msg)

    if random.random() > 0.7:
        msg = f"{random.choice(saudi_names)}، {msg}"

    messages.append({
        "text": msg,
        "label": "spam",
        "scam_type": scam_type,
        "source": random.choice(["SMS", "WhatsApp", "Email", "Social Media"])
    })

# حفظ البيانات في ملف CSV
with open('saudi_scam_messages.csv', 'w', encoding='utf-8-sig', newline='') as f:
    fieldnames = ['text', 'label', 'scam_type', 'source']
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(messages)

print("تم توليد 5000 رسالة احتيال بنجاح!")

تم توليد 5000 رسالة احتيال بنجاح!


In [19]:
import random
from faker import Faker
import csv
from datetime import datetime, timedelta

fake = Faker('ar_SA')

# قوالب متغيرة
saudi_banks = ["البنك الأهلي", "الراجحي", "الرياض", "ساب", "الانماء", "سامبا", "البلاد", "العربي الوطني"]
gov_entities = ["أبشر", "الجوازات", "وزارة العمل", "المرور", "وزارة الصحة", "هيئة الزكاة", "التأمينات الاجتماعية"]
telecom_companies = ["STC", "زين", "موبايلي", "الاتصالات السعودية"]
ecom_sites = ["نون", "أمازون", "نمشي", "جرير", "إكسترا", "سوق"]
saudi_cities = ["الرياض", "جدة", "الدمام", "مكة", "المدينة", "الخبر", "الطائف"]
saudi_names = ["محمد", "فهد", "نورة", "خالد", "عبدالله", "لطيفة", "سعود"]
family_names = ["أبو أحمد", "أم فهد", "أخو سعود", "أخت نورة"]

# توليد الرسائل غير الاحتيالية
ham_messages = []
for _ in range(5000):
    # فئات الرسائل العادية
    category = random.choices(
        ['bank', 'ecom', 'gov', 'social', 'delivery', 'reminder', 'work', 'education'],
        weights=[15, 20, 10, 25, 10, 10, 5, 5]
    )[0]

    # بناء الرسالة حسب الفئة
    if category == 'bank':
        templates = [
            f"تم إيداع مبلغ {random.choice(['1,000', '2,500', '5,000'])} ريال في حسابك بتاريخ {fake.date_this_year()}",
            f"الراجحي: عملية سحب نقدي من الصراف الآلي بمبلغ {random.choice(['300', '500', '1000'])} ريال. الرصيد المتبقي {random.randint(1000, 20000)} ريال",
            f"إشعار من البنك الأهلي: تحويل وارد من {random.choice(saudi_names)} بمبلغ {random.choice(['500', '1000'])} ريال",
            f"تذكير: سداد قرضك الشهري بقيمة {random.choice(['800', '1200'])} ريال مستحق يوم {fake.date_this_month()}"
        ]

    elif category == 'ecom':
        templates = [
            f"شكراً لشرائك من {random.choice(ecom_sites)}! رقم طلبك: {fake.random_number(digits=8)}. سيتم التوصيل خلال 48 ساعة",
            f"تأكيد طلبك رقم {fake.random_number(digits=9)}. إجمالي المبلغ {random.choice(['199', '299', '499'])} ريال شامل الضريبة",
            f"عروض {random.choice(ecom_sites)}: خصم 30% على {random.choice(['الأجهزة الإلكترونية', 'الملابس', 'الأثاث'])} حتى نهاية الأسبوع",
            f"تم شحن طلبك رقم {fake.random_number(digits=10)}. رقم الشحنة: SA{fake.random_number(digits=12)}"
        ]

    elif category == 'gov':
        templates = [
            f"أبشر: تم تحديث حالة طلبك (تصريح إقامة) بنجاح. يمكنك الاطلاع على التفاصيل في التطبيق",
            f"وزارة العمل: تم استلام طلب إصدار رخصة عمل لـ {random.choice(saudi_names)}. سيتم الرد خلال 3 أيام عمل",
            f"التأمينات الاجتماعية: تم استلام اشتراك شهر {fake.month_name()} بنجاح. شكراً لالتزامك",
            f"المرور: تم سداد مخالفة المرور رقم {fake.random_number(digits=8)} بنجاح"
        ]

    elif category == 'social':
        templates = [
            f"{random.choice(saudi_names)}، اتصلت عليك لكنك مشغول. اتصل بي عندما تتاح لك فرصة",
            f"أهلاً وسهلاً، نود دعوتك لحفل زفاف {random.choice(saudi_names)} يوم {fake.date_this_month()} في {random.choice(saudi_cities)}",
            f"تهنئة بمناسبة النجاح! نتمنى لك التوفيق في مراحلك القادمة",
            f"هل يمكنك إحضار {random.choice(['الحليب', 'الخبز', 'البيض'])} عند عودتك؟"
        ]

    elif category == 'delivery':
        templates = [
            f"أرامكس: شحنتك رقم {fake.random_number(digits=12)} في طريقها إليك. سائق التوصيل: {random.choice(saudi_names)} - {fake.phone_number()}",
            f"طلبك من {random.choice(ecom_sites)} سيصلك اليوم بين الساعة {random.randint(10,12)}-{random.randint(1,5)} مساءً",
            f"تم تسليم شحنتك بنجاح. تقييم الخدمة: https://na.salla.sa/order/{fake.random_number(digits=8)}",
            f"تأكيد الاستلام: تم تسليم الطرد إلى العنوان المحدد"
        ]

    elif category == 'reminder':
        templates = [
            f"تذكير: لديك موعد مع د. {random.choice(saudi_names)} يوم {fake.date_this_month()} الساعة {random.randint(8,12)} صباحاً",
            f"لا تنسى دفع فاتورة {random.choice(telecom_companies)} قبل {fake.date_this_month()} لتجنب الإيقاف",
            f"تذكير بدفع قسط السيارة الشهري بقيمة {random.choice(['800', '1200', '1500'])} ريال قبل نهاية الأسبوع",
            f"موعد تسليم المشروع النهائي: {fake.date_this_month()}"
        ]

    elif category == 'work':
        templates = [
            f"اجتماع فريق العمل يوم غد الساعة 10 صباحاً في قاعة الاجتماعات الرئيسية",
            f"تمت الموافقة على إجازتك المطلوبة من {fake.date_this_month()} إلى {fake.date_this_month()}",
            f"يرجى مراجعة تقرير المبيعات الشهري المرفق في البريد الإلكتروني",
            f"تهانينا! تمت ترقيتك إلى {random.choice(['مدير قسم', 'رئيس فريق', 'مشرف عام'])}"
        ]

    elif category == 'education':
        templates = [
            f"جامعة {random.choice(['الملك سعود', 'الملك عبدالعزيز', 'أم القرى'])}: تم جدولة الامتحان النهائي يوم {fake.date_this_month()}",
            f"نتيجة اختبار {fake.month_name()} متاحة الآن على البوابة التعليمية",
            f"تذكير: آخر موعد لتسليم البحث يوم {fake.date_this_month()}",
            f"تم تسجيل حضورك في محاضرة {random.choice(['الفيزياء', 'الرياضيات', 'اللغة العربية'])}"
        ]

    msg = random.choice(templates)

    # إضافة عناصر واقعية
    if random.random() > 0.7:
        family_term = random.choice(family_names)
        msg = f"{family_term}، {msg}"

    if random.random() > 0.5:
        greetings = ["تحية طيبة", "السلام عليكم", "أهلاً بك", "مرحباً"]
        msg = f"{random.choice(greetings)}، {msg}"

    ham_messages.append({
        "text": msg,
        "label": "ham",
        "category": category
    })

# حفظ البيانات في ملف CSV
with open('saudi_ham_messages.csv', 'w', encoding='utf-8-sig', newline='') as f:
    fieldnames = ['text', 'label', 'category']
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(ham_messages)

print("تم توليد 5000 رسالة غير احتيالية بنجاح!")

تم توليد 5000 رسالة غير احتيالية بنجاح!


In [20]:
import pandas as pd

# قراءة البيانات
spam_df = pd.read_csv('saudi_scam_messages.csv')
ham_df = pd.read_csv('saudi_ham_messages.csv')

# دمج البيانات
combined_df = pd.concat([spam_df, ham_df])

# خلط البيانات عشوائياً
combined_df = combined_df.sample(frac=1).reset_index(drop=True)

# حفظ البيانات المدمجة
combined_df.to_csv('saudi_spam_ham_dataset.csv', index=False, encoding='utf-8-sig')