In [1]:
import pandas as pd
import numpy as np
from google.colab import drive
import os

# Step 1: Mount Google Drive (for Google Colab)
print("Mounting Google Drive...")
drive.mount('/content/drive')
print("Google Drive mounted successfully!")


Mounting Google Drive...
Mounted at /content/drive
Google Drive mounted successfully!


In [2]:
# الخطوة 1: تحميل وتنظيف البيانات
import pandas as pd
import numpy as np

print("🔄 الخطوة 1: تحميل وتنظيف البيانات")
print("="*50)

try:
    # تحميل البيانات
    file_path = '/content/drive/MyDrive/Products.csv'  # غير المسار حسب مكان الملف عندك
    data = pd.read_csv(file_path)

    print(f"✅ تم تحميل {len(data)} صف من البيانات")
    print(f"📋 الأعمدة الموجودة: {list(data.columns)}")

    # عرض معلومات أساسية
    print(f"\n📊 معلومات البيانات:")
    print(f"- عدد الصفوف: {len(data)}")
    print(f"- عدد الأعمدة: {len(data.columns)}")

    # فحص القيم الفارغة
    print(f"\n🔍 القيم الفارغة في كل عمود:")
    null_counts = data.isnull().sum()
    for col, count in null_counts.items():
        if count > 0:
            print(f"   {col}: {count} قيمة فارغة")

    # تنظيف أعمدة الأسعار إذا وجدت
    price_columns = ['Unit Cost USD', 'Unit Price USD']
    for col in price_columns:
        if col in data.columns:
            print(f"\n🧹 تنظيف العمود: {col}")
            # تحويل إلى نص أولاً
            data[col] = data[col].astype(str)
            # إزالة الرموز
            data[col] = data[col].str.replace('$', '', regex=False)
            data[col] = data[col].str.replace(',', '', regex=False)
            data[col] = data[col].str.replace(' ', '', regex=False)
            # تحويل إلى أرقام
            data[col] = pd.to_numeric(data[col], errors='coerce')
            print(f"   ✅ تم تنظيف {col}")

    # عرض عينة من البيانات
    print(f"\n📋 عينة من البيانات المنظفة:")
    display_columns = [col for col in ['Product Name', 'Brand', 'Category', 'Unit Price USD'] if col in data.columns]
    if display_columns:
        print(data[display_columns].head().to_string(index=False))
    else:
        print(data.head())

    print(f"\n✅ انتهت الخطوة 1 بنجاح!")
    print(f"المتغير 'data' جاهز للاستخدام في الخطوة التالية")

except FileNotFoundError:
    print("❌ خطأ: لم يتم العثور على الملف")
    print("تأكد من:")
    print("1. وضع ملف Products.csv في نفس مجلد الكود")
    print("2. أو تغيير file_path إلى المسار الصحيح")

except Exception as e:
    print(f"❌ حدث خطأ: {e}")

🔄 الخطوة 1: تحميل وتنظيف البيانات
✅ تم تحميل 2517 صف من البيانات
📋 الأعمدة الموجودة: ['ProductKey', 'Product Name', 'Brand', 'Color', 'Unit Cost USD', 'Unit Price USD', 'SubcategoryKey', 'Subcategory', 'CategoryKey', 'Category']

📊 معلومات البيانات:
- عدد الصفوف: 2517
- عدد الأعمدة: 10

🔍 القيم الفارغة في كل عمود:

🧹 تنظيف العمود: Unit Cost USD
   ✅ تم تنظيف Unit Cost USD

🧹 تنظيف العمود: Unit Price USD
   ✅ تم تنظيف Unit Price USD

📋 عينة من البيانات المنظفة:
                       Product Name   Brand Category  Unit Price USD
Contoso 512MB MP3 Player E51 Silver Contoso    Audio           12.99
  Contoso 512MB MP3 Player E51 Blue Contoso    Audio           12.99
   Contoso 1G MP3 Player E100 White Contoso    Audio           14.52
  Contoso 2G MP3 Player E200 Silver Contoso    Audio           21.57
     Contoso 2G MP3 Player E200 Red Contoso    Audio           21.57

✅ انتهت الخطوة 1 بنجاح!
المتغير 'data' جاهز للاستخدام في الخطوة التالية


In [3]:
# الخطوة 2: إنشاء product_info وتحضير النصوص
print("🔄 الخطوة 2: إنشاء product_info وتحضير النصوص")
print("="*50)

try:
    # التأكد من وجود البيانات من الخطوة السابقة
    if 'data' not in locals():
        print("❌ خطأ: لم يتم تشغيل الخطوة 1")
        print("يجب تشغيل الخطوة 1 أولاً لتحميل البيانات")
        raise Exception("البيانات غير موجودة")

    print(f"✅ البيانات متوفرة: {len(data)} صف")

    # الأعمدة التي سنستخدمها لإنشاء product_info
    text_columns = ['Product Name', 'Brand', 'Subcategory', 'Category']
    available_columns = []

    print(f"\n🔍 فحص الأعمدة المطلوبة:")
    for col in text_columns:
        if col in data.columns:
            available_columns.append(col)
            print(f"   ✅ {col}: متوفر")
        else:
            print(f"   ❌ {col}: غير متوفر")

    if not available_columns:
        print("❌ لا توجد أعمدة نصية مناسبة")
        raise Exception("لا توجد أعمدة للنص")

    print(f"\n📝 الأعمدة المستخدمة: {available_columns}")

    # تنظيف البيانات النصية
    print(f"\n🧹 تنظيف البيانات النصية...")
    for col in available_columns:
        # استبدال القيم الفارغة بنص فارغ
        data[col] = data[col].fillna('').astype(str)
        # إزالة المسافات الزائدة
        data[col] = data[col].str.strip()
        print(f"   ✅ تم تنظيف {col}")

    # إنشاء product_info
    print(f"\n🔗 دمج المعلومات لإنشاء product_info...")

    # دمج الأعمدة المتاحة
    product_info_parts = []
    for col in available_columns:
        product_info_parts.append(data[col])

    # دمج النصوص مع مسافة
    data['product_info'] = product_info_parts[0]
    for i in range(1, len(product_info_parts)):
        data['product_info'] = data['product_info'] + " " + product_info_parts[i]

    # تنظيف النص النهائي
    data['product_info'] = data['product_info'].str.replace(r'\s+', ' ', regex=True)  # إزالة المسافات المتعددة
    data['product_info'] = data['product_info'].str.strip()  # إزالة المسافات من البداية والنهاية

    # استبدال النصوص الفارغة
    empty_mask = (data['product_info'] == '') | (data['product_info'].str.strip() == '')
    data.loc[empty_mask, 'product_info'] = 'Unknown Product'

    print(f"✅ تم إنشاء product_info لـ {len(data)} منتج")

    # عرض إحصائيات
    print(f"\n📊 إحصائيات product_info:")
    print(f"   متوسط طول النص: {data['product_info'].str.len().mean():.1f} حرف")
    print(f"   أقصر نص: {data['product_info'].str.len().min()} حرف")
    print(f"   أطول نص: {data['product_info'].str.len().max()} حرف")
    print(f"   عدد النصوص الفارغة: {empty_mask.sum()}")

    # عرض عينة من product_info
    print(f"\n📋 عينة من product_info:")
    for i in range(min(10, len(data))):
        print(f"{i+1:2d}. {data['product_info'].iloc[i]}")

    print(f"\n✅ انتهت الخطوة 2 بنجاح!")
    print(f"العمود 'product_info' جاهز للاستخدام في الخطوة التالية")

    # حفظ النتائج (اختياري)
    print(f"\n💾 حفظ البيانات المحضرة...")
    data.to_csv('Products_prepared.csv', index=False)
    print(f"✅ تم حفظ البيانات في Products_prepared.csv")

except Exception as e:
    print(f"❌ حدث خطأ: {e}")
    print("تأكد من تشغيل الخطوة 1 أولاً")

🔄 الخطوة 2: إنشاء product_info وتحضير النصوص
✅ البيانات متوفرة: 2517 صف

🔍 فحص الأعمدة المطلوبة:
   ✅ Product Name: متوفر
   ✅ Brand: متوفر
   ✅ Subcategory: متوفر
   ✅ Category: متوفر

📝 الأعمدة المستخدمة: ['Product Name', 'Brand', 'Subcategory', 'Category']

🧹 تنظيف البيانات النصية...
   ✅ تم تنظيف Product Name
   ✅ تم تنظيف Brand
   ✅ تم تنظيف Subcategory
   ✅ تم تنظيف Category

🔗 دمج المعلومات لإنشاء product_info...
✅ تم إنشاء product_info لـ 2517 منتج

📊 إحصائيات product_info:
   متوسط طول النص: 82.9 حرف
   أقصر نص: 52 حرف
   أطول نص: 128 حرف
   عدد النصوص الفارغة: 0

📋 عينة من product_info:
 1. Contoso 512MB MP3 Player E51 Silver Contoso MP4&MP3 Audio
 2. Contoso 512MB MP3 Player E51 Blue Contoso MP4&MP3 Audio
 3. Contoso 1G MP3 Player E100 White Contoso MP4&MP3 Audio
 4. Contoso 2G MP3 Player E200 Silver Contoso MP4&MP3 Audio
 5. Contoso 2G MP3 Player E200 Red Contoso MP4&MP3 Audio
 6. Contoso 2G MP3 Player E200 Black Contoso MP4&MP3 Audio
 7. Contoso 2G MP3 Player E200 Blue Con

In [4]:
pip install faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.11.0.post1-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.0 kB)
Downloading faiss_cpu-1.11.0.post1-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (31.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.3/31.3 MB[0m [31m48.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.11.0.post1


In [5]:
# الخطوة 3: تحميل نموذج SentenceTransformer وإنشاء embeddings
print("🔄 الخطوة 3: تحميل النموذج وإنشاء embeddings")
print("="*50)

try:
    # استيراد المكتبات
    from sentence_transformers import SentenceTransformer
    import numpy as np

    # التأكد من وجود البيانات
    if 'data' not in locals():
        print("❌ خطأ: البيانات غير موجودة")
        print("يجب تشغيل الخطوات 1 و 2 أولاً")
        raise Exception("البيانات غير موجودة")

    if 'product_info' not in data.columns:
        print("❌ خطأ: العمود product_info غير موجود")
        print("يجب تشغيل الخطوة 2 أولاً")
        raise Exception("product_info غير موجود")

    print(f"✅ البيانات متوفرة: {len(data)} منتج")
    print(f"✅ العمود product_info متوفر")

    # تحميل النموذج
    print(f"\n⏬ تحميل نموذج SentenceTransformer...")
    print("(هذا قد يستغرق بعض الوقت في المرة الأولى)")

    model_name = 'all-MiniLM-L6-v2'
    embedder = SentenceTransformer(model_name)

    print(f"✅ تم تحميل النموذج: {model_name}")

    # فحص البيانات النصية
    print(f"\n🔍 فحص البيانات النصية:")
    product_texts = data['product_info'].tolist()
    print(f"   عدد النصوص: {len(product_texts)}")
    print(f"   عينة من النصوص:")
    for i in range(min(5, len(product_texts))):
        print(f"     {i+1}. {product_texts[i][:80]}...")

    # إنشاء embeddings
    print(f"\n🤖 إنشاء embeddings...")
    print("(هذا قد يستغرق بعض الوقت حسب عدد المنتجات)")

    # إنشاء embeddings مع عرض التقدم
    product_embeddings = embedder.encode(
        product_texts,
        show_progress_bar=True,
        batch_size=32,
        convert_to_numpy=True
    )

    print(f"✅ تم إنشاء embeddings بنجاح!")

    # معلومات عن embeddings
    print(f"\n📊 معلومات embeddings:")
    print(f"   الشكل: {product_embeddings.shape}")
    print(f"   النوع: {product_embeddings.dtype}")
    print(f"   عدد الأبعاد: {product_embeddings.shape[1]}")
    print(f"   الحجم في الذاكرة: {product_embeddings.nbytes / 1024 / 1024:.2f} MB")

    # إحصائيات
    print(f"\n📈 إحصائيات embeddings:")
    print(f"   المتوسط: {np.mean(product_embeddings):.6f}")
    print(f"   الانحراف المعياري: {np.std(product_embeddings):.6f}")
    print(f"   أقل قيمة: {np.min(product_embeddings):.6f}")
    print(f"   أعلى قيمة: {np.max(product_embeddings):.6f}")

    # عرض عينة من embeddings
    print(f"\n🔢 عينة من embeddings (أول 5 قيم من أول 3 منتجات):")
    for i in range(min(3, len(product_embeddings))):
        print(f"   منتج {i+1}: {product_embeddings[i][:5]} ...")

    # حفظ embeddings
    print(f"\n💾 حفظ embeddings...")

    # حفظ كملف numpy
    embeddings_file = 'product_embeddings.npy'
    np.save(embeddings_file, product_embeddings)
    print(f"✅ تم حفظ embeddings في {embeddings_file}")

    # حفظ معلومات إضافية
    embeddings_info = {
        'model_name': model_name,
        'num_products': len(product_embeddings),
        'embedding_dimension': product_embeddings.shape[1],
        'data_shape': product_embeddings.shape,
        'created_at': pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S')
    }

    import json
    with open('embeddings_info.json', 'w', encoding='utf-8') as f:
        json.dump(embeddings_info, f, ensure_ascii=False, indent=2)

    print(f"✅ تم حفظ معلومات embeddings في embeddings_info.json")

    print(f"\n✅ انتهت الخطوة 3 بنجاح!")
    print(f"المتغيرات التالية جاهزة:")
    print(f"   - embedder: النموذج")
    print(f"   - product_embeddings: مصفوفة embeddings")
    print(f"   - data: البيانات مع product_info")

except ImportError as e:
    print(f"❌ خطأ في استيراد المكتبة: {e}")
    print("قم بتثبيت المكتبة المطلوبة:")
    print("pip install sentence-transformers")

except Exception as e:
    print(f"❌ حدث خطأ: {e}")
    print("تأكد من:")
    print("1. تشغيل الخطوات السابقة")
    print("2. وجود اتصال بالإنترنت لتحميل النموذج")
    print("3. وجود ذاكرة كافية")

🔄 الخطوة 3: تحميل النموذج وإنشاء embeddings
✅ البيانات متوفرة: 2517 منتج
✅ العمود product_info متوفر

⏬ تحميل نموذج SentenceTransformer...
(هذا قد يستغرق بعض الوقت في المرة الأولى)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

✅ تم تحميل النموذج: all-MiniLM-L6-v2

🔍 فحص البيانات النصية:
   عدد النصوص: 2517
   عينة من النصوص:
     1. Contoso 512MB MP3 Player E51 Silver Contoso MP4&MP3 Audio...
     2. Contoso 512MB MP3 Player E51 Blue Contoso MP4&MP3 Audio...
     3. Contoso 1G MP3 Player E100 White Contoso MP4&MP3 Audio...
     4. Contoso 2G MP3 Player E200 Silver Contoso MP4&MP3 Audio...
     5. Contoso 2G MP3 Player E200 Red Contoso MP4&MP3 Audio...

🤖 إنشاء embeddings...
(هذا قد يستغرق بعض الوقت حسب عدد المنتجات)


Batches:   0%|          | 0/79 [00:00<?, ?it/s]

✅ تم إنشاء embeddings بنجاح!

📊 معلومات embeddings:
   الشكل: (2517, 384)
   النوع: float32
   عدد الأبعاد: 384
   الحجم في الذاكرة: 3.69 MB

📈 إحصائيات embeddings:
   المتوسط: 0.000304
   الانحراف المعياري: 0.051030
   أقل قيمة: -0.228318
   أعلى قيمة: 0.258728

🔢 عينة من embeddings (أول 5 قيم من أول 3 منتجات):
   منتج 1: [ 0.04690716  0.03381084 -0.03890014 -0.07367166 -0.00362302] ...
   منتج 2: [ 0.06702775  0.02782469 -0.03850356 -0.07464972  0.00105952] ...
   منتج 3: [ 0.0551504   0.07292804 -0.03787798 -0.07759015 -0.00236581] ...

💾 حفظ embeddings...
✅ تم حفظ embeddings في product_embeddings.npy
✅ تم حفظ معلومات embeddings في embeddings_info.json

✅ انتهت الخطوة 3 بنجاح!
المتغيرات التالية جاهزة:
   - embedder: النموذج
   - product_embeddings: مصفوفة embeddings
   - data: البيانات مع product_info


In [6]:
# الخطوة 4: إنشاء نظام البحث (بدون FAISS)
print("🔄 الخطوة 4: إنشاء نظام البحث")
print("="*50)

try:
    from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances
    import numpy as np
    import pandas as pd

    # التأكد من وجود جميع المتطلبات
    required_vars = ['embedder', 'product_embeddings', 'data']
    missing_vars = []

    for var in required_vars:
        if var not in locals():
            missing_vars.append(var)

    if missing_vars:
        print(f"❌ خطأ: المتغيرات التالية غير موجودة: {missing_vars}")
        print("يجب تشغيل الخطوات السابقة أولاً")
        raise Exception("متغيرات مطلوبة غير موجودة")

    print(f"✅ جميع المتطلبات متوفرة")
    print(f"   - embedder: ✓")
    print(f"   - product_embeddings: {product_embeddings.shape}")
    print(f"   - data: {len(data)} منتج")

    # دالة البحث الأساسية
    def search_similar_product(user_input, k=1):
        """
        البحث عن منتجات مشابهة - متوافق مع الكود الأصلي
        """
        try:
            print(f"\n🔍 البحث عن: '{user_input}'")

            # توليد embedding للمدخل
            user_embedding = embedder.encode([user_input])

            # حساب cosine similarity
            similarities = cosine_similarity(user_embedding, product_embeddings)[0]

            # الحصول على أفضل النتائج
            top_indices = np.argsort(similarities)[-k:][::-1]

            # إنشاء النتائج
            results = data.iloc[top_indices].copy()
            results['similarity_score'] = similarities[top_indices]
            results['rank'] = range(1, len(results) + 1)

            print(f"✅ تم العثور على {len(results)} نتيجة")

            return results.sort_values('similarity_score', ascending=False)

        except Exception as e:
            print(f"❌ خطأ في البحث: {e}")
            return pd.DataFrame()

    # دالة بحث متقدمة
    def advanced_search(user_input, k=5, method='cosine'):
        """
        بحث متقدم مع خيارات مختلفة
        """
        try:
            print(f"\n🔍 البحث المتقدم عن: '{user_input}' باستخدام {method}")

            # توليد embedding للمدخل
            user_embedding = embedder.encode([user_input])

            if method == 'cosine':
                # حساب cosine similarity
                similarities = cosine_similarity(user_embedding, product_embeddings)[0]
                # الحصول على أفضل النتائج
                top_indices = np.argsort(similarities)[-k:][::-1]

                results = data.iloc[top_indices].copy()
                results['similarity_score'] = similarities[top_indices]
                results['method'] = 'cosine_similarity'

            elif method == 'euclidean':
                # حساب euclidean distance
                distances = euclidean_distances(user_embedding, product_embeddings)[0]
                # الحصول على أفضل النتائج (أقل مسافة)
                top_indices = np.argsort(distances)[:k]

                results = data.iloc[top_indices].copy()
                results['distance'] = distances[top_indices]
                results['similarity_score'] = 1 / (1 + distances[top_indices])
                results['method'] = 'euclidean_distance'

            results['rank'] = range(1, len(results) + 1)
            print(f"✅ تم العثور على {len(results)} نتيجة")

            return results

        except Exception as e:
            print(f"❌ خطأ في البحث المتقدم: {e}")
            return pd.DataFrame()

    # دالة عرض النتائج
    def display_results(results, title="نتائج البحث"):
        """عرض النتائج بشكل منسق"""
        if results.empty:
            print("❌ لم يتم العثور على نتائج")
            return

        print(f"\n{'='*60}")
        print(f"📋 {title}")
        print(f"{'='*60}")

        # تحديد الأعمدة للعرض
        display_cols = []
        possible_cols = ['Product Name', 'Brand', 'Category', 'Color', 'Unit Price USD']

        for col in possible_cols:
            if col in results.columns:
                display_cols.append(col)

        # عرض كل نتيجة
        for i, (idx, product) in enumerate(results.iterrows()):
            print(f"\n🏆 النتيجة {i+1}:")

            for col in display_cols:
                if pd.notna(product[col]) and str(product[col]).strip():
                    if col == 'Unit Price USD':
                        print(f"   💰 {col}: ${product[col]:.2f}")
                    else:
                        print(f"   📝 {col}: {product[col]}")

            # عرض درجة التشابه
            if 'similarity_score' in product:
                print(f"   ⭐ درجة التشابه: {product['similarity_score']:.4f}")

            if 'distance' in product:
                print(f"   📏 المسافة: {product['distance']:.4f}")

            print("-" * 40)

    print(f"\n✅ تم إنشاء نظام البحث بنجاح!")

    # اختبار النظام
    print(f"\n🧪 اختبار النظام:")

    # اختبار 1: البحث الأساسي
    test_query1 = "512MB MP3 Player"
    print(f"\n1️⃣ اختبار البحث الأساسي:")
    basic_result = search_similar_product(test_query1, k=1)

    if not basic_result.empty:
        display_results(basic_result, f"أفضل نتيجة لـ '{test_query1}'")

        # عرض بنفس شكل الكود الأصلي
        display_columns = [col for col in ['Product Name', 'Brand', 'Color', 'Unit Price USD']
                          if col in basic_result.columns]

        if display_columns:
            print(f"\n📊 عرض بالشكل الأصلي:")
            print(basic_result[display_columns].to_string(index=False))

    # اختبار 2: البحث المتقدم
    test_query2 = "laptop computer"
    print(f"\n2️⃣ اختبار البحث المتقدم:")
    advanced_result = advanced_search(test_query2, k=3, method='cosine')

    if not advanced_result.empty:
        display_results(advanced_result.head(3), f"أفضل 3 نتائج لـ '{test_query2}'")

    print(f"\n✅ انتهت الخطوة 4 بنجاح!")
    print(f"\n🎯 الدوال المتاحة للاستخدام:")
    print(f"   - search_similar_product(user_input, k=1)")
    print(f"   - advanced_search(user_input, k=5, method='cosine')")
    print(f"   - display_results(results)")

    print(f"\n📝 مثال للاستخدام:")
    print(f"   result = search_similar_product('bluetooth speaker', k=3)")
    print(f"   display_results(result)")

except ImportError as e:
    print(f"❌ خطأ في استيراد المكتبة: {e}")
    print("قم بتثبيت المكتبة المطلوبة:")
    print("pip install scikit-learn")

except Exception as e:
    print(f"❌ حدث خطأ: {e}")
    print("تأكد من تشغيل الخطوات السابقة بالترتيب")

🔄 الخطوة 4: إنشاء نظام البحث
✅ جميع المتطلبات متوفرة
   - embedder: ✓
   - product_embeddings: (2517, 384)
   - data: 2517 منتج

✅ تم إنشاء نظام البحث بنجاح!

🧪 اختبار النظام:

1️⃣ اختبار البحث الأساسي:

🔍 البحث عن: '512MB MP3 Player'
✅ تم العثور على 1 نتيجة

📋 أفضل نتيجة لـ '512MB MP3 Player'

🏆 النتيجة 1:
   📝 Product Name: Contoso 512MB MP3 Player E51 Silver
   📝 Brand: Contoso
   📝 Category: Audio
   📝 Color: Silver
   💰 Unit Price USD: $12.99
   ⭐ درجة التشابه: 0.7602
----------------------------------------

📊 عرض بالشكل الأصلي:
                       Product Name   Brand  Color  Unit Price USD
Contoso 512MB MP3 Player E51 Silver Contoso Silver           12.99

2️⃣ اختبار البحث المتقدم:

🔍 البحث المتقدم عن: 'laptop computer' باستخدام cosine
✅ تم العثور على 3 نتيجة

📋 أفضل 3 نتائج لـ 'laptop computer'

🏆 النتيجة 1:
   📝 Product Name: Fabrikam Laptop17W M7080 Black
   📝 Brand: Fabrikam
   📝 Category: Computers
   📝 Color: Black
   💰 Unit Price USD: $879.90
   ⭐ درجة التشابه: 0.6995

In [7]:
# الخطوة 5: تجربة البحث واختبارات مختلفة (مكتملة)
print("🔄 الخطوة 5: تجربة البحث واختبارات مختلفة")
print("="*50)

try:
    # التأكد من وجود دوال البحث
    if 'search_similar_product' not in locals():
        print("❌ خطأ: دوال البحث غير موجودة")
        print("يجب تشغيل الخطوة 4 أولاً")
        raise Exception("دوال البحث غير موجودة")

    print("✅ دوال البحث متوفرة")

    # قائمة استعلامات للاختبار
    test_queries = [
        "512MB MP3 Player",
        "laptop computer",
        "bluetooth headphones",
        "wireless mouse",
        "gaming keyboard",
        "smartphone case",
        "USB cable",
        "portable speaker"
    ]

    print(f"\n🧪 اختبار النظام مع {len(test_queries)} استعلام مختلف:")
    print("="*60)

    # إحصائيات الأداء
    total_results = 0
    high_similarity_count = 0
    test_results = []

    # اختبار كل استعلام
    for i, query in enumerate(test_queries, 1):
        print(f"\n🔍 الاختبار {i}: '{query}'")
        print("-" * 40)

        # البحث عن أفضل 3 نتائج
        results = search_similar_product(query, k=3)

        if not results.empty:
            total_results += len(results)

            # عرض النتائج بشكل مختصر
            print(f"✅ تم العثور على {len(results)} نتيجة:")

            query_results = []

            for j, (idx, product) in enumerate(results.iterrows()):
                # تحضير معلومات المنتج
                product_name = product.get('Product Name', 'غير محدد')
                brand = product.get('Brand', '')
                price = product.get('Unit Price USD', '')
                similarity = product.get('similarity_score', 0)

                # تسجيل النتائج عالية التشابه
                if similarity > 0.5:
                    high_similarity_count += 1

                # عرض مختصر
                info_parts = [f"{j+1}. {product_name}"]
                if brand and str(brand).strip() and str(brand) != 'nan':
                    info_parts.append(f"({brand})")
                if price and str(price).strip() and str(price) != 'nan':
                    try:
                        price_val = float(price)
                        info_parts.append(f"- ${price_val:.2f}")
                    except:
                        pass
                info_parts.append(f"- تشابه: {similarity:.3f}")

                print(f"   {''.join(info_parts)}")

                # تسجيل النتيجة
                query_results.append({
                    'product_name': product_name,
                    'brand': brand,
                    'similarity': similarity,
                    'price': price
                })

            test_results.append({
                'query': query,
                'results_count': len(results),
                'best_similarity': results['similarity_score'].iloc[0] if not results.empty else 0,
                'results': query_results
            })

        else:
            print("❌ لم يتم العثور على نتائج")
            test_results.append({
                'query': query,
                'results_count': 0,
                'best_similarity': 0,
                'results': []
            })

    # عرض ملخص الاختبارات
    print(f"\n📊 ملخص نتائج الاختبارات:")
    print("="*60)
    print(f"✅ إجمالي النتائج المُعثر عليها: {total_results}")
    print(f"🎯 النتائج عالية التشابه (>0.5): {high_similarity_count}")
    print(f"📈 معدل النجاح: {len([t for t in test_results if t['results_count'] > 0])}/{len(test_queries)} ({len([t for t in test_results if t['results_count'] > 0])/len(test_queries)*100:.1f}%)")

    # أفضل وأسوأ النتائج
    best_results = sorted(test_results, key=lambda x: x['best_similarity'], reverse=True)

    print(f"\n🏆 أفضل 3 نتائج بحث:")
    for i, result in enumerate(best_results[:3], 1):
        print(f"{i}. '{result['query']}' - تشابه: {result['best_similarity']:.3f}")

    if len(best_results) > 3:
        print(f"\n📉 أضعف 3 نتائج بحث:")
        for i, result in enumerate(best_results[-3:], 1):
            print(f"{i}. '{result['query']}' - تشابه: {result['best_similarity']:.3f}")

    # اختبارات إضافية متقدمة
    print(f"\n🔬 اختبارات متقدمة:")
    print("-" * 40)

    # اختبار 1: مقارنة طرق البحث المختلفة
    test_query = "bluetooth headphones"
    print(f"\n1️⃣ مقارنة طرق البحث لـ '{test_query}':")

    cosine_results = advanced_search(test_query, k=3, method='cosine')
    euclidean_results = advanced_search(test_query, k=3, method='euclidean')

    print(f"   🔸 Cosine Similarity - أفضل تشابه: {cosine_results['similarity_score'].iloc[0]:.3f}" if not cosine_results.empty else "   ❌ لا توجد نتائج")
    print(f"   🔹 Euclidean Distance - أفضل تشابه: {euclidean_results['similarity_score'].iloc[0]:.3f}" if not euclidean_results.empty else "   ❌ لا توجد نتائج")

    # اختبار 2: بحث تفصيلي
    print(f"\n2️⃣ بحث تفصيلي:")
    detailed_query = "gaming"
    detailed_results = advanced_search(detailed_query, k=5, method='cosine')

    if not detailed_results.empty:
        print(f"   📋 البحث عن '{detailed_query}' أعطى {len(detailed_results)} نتائج:")

        # تجميع النتائج حسب الفئة
        if 'Category' in detailed_results.columns:
            categories = detailed_results['Category'].value_counts()
            print(f"   📊 توزيع الفئات:")
            for cat, count in categories.items():
                if pd.notna(cat) and str(cat).strip():
                    print(f"      - {cat}: {count} منتج")

    # اختبار 3: البحث بكلمات متعددة
    print(f"\n3️⃣ البحث بكلمات متعددة:")
    multi_queries = ["red laptop", "cheap mouse", "wireless gaming"]

    for query in multi_queries:
        results = search_similar_product(query, k=1)
        if not results.empty:
            best_similarity = results['similarity_score'].iloc[0]
            best_product = results['Product Name'].iloc[0]
            print(f"   🔍 '{query}' → '{best_product}' (تشابه: {best_similarity:.3f})")
        else:
            print(f"   ❌ '{query}' → لا توجد نتائج")

    # اختبار الأداء
    print(f"\n4️⃣ اختبار الأداء:")
    import time

    # قياس وقت البحث
    start_time = time.time()
    performance_results = []

    for _ in range(5):  # 5 عمليات بحث
        query_start = time.time()
        results = search_similar_product("laptop", k=5)
        query_time = time.time() - query_start
        performance_results.append(query_time)

    total_time = time.time() - start_time
    avg_time = np.mean(performance_results)

    print(f"   ⏱️  متوسط وقت البحث: {avg_time:.4f} ثانية")
    print(f"   ⏱️  إجمالي وقت 5 عمليات بحث: {total_time:.4f} ثانية")

    # دالة للبحث التفاعلي
    def interactive_search():
        """دالة للبحث التفاعلي"""
        print(f"\n🎯 وضع البحث التفاعلي:")
        print("أدخل كلمات البحث (أو 'quit' للخروج)")

        while True:
            try:
                user_input = input("\n🔍 البحث: ").strip()

                if user_input.lower() in ['quit', 'exit', 'خروج']:
                    print("👋 تم الخروج من البحث التفاعلي")
                    break

                if not user_input:
                    print("⚠️ يرجى إدخال كلمة بحث")
                    continue

                # البحث
                results = search_similar_product(user_input, k=3)
                display_results(results, f"نتائج البحث عن '{user_input}'")

            except KeyboardInterrupt:
                print("\n👋 تم الخروج من البحث التفاعلي")
                break
            except Exception as e:
                print(f"❌ حدث خطأ: {e}")

    print(f"\n✅ انتهت جميع الاختبارات بنجاح!")

    # عرض الملخص النهائي
    print(f"\n🎉 ملخص نظام البحث:")
    print("="*60)
    print(f"📈 إجمالي المنتجات في النظام: {len(data)}")
    print(f"🧠 نموذج الـ embeddings: all-MiniLM-L6-v2")
    print(f"🎯 معدل نجاح البحث: {len([t for t in test_results if t['results_count'] > 0])/len(test_queries)*100:.1f}%")
    print(f"⚡ متوسط وقت البحث: {avg_time:.4f} ثانية")
    print(f"🔍 أفضل استعلام: '{best_results[0]['query']}' (تشابه: {best_results[0]['best_similarity']:.3f})")

    print(f"\n🚀 النظام جاهز للاستخدام!")
    print(f"📝 للبحث التفاعلي استخدم: interactive_search()")

    # حفظ تقرير الاختبارات
    print(f"\n💾 حفظ تقرير الاختبارات...")

    test_report = {
        'total_products': len(data),
        'test_queries': len(test_queries),
        'total_results': total_results,
        'high_similarity_results': high_similarity_count,
        'success_rate': len([t for t in test_results if t['results_count'] > 0])/len(test_queries),
        'average_search_time': avg_time,
        'best_query': best_results[0]['query'] if best_results else None,
        'best_similarity': best_results[0]['best_similarity'] if best_results else 0,
        'detailed_results': test_results
    }

    import json
    with open('search_test_report.json', 'w', encoding='utf-8') as f:
        json.dump(test_report, f, ensure_ascii=False, indent=2, default=str)

    print(f"✅ تم حفظ تقرير الاختبارات في search_test_report.json")

except Exception as e:
    print(f"❌ حدث خطأ في الاختبارات: {e}")
    import traceback
    traceback.print_exc()

print(f"\n🎊 تم الانتهاء من جميع الخطوات بنجاح!")
print(f"نظام البحث الذكي جاهز للاستخدام! 🚀")

🔄 الخطوة 5: تجربة البحث واختبارات مختلفة
✅ دوال البحث متوفرة

🧪 اختبار النظام مع 8 استعلام مختلف:

🔍 الاختبار 1: '512MB MP3 Player'
----------------------------------------

🔍 البحث عن: '512MB MP3 Player'
✅ تم العثور على 3 نتيجة
✅ تم العثور على 3 نتيجة:
   1. Contoso 512MB MP3 Player E51 Silver(Contoso)- $12.99- تشابه: 0.760
   2. Contoso 512MB MP3 Player E51 Blue(Contoso)- $12.99- تشابه: 0.747
   3. Contoso 8GB Super-Slim MP3/Video Player M800 Red(Contoso)- $109.95- تشابه: 0.693

🔍 الاختبار 2: 'laptop computer'
----------------------------------------

🔍 البحث عن: 'laptop computer'
✅ تم العثور على 3 نتيجة
✅ تم العثور على 3 نتيجة:
   1. Fabrikam Laptop17W M7080 Black(Fabrikam)- $879.90- تشابه: 0.699
   2. Fabrikam Laptop19W M9800 Black(Fabrikam)- $1199.00- تشابه: 0.699
   3. Fabrikam Laptop19 M9000 Black(Fabrikam)- $1099.00- تشابه: 0.694

🔍 الاختبار 3: 'bluetooth headphones'
----------------------------------------

🔍 البحث عن: 'bluetooth headphones'
✅ تم العثور على 3 نتيجة
✅ تم العثور

In [8]:
# الخطوة 6: معالجة الحالات التي لا توجد فيها منتجات مطابقة
print("🔄 الخطوة 6: معالجة المنتجات غير المتوفرة")
print("="*60)

def search_product_with_fallback(user_input, k=1, similarity_threshold=0.3):
    """
    البحث مع معالجة الحالات التي لا توجد فيها منتجات مطابقة
    Args:
        user_input: نص البحث
        k: عدد النتائج المطلوبة
        similarity_threshold: الحد الأدنى للتشابه المقبول
    """
    try:
        print(f"🔍 البحث عن: '{user_input}'")

        # البحث عن المنتجات
        matching_products = search_similar_product(user_input, k)

        # التحقق من وجود نتائج
        if matching_products.empty:
            return "Sorry, the product you are looking for is not available. Thank you for reaching out to us."

        # التحقق من جودة التطابق
        best_similarity = matching_products['similarity_score'].iloc[0]

        if best_similarity < similarity_threshold:
            print(f"⚠️ أفضل تطابق منخفض: {best_similarity:.3f}")
            return f"Sorry, we couldn't find a good match for '{user_input}'. The closest match has low similarity ({best_similarity:.3f}). Thank you for reaching out to us."

        # إرجاع النتائج المطلوبة
        display_columns = []
        for col in ['Product Name', 'Brand', 'Color', 'Unit Price USD']:
            if col in matching_products.columns:
                display_columns.append(col)

        if display_columns:
            result_df = matching_products[display_columns].copy()
            print(f"✅ تم العثور على {len(result_df)} منتج مطابق")
            return result_df
        else:
            return matching_products

    except Exception as e:
        print(f"❌ حدث خطأ في البحث: {e}")
        return "Sorry, there was an error processing your request. Thank you for reaching out to us."

# دالة محسنة للبحث مع خيارات متقدمة
def smart_search_with_fallback(user_input, k=3, similarity_threshold=0.2, detailed_response=True):
    """
    بحث ذكي مع معالجة متقدمة للحالات المختلفة
    """
    try:
        # البحث الأساسي
        results = search_similar_product(user_input, k)

        if results.empty:
            return {
                'status': 'not_found',
                'message': "Sorry, the product you are looking for is not available. Thank you for reaching out to us.",
                'products': [],
                'suggestions': []
            }

        # فلترة النتائج حسب التشابه
        good_results = results[results['similarity_score'] >= similarity_threshold]
        weak_results = results[results['similarity_score'] < similarity_threshold]

        if good_results.empty:
            # لا توجد نتائج جيدة، لكن توجد نتائج ضعيفة
            best_similarity = results['similarity_score'].iloc[0]

            response = {
                'status': 'low_match',
                'message': f"Sorry, we couldn't find a good match for '{user_input}'. Here are some similar products that might interest you:",
                'products': [],
                'best_similarity': best_similarity
            }

            if detailed_response:
                # إضافة أفضل النتائج الضعيفة كاقتراحات
                for _, product in results.head(2).iterrows():
                    product_info = {
                        'name': product.get('Product Name', 'Unknown'),
                        'brand': product.get('Brand', ''),
                        'price': product.get('Unit Price USD', ''),
                        'similarity': product.get('similarity_score', 0)
                    }
                    response['products'].append(product_info)

            return response

        # توجد نتائج جيدة
        response = {
            'status': 'found',
            'message': f"Great! We found {len(good_results)} matching products for '{user_input}':",
            'products': [],
            'total_found': len(good_results)
        }

        # إضافة المنتجات الجيدة
        for _, product in good_results.iterrows():
            product_info = {
                'name': product.get('Product Name', 'Unknown'),
                'brand': product.get('Brand', ''),
                'color': product.get('Color', ''),
                'price': product.get('Unit Price USD', ''),
                'similarity': product.get('similarity_score', 0)
            }
            response['products'].append(product_info)

        return response

    except Exception as e:
        return {
            'status': 'error',
            'message': f"Sorry, there was an error processing your request: {str(e)}. Thank you for reaching out to us.",
            'products': []
        }

# اختبارات شاملة لمعالجة الحالات المختلفة
print(f"\n🧪 اختبار معالجة المنتجات غير المتوفرة:")
print("-" * 50)

test_cases = [
    # حالات قد لا تجد نتائج جيدة
    "Non-existing product xyz123",
    "Imaginary gadget super rare",
    "Product that does not exist",
    "Random text blah blah",

    # حالات قد تجد نتائج ضعيفة
    "Car engine parts",
    "Food ingredients",
    "Building materials concrete",

    # حالات يجب أن تجد نتائج جيدة
    "laptop computer",
    "phone case",
    "headphones"
]

results_summary = []

for i, test_input in enumerate(test_cases, 1):
    print(f"\n📝 اختبار {i}: '{test_input}'")
    print("-" * 30)

    result = search_product_with_fallback(test_input, k=1, similarity_threshold=0.3)

    if isinstance(result, str):
        # رسالة خطأ أو عدم توفر
        print(f"💬 الرد: {result}")
        results_summary.append({
            'query': test_input,
            'status': 'not_found',
            'result': result[:50] + '...' if len(result) > 50 else result
        })
    else:
        # نتائج موجودة
        print(f"✅ تم العثور على منتجات:")
        if hasattr(result, 'shape'):
            print(result.to_string(index=False))
            results_summary.append({
                'query': test_input,
                'status': 'found',
                'result': f"{len(result)} منتج"
            })
        else:
            print(result)
            results_summary.append({
                'query': test_input,
                'status': 'found',
                'result': str(result)[:50] + '...'
            })

# ملخص النتائج
print(f"\n📊 ملخص اختبار معالجة المنتجات غير المتوفرة:")
print("="*70)

found_count = len([r for r in results_summary if r['status'] == 'found'])
not_found_count = len([r for r in results_summary if r['status'] == 'not_found'])

print(f"✅ منتجات موجودة: {found_count}")
print(f"❌ منتجات غير موجودة: {not_found_count}")
print(f"📈 معدل العثور على النتائج: {found_count/len(test_cases)*100:.1f}%")

print(f"\n📋 تفاصيل النتائج:")
for i, result in enumerate(results_summary, 1):
    status_icon = "✅" if result['status'] == 'found' else "❌"
    print(f"{i:2d}. {status_icon} '{result['query'][:30]}...' → {result['result']}")

# اختبار الدالة المحسنة
print(f"\n🚀 اختبار البحث الذكي المحسن:")
print("-" * 40)

smart_test_cases = [
    "laptop gaming",
    "bluetooth speaker",
    "non existing product abc123",
    "car parts engine"
]

for test_query in smart_test_cases:
    print(f"\n🔍 البحث الذكي عن: '{test_query}'")
    smart_result = smart_search_with_fallback(test_query, k=3)

    print(f"📊 الحالة: {smart_result['status']}")
    print(f"💬 الرسالة: {smart_result['message']}")

    if smart_result['products']:
        print(f"🛍️ المنتجات المعثور عليها:")
        for i, product in enumerate(smart_result['products'], 1):
            price_str = f" - ${product['price']:.2f}" if product['price'] and str(product['price']) != 'nan' else ""
            brand_str = f" ({product['brand']})" if product['brand'] and str(product['brand']) != 'nan' else ""
            print(f"   {i}. {product['name']}{brand_str}{price_str} - تشابه: {product['similarity']:.3f}")

# اختبار الحالة المطلوبة بالضبط كما في السؤال
print(f"\n🎯 اختبار الحالة المطلوبة في السؤال:")
print("-" * 50)

# Test with an input that might not match
user_input = "Non-existing product"
result = search_product_with_fallback(user_input)
print(f"\n🔍 البحث عن: '{user_input}'")
print(f"📤 النتيجة:")
if isinstance(result, str):
    print(f"💬 {result}")
else:
    print(result)

print(f"\n✅ تم الانتهاء من معالجة المنتجات غير المتوفرة!")
print(f"\n🎊 نظام البحث الذكي جاهز مع معالجة شاملة لجميع الحالات! 🚀")

# الدوال المتاحة للاستخدام:
print(f"\n📝 الدوال المتاحة:")
print(f"   1. search_product_with_fallback(user_input, k=1, similarity_threshold=0.3)")
print(f"   2. smart_search_with_fallback(user_input, k=3, similarity_threshold=0.2)")

🔄 الخطوة 6: معالجة المنتجات غير المتوفرة

🧪 اختبار معالجة المنتجات غير المتوفرة:
--------------------------------------------------

📝 اختبار 1: 'Non-existing product xyz123'
------------------------------
🔍 البحث عن: 'Non-existing product xyz123'

🔍 البحث عن: 'Non-existing product xyz123'
✅ تم العثور على 1 نتيجة
✅ تم العثور على 1 منتج مطابق
✅ تم العثور على منتجات:
                        Product Name   Brand       Color  Unit Price USD
Reusable Phone Screen Protector E120 Contoso Transparent            2.94

📝 اختبار 2: 'Imaginary gadget super rare'
------------------------------
🔍 البحث عن: 'Imaginary gadget super rare'

🔍 البحث عن: 'Imaginary gadget super rare'
✅ تم العثور على 1 نتيجة
✅ تم العثور على 1 منتج مطابق
✅ تم العثور على منتجات:
                     Product Name         Brand Color  Unit Price USD
MGS MechWarrior 4 Mach Packs X100 Tailspin Toys  Blue           109.0

📝 اختبار 3: 'Product that does not exist'
------------------------------
🔍 البحث عن: 'Product that does not e

In [9]:
pip install gradio




In [15]:
import gradio as gr
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances
import json
import os

# Global variables to store the model and data
embedder = None
product_embeddings = None
data = None

def load_model_and_data():
    """Load the model and embeddings data"""
    global embedder, product_embeddings, data

    try:
        # Load the SentenceTransformer model
        model_name = 'all-MiniLM-L6-v2'
        embedder = SentenceTransformer(model_name)

        # Load embeddings
        if os.path.exists('/content/product_embeddings.npy'):
            product_embeddings = np.load('/content/product_embeddings.npy')
        else:
            return "❌ Error: product_embeddings.npy not found. Please run the embedding creation code first."

        # Load data (you may need to adjust the filename)
        data_files = ['data.csv', '/content/Products_prepared.csv']
        data_loaded = False

        for file in data_files:
            if os.path.exists(file):
                data = pd.read_csv(file)
                data_loaded = True
                break

        if not data_loaded:
            return "❌ Error: Data file not found. Please ensure your data CSV file exists."

        # Verify product_info column exists
        if 'product_info' not in data.columns:
            return "❌ Error: 'product_info' column not found in data."

        return f"✅ Model and data loaded successfully!\n- Products: {len(data)}\n- Embeddings shape: {product_embeddings.shape}\n- Available columns: {', '.join(data.columns.tolist())}"

    except Exception as e:
        return f"❌ Error loading model and data: {str(e)}"

def search_similar_product(user_input, k=1):
    """Basic search function - compatible with original code"""
    global embedder, product_embeddings, data

    if embedder is None or product_embeddings is None or data is None:
        return pd.DataFrame(), "❌ Please initialize the system first by clicking 'Load Model & Data'"

    if not user_input.strip():
        return pd.DataFrame(), "❌ Please enter a search query"

    try:
        # Generate embedding for input
        user_embedding = embedder.encode([user_input])

        # Calculate cosine similarity
        similarities = cosine_similarity(user_embedding, product_embeddings)[0]

        # Get top results
        top_indices = np.argsort(similarities)[-k:][::-1]

        # Create results
        results = data.iloc[top_indices].copy()
        results['similarity_score'] = similarities[top_indices]
        results['rank'] = range(1, len(results) + 1)

        return results.sort_values('similarity_score', ascending=False), f"✅ Found {len(results)} result(s)"

    except Exception as e:
        return pd.DataFrame(), f"❌ Search error: {str(e)}"
def advanced_search(user_input, k=5, method='cosine'):
    """Advanced search with different similarity methods"""
    global embedder, product_embeddings, data

    if embedder is None or product_embeddings is None or data is None:
        return pd.DataFrame(), "❌ Please initialize the system first"

    if not user_input.strip():
        return pd.DataFrame(), "❌ Please enter a search query"

    try:
        # Generate embedding for input
        user_embedding = embedder.encode([user_input])

        if method == 'cosine':
            # Calculate cosine similarity
            similarities = cosine_similarity(user_embedding, product_embeddings)[0]
            # Get top results
            top_indices = np.argsort(similarities)[-k:][::-1]

            results = data.iloc[top_indices].copy()
            results['similarity_score'] = similarities[top_indices]
            results['method'] = 'cosine_similarity'

        elif method == 'euclidean':
            # Calculate euclidean distance
            distances = euclidean_distances(user_embedding, product_embeddings)[0]
            # Get top results (smallest distance)
            top_indices = np.argsort(distances)[:k]

            results = data.iloc[top_indices].copy()
            results['distance'] = distances[top_indices]
            results['similarity_score'] = 1 / (1 + distances[top_indices])
            results['method'] = 'euclidean_distance'

        results['rank'] = range(1, len(results) + 1)
        return results, f"✅ Found {len(results)} result(s) using {method} method"

    except Exception as e:
        return pd.DataFrame(), f"❌ Advanced search error: {str(e)}"

def format_results_display(results):
    """Format results for display in the GUI"""
    if results.empty:
        return "❌ No results found"

    # Determine which columns to display
    display_cols = []
    possible_cols = ['Product Name', 'Brand', 'Category', 'Color', 'Unit Price USD', 'product_info']

    for col in possible_cols:
        if col in results.columns:
            display_cols.append(col)

    # Format output
    output = []
    output.append("📋 SEARCH RESULTS")
    output.append("=" * 60)

    for i, (idx, product) in enumerate(results.iterrows()):
        output.append(f"\n🏆 Result #{i+1}:")

        for col in display_cols:
            if pd.notna(product[col]) and str(product[col]).strip():
                if col == 'Unit Price USD':
                    output.append(f"   💰 {col}: ${product[col]:.2f}")
                elif col == 'product_info':
                    # Truncate long product info
                    info = str(product[col])
                    if len(info) > 100:
                        info = info[:97] + "..."
                    output.append(f"   📝 {col}: {info}")
                else:
                    output.append(f"   📝 {col}: {product[col]}")

        # Display similarity score
        if 'similarity_score' in product:
            output.append(f"   ⭐️ Similarity Score: {product['similarity_score']:.4f}")

        if 'distance' in product:
            output.append(f"   📏 Distance: {product['distance']:.4f}")

        output.append("-" * 40)

    return "\n".join(output)

def basic_search_interface(query, num_results):
    """Interface function for basic search"""
    results, message = search_similar_product(query, k=int(num_results))
    formatted_results = format_results_display(results)
    return f"{message}\n\n{formatted_results}"

def advanced_search_interface(query, num_results, search_method):
    """Interface function for advanced search"""
    method_map = {
        "Cosine Similarity": "cosine",
        "Euclidean Distance": "euclidean"
    }

    results, message = advanced_search(query, k=int(num_results), method=method_map[search_method])
    formatted_results = format_results_display(results)
    return f"{message}\n\n{formatted_results}"
def get_sample_queries():
    """Get sample queries based on loaded data"""
    global data

    if data is None:
        return "System not initialized"

    sample_info = []
    sample_info.append("💡 Sample Queries (try these):")
    sample_info.append("-" * 30)

    # Generic samples
    samples = [
        "laptop computer",
        "wireless headphones",
        "smartphone",
        "gaming device",
        "bluetooth speaker",
        "digital camera",
        "tablet device"
    ]

    for i, sample in enumerate(samples, 1):
        sample_info.append(f"{i}. {sample}")

    return "\n".join(sample_info)

# Create Gradio interface
with gr.Blocks(title="Advanced Product Search System", theme=gr.themes.Soft()) as app:
    gr.Markdown("# 🛍 Advanced Product Semantic Search System")
    gr.Markdown("Search for products using natural language queries with AI-powered semantic similarity")

    # System initialization section
    with gr.Row():
        with gr.Column():
            gr.Markdown("## ⚙️ System Setup")
            load_btn = gr.Button("🔄 Load Model & Data", variant="primary", size="lg")
            system_status = gr.Textbox(
                label="System Status",
                lines=4,
                interactive=False,
                value="Click 'Load Model & Data' to initialize the system"
            )

    # Main search interface
    gr.Markdown("## 🔍 Search Interface")

    with gr.Tabs():
        # Basic Search Tab
        with gr.TabItem("Basic Search"):
            with gr.Row():
                with gr.Column(scale=2):
                    basic_query = gr.Textbox(
                        label="Search Query",
                        placeholder="Enter your search query (e.g., 'wireless headphones', 'laptop computer')",
                        lines=2
                    )
                with gr.Column(scale=1):
                    basic_num_results = gr.Slider(
                        minimum=1, maximum=10, value=3, step=1,
                        label="Number of Results"
                    )

            basic_search_btn = gr.Button("🔍 Search", variant="primary")
            basic_output = gr.Textbox(
                label="Search Results",
                lines=15,
                max_lines=25,
                show_copy_button=True
            )

        # Advanced Search Tab
        with gr.TabItem("Advanced Search"):
            with gr.Row():
                with gr.Column(scale=2):
                    advanced_query = gr.Textbox(
                        label="Search Query",
                        placeholder="Enter your search query for advanced search",
                        lines=2
                    )
                with gr.Column(scale=1):
                    advanced_num_results = gr.Slider(
                        minimum=1, maximum=20, value=5, step=1,
                        label="Number of Results"
                    )
                    search_method = gr.Radio(
                        choices=["Cosine Similarity", "Euclidean Distance"],
                        value="Cosine Similarity",
                        label="Search Method"
                    )

            advanced_search_btn = gr.Button("🔍 Advanced Search", variant="primary")
            advanced_output = gr.Textbox(
                label="Advanced Search Results",
                lines=15,
                max_lines=25,
                show_copy_button=True
            )

    # Sample queries section
    with gr.Row():
        sample_btn = gr.Button("💡 Show Sample Queries")
        sample_output = gr.Textbox(
            label="Sample Queries",
            lines=8,
            interactive=False
        )

    # Event handlers
    load_btn.click(
        fn=load_model_and_data,
        outputs=system_status
    )

    basic_search_btn.click(
        fn=basic_search_interface,
        inputs=[basic_query, basic_num_results],
        outputs=basic_output
    )

    advanced_search_btn.click(
        fn=advanced_search_interface,
        inputs=[advanced_query, advanced_num_results, search_method],
        outputs=advanced_output
    )

    sample_btn.click(
        fn=get_sample_queries,
        outputs=sample_output
    )

    # Allow Enter key to trigger search
    basic_query.submit(
        fn=basic_search_interface,
        inputs=[basic_query, basic_num_results],
        outputs=basic_output
    )

    advanced_query.submit(
        fn=advanced_search_interface,
        inputs=[advanced_query, advanced_num_results, search_method],
        outputs=advanced_output
    )

    # Instructions
    gr.Markdown("""
    ## 📝 How to Use:

    ### Initial Setup:
    1. Load System: Click "Load Model & Data" to initialize the search system
    2. Check Status: Verify that the system loaded successfully

    ### Basic Search:
    - Simple product search using cosine similarity
    - Perfect for quick searches
    - Returns the most similar products

    ### Advanced Search:
    - Choose between Cosine Similarity and Euclidean Distance methods
    - More control over search parameters
    - Better for comparing different similarity approaches

    ### Requirements:
    Make sure these files exist in your working directory:
    - product_embeddings.npy (created by your embedding generation code)
    - Your product data CSV file (e.g., data.csv, products_data.csv)
    - The CSV must contain a product_info column

    ### Tips:
    - Try different search methods to see which works better for your queries
    - Use the sample queries for inspiration
    - Adjust the number of results to get more or fewer matches
    """)

# Launch the app
app.launch(
    share=False,  # Set to True if you want a public link
    debug=True,
    show_error=True,
    inbrowser=True
)

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
Note: opening Chrome Inspector may crash demo inside Colab notebooks.
* To create a public link, set `share=True` in `launch()`.


<IPython.core.display.Javascript object>

Keyboard interruption in main thread... closing server.




In [16]:
pip install groq

Collecting groq
  Downloading groq-0.31.0-py3-none-any.whl.metadata (16 kB)
Downloading groq-0.31.0-py3-none-any.whl (131 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/131.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m131.4/131.4 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: groq
Successfully installed groq-0.31.0


In [None]:
import gradio as gr
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances
import json
import os
from groq import Groq
import time

# Global variables to store the model and data
embedder = None
product_embeddings = None
data = None
groq_client = None

def setup_groq_client(api_key):
    """Setup Groq client with API key"""
    global groq_client

    try:
        if not api_key.strip():
            return "❌ Please enter your Groq API key"

        groq_client = Groq(api_key=api_key.strip())

        # Test the connection
        test_response = groq_client.chat.completions.create(
            messages=[{"role": "user", "content": "Hello"}],
            model="llama-3.3-70b-versatile",
            max_tokens=10
        )

        return "✅ Groq API connected successfully!"

    except Exception as e:
        groq_client = None
        return f"❌ Groq API connection failed: {str(e)}"

def load_model_and_data():
    """Load the model and embeddings data"""
    global embedder, product_embeddings, data

    try:
        # Load the SentenceTransformer model
        model_name = 'all-MiniLM-L6-v2'
        embedder = SentenceTransformer(model_name)

        # Load embeddings
        if os.path.exists('/content/product_embeddings.npy'):
            product_embeddings = np.load('/content/product_embeddings.npy')
        else:
            return "❌ Error: product_embeddings.npy not found. Please run the embedding creation code first."

        # Load data (you may need to adjust the filename)
        data_files = ['/content/Products_prepared.csv']
        data_loaded = False

        for file in data_files:
            if os.path.exists(file):
                data = pd.read_csv(file)
                data_loaded = True
                break

        if not data_loaded:
            return "❌ Error: Data file not found. Please ensure your data CSV file exists."

        # Verify product_info column exists
        if 'product_info' not in data.columns:
            return "❌ Error: 'product_info' column not found in data."

        return f"✅ Model and data loaded successfully!\n- Products: {len(data)}\n- Embeddings shape: {product_embeddings.shape}\n- Available columns: {', '.join(data.columns.tolist())}"

    except Exception as e:
        return f"❌ Error loading model and data: {str(e)}"
def search_similar_product(user_input, k=5, method='cosine'):
    """Enhanced search function"""
    global embedder, product_embeddings, data

    if embedder is None or product_embeddings is None or data is None:
        return pd.DataFrame(), "❌ Please initialize the system first by clicking 'Load Model & Data'"

    if not user_input.strip():
        return pd.DataFrame(), "❌ Please enter a search query"

    try:
        # Generate embedding for input
        user_embedding = embedder.encode([user_input])

        if method == 'cosine':
            # Calculate cosine similarity
            similarities = cosine_similarity(user_embedding, product_embeddings)[0]
            # Get top results
            top_indices = np.argsort(similarities)[-k:][::-1]

            results = data.iloc[top_indices].copy()
            results['similarity_score'] = similarities[top_indices]

        elif method == 'euclidean':
            # Calculate euclidean distance
            distances = euclidean_distances(user_embedding, product_embeddings)[0]
            # Get top results (smallest distance)
            top_indices = np.argsort(distances)[:k]

            results = data.iloc[top_indices].copy()
            results['distance'] = distances[top_indices]
            results['similarity_score'] = 1 / (1 + distances[top_indices])

        results['rank'] = range(1, len(results) + 1)
        return results, f"✅ Found {len(results)} result(s)"

    except Exception as e:
        return pd.DataFrame(), f"❌ Search error: {str(e)}"

def format_products_for_llm(results):
    """Format product results for LLM processing"""
    if results.empty:
        return "No products found in database search."

    products_text = []

    # Determine which columns to include
    important_cols = ['Product Name', 'Brand', 'Category', 'Color', 'Unit Price USD', 'product_info']
    available_cols = [col for col in important_cols if col in results.columns]

    for i, (idx, product) in enumerate(results.iterrows(), 1):
        product_info = f"Product {i}:\n"

        for col in available_cols:
            if pd.notna(product[col]) and str(product[col]).strip():
                if col == 'Unit Price USD':
                    product_info += f"- Price: ${product[col]:.2f}\n"
                else:
                    product_info += f"- {col}: {product[col]}\n"

        if 'similarity_score' in product:
            product_info += f"- Relevance Score: {product['similarity_score']:.3f}\n"

        products_text.append(product_info)

    return "\n".join(products_text)

def get_ai_response(user_query, products_text):
    """Get AI response using Groq"""
    global groq_client

    if groq_client is None:
        return "❌ Groq API not connected. Please enter your API key and connect first."

    prompt_template = """You will be given a user query and a list of products from a database search, based on the products and the user query return the best option and reply in friendly way, if there is no products or not related then apologize to the user friendly and say that we don't have that product yet ,mention all the products that you have found , and tell me which one is the best or do you recommend among them

USER QUERY:
{user_query}

PRODUCTS:
{products}"""

    try:
        prompt = prompt_template.format(user_query=user_query, products=products_text)

        response = groq_client.chat.completions.create(
            messages=[
                {"role": "system", "content": "You are a helpful product recommendation assistant. Be friendly, concise, and helpful."},
                {"role": "user", "content": prompt}
            ],
            model="llama-3.3-70b-versatile",
            max_tokens=500,
            temperature=0.7
        )

        return response.choices[0].message.content

    except Exception as e:
        return f"❌ AI response error: {str(e)}"
def ai_powered_search(query, num_results, search_method, use_ai):
    """Main AI-powered search function"""
    if not query.strip():
        return "❌ Please enter a search query"

    # Perform semantic search
    method_map = {
        "Cosine Similarity": "cosine",
        "Euclidean Distance": "euclidean"
    }

    results, search_message = search_similar_product(
        query,
        k=int(num_results),
        method=method_map[search_method]
    )

    if results.empty:
        if use_ai and groq_client:
            return get_ai_response(query, "No products found in database search.")
        else:
            return "❌ No products found for your query."

    # Format results
    if use_ai and groq_client:
        # Use AI for intelligent response
        products_text = format_products_for_llm(results)
        ai_response = get_ai_response(query, products_text)

        # Add technical details
        technical_info = f"\n\n🔍 Technical Details:\n"
        technical_info += f"- Search method: {search_method}\n"
        technical_info += f"- Products analyzed: {len(results)}\n"
        technical_info += f"- Top similarity score: {results['similarity_score'].iloc[0]:.4f}\n"

        return ai_response + technical_info

    else:
        # Standard formatted output
        return format_standard_results(results, query, search_method)

def format_standard_results(results, query, method):
    """Format results in standard way without AI"""
    output = []
    output.append(f"🔍 Search Results for: '{query}'")
    output.append(f"📊 Method: {method}")
    output.append("=" * 60)

    # Determine display columns
    display_cols = []
    possible_cols = ['Product Name', 'Brand', 'Category', 'Color', 'Unit Price USD', 'product_info']

    for col in possible_cols:
        if col in results.columns:
            display_cols.append(col)

    for i, (idx, product) in enumerate(results.iterrows()):
        output.append(f"\n🏆 Result #{i+1}:")

        for col in display_cols:
            if pd.notna(product[col]) and str(product[col]).strip():
                if col == 'Unit Price USD':
                    output.append(f"   💰 {col}: ${product[col]:.2f}")
                elif col == 'product_info':
                    info = str(product[col])
                    if len(info) > 100:
                        info = info[:97] + "..."
                    output.append(f"   📝 {col}: {info}")
                else:
                    output.append(f"   📝 {col}: {product[col]}")

        if 'similarity_score' in product:
            output.append(f"   ⭐️ Similarity: {product['similarity_score']:.4f}")

        output.append("-" * 40)

    return "\n".join(output)

def get_sample_queries():
    """Get sample queries based on loaded data"""
    samples = [
        "I need a laptop for gaming",
        "Looking for wireless headphones under $100",
        "Best smartphone with good camera",
        "Affordable bluetooth speaker",
        "Professional camera for photography",
        "Tablet for reading and entertainment",
        "Smart watch for fitness tracking",
        "Gaming mouse with RGB lighting"
    ]

    output = ["💡 Try these sample queries:\n" + "-" * 30]
    for i, sample in enumerate(samples, 1):
        output.append(f"{i}. {sample}")

    return "\n".join(output)
# Create Gradio interface
with gr.Blocks(title="AI-Powered Product Search", theme=gr.themes.Soft()) as app:
    gr.Markdown("# 🤖 AI-Powered Product Search System")
    gr.Markdown("Advanced product search with AI-powered recommendations using Groq's Llama 3.3 70B")

    # API Setup Section
    with gr.Row():
        with gr.Column():
            gr.Markdown("## 🔑 API Setup")
            api_key_input = gr.Textbox(
                label="Groq API Key",
                placeholder="Enter your Groq API key here...",
                type="password",
                lines=1
            )
            with gr.Row():
                connect_groq_btn = gr.Button("🔌 Connect to Groq", variant="secondary")
                load_data_btn = gr.Button("📊 Load Model & Data", variant="primary")

            status_output = gr.Textbox(
                label="System Status",
                lines=3,
                interactive=False,
                value="1. Enter your Groq API key and connect\n2. Load model and data\n3. Start searching!"
            )

    # Main Search Interface
    gr.Markdown("## 🔍 Smart Search")

    with gr.Row():
        with gr.Column(scale=2):
            search_query = gr.Textbox(
                label="Search Query",
                placeholder="Describe what you're looking for (e.g., 'I need a laptop for gaming and video editing')",
                lines=3
            )

        with gr.Column(scale=1):
            num_results = gr.Slider(
                minimum=1, maximum=10, value=5, step=1,
                label="Products to Analyze"
            )

            search_method = gr.Radio(
                choices=["Cosine Similarity", "Euclidean Distance"],
                value="Cosine Similarity",
                label="Search Method"
            )

            use_ai_response = gr.Checkbox(
                label="🤖 Use AI Recommendations",
                value=True,
                info="Get intelligent, conversational responses"
            )

    with gr.Row():
        search_btn = gr.Button("🔍 Search Products", variant="primary", size="lg")
        clear_btn = gr.Button("🗑 Clear", variant="secondary")

    # Results Section
    search_output = gr.Textbox(
        label="Search Results & AI Recommendations",
        lines=20,
        max_lines=30,
        show_copy_button=True,
        placeholder="Your search results will appear here..."
    )

    # Sample Queries Section
    with gr.Row():
        with gr.Column():
            sample_btn = gr.Button("💡 Show Sample Queries")
            sample_output = gr.Textbox(
                label="Sample Queries",
                lines=10,
                interactive=False
            )

    # Event Handlers
    connect_groq_btn.click(
        fn=setup_groq_client,
        inputs=api_key_input,
        outputs=status_output
    )

    load_data_btn.click(
        fn=load_model_and_data,
        outputs=status_output
    )

    search_btn.click(
        fn=ai_powered_search,
        inputs=[search_query, num_results, search_method, use_ai_response],
        outputs=search_output
    )

    clear_btn.click(
        fn=lambda: "",
        outputs=search_output
    )

    sample_btn.click(
        fn=get_sample_queries,
        outputs=sample_output
    )

    # Allow Enter key to trigger search
    search_query.submit(
        fn=ai_powered_search,
        inputs=[search_query, num_results, search_method, use_ai_response],
        outputs=search_output
    )

    # Instructions
    gr.Markdown("""
    ## 📋 How to Use:

    ### Setup (One-time):
    1. Get Groq API Key: Sign up at [groq.com](https://groq.com) and get your free API key
    2. Connect to Groq: Enter your API key and click "Connect to Groq"
    3. Load Data: Click "Load Model & Data" to initialize the search system

    ### Search:
    1. Enter Query: Describe what you're looking for in natural language
    2. Configure Settings: Adjust number of results and search method
3. AI Toggle: Enable/disable AI recommendations
    4. Search: Click search or press Enter

    ### Features:
    - 🤖 AI Recommendations: Get intelligent, conversational product suggestions
    - 🔍 Semantic Search: Find products based on meaning, not just keywords
    - ⚙️ Flexible Methods: Choose between different similarity algorithms
    - 💬 Natural Language: Ask questions like "I need a laptop for gaming"

    ### Example Queries:
    - "I need a budget-friendly laptop for college"
    - "Looking for wireless headphones for working out"
    - "Best camera for travel photography under $500"
    - "Gaming setup for competitive esports"

    Note: Make sure you have product_embeddings.npy and your product CSV file in the working directory.
    """)

# Launch the app
app.launch(
    share=False,
    debug=True,
    show_error=True,
    inbrowser=True
)

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
Note: opening Chrome Inspector may crash demo inside Colab notebooks.
* To create a public link, set `share=True` in `launch()`.


<IPython.core.display.Javascript object>

In [None]:
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# flask_app.py - بديل باستخدام Flask
from flask import Flask, render_template, request, jsonify
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import os

app = Flask(__name__)

# متغيرات عامة
model = None
data = None
embeddings = None

def load_system():
    """تحميل النظام والبيانات"""
    global model, data, embeddings

    try:
        # تحميل النموذج
        print("Loading model...")
        model = SentenceTransformer('all-MiniLM-L6-v2')

        # تحميل البيانات
        print("Loading data...")
        if os.path.exists('Products.csv'):
            data = pd.read_csv('Products.csv')
        else:
            # بيانات تجريبية
            data = pd.DataFrame({
                'Product Name': [
                    '512MB MP3 Player', 'Bluetooth Headphones', 'Gaming Laptop',
                    'Wireless Mouse', 'Smartphone Case', 'USB Cable',
                    'Portable Speaker', 'Gaming Keyboard', 'Tablet Stand'
                ],
                'Brand': [
                    'TechBrand', 'AudioMax', 'GameForce', 'TechMouse', 'ProtectCase',
                    'CableMax', 'SoundWave', 'KeyMaster', 'StandPro'
                ],
                'Category': [
                    'Electronics', 'Audio', 'Computers', 'Accessories', 'Accessories',
                    'Cables', 'Audio', 'Accessories', 'Accessories'
                ],
                'Color': [
                    'Black', 'Blue', 'Silver', 'White', 'Clear', 'Black',
                    'Red', 'RGB', 'Black'
                ],
                'Unit Price USD': [29.99, 79.99, 1299.99, 24.99, 15.99, 9.99, 49.99, 89.99, 19.99]
            })

        # إنشاء embeddings
        print("Creating embeddings...")
        product_texts = []
        for _, product in data.iterrows():
            text_parts = []
            for col in ['Product Name', 'Brand', 'Category', 'Color']:
                if col in data.columns and pd.notna(product[col]):
                    text_parts.append(str(product[col]))
            product_texts.append(' '.join(text_parts))

        embeddings = model.encode(product_texts)
        print(f"System loaded successfully! {len(data)} products ready.")

    except Exception as e:
        print(f"Error loading system: {e}")

def search_products(query, k=5, similarity_threshold=0.2):
    """البحث عن المنتجات"""
    try:
        if model is None or data is None or embeddings is None:
            return {
                'status': 'error',
                'message': 'System not ready',
                'products': []
            }

        # إنشاء embedding للاستعلام
        user_embedding = model.encode([query])

        # حساب التشابه
        similarities = cosine_similarity(user_embedding, embeddings)[0]

        # الحصول على أفضل النتائج
        top_indices = np.argsort(similarities)[-k:][::-1]

        # إنشاء النتائج
        results = []
        for idx in top_indices:
            if similarities[idx] >= similarity_threshold:
                product = data.iloc[idx]
                results.append({
                    'name': product.get('Product Name', 'Unknown'),
                    'brand': product.get('Brand', ''),
                    'category': product.get('Category', ''),
                    'color': product.get('Color', ''),
                    'price': product.get('Unit Price USD', ''),
                    'similarity': float(similarities[idx])
                })

        if not results:
            return {
                'status': 'not_found',
                'message': 'Sorry, the product you are looking for is not available. Thank you for reaching out to us.',
                'products': []
            }

        return {
            'status': 'found',
            'message': f'Found {len(results)} matching products',
            'products': results
        }

    except Exception as e:
        return {
            'status': 'error',
            'message': f'Search error: {str(e)}',
            'products': []
        }

@app.route('/')
def home():
    """الصفحة الرئيسية"""
    return render_template('index.html')

@app.route('/search', methods=['POST'])
def search():
    """API للبحث"""
    try:
        query = request.json.get('query', '').strip()

        if not query:
            return jsonify({
                'status': 'error',
                'message': 'Please enter a search query'
            })

        results = search_products(query)
        return jsonify(results)

    except Exception as e:
        return jsonify({
            'status': 'error',
            'message': f'Server error: {str(e)}'
        })

@app.route('/health')
def health():
    """فحص حالة النظام"""
    return jsonify({
        'status': 'healthy' if model is not None else 'not_ready',
        'products_count': len(data) if data is not None else 0,
        'model_loaded': model is not None,
        'embeddings_ready': embeddings is not None
    })

# HTML Template (حفظه في templates/index.html)
HTML_TEMPLATE = '''
<!DOCTYPE html>
<html lang="ar" dir="rtl">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>نظام توصيات المنتجات الذكي</title>
    <style>
        * {
            margin: 0;
            padding: 0;
            box-sizing: border-box;
        }

        body {
            font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
            background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
            min-height: 100vh;
            padding: 20px;
        }

        .container {
            max-width: 1200px;
            margin: 0 auto;
            background: white;
            border-radius: 15px;
            box-shadow: 0 20px 40px rgba(0,0,0,0.1);
            overflow: hidden;
        }

        .header {
            background: linear-gradient(90deg, #667eea 0%, #764ba2 100%);
            color: white;
            padding: 40px 20px;
            text-align: center;
        }

        .header h1 {
            font-size: 2.5rem;
            margin-bottom: 10px;
        }

        .search-section {
            padding: 40px 20px;
            text-align: center;
        }

        .search-input {
            width: 100%;
            max-width: 600px;
            padding: 15px 20px;
            font-size: 1.1rem;
            border: 2px solid #ddd;
            border-radius: 50px;
            margin: 20px auto;
            display: block;
            transition: border-color 0.3s;
        }

        .search-input:focus {
            outline: none;
            border-color: #667eea;
        }

        .search-btn {
            background: linear-gradient(90deg, #667eea 0%, #764ba2 100%);
            color: white;
            border: none;
            padding: 15px 40px;
            font-size: 1.1rem;
            border-radius: 50px;
            cursor: pointer;
            transition: transform 0.3s;
        }

        .search-btn:hover {
            transform: translateY(-2px);
        }

        .loading {
            display: none;
            color: #667eea;
            margin: 20px 0;
        }

        .results {
            padding: 20px;
        }

        .product-card {
            background: #f8f9fa;
            border-radius: 10px;
            padding: 20px;
            margin: 15px 0;
            border-left: 5px solid #667eea;
            transition: transform 0.3s;
        }

        .product-card:hover {
            transform: translateX(-5px);
        }

        .product-name {
            font-size: 1.3rem;
            font-weight: bold;
            color: #333;
            margin-bottom: 10px;
        }

        .product-details {
            display: grid;
            grid-template-columns: repeat(auto-fit, minmax(150px, 1fr));
            gap: 10px;
            margin: 10px 0;
        }

        .detail-item {
            background: white;
            padding: 8px 12px