In [3]:
import os
import joblib
import numpy as np
import faiss

# 🔧 مسارات ملفات embedding
embedding_files = {
    "beir_quora_test": r"C:\Users\Azzam\PycharmProjects\PythonProject\Data Representation\Bert\beir\quora\test\doc\bert_embedding.joblib",
    "antique_train": r"C:\Users\Azzam\PycharmProjects\PythonProject\Data Representation\Bert\antique\train\doc\bert_embedding.joblib"
}

# 🔧 مجلد الإخراج النهائي للـ faiss + doc_ids
OUTPUT_DIR = r"C:\Users\Azzam\PycharmProjects\PythonProject\vector_store\bert"

os.makedirs(OUTPUT_DIR, exist_ok=True)

# ✅ تابع بناء FAISS index
def build_faiss_index(embeddings):
    embeddings = np.vstack(embeddings).astype(np.float32)
    dim = embeddings.shape[1]
    index = faiss.IndexFlatL2(dim)
    index.add(embeddings)
    return index

# ✅ تنفيذ على كل ملف
for name, path in embedding_files.items():
    print(f"\n📦 معالجة: {name}")

    data = joblib.load(path)
    embeddings = data["embeddings_matrix"]
    doc_ids = data["doc_ids"]

    # ✅ بناء الفهرس
    index = build_faiss_index(embeddings)

    # ✅ حفظ النتائج
    faiss_path = os.path.join(OUTPUT_DIR, f"{name}.faiss")
    doc_ids_path = os.path.join(OUTPUT_DIR, f"{name}_doc_ids.joblib")

    faiss.write_index(index, faiss_path)
    joblib.dump(doc_ids, doc_ids_path)

    print(f"✅ تم حفظ الفهرس في: {faiss_path}")
    print(f"✅ تم حفظ doc_ids في: {doc_ids_path}")



📦 معالجة: beir_quora_test
✅ تم حفظ الفهرس في: C:\Users\Azzam\PycharmProjects\PythonProject\vector_store\bert\beir_quora_test.faiss
✅ تم حفظ doc_ids في: C:\Users\Azzam\PycharmProjects\PythonProject\vector_store\bert\beir_quora_test_doc_ids.joblib

📦 معالجة: antique_train
✅ تم حفظ الفهرس في: C:\Users\Azzam\PycharmProjects\PythonProject\vector_store\bert\antique_train.faiss
✅ تم حفظ doc_ids في: C:\Users\Azzam\PycharmProjects\PythonProject\vector_store\bert\antique_train_doc_ids.joblib
