In [1]:
from transformers import AutoModel, AutoTokenizer 
from qdrant_client import QdrantClient
from dotenv import dotenv_values
import yaml

DBPATH = "data/db/"
with open("config.yml") as yml:
    conf = yaml.safe_load(yml)
ENV = dotenv_values(".env")
MODEL = "sts/paraphrase-multilingual-MiniLM-L12-v2"

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
client = QdrantClient(url = ENV["QDRANT_URL"], location=DBPATH, timeout=50)

In [3]:
# load model and tokenizer..
tokenizer = AutoTokenizer.from_pretrained(MODEL)
model = AutoModel.from_pretrained(MODEL)

In [4]:
query = "كرة قدم"
inputs = tokenizer(
    text=query,
    padding=True,
    truncation=True,
    return_tensors="pt",
    max_length=conf["vector_size"]
)
results = model(**inputs)
embeddings = results.last_hidden_state[:, 0, :].cpu().detach().numpy()
embeddings = embeddings.flatten().tolist()

In [5]:
client.search(
    collection_name="prod",
    query_vector=embeddings,
    with_payload=["title"],
    limit=3
)

[ScoredPoint(id='f0b6282b-6f0c-20d5-6c60-a8d1510dbfc7', version=10, score=0.656389, payload={'title': 'ما قيمة الكرة الذهبية.. وهل مصنوعة من الذهب الخالص؟'}, vector=None),
 ScoredPoint(id='34f6f516-d061-16be-6300-b58926f6c17a', version=10, score=0.5459675, payload={'title': 'أغلى نجوم الكرة الذهبية قبل الكشف عن الفائز بنسخة 2023.. إنفو جراف'}, vector=None),
 ScoredPoint(id='f4f482a2-83b6-18a1-8799-05ee7e17e6b0', version=0, score=0.53724855, payload={'title': 'تولوز يصعق ليفربول 3-2 ومحمد صلاح ينجو من إصابة قوية فى الدوري الأوروبي'}, vector=None)]

In [6]:
query = "فلسطين"
inputs = tokenizer(
    text=query,
    padding=True,
    truncation=True,
    return_tensors="pt",
    max_length=conf["vector_size"]
)
results = model(**inputs)
embeddings = results.last_hidden_state[:, 0, :].cpu().detach().numpy()
embeddings = embeddings.flatten().tolist()

client.search(
    collection_name="prod",
    query_vector=embeddings,
    with_payload=["title"],
    limit=3
)

[ScoredPoint(id='6b3a77d4-887c-0a06-0713-3354d54f8c96', version=7, score=0.60518914, payload={'title': 'أحد الجرحى الفلسطينيين بمستشفى العريش العام: أحظى برعاية خاصة فى مصر.. فيديو'}, vector=None),
 ScoredPoint(id='3563fa4b-ccf4-24f3-71bd-51674512ec92', version=4, score=0.57786846, payload={'title': 'وزيرة الصحة الفلسطينية: نحتاج إلى مستشفيات ميدانية في غزة'}, vector=None),
 ScoredPoint(id='bfe1d453-d38d-1efc-9bb9-9a56b55651e4', version=2, score=0.5717842, payload={'title': 'وزير الدفاع الإسرائيلي: إسرائيل "ستحتفظ بحرية العمل الكاملة" في غزة بعد انتهاء الحرب'}, vector=None)]

In [7]:
query = "حظك اليوم"
inputs = tokenizer(
    text=query,
    padding=True,
    truncation=True,
    return_tensors="pt",
    max_length=conf["vector_size"]
)
results = model(**inputs)
embeddings = results.last_hidden_state[:, 0, :].cpu().detach().numpy()
embeddings = embeddings.flatten().tolist()

client.search(
    collection_name="prod",
    query_vector=embeddings,
    with_payload=["title"],
    limit=3
)

[ScoredPoint(id='76dadd0e-4c10-cefe-bcca-b4f8810d9742', version=6, score=0.7872704, payload={'title': 'حظك اليوم وتوقعات الأبراج السبت 4 نوفمبر على الصعيد المهنى والعاطفى والصحى'}, vector=None),
 ScoredPoint(id='d4fdd71d-69b3-8b2f-4e65-75e527c45e78', version=1, score=0.78645945, payload={'title': 'أبو عبيدة يكشف خسائر الاحتلال بالمدرعات... ويؤكد: لا حل لملف الأسرى إلا بالتبادل'}, vector=None),
 ScoredPoint(id='8caa37af-2849-7f04-c58a-05e957e5f553', version=7, score=0.6133511, payload={'title': 'برج الحمل.. حظك اليوم الجمعة 3 نوفمبر: بداية جديدة'}, vector=None)]

In [12]:
query = "أسعار العملات"
inputs = tokenizer(
    text=query,
    padding=True,
    truncation=True,
    return_tensors="pt",
    max_length=conf["vector_size"]
)
results = model(**inputs)
embeddings = results.last_hidden_state[:, 0, :].cpu().detach().numpy()
embeddings = embeddings.flatten().tolist()

client.search(
    collection_name="prod",
    query_vector=embeddings,
    with_payload=["title"],
    limit=3
)

[ScoredPoint(id='010f5d24-3131-426a-921a-63398c916b9e', version=7, score=0.47930846, payload={'title': 'لماذا قرر البنك المركزى الإبقاء على تثبيت سعر الفائدة دون تغيير؟'}, vector=None),
 ScoredPoint(id='1237d46d-e08f-0a9e-ca5c-1e5e317df123', version=11, score=0.4693601, payload={'title': 'سعر الذهب اليوم في مصر بالتعاملات المسائية'}, vector=None),
 ScoredPoint(id='e9528e71-44a5-d4a1-7367-cc643fc6eff7', version=8, score=0.43027937, payload={'title': 'بعد تثبيت الفائدة الأمريكية.. تعرف على أسعار الذهب في البورصة العالمية'}, vector=None)]