In [1]:
from transformers import AutoTokenizer, AutoModel
import torch
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

# آيات سورة الفاتحة
verses = [
    "بسم الله الرحمن الرحيم",
    "الحمد لله رب العالمين",
    "الرحمن الرحيم",
    "مالك يوم الدين",
    "اياك نعبد واياك نستعين",
    "اهدنا الصراط المستقيم",
    "صراط الذين انعمت عليهم غير المغضوب عليهم ولا الضالين"
]

# تحميل tokenizer و model
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic")
model = AutoModel.from_pretrained("asafaya/bert-base-arabic")

# دالة استخراج embedding
def get_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1)

# استخراج embeddings لكل آية
embeddings = torch.vstack([get_embedding(v) for v in verses])

# حساب التشابه
similarity = cosine_similarity(embeddings)

# عرض النتائج
df = pd.DataFrame(
    similarity,
    index=[f"آية {i+1}" for i in range(len(verses))],
    columns=[f"آية {i+1}" for i in range(len(verses))]
)

print(df)


Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


          آية 1     آية 2     آية 3     آية 4     آية 5     آية 6     آية 7
آية 1  1.000000  0.804507  0.887527  0.741688  0.558292  0.764927  0.529446
آية 2  0.804507  1.000000  0.751541  0.736996  0.598533  0.749946  0.496204
آية 3  0.887527  0.751541  1.000000  0.803779  0.567487  0.819799  0.538663
آية 4  0.741688  0.736996  0.803779  1.000000  0.517206  0.780939  0.458679
آية 5  0.558292  0.598533  0.567487  0.517206  1.000000  0.623504  0.616323
آية 6  0.764927  0.749946  0.819799  0.780939  0.623504  1.000000  0.632225
آية 7  0.529446  0.496204  0.538663  0.458679  0.616323  0.632225  1.000000
