In [1]:
import os
import re
import torch
import numpy as np
from transformers import XLNetTokenizer, XLNetModel
from sklearn.metrics.pairwise import cosine_similarity
import random

In [2]:
def preprocess_text(text):
    text = re.sub(r'[^\w\s]', '', text)  # remove punctuation marks
    text = text.lower()  # lower case all words
    return text

In [3]:
txt_directory = '../texts/'
txt_files = os.listdir(txt_directory)[:500]

In [4]:
texts = {}
for filename in txt_files:
    if filename.endswith(".txt"):
        file_path = os.path.join(txt_directory, filename)
        with open(file_path, "r", encoding="utf-8") as file:
            text = file.read()
            texts[filename] = preprocess_text(text)

In [5]:
model_name = "xlnet-base-cased"  # Use the base cased version of XLNet
tokenizer = XLNetTokenizer.from_pretrained(model_name)
model = XLNetModel.from_pretrained(model_name)

all_features = []
i = 0
for text in texts.values():
    text = preprocess_text(text)
    inputs = tokenizer(text, return_tensors="pt")

    # extract embedding vectors
    with torch.no_grad():
        outputs = model(**inputs)
        last_hidden_state = outputs.last_hidden_state
        features = torch.mean(last_hidden_state, dim=1)

    all_features.append(features)
    if i%100==0:
        print(i)
    i+=1

Downloading (…)ve/main/spiece.model:   0%|          | 0.00/798k [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/760 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/467M [00:00<?, ?B/s]

0
100
200
300
400


In [12]:
features.size()
print('last_hidden_state', last_hidden_state)
print('features', features)

last_hidden_state tensor([[[-1.2050, -1.1807, -0.1791,  ...,  0.1226,  1.3233, -1.0042],
         [-1.8051, -0.9941, -1.5857,  ..., -0.3218,  0.6457, -0.6424],
         [ 0.6331, -0.9274, -0.7026,  ...,  0.4470,  0.7046, -1.2191],
         ...,
         [ 0.2030, -0.8753, -1.3336,  ...,  0.5725,  0.7626, -0.4551],
         [ 0.7973, -1.2893, -1.0165,  ..., -0.6814,  1.5233,  0.0649],
         [ 0.7226, -1.8126, -1.2004,  ...,  0.2640,  2.1178, -0.5086]]])
features tensor([[ 1.8414e-01, -9.0262e-01, -7.8806e-01,  3.6508e-01, -2.1630e+00,
         -2.2328e-01,  1.8380e+00,  1.8013e-01,  2.8429e-01, -1.0193e+00,
         -4.4693e-01, -7.1640e-02,  1.2403e+00, -8.1172e-01, -2.1257e-01,
         -1.9072e-01, -3.2392e-01, -1.7361e+00,  3.6295e-01, -1.5540e+00,
         -4.2466e-01, -2.0756e-01, -1.9409e-01, -2.4158e-01,  1.7310e+00,
          8.8663e-01,  1.4409e-01,  1.0914e+00,  1.8121e+00,  1.6302e+00,
         -1.1962e-01,  4.7172e-01,  1.4011e+00,  1.1908e-01, -3.9197e-02,
          2.8

In [7]:
all_features_tensor = torch.cat(all_features)
similarities = cosine_similarity(all_features_tensor, all_features_tensor)
print(similarities.shape)

(500, 500)


In [8]:
idx = random.randint(0, 499)
k = 3

nearest_neighbors_indices = np.argsort(similarities[idx])[-(k+1):-1][::-1]

print(f'{k} nearest neighbors indices of item[{idx}] are items: {nearest_neighbors_indices}')
print(f'For {txt_files[idx]}, model recommends txt {txt_files[nearest_neighbors_indices[0]]}')

3 nearest neighbors indices of item[337] are items: [397 254 149]
For 3affd9ff-c08c-4766-af08-7a3354c031ce.txt, model recommends txt fa84014b-bb28-47c1-877c-69e543182584.txt


In [9]:
key_list = list(texts.keys())

original_txt = texts[key_list[idx]]
recommended_txt1 = texts[key_list[nearest_neighbors_indices[0]]]
recommended_txt2 = texts[key_list[nearest_neighbors_indices[1]]]

print(original_txt)
print('--------')
print(recommended_txt1)
print('--------')
print(recommended_txt2)

كيفية تدمير سفينة باستخدام مضرب التنس

لا يمكن إنكار أنه من المؤسف إساءة معاملة السفن لكن ربما هذا هو الطريقة الأسهل لتدمير السفن كل ما تحتاجه هو مضرب التنس وبعض الوقت وربما الموهبة 

أولا عليك أن تتأكد من أن لديك مضرب تنس قوي للغاية ومتين وبعد ذلك يمكنك البدء في هذه العملية الفتاكة 

ابحث عن سفينة قادمة وتذكر أنت تسير في الظل ولا تنسى أن تكون سريعا إذا نجحت في الوصول إلى السفينة فاستخدم مضربك للتأكد من أن تصيب السفينة بدقة 

لا تيأس إذا لم تنجح من المرة الأولى قد يستغرق الأمر بضع محاولات قبل أن تحقق الهدف المرجو ولكن إذا وصلت إلى تحقيق الهدف سوف يملأك الشعور بالإنجاز لكن لا تنسى أنه تدمير السفن غير مقبول وخطير للغاية على الطبيعة والحياة البحرية
--------
مرحبا اليوم سوف أعلمكم كيفية اختيار ما تحتاجون من بين ثلاثة أشياء مختلفة 
أول شيء هو مضرب التنس إذا كنت تريد أن تصبح لاعب تنس محترف فسوف تحتاج إلى مضرب جيد لا يهم كم مال لديك يجب عليك دائما الاعتناء بمضربك بمثابة طفلتك الصغيرة التي تحتاج إلى عناية خاصة
ثانيا الكرة الرجبي إذا كان لديك النية للعب الرجبي يجب أن تمتلك كرة رجبي ممتازة الكرة