In [19]:
from sentence_transformers import SentenceTransformer, SentencesDataset, InputExample, losses, util
from torch.utils.data import DataLoader

In [8]:
import pandas as pd

example_hash = set()
train_examples = []

sent_pairs_df = pd.read_csv('../data/processed/sent_pairs.csv')

for sent_1, sent_2, final_score in sent_pairs_df[['sent1', 'sent2', 'final_score']].values:
    train_examples.append(
    InputExample(texts=[sent_1, sent_2], label=round(float(final_score), 2))
)

In [14]:
model = SentenceTransformer('all-MiniLM-L6-v2')

# Создание и загрузка датасета
train_dataset = SentencesDataset(examples=train_examples, model=model)
train_dataloader = DataLoader(train_dataset, batch_size=8, shuffle=True)

# Настройка процесса обучения
train_loss = losses.CosineSimilarityLoss(model=model)

# Обучение модели
model.fit(train_objectives=[(train_dataloader, train_loss)], epochs=1)


Epoch:   0%|          | 0/1 [00:00<?, ?it/s]

Iteration:   0%|          | 0/65765 [00:00<?, ?it/s]

In [15]:
model.save('./kbd_sbert')

In [18]:
model.encode([
    'бжьыхьэм, 1567 гъэм, кърым пащтыхьищ, дзэшхуэхэр я гъусэу, адыгэхэм я щIыр къазэуну игъэкIуащ.',
    '1567 гъэм и бжьыхьэм кърым пащтыхьищ, дзэшхуэхэр я гъусэу, адыгэхэм я щIыр къазэуну игъэкIуащ.'
])

array([[-8.07891861e-02, -2.40913816e-02,  2.46702880e-02,
        -1.85900964e-02, -1.37475446e-01, -1.40126850e-02,
        -6.05219863e-02, -1.99343096e-02, -7.78186992e-02,
         7.23468559e-03, -2.91697364e-02,  6.70182258e-02,
         5.61756194e-02, -1.12534754e-01, -2.08542198e-02,
         7.84954280e-02, -2.86270119e-02,  3.94246727e-02,
        -2.55138669e-02,  6.96218899e-03,  1.45530673e-02,
         1.63829308e-02, -2.13766918e-02, -3.57155106e-04,
        -3.71332467e-02, -4.19229120e-02, -5.64684607e-02,
        -2.98179984e-02, -1.22779973e-01, -8.84593725e-02,
         8.59546810e-02,  8.02976117e-02, -4.53990586e-02,
         1.08773550e-02,  2.24937703e-02,  2.15898664e-03,
         2.86965743e-02,  1.44944675e-02,  4.33866084e-02,
        -7.42842183e-02,  9.92993563e-02, -8.35659262e-03,
        -2.86534671e-02,  6.17891725e-04, -8.65724683e-02,
        -4.05807383e-02, -8.76348466e-02, -1.88156515e-02,
         2.95973141e-02,  3.47684212e-02, -6.28263550e-0

In [26]:
# Two lists of sentences
sentences1 = [
    '1567 гъэм и бжьыхьэм кърым пащтыхьищ, дзэшхуэхэр я гъусэу, адыгэхэм я щIыр къазэуну игъэкIуащ.',
    'КIуащ БетIал 1920 гъэм ноябрым и 22-м Дохъушыкъуей (Старэ Шэрэдж) къуажэм къыщалъхуащ.',
    'Хэку зауэшхуэр къызэрыхъейуэ, 1941 гъэм июным и 24-м Мухьэдин зауэм кIуащ.',
    'Уэ езым болъагъу абы и Iуэху зыIутыр.',
    'хэт уэ уи цIэр?',
]

sentences2 = [
    'бжьыхьэм, 1567 гъэм, кърым пащтыхьищ, дзэшхуэхэр я гъусэу, адыгэхэм я щIыр къазэуну игъэкIуащ.',
    '1920 гъэм етIанэу гвардие хужьыр зэтрикъутащ – генералу 4-рэ офицеру 60-рэ гъэру иубыдащ.',
    '1941 гъэм и октябрым ЩоджэнцIыкIум зауэм дэкIыну зэрыхуеймкIэ лъэIу тхылъ етх.',
    '– къищIащ абы щIалэхэм я Iуэху зыIутыр.',
    'cэ си цIэр Iэдэм',
]

# Compute embedding for both lists
embeddings1 = model.encode(sentences1, convert_to_tensor=True)
embeddings2 = model.encode(sentences2, convert_to_tensor=True)

# Compute cosine-similarities
cosine_scores = util.cos_sim(embeddings1, embeddings2)

# Output the pairs with their score
for i in range(len(sentences1)):
    print("{} \t\t {} \t\t Score: {:.4f}".format(
        sentences1[i], sentences2[i], cosine_scores[i][i]
    ))

1567 гъэм и бжьыхьэм кърым пащтыхьищ, дзэшхуэхэр я гъусэу, адыгэхэм я щIыр къазэуну игъэкIуащ. 		 бжьыхьэм, 1567 гъэм, кърым пащтыхьищ, дзэшхуэхэр я гъусэу, адыгэхэм я щIыр къазэуну игъэкIуащ. 		 Score: 0.9402
КIуащ БетIал 1920 гъэм ноябрым и 22-м Дохъушыкъуей (Старэ Шэрэдж) къуажэм къыщалъхуащ. 		 1920 гъэм етIанэу гвардие хужьыр зэтрикъутащ – генералу 4-рэ офицеру 60-рэ гъэру иубыдащ. 		 Score: 0.5354
Хэку зауэшхуэр къызэрыхъейуэ, 1941 гъэм июным и 24-м Мухьэдин зауэм кIуащ. 		 1941 гъэм и октябрым ЩоджэнцIыкIум зауэм дэкIыну зэрыхуеймкIэ лъэIу тхылъ етх. 		 Score: 0.7277
Уэ езым болъагъу абы и Iуэху зыIутыр. 		 – къищIащ абы щIалэхэм я Iуэху зыIутыр. 		 Score: 0.6413
хэт уэ уи цIэр? 		 cэ си цIэр Iэдэм 		 Score: 0.5895
