In [18]:
import pandas as pd
import numpy as np

from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer

from database.models import ItemLoginom
from services.utils import (
    get_csv_data,
    populate_database,
    populate_bulk_embeddings,
    get_most_similar,
)

In [2]:
dataset = get_csv_data(data_path="data/Products.csv", column_id=1)

In [4]:
nlp_model = SentenceTransformer(
    "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)



In [17]:
promt_1 = nlp_model.encode("Кисть для рисования из шерсти белки").reshape(1, -1)
promt_2 = nlp_model.encode("Кисть для рисования из шерсти пони").reshape(1, -1)

print(cosine_similarity(promt_1, promt_2)[0])

[0.40470114]


In [19]:
populate_bulk_embeddings(
    nlp_model=nlp_model,
    dataset=dataset,
    table_model=ItemLoginom
)

In [35]:
promt = "Календарь Густав Климт 2010"

In [36]:
result = get_most_similar(
    nlp_model=nlp_model,
    table_model=ItemLoginom,
    promt=promt,
    limit=30,
)

In [37]:
for res in result:
    print(res)

('Календарь Густав Климт 2010', 1.0)
('Календарь Густав Климт 2008', 0.9745947969570719)
('Календарь Густав Климт 2009', 0.9730202165571763)
('Календарь Густав Климт  2010.', 0.9659304001100614)
('Календарь Марк Шагал 2010', 0.9137431751060552)
('Календарь Огюст Ренуар 2010', 0.9102062026194078)
('Календарь Мосты2008', 0.9071378413495426)
('Календарь Огюст Ренуар 2008', 0.8965566646438234)
('Календарь Импрессионисты 2010', 0.8935338986902451)
('Календарь Маски 2009', 0.8922641291708987)
('Календарь Парусники 2008', 0.891129089724534)
('Календарь Клод Моне 2009', 0.8897514069094343)
('Календарь Анри Матисс 2008', 0.88478712526259)
('Календарь Клод Моне 2008', 0.8825599818738143)
('Календарь Василий Кандинский 2009', 0.8805667133906874)
('Календарь Марк Шагал 2008', 0.876655023855386)
('Календарь Импрессионисты 2008', 0.8745389629181329)
('Календарь Панорама 2010', 0.871533053290555)
('Календарь Винсент Ван Гог 2009', 0.8686677342692762)
('Календарь Старые мастера2008', 0.857050249967812