In [1]:
from __future__ import annotations

from yandex_cloud_ml_sdk import YCloudML

from yandex_cloud_ml_sdk.auth import IAMTokenAuth

import dotenv
dotenv.load_dotenv()
config = dotenv.dotenv_values()

doc_texts = [
    """Александр Сергеевич Пушкин (26 мая [6 июня] 1799, Москва — 29 января [10 февраля] 1837, Санкт-Петербург)
    — русский поэт, драматург и прозаик, заложивший основы русского реалистического направления,
    литературный критик и теоретик литературы, историк, публицист, журналист.""",
    
    """Ромашка — род однолетних цветковых растений семейства астровые,
    или сложноцветные, по современной классификации объединяет около 70 видов невысоких пахучих трав,
    цветущих с первого года жизни.""",

    """Бартоломью - редкое зарубежное имя"""
]





In [2]:

import numpy as np
from scipy.spatial.distance import cdist

sdk = YCloudML(
    folder_id=config["YC_FOLDER_ID"],
    auth=IAMTokenAuth(config["YC_IAM_TOKEN"]),
    enable_server_data_logging=False,
)



In [3]:
query_model = sdk.models.text_embeddings('query')
query_embedding = query_model.run("когда день рождения Пушкина?")

query_embedding

TextEmbeddingsModelResult(embedding=(-0.10015869140625, -0.005779266357421875, 0.0156707763671875, -0.0282135009765625, -0.005664825439453125, -0.061187744140625, -0.00672149658203125, -0.004608154296875, -0.05084228515625, -0.006755828857421875, -0.153076171875, -0.056671142578125, 0.0039043426513671875, 0.10443115234375, 0.054840087890625, 0.0804443359375, 0.054962158203125, -0.01171875, -0.0684814453125, -0.09088134765625, 0.0244140625, -0.012115478515625, -0.049407958984375, -0.0899658203125, 0.06842041015625, -0.031402587890625, 0.029693603515625, 0.1080322265625, 0.049468994140625, 0.001308441162109375, 0.014617919921875, -0.0673828125, 0.0712890625, 0.041717529296875, 0.064697265625, -0.05255126953125, 0.0908203125, -0.0143585205078125, -0.001739501953125, -0.02154541015625, -0.1181640625, -0.0117340087890625, 0.0173187255859375, -0.0523681640625, -0.04071044921875, -0.00939178466796875, -0.054351806640625, 0.0262451171875, 0.037139892578125, -0.04754638671875, 0.010002136230468

In [8]:
print(len(query_embedding.embedding))
import pprint
pprint.pprint(query_embedding.embedding, compact=True)

256
(-0.10015869140625, -0.005779266357421875, 0.0156707763671875,
 -0.0282135009765625, -0.005664825439453125, -0.061187744140625,
 -0.00672149658203125, -0.004608154296875, -0.05084228515625,
 -0.006755828857421875, -0.153076171875, -0.056671142578125,
 0.0039043426513671875, 0.10443115234375, 0.054840087890625, 0.0804443359375,
 0.054962158203125, -0.01171875, -0.0684814453125, -0.09088134765625,
 0.0244140625, -0.012115478515625, -0.049407958984375, -0.0899658203125,
 0.06842041015625, -0.031402587890625, 0.029693603515625, 0.1080322265625,
 0.049468994140625, 0.001308441162109375, 0.014617919921875, -0.0673828125,
 0.0712890625, 0.041717529296875, 0.064697265625, -0.05255126953125,
 0.0908203125, -0.0143585205078125, -0.001739501953125, -0.02154541015625,
 -0.1181640625, -0.0117340087890625, 0.0173187255859375, -0.0523681640625,
 -0.04071044921875, -0.00939178466796875, -0.054351806640625, 0.0262451171875,
 0.037139892578125, -0.04754638671875, 0.01000213623046875, -0.051483154296

In [9]:
doc_model = sdk.models.text_embeddings('doc')
doc_embeddings = [doc_model.run(text) for text in doc_texts]

pprint.pprint(doc_embeddings[0].embedding)

(-0.0421142578125,
 -0.06280517578125,
 0.0587158203125,
 -0.053680419921875,
 0.016876220703125,
 -0.09393310546875,
 0.05340576171875,
 -0.029388427734375,
 -0.08544921875,
 -0.070556640625,
 -0.0537109375,
 -0.1182861328125,
 0.03790283203125,
 0.154052734375,
 0.0087738037109375,
 0.0238037109375,
 0.004421234130859375,
 -0.0487060546875,
 -0.1431884765625,
 0.0129547119140625,
 0.07342529296875,
 -0.030120849609375,
 -0.2056884765625,
 0.0088653564453125,
 0.0262298583984375,
 0.1043701171875,
 0.044097900390625,
 0.043304443359375,
 0.09918212890625,
 -0.058135986328125,
 -0.11700439453125,
 0.056640625,
 0.055328369140625,
 0.066162109375,
 -0.005817413330078125,
 -0.051177978515625,
 0.0258636474609375,
 -0.0797119140625,
 -0.057861328125,
 0.002590179443359375,
 0.0187530517578125,
 0.038543701171875,
 0.11029052734375,
 0.034332275390625,
 -0.02996826171875,
 -0.0007543563842773438,
 -0.0262451171875,
 0.00847625732421875,
 -0.0035152435302734375,
 0.0152130126953125,
 -0.067

In [11]:
print(len(doc_embeddings[0].embedding))

256


In [12]:
query_embedding = np.array(query_embedding)
query_embedding

array([-0.10015869, -0.00577927,  0.01567078, -0.0282135 , -0.00566483,
       -0.06118774, -0.0067215 , -0.00460815, -0.05084229, -0.00675583,
       -0.15307617, -0.05667114,  0.00390434,  0.10443115,  0.05484009,
        0.08044434,  0.05496216, -0.01171875, -0.06848145, -0.09088135,
        0.02441406, -0.01211548, -0.04940796, -0.08996582,  0.06842041,
       -0.03140259,  0.0296936 ,  0.10803223,  0.04946899,  0.00130844,
        0.01461792, -0.06738281,  0.07128906,  0.04171753,  0.06469727,
       -0.05255127,  0.09082031, -0.01435852, -0.0017395 , -0.02154541,
       -0.11816406, -0.01173401,  0.01731873, -0.05236816, -0.04071045,
       -0.00939178, -0.05435181,  0.02624512,  0.03713989, -0.04754639,
        0.01000214, -0.05148315, -0.03982544,  0.06173706,  0.03936768,
       -0.00736237,  0.00850677, -0.07855225, -0.10461426, -0.00828552,
       -0.03878784, -0.05786133, -0.0041275 ,  0.03469849,  0.04574585,
        0.07458496, -0.14038086, -0.00768661,  0.03024292, -0.08

In [13]:
test_embedding = np.array(doc_embeddings[0])
test_embedding

array([-0.04211426, -0.06280518,  0.05871582, -0.05368042,  0.01687622,
       -0.09393311,  0.05340576, -0.02938843, -0.08544922, -0.07055664,
       -0.05371094, -0.11828613,  0.03790283,  0.15405273,  0.0087738 ,
        0.02380371,  0.00442123, -0.04870605, -0.14318848,  0.01295471,
        0.07342529, -0.03012085, -0.20568848,  0.00886536,  0.02622986,
        0.10437012,  0.0440979 ,  0.04330444,  0.09918213, -0.05813599,
       -0.11700439,  0.05664062,  0.05532837,  0.06616211, -0.00581741,
       -0.05117798,  0.02586365, -0.07971191, -0.05786133,  0.00259018,
        0.01875305,  0.0385437 ,  0.11029053,  0.03433228, -0.02996826,
       -0.00075436, -0.02624512,  0.00847626, -0.00351524,  0.01521301,
       -0.06713867, -0.04266357,  0.09625244,  0.07214355,  0.0458374 ,
        0.11462402, -0.03799438,  0.07617188, -0.04669189,  0.03062439,
        0.08111572, -0.05123901,  0.07684326,  0.0269165 ,  0.01509857,
       -0.02372742, -0.0880127 , -0.06835938,  0.12988281, -0.01

In [14]:
dist = cdist([query_embedding], doc_embeddings, metric='cosine')
dist

array([[0.586267  , 0.99867393, 0.88044645]])

In [15]:
sim = 1 - dist
sim

array([[0.413733  , 0.00132607, 0.11955355]])

In [16]:
np.argmax(sim)

np.int64(0)

In [17]:


result = doc_texts[np.argmax(sim)]

print(result)

Александр Сергеевич Пушкин (26 мая [6 июня] 1799, Москва — 29 января [10 февраля] 1837, Санкт-Петербург)
    — русский поэт, драматург и прозаик, заложивший основы русского реалистического направления,
    литературный критик и теоретик литературы, историк, публицист, журналист.


In [24]:
query_embedding = doc_model.run("""Ромашка — род однолетних цветковых растений семейства астровые,
    или сложноцветные, по современной классификации объединяет около 70 видов невысоких пахучих трав,
    цветущих с первого года жизни.""")
query_embedding = np.array(query_embedding)

dist = cdist([query_embedding], doc_embeddings, metric='cosine')
sim = 1 - dist
result = doc_texts[np.argmax(sim)]
print(sim)
print(result)

[[0.39616099 1.         0.44501246]]
Ромашка — род однолетних цветковых растений семейства астровые,
    или сложноцветные, по современной классификации объединяет около 70 видов невысоких пахучих трав,
    цветущих с первого года жизни.


In [19]:
query_embedding = query_model.run("Бартоломью - редкое зарубежное имя")
query_embedding = np.array(query_embedding)
dist = cdist([query_embedding], doc_embeddings, metric='cosine')
sim = 1 - dist
result = doc_texts[np.argmax(sim)]
print(result)


Бартоломью - редкое зарубежное имя


In [None]:
sim

In [None]:
query_embedding = query_model.run("Бартоломью - редкое зарубежное имя")
query_embedding = np.array(query_embedding)
dist = cdist([doc_embeddings[2]], doc_embeddings, metric='cosine')
sim = 1 - dist
sim

In [None]:
result = doc_texts[np.argmax(sim)]
print(result)