In [2]:
from sentence_transformers import SentenceTransformer, InputExample, losses, models
from scipy.spatial.distance import cosine
from torch.utils.data import DataLoader
import itertools
import pandas as pd
import numpy as np

  from .autonotebook import tqdm as notebook_tqdm


In [3]:

model = SentenceTransformer('distiluse-base-multilingual-cased-v1')

In [37]:
def centeroidnp(arr):
    return np.sum(arr, axis=0) / len(arr)

left_sentence = 'выбросы загрязняющих веществ в атмосферу (тонн)'
left_encode = model.encode(left_sentence)

sentences = [
    'выбросы загрязняющих атмосферу веществ, отходящих от стационарных источников, за i полугодие',
    'выброшено в атмосферу  загрязняющих веществ за отчетный год от сжигания топлива (для выработки электро- и теплоэнергии)',
    'объем выбросов вредных (загрязняющих) веществ в атмосферный воздух от стационарных источников, расположенных на территории субъекта российской федерации',
    'объем выбросов вредных(загрязняющих) веществ в атмосферный воздух от автомобильного транспорта',
    'объем выбросов вредных(загрязняющих) веществ в атмосферный воздух от железнодорожного транспорта'
]



sentence_encoding = {}
for s in sentences :
    e = model.encode(s)
    sentence_encoding[s] = e / np.linalg.norm(e)


from scipy import spatial

kd_tree = spatial.KDTree([vec for _, vec in sentence_encoding.items()])
kd_tree.query(left_encode)
print(sentences[kd_tree.query(centeroidnp(np.array([i for i in sentence_encoding.values()])))[1]])

for s, e in sentence_encoding.items() :
    print(s, cosine(left_encode, e))

объем выбросов вредных(загрязняющих) веществ в атмосферный воздух от автомобильного транспорта
выбросы загрязняющих атмосферу веществ, отходящих от стационарных источников, за i полугодие 0.34269338846206665
выброшено в атмосферу  загрязняющих веществ за отчетный год от сжигания топлива (для выработки электро- и теплоэнергии) 0.39892399311065674
объем выбросов вредных (загрязняющих) веществ в атмосферный воздух от стационарных источников, расположенных на территории субъекта российской федерации 0.33451420068740845
объем выбросов вредных(загрязняющих) веществ в атмосферный воздух от автомобильного транспорта 0.22578537464141846
объем выбросов вредных(загрязняющих) веществ в атмосферный воздух от железнодорожного транспорта 0.25013846158981323


In [38]:

left_sentence = 'продажа алкогольных напитков (литров чистого спирта на человека)'
left_encode = model.encode(left_sentence)

sentences = [
    'продажа алкогольных напитков в абсолютном алкоголе на душу населения',
    'продажа алкогольных напитков в натуральном выражении (оперативные данные)',
    'продажа алкогольных напитков в расчете на душу населения (в натуральном выражении)',
    'розничные продажи алкогольной продукции (в литрах этанола)',
    'розничные продажи алкогольной продукции на душу населения (в литрах этанола)'
]



sentence_encoding = {}
for s in sentences :
    e = model.encode(s)
    sentence_encoding[s] = e / np.linalg.norm(e)


from scipy import spatial

kd_tree = spatial.KDTree([vec for _, vec in sentence_encoding.items()])
kd_tree.query(left_encode)
print(sentences[kd_tree.query(centeroidnp(np.array([i for i in sentence_encoding.values()])))[1]])

for s, e in sentence_encoding.items() :
    print(s, cosine(left_encode, e))

розничные продажи алкогольной продукции на душу населения (в литрах этанола)
продажа алкогольных напитков в абсолютном алкоголе на душу населения 0.22396540641784668
продажа алкогольных напитков в натуральном выражении (оперативные данные) 0.2763362526893616
продажа алкогольных напитков в расчете на душу населения (в натуральном выражении) 0.20913797616958618
розничные продажи алкогольной продукции (в литрах этанола) 0.2112828493118286
розничные продажи алкогольной продукции на душу населения (в литрах этанола) 0.1819286346435547


In [39]:

left_sentence = 'расходы домашних хозяйств на конечное потребление в млн евро'
left_encode = model.encode(left_sentence)

sentences = [
    'индексы-дефляторы расходов на конечное потребление домашних хозяйств',
    'индексы физического объёма расходов на конечное потребление домашних хозяйств',
    'расходы на конечное потребление домашних хозяйств',
    'расходы на конечное потребление некоммерческих организаций, обслуживающих домашние хозяйства',
    'потребительские расходы домашних хозяйств (всего, в том числе по видам расходов)',
    'потребительские расходы домашних хозяйств в среднем на члена домохозяйства в год',
    'расходы на потребление, в среднем на члена домашнего хозяйства, в месяц',
    'структура расходов на конечное потребление домашних хозяйств',
    'потребительские расходы домашних хозяйств в среднем на 100  членов домашних хозяйств в месяц',
    'потребительские расходы домашних хозяйств  в группировках по целям потребления на члена домашнего хозяйства в месяц'
]



sentence_encoding = {}
for s in sentences :
    e = model.encode(s)
    sentence_encoding[s] = e / np.linalg.norm(e)


from scipy import spatial

kd_tree = spatial.KDTree([vec for _, vec in sentence_encoding.items()])
kd_tree.query(left_encode)
print(sentences[kd_tree.query(centeroidnp(np.array([i for i in sentence_encoding.values()])))[1]])

for s, e in sentence_encoding.items() :
    print(s, cosine(left_encode, e))

расходы на конечное потребление домашних хозяйств
индексы-дефляторы расходов на конечное потребление домашних хозяйств 0.351800799369812
индексы физического объёма расходов на конечное потребление домашних хозяйств 0.3770894408226013
расходы на конечное потребление домашних хозяйств 0.20133543014526367
расходы на конечное потребление некоммерческих организаций, обслуживающих домашние хозяйства 0.35620856285095215
потребительские расходы домашних хозяйств (всего, в том числе по видам расходов) 0.37997937202453613
потребительские расходы домашних хозяйств в среднем на члена домохозяйства в год 0.4326879382133484
расходы на потребление, в среднем на члена домашнего хозяйства, в месяц 0.45436590909957886
структура расходов на конечное потребление домашних хозяйств 0.27881181240081787
потребительские расходы домашних хозяйств в среднем на 100  членов домашних хозяйств в месяц 0.4891204237937927
потребительские расходы домашних хозяйств  в группировках по целям потребления на члена домашнего