In [170]:
import pymorphy3
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

morph = pymorphy3.MorphAnalyzer()
stop_words = stopwords.words("russian")

def preprocess(text: str) -> list:
    tokens = word_tokenize(text, language="russian")
    
    filtered_tokens = list()
    for token in tokens:
        if token not in stop_words:
            filtered_tokens.append(morph.parse(token)[0].normal_form)

    return filtered_tokens

In [171]:
from navec import Navec

path = 'navec_hudlit_v1_12B_500K_300d_100q.tar'
navec = Navec.load(path)

In [172]:
import numpy as np

def embed(tokens):
    """Return the centroid of the embeddings for the given tokens.

    Out-of-vocabulary tokens are cast aside. Stop words are also
    discarded. An array of 0s is returned if none of the tokens
    are valid.

    """

    vectors = np.array([navec[token] for token in tokens if token in navec])

    if len(vectors) > 0:
        centroid = vectors.mean(axis=0)
    else:
        width = navec.pq.dim
        centroid = np.zeros(width)

    return centroid

In [173]:
import pandas as pd

df = pd.read_csv('standarts.csv')

# label_names = list(df['Группа продукции'].unique())
# print(label_names)
label_names = ['Изделия для ухода за детьми', 'Соски молочные, соски-пустышки и изделия санитарно-гигиенические из латекса, резины и силиконовых эластомеров', 'Посуда и столовые приборы из пластмассы', 'Посуда и столовые приборы из стекла, стеклокерамики, керамики', 'Посуда и столовые приборы из металла, изделия санитарно-гигиенические из металла', 'Посуда из бумаги и картона (одноразового применения)', 'Изделия санитарно-гигиенические и галантерейные из пластмассы', 'Щетки зубные, массажеры для десен и аналогичные изделия, предназначенные для ухода за полостью рта', 'Изделия санитарно-гигиенические разового использования', 'Обувь', 'Кожгалантерейные изделия', 'Коляски детские', 'Велосипеды', 'Издательская (книжная и журнальная) продукция', 'Школьно-письменные принадлежности']
combined_labels = ['Обувь', 'Кожгалантерейные изделия', 'Коляски детские', 'Велосипеды']

In [174]:
label_vectors = np.asarray([
    embed(preprocess(label)) for label in label_names
])

In [175]:
from sklearn import neighbors

df = pd.read_csv('dataset.csv')

nn = neighbors.NearestNeighbors(n_neighbors=1, algorithm="brute")
nn.fit(label_vectors)
def get_item_groups(item_name: str) -> list:
    nearest_group = label_names[nn.kneighbors([embed(preprocess(item_name))], return_distance=False)[0, 0]]
    item_groups = [nearest_group]
    if nearest_group in combined_labels:
        item_groups.append('Одежда и изделия из текстильных материалов, меха, изделия трикотажные, готовые штучные текстильные изделия, обувь, кожгалантерейные изделия, коляски детские и велосипеды')
    if nearest_group in ['Обувь', 'Коляски детские', 'Кожгалантерейные изделия']:
        item_groups.append('Одежда, изделия из текстильных материалов и меха, трикотажные изделия, готовые штучные текстильные изделия и текстильные материалы, используемые для изготовления обуви, одежды и изделий из кожи, кожгалантерейных изделий и колясок')
    if nearest_group == 'Обувь' or nearest_group == 'Кожгалантерейные изделия':
        item_groups.append('Изделия из кожи, кожгалантерейные изделия и обувь')
    return item_groups

In [176]:
import glob
from pathlib import Path

files = glob.glob("./standarts/*")
standarts = [(Path(file).stem).replace('\xa0', ' ')[:30] for file in files]

In [177]:
df_standarts = pd.read_csv('standarts.csv')
df_standarts['new_standart'] = df_standarts['Обозначение и наименование стандарта'].str.replace('"', '')
possible_standarts = df_standarts.loc[df_standarts['new_standart'].str[:30].isin(standarts)]

In [178]:
def is_equipment_match(name: str, equipment: str) -> bool:
    equipment = equipment.split('; ')
    groups = get_item_groups(name)
    item_standarts = list()
    print(groups)
    for group in groups:
        item_standarts.append(list(possible_standarts.loc[possible_standarts['Группа продукции'] == group]['new_standart'])[0])
    print(item_standarts)
is_equipment_match('Обувь детская (малодетская, дошкольная, для школьников-мальчиков, мальчиковая) с верхом из текстильных материалов, с подкладкой и вкладной стелькой из текстильного материала, с подошвой из резины, клеевого метода крепления, марка ', '')

['Соски молочные, соски-пустышки и изделия санитарно-гигиенические из латекса, резины и силиконовых эластомеров']
['ГОСТ 31870-2012 Вода питьевая. Определение содержания элементов методами атомной спектрометрии']
