In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
# Function to merge all xlsx files in a directory into a single DataFrame
def merge_excel_files(directory_path):
    # Initialize an empty list to hold DataFrames
    dataframes = []
    
    # Loop through all files in the directory
    for file_name in os.listdir(directory_path):
        if file_name.endswith('.xlsx'):
            file_path = os.path.join(directory_path, file_name)
            df = pd.read_excel(file_path)
            if 'Артикул/Раздел' not in list(df.columns):
                new_header = df.iloc[0] #grab the first row for the header
                df = df[1:] #take the data less the header row
                df.columns = new_header #set the header row as the df header
            if 'Артикул/Раздел' not in list(df.columns):
                continue
            print(file_path)
            print(df.columns)
            df = df[['Артикул/Раздел', 'Номенклатура']]
            df.insert(1, 'схема', [file_path for i in range(df['Артикул/Раздел'].size)], True)
            dataframes.append(df)
    
    # Concatenate all DataFrames in the list into a single DataFrame
    merged_dataframe = pd.concat(dataframes, ignore_index=False)
    
    return merged_dataframe

In [3]:
excel_dirs = ['330_excel_files', '331_excel_files', '333_excel_files', '334_excel_files', '482_excel_files']
dataframes = []
for dir in excel_dirs:
    dataframes.append(merge_excel_files('dataset/' + dir))
df = pd.concat(dataframes, ignore_index=True)

dataset/330_excel_files\1.xlsx
Index([nan, 'Артикул/Раздел', 'Номенклатура', 'Количество', nan, 'Цена',
       'Сумма'],
      dtype='object', name=0)
dataset/330_excel_files\10.xlsx
Index([nan, 'Артикул/Раздел', 'Номенклатура', 'Количество', nan, 'Цена',
       'Сумма'],
      dtype='object', name=0)
dataset/330_excel_files\100.xlsx
Index(['Артикул/Раздел', 'Номенклатура', 'Unnamed: 2', 'Количество',
       'Unnamed: 4', 'Цена', 'Сумма'],
      dtype='object')
dataset/330_excel_files\101 (1).xlsx
Index([nan, 'Артикул/Раздел', 'Номенклатура', 'Количество', nan, 'Цена',
       'Сумма'],
      dtype='object', name=0)
dataset/330_excel_files\101 (10).xlsx
Index([nan, 'Артикул/Раздел', 'Номенклатура', 'Количество', nan, 'Цена',
       'Сумма'],
      dtype='object', name=0)
dataset/330_excel_files\101 (100).xlsx
Index(['Артикул/Раздел', 'Номенклатура', 'Unnamed: 2', 'Количество',
       'Unnamed: 4', 'Цена', 'Сумма'],
      dtype='object')
dataset/330_excel_files\101 (101).xlsx
Index(['Арт

In [4]:
c = df["Артикул/Раздел"].unique().size
print(f"кол-во уникальных товаров: {c} ")

кол-во уникальных товаров: 1002 


In [5]:
unique_df = df.groupby(by = ["Артикул/Раздел", "Номенклатура"], as_index=False)[['схема']].count().sort_values(by=['схема'],ascending=False)

In [6]:
unique_df

Unnamed: 0,Артикул/Раздел,Номенклатура,схема
419,mb15-04-01m,Боковая панель (2шт) для ВРУ-1 и ВРУ-2 (2000хШ...,100
224,ak-0-1,Заглушка 12 модулей серая EKF PROxima,97
239,an-1-02,"Наклейка ""Молния"" (25х25х25мм.) EKF PROxima",97
241,an-1-04,"Наклейка ""Земля"" (d20мм.) EKF PROxima",96
425,mb15-04-05p,Вертикальный П-образный профиль для ВРУ Unit и...,87
...,...,...,...
503,mb24-12-bas,ЩРН-12 (265х310х120) IP54 EKF Basic,1
504,mb24-2,ЩМПг- 50.40.22 (ЩРНМ-2) IP54 EKF PROxima,1
513,mb24-8,ЩМПг-160.60.40 (ЩРНМ-8) без монтажной панели IP54,1
514,mb28-v-6,Щит этажный 6 кв. (1000х950х150) EKF Basic,1


In [7]:
ekf_df = pd.read_excel("dataset/База номенклатурных обозначений.xlsx",sheet_name='Продукция EKF')

In [8]:
new_header = ekf_df.iloc[10]
ekf_df = ekf_df[11:]
ekf_df.columns = new_header

In [9]:
ekf_df[ekf_df['Артикул'] == 'mb15-04-01m']['1 уровень иерархии']

6502    14 Шкафы напольные металлические
Name: 1 уровень иерархии, dtype: object

In [10]:
right_df = ekf_df[['Артикул', '1 уровень иерархии', '2 уровень иерархии', '3 уровень иерархии']]

In [11]:
right_df 

10,Артикул,1 уровень иерархии,2 уровень иерархии,3 уровень иерархии
11,mcb6-1-10B-av,01 Автоматические выключатели модульные и доп....,01.01 Выключатели автоматические AV-6 до 63А E...,Характеристика B
12,mcb6-1-16B-av,01 Автоматические выключатели модульные и доп....,01.01 Выключатели автоматические AV-6 до 63А E...,Характеристика B
13,mcb6-1-01B-av,01 Автоматические выключатели модульные и доп....,01.01 Выключатели автоматические AV-6 до 63А E...,Характеристика B
14,mcb6-1-20B-av,01 Автоматические выключатели модульные и доп....,01.01 Выключатели автоматические AV-6 до 63А E...,Характеристика B
15,mcb6-1-25B-av,01 Автоматические выключатели модульные и доп....,01.01 Выключатели автоматические AV-6 до 63А E...,Характеристика B
...,...,...,...,...
19876,T-shirt_Tok_b_L,Аксессуары,,
19877,T-shirt_Tok_b_M,Аксессуары,,
19878,T-shirt_Tok_b_S,Аксессуары,,
19879,T-shirt_Tok_b_XL,Аксессуары,,


In [12]:
unique_df.rename(columns={"Артикул/Раздел": "Артикул", "схема": "scheme_count"}, inplace = True)

In [13]:
merged_df = unique_df.merge(right_df, how = 'left', on = 'Артикул')

In [14]:
merged_df.groupby("2 уровень иерархии", as_index = False).count()

Unnamed: 0,2 уровень иерархии,Артикул,Номенклатура,scheme_count,1 уровень иерархии,3 уровень иерархии
0,01.01 Выключатели автоматические AV-6 до 63А E...,13,13,13,13,13
1,01.02 Выключатели автоматические AV-10 до 63А ...,19,19,19,19,19
2,01.05 Выключатели автоматические ВА 47-63 4.5к...,42,42,42,42,42
3,01.06 Выключатели автоматические ВА 47-63 6кА ...,4,4,4,4,4
4,01.07 Выключатели автоматические ВА 47-100 (10...,22,22,22,22,22
...,...,...,...,...,...,...
104,35.02 Коммунально-бытовое освещение,2,2,2,2,2
105,35.07 Управление освещением,1,1,1,1,1
106,37.01 Автоматический ввод резерва ТСP1,1,1,1,1,0
107,37.02 Автоматический ввод резерва ТСМ,7,7,7,7,0


In [15]:
category = '01.14 Устройства защиты от дугового пробоя (УЗДП) до 63А EKF PROXIMA'
merged_df[merged_df["2 уровень иерархии"] == category]

Unnamed: 0,Артикул,Номенклатура,scheme_count,1 уровень иерархии,2 уровень иерархии,3 уровень иерархии
740,afdd-2-16-pro,УЗДП 1P+N 16А EKF PROxima,1,01 Автоматические выключатели модульные и доп....,01.14 Устройства защиты от дугового пробоя (УЗ...,01.14.02 УЗДП до 63А EKF PROXIMA
741,afdd-2-16C-pro,УЗДП с авт.выкл. 1P+N 16А (С) 6кА EKF PROxima,1,01 Автоматические выключатели модульные и доп....,01.14 Устройства защиты от дугового пробоя (УЗ...,01.14.01 УЗДП с автоматическим выключателем до...
742,afdd-2-20-pro,УЗДП 1P+N 20А EKF PROxima,1,01 Автоматические выключатели модульные и доп....,01.14 Устройства защиты от дугового пробоя (УЗ...,01.14.02 УЗДП до 63А EKF PROXIMA
743,afdd-2-20C-pro,УЗДП с авт.выкл. 1P+N 20А (С) 6кА EKF PROxima,1,01 Автоматические выключатели модульные и доп....,01.14 Устройства защиты от дугового пробоя (УЗ...,01.14.01 УЗДП с автоматическим выключателем до...
744,afdd-2-63-pro,УЗДП 1P+N 63А EKF PROxima,1,01 Автоматические выключатели модульные и доп....,01.14 Устройства защиты от дугового пробоя (УЗ...,01.14.02 УЗДП до 63А EKF PROXIMA


In [16]:
df[df['Артикул/Раздел'] == 'afdd-2-16-pro']

Unnamed: 0,Артикул/Раздел,схема,Номенклатура
4075,afdd-2-16-pro,dataset/333_excel_files\211.xlsx,УЗДП 1P+N 16А EKF PROxima


In [17]:
ekf_df[ekf_df['Артикул'] == 'afdd-2-16-pro']

10,Артикул,Номенклатура,Ссылка на сайт,Сертификат,Заказ,Ед.,"Базовая цена, с НДС","Базовая цена, без НДС","Цена РОЦ, с НДС","Цена РРЦ, с НДС",...,3 уровень иерархии,4 уровень иерархии,Статус товара,Серия номенклатуры,Ускоренная доставка,Вес баз. ед.,Объем баз. ед.,Сумма,Вес,Объем
951,afdd-2-16-pro,Устройство защиты от дугового пробоя (УЗДП) 1P...,Ссылка,Ссылка,,шт,14396.72,11997.27,9213.9008,10797.54,...,01.14.02 УЗДП до 63А EKF PROXIMA,,Регулярная,PROxima,,0.212,0.000246,,,


In [200]:
from transformers import AutoTokenizer, AutoModel
import torch
from scipy.spatial.distance import cosine

def get_embeddings(sentences, tokenizer, model):
    
    # Tokenize sentences
    inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
    
    # Get embeddings
    with torch.no_grad():
        outputs = model(**inputs)
        embeddings = outputs.last_hidden_state.mean(dim=1)  # Mean pooling
    
    return embeddings

# Function to compute cosine similarity
def cosine_similarity(embedding1, embedding2):
    return 1 - cosine(embedding1.reshape(1, -1), embedding2.reshape(1, -1))


In [18]:
component_names = ekf_df['Номенклатура'].tolist()

In [19]:
component_names

['Выключатель автоматический AV-6 1P 10A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 16A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 1A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 20A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 25A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 2A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 32A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 3A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 40A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 4A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 50A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 63A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 1P 6A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 2P 10A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 2P 16A (B) 6kA EKF AVERES',
 'Выключатель автоматический AV-6 2P 1A (B) 6kA EKF AVERES',
 'Выключатель 

In [20]:
#tokenizer_ua = AutoTokenizer.from_pretrained('uaritm/multilingual_en_ru_uk')
#model_ua = AutoModel.from_pretrained('uaritm/multilingual_en_ru_uk')

In [21]:
#embeddings = get_embeddings(component_names[:500], tokenizer_ua, model_ua)

In [22]:
#embeddings

In [23]:
#query = "QF9 ВА 47-63 (С) 1P 16A"
#query_str_embedding = get_embeddings([query], tokenizer_ua, model_ua)

In [24]:
#ls = [(component, embedding) for component,embedding in zip(component_names[:500], embeddings)]

In [25]:
#from sklearn.metrics import pairwise_distances

#ls.sort(key = lambda x: pairwise_distances(query_str_embedding.reshape(1, -1), x[1].reshape(1, -1), metric="cosine")[0][0])

In [26]:
#hhh = [pairwise_distances(query_str_embedding.reshape(1, -1), x[1].reshape(1, -1), metric="cosine")[0][0] for x in ls]

In [28]:
#[x[0] for x in ls]

In [29]:
import re
def preprocess(text):
    text = re.sub(r'[()]', '', text)
    text = re.sub(r'\s+', ' ', text)
    return text
    
def tokenize(text):
    tokens = re.findall(r'\b\w+\b',text)
    return set(tokens)

def jaccard_similarity(set1, set2):
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)

string1 = "QF10 УЗДП 1P+N 16А 30 мА"
string2 = "QF Устройство защиты от дугового пробоя (УЗДП) 1P+N 16А EKF PROxima"

tokens1 = tokenize(preprocess(string1))
tokens2 = tokenize(preprocess(string2))

similarity = jaccard_similarity(tokens1, tokens2)

print(f"Tokens 1: {tokens1}")
print(f"Tokens 2: {tokens2}")
print(f"Jaccard similarity: {similarity:.4f}")

Tokens 1: {'16А', 'УЗДП', '1P', 'N', '30', 'QF10', 'мА'}
Tokens 2: {'дугового', '16А', 'УЗДП', '1P', 'от', 'пробоя', 'защиты', 'N', 'Устройство', 'QF', 'EKF', 'PROxima'}
Jaccard similarity: 0.2667


In [147]:
%load_ext autoreload
%autoreload 2
from search.index import Index
from search.timing import timing
from search.documents import Abstract
import os.path



The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [148]:
@timing
def index_documents(strings, index):
    for i, s in enumerate(strings):
        a = Abstract(i,s)
        index.index_document(a)
        if i % 5000 == 0:
            print(f'Indexed {i} documents', end='\r')
    return index

In [149]:
index = index_documents(component_names, Index())
print(f'Index contains {len(index.documents)} documents')


index_documents took 1.694120168685913 seconds
Index contains 19870 documents


In [158]:
index.search('Устройство блокировочное КМЭ до 95А EKF', search_type = 'OR', rank=True)

search took 0.2365260124206543 seconds


[(Abstract(ID=3718, abstract='Уcтройство блокировочное КМЭ до 95А EKF PROxima'),
  26.38450987382798),
 (Abstract(ID=3717, abstract='Уcтройство блокировочное КМЭ до 32А EKF PROxima'),
  15.347248768929807),
 (Abstract(ID=3914, abstract='Устройство блокировочное КМЭ 9-40А EKF AVERES'),
  14.477415533199759),
 (Abstract(ID=3783, abstract='Устройство блокировочное КТЭ 115-150 EKF'),
  8.79270995773399),
 (Abstract(ID=3784, abstract='Устройство блокировочное КТЭ 185-225 EKF'),
  8.79270995773399),
 (Abstract(ID=3785, abstract='Устройство блокировочное КТЭ 265-500 EKF'),
  8.79270995773399),
 (Abstract(ID=3786, abstract='Устройство блокировочное КТЭ 630 EKF'),
  8.79270995773399),
 (Abstract(ID=3385, abstract='Контактор КМЭ малогабаритный 95А 24В NO+NC EKF PROxima'),
  5.071748498227105),
 (Abstract(ID=3386, abstract='Контактор КМЭ малогабаритный 95А 36В NO+NC EKF PROxima'),
  5.071748498227105),
 (Abstract(ID=3395, abstract='Контактор малогабаритный КМЭ 95А 110В NO+NC EKF'),
  5.0717484982