In [1]:
import pandas as pd
import numpy as np
import os
import re
import string
#from sentence_transformers import SentenceTransformer, util
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import pairwise_distances
import spacy
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_colwidth', 500)

## Заказчик<br>
ООО «ПРОСЕПТ» — российская производственная компания, специализирующаяся на выпуске профессиональной химии. В своей работе используют опыт ведущих мировых производителей и сырье крупнейших химических концернов. Производство и логистический центр расположены в непосредственной близости от Санкт-Петербурга, откуда продукция компании поставляется во все регионы России.

Сайт: https://prosept.ru/

## Описание проекта
Заказчик производит несколько сотен различных товаров бытовой и промышленной химии, а затем продаёт эти товары через дилеров. Дилеры, в свою очередь, занимаются розничной продажей товаров в крупных сетях магазинов и на онлайн площадках.
Для оценки ситуации,  управления ценами и  бизнесом в целом, заказчик периодически собирает информацию о том, как дилеры продают их товар. Для этого они парсят сайты дилеров, а затем сопоставляют товары и цены.
Зачастую описание товаров на сайтах дилеров отличаются от того описания, что даёт заказчик. Например, могут добавляться новый слова (“универсальный”, “эффективный”), объём (0.6 л -> 600 мл). Поэтому сопоставление товаров дилеров с товарами производителя делается вручную.

**Цель этого проекта**- разработка решения, которое отчасти автоматизирует процесс сопоставления товаров.<br> **Основная идея** - предлагать несколько товаров заказчика, которые с наибольшей вероятностью соответствуют размечаемому товару дилера. 
Предлагается реализовать это решение, как онлайн сервис, открываемый в веб-браузере. Выбор наиболее вероятных подсказок делается методами машинного обучения.


# Задача ML:
    -Разработка рекомендательной модели на основе данных о товарах.
    -Интеграция модели с бэкендом для предоставления вариантов соответствия.
    -Тестирование и оптимизация модели для достижения высокой точности.


## Описание данных
Заказчик предоставил несколько таблиц (дамп БД), содержащих необходимые данные:   

1.	**marketing_dealer - список дилеров** 

2.	**marketing_dealerprice - результат работы парсера площадок дилеров**  
-	product_key - уникальный номер позиции  
-	price - цена  
-	product_url - адрес страницы, откуда собраны данные  
-	product_name - заголовок продаваемого товара  
-	date - дата получения информации  
-	dealer_id - идентификатор дилера (внешний ключ к marketing_dealer)  
   
3.	**marketing_product - список товаров, которые производит и распространяет заказчик**      
-	article - артикул товара  
-	ean_13 - код товара (см. EAN 13)    
-	name - название товара    
-	cost - стоимость    
-	min_recommended_price - рекомендованная минимальная цена  
-	recommended_price - рекомендованная цена  
-	category_id - категория товара  
-	ozon_name - названиет товара на Озоне    
-	name_1c - название товара в 1C    
-	wb_name - название товара на Wildberries    
-	ozon_article - описание для Озон    
-	wb_article - артикул для Wildberries    
-	ym_article - артикул для Яндекс.Маркета    

4.	**marketing_productdealerkey - таблица матчинга товаров заказчика и товаров дилеров**  
-	key - внешний ключ к marketing_dealerprice  
-	product_id - внешний ключ к marketing_product  
-	dealer_id - внешний ключ к marketing_dealer  

# Чтение и исследовательский анализ данных:

In [None]:
path = '../Хакатон/данные/'

In [None]:
os.listdir('../Хакатон/данные')

### marketing_dealer - список дилеров

In [2]:
marketing_dealer = pd.read_csv(path + 'marketing_dealer.csv', engine='python', sep = ';')

In [3]:
marketing_dealer.sort_values(by='id')

Unnamed: 0,id,name
0,1,Moi_vibor_WB
1,2,Akson
2,3,Bafus
14,4,Baucenter
3,5,Castorama
4,6,Cubatora
5,7,Komus
15,8,Leroy_Merlin
6,9,Megastroy
7,10,OnlineTrade


Имеем 18 айдишников от 1 до 18

**marketing_dealerprice - результат работы парсера площадок дилеров**:
   -	product_key - уникальный номер позиции;
   -	price - цена;
   -	product_url - адрес страницы, откуда собраны данные;
   -	product_name - заголовок продаваемого товара;
   -	date - дата получения информации;
   -	dealer_id - идентификатор дилера (внешний ключ к marketing_dealer)

In [4]:
marketing_dealerprice = pd.read_csv(path +'marketing_dealerprice.csv', engine='python', sep = ';')

In [5]:
marketing_dealerprice.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20416 entries, 0 to 20415
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id            20416 non-null  int64  
 1   product_key   20416 non-null  object 
 2   price         20416 non-null  float64
 3   product_url   20182 non-null  object 
 4   product_name  20416 non-null  object 
 5   date          20416 non-null  object 
 6   dealer_id     20416 non-null  int64  
dtypes: float64(1), int64(2), object(4)
memory usage: 1.1+ MB


In [6]:
marketing_dealerprice.head()

Unnamed: 0,id,product_key,price,product_url,product_name,date,dealer_id
0,2,546227,233.0,https://akson.ru//p/sredstvo_universalnoe_prosept_universal_spray_500ml/,"Средство универсальное Prosept Universal Spray, 500мл",2023-07-11,2
1,3,546408,175.0,https://akson.ru//p/kontsentrat_prosept_multipower_dlya_mytya_polov_tsitrus_1l/,"Концентрат Prosept Multipower для мытья полов, цитрус 1л",2023-07-11,2
2,4,546234,285.0,https://akson.ru//p/sredstvo_dlya_chistki_lyustr_prosept_universal_anti_dust_500ml/,"Средство для чистки люстр Prosept Universal Anti-dust, 500мл",2023-07-11,2
3,5,651258,362.0,https://akson.ru//p/udalitel_rzhavchiny_prosept_rust_remover_0_5l_023_05/,"Удалитель ржавчины PROSEPT RUST REMOVER 0,5л 023-05",2023-07-11,2
4,6,546355,205.0,https://akson.ru//p/sredstvo_moyushchee_dlya_bani_i_sauny_prosept_multipower_wood_1l/,Средство моющее для бани и сауны Prosept Multipower Wood 1л,2023-07-11,2


In [7]:
# проверим данные на дубликаты
marketing_dealerprice.duplicated(subset=['product_key', 'product_url', 'product_name']).sum()

18288

In [8]:
# уберём дубликаты по столбцам: ключ, url и названию
marketing_dealerprice.drop_duplicates(subset=['product_key', 'product_url', 'product_name'], inplace=True)

In [9]:
marketing_dealerprice.reset_index(drop=True, inplace=True)

**marketing_product - список товаров, которые производит и распространяет заказчик**:
- article - артикул товара;
- ean_13 - код товара (см. EAN 13)
- name - название товара;
- cost - стоимость;
- min_recommended_price - рекомендованная минимальная цена;
- recommended_price - рекомендованная цена;
- category_id - категория товара;
- ozon_name - названиет товара на Озоне;
- name_1c - название товара в 1C;
- wb_name - название товара на Wildberries;
- ozon_article - описание для Озон;
- wb_article - артикул для Wildberries;
- ym_article - артикул для Яндекс.Маркета;

In [10]:
marketing_product= pd.read_csv(path + 'marketing_product.csv', engine='python', sep = ';', index_col= 0)

In [11]:
marketing_product.info()

<class 'pandas.core.frame.DataFrame'>
Index: 496 entries, 0 to 495
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 496 non-null    int64  
 1   article            496 non-null    object 
 2   ean_13             464 non-null    float64
 3   name               494 non-null    object 
 4   cost               491 non-null    float64
 5   recommended_price  491 non-null    float64
 6   category_id        447 non-null    float64
 7   ozon_name          458 non-null    object 
 8   name_1c            485 non-null    object 
 9   wb_name            455 non-null    object 
 10  ozon_article       365 non-null    float64
 11  wb_article         340 non-null    float64
 12  ym_article         337 non-null    object 
 13  wb_article_td      32 non-null     object 
dtypes: float64(6), int64(1), object(7)
memory usage: 58.1+ KB


In [12]:
marketing_product.head(2)

Unnamed: 0,id,article,ean_13,name,cost,recommended_price,category_id,ozon_name,name_1c,wb_name,ozon_article,wb_article,ym_article,wb_article_td
0,245,008-1,4680008000000.0,Антисептик невымываемыйPROSEPT ULTRAконцентрат 1:10 / 1 л,360.0,858.0,20.0,"Антисептик невымываемый для ответственных конструкций PROSEPT ULTRA, концентрат, 1 л.","Антисептик невымываемый для ответственных конструкций PROSEPT ULTRA, концентрат, 1 л.","Антисептик невымываемый для ответственных конструкций PROSEPT ULTRA, концентрат, 1 л.",189522705.0,150033482.0,008-1,
1,3,242-12,,Антигололед - 32 PROSEPTготовый состав / 12 кг,460.16,1075.0,,,Антигололед - 32 PROSEPTготовый состав / 12 кг,,,,,


In [13]:
# посмотрим на данные по столбцам
i = 15
print('Название продукта у производителя')
print(f'{marketing_product["name"][i]}')
print('------------------------------------')
print('Название продукта на озоне')
print(f'{marketing_product["ozon_name"][i]}')
print('------------------------------------')
print('Название продукта на вайлдбериз')
print(f'{marketing_product["wb_name"][i]}')
print('------------------------------------')
print('Название продукта в 1С')
print(f'{marketing_product["name_1c"][i]}')

Название продукта у производителя
Средство для мытья полов и стенMultipower "Полевые цветы"концентрат  1:10 – 1:120 / 0,8 л
------------------------------------
Название продукта на озоне
nan
------------------------------------
Название продукта на вайлдбериз
nan
------------------------------------
Название продукта в 1С
Средство для мытья полов и стенMultipower "Полевые цветы"концентрат  1:10 – 1:120 / 0,8 л


In [14]:
marketing_product.isnull().sum()

id                     0
article                0
ean_13                32
name                   2
cost                   5
recommended_price      5
category_id           49
ozon_name             38
name_1c               11
wb_name               41
ozon_article         131
wb_article           156
ym_article           159
wb_article_td        464
dtype: int64

In [15]:
marketing_product = marketing_product.dropna(subset='name')

In [16]:
marketing_product.reset_index(drop=True, inplace=True)

### Добавим новый признак- объем вещества, выделив его из описания.

In [17]:
# создадим столбец с единицами измерения, указанные в названии товара, и уберём их из самих названий
def mesuares(text):    
    pattern = r'(\d+\s?[лмкг]+)'
    match  = re.search(pattern, text)
    if match:
        text = match.group(1)
        text = text.replace(pattern, '')
    return text

In [18]:
marketing_product['mesuares'] = marketing_product['name'].apply(mesuares)
marketing_dealerprice['mesuares'] = marketing_dealerprice['product_name'].apply(mesuares)

In [19]:
marketing_product['mesuares']

0        1 л
1      12 кг
2      600мл
3        2 л
4       7 кг
       ...  
489      5 л
490      1 л
491      5 л
492      5 л
493     75 л
Name: mesuares, Length: 494, dtype: object

In [20]:
display(marketing_product.head(2))
display(marketing_dealerprice.head(2))

Unnamed: 0,id,article,ean_13,name,cost,recommended_price,category_id,ozon_name,name_1c,wb_name,ozon_article,wb_article,ym_article,wb_article_td,mesuares
0,245,008-1,4680008000000.0,Антисептик невымываемыйPROSEPT ULTRAконцентрат 1:10 / 1 л,360.0,858.0,20.0,"Антисептик невымываемый для ответственных конструкций PROSEPT ULTRA, концентрат, 1 л.","Антисептик невымываемый для ответственных конструкций PROSEPT ULTRA, концентрат, 1 л.","Антисептик невымываемый для ответственных конструкций PROSEPT ULTRA, концентрат, 1 л.",189522705.0,150033482.0,008-1,,1 л
1,3,242-12,,Антигололед - 32 PROSEPTготовый состав / 12 кг,460.16,1075.0,,,Антигололед - 32 PROSEPTготовый состав / 12 кг,,,,,,12 кг


Unnamed: 0,id,product_key,price,product_url,product_name,date,dealer_id,mesuares
0,2,546227,233.0,https://akson.ru//p/sredstvo_universalnoe_prosept_universal_spray_500ml/,"Средство универсальное Prosept Universal Spray, 500мл",2023-07-11,2,500мл
1,3,546408,175.0,https://akson.ru//p/kontsentrat_prosept_multipower_dlya_mytya_polov_tsitrus_1l/,"Концентрат Prosept Multipower для мытья полов, цитрус 1л",2023-07-11,2,1л


**marketing_productdealerkey - таблица матчинга товаров заказчика и товаров дилеров**
   - key - внешний ключ к marketing_dealerprice
   - product_id - внешний ключ к marketing_product
   - dealer_id - внешний ключ к marketing_dealer

In [21]:
marketing_productdealerkey = pd.read_csv(path + 'marketing_productdealerkey.csv', 
                                         engine='python', sep = ';')

In [22]:
marketing_productdealerkey.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1700 entries, 0 to 1699
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          1700 non-null   int64 
 1   key         1700 non-null   object
 2   dealer_id   1700 non-null   int64 
 3   product_id  1700 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 53.3+ KB


In [23]:
marketing_productdealerkey.head()

Unnamed: 0,id,key,dealer_id,product_id
0,1,546227,2,12
1,2,651265,2,106
2,3,546257,2,200
3,4,546408,2,38
4,5,651258,2,403


In [24]:
nlp = spacy.load('ru_core_news_sm')

## Обработка текста.

In [25]:
def lemmatize_text(text):
    #lemmatizer = WordNetLemmatizer()
    # отделение английских слов
    pattern = re.compile(r'(?<=[а-яА-Я])(?=[A-Z])|(?<=[a-zA-Z])(?=[а-яА-Я])')
    text = re.sub(pattern, ' ', text)
    # приведение к нижнему регистру 
    text = text.lower()
    # соотношения объемов
    pattern2 = re.compile(r"\b\d+:\d+\s*-\s*\d+:\d+\b|\s*\d+:\d+\s*")
    text = re.sub(pattern2, " ", text)
    # удаление символов
    text = re.sub(r'\W', ' ', str(text))
    doc = nlp(text)
    tokens = [token.lemma_ for token in doc]
    #return "".join(lemmatizer.lemmatize(text))
    return " ".join(tokens)

In [26]:
marketing_dealerprice['product_name_lem'] = marketing_dealerprice['product_name'].apply(lemmatize_text)
marketing_product['name_lem'] = marketing_product['name'].apply(lemmatize_text)

In [27]:
marketing_dealerprice['product_name_lem']

0                                                 средство универсальный prosept universal spray   500мл
1                                                концентрат prosept multipower для мытьё пол   цитрус 1л
2                                          средство для чистка люстр prosept universal anti dust   500мл
3                                                    удалитель ржавчина prosept rust remover 0 5л 023 05
4                                              средство мыть для баня и сауна prosept multipower wood 1л
                                                      ...                                               
2123    средство для удаление клейкий лента   клей   наклейка 0 4л prosept duty universal готовый состав
2124     герметик акриловый межшовный для деревянный дом   конструкция   изделие prosept цвет тик   3 кг
2125                                       отбеливатель для древесина prosept eco 50 готовый состав 1 кг
2126                                                   

In [28]:
df_1 = marketing_dealerprice[['product_name_lem']]
df_1 = df_1.rename(columns={'product_name_lem': 'name'})
df_2 = marketing_product[['name_lem']]
df_2 = df_2.rename(columns={'name_lem': 'name'})
print(df_1.head())
print('-'*90)
print(df_2.head())
print('-'*90)
print(df_1.shape)
print(df_2.shape)
df = pd.concat([df_1, df_2])

                                                            name
0         средство универсальный prosept universal spray   500мл
1        концентрат prosept multipower для мытьё пол   цитрус 1л
2  средство для чистка люстр prosept universal anti dust   500мл
3            удалитель ржавчина prosept rust remover 0 5л 023 05
4      средство мыть для баня и сауна prosept multipower wood 1л
------------------------------------------------------------------------------------------
                                                                                 name
0                             антисептик невымываемый prosept ultra концентрат    1 л
1                                   антигололед    32 prosept готовый состав    12 кг
2                                           герметик акриловый цвет сосна   ф п 600мл
3  кондиционер для бельё с аромат   королевский ирис crystal rinser концентрат    2 л
4                                              герметик акриловой   цвет белый   7 кг
---

In [29]:
df.head()

Unnamed: 0,name
0,средство универсальный prosept universal spray 500мл
1,концентрат prosept multipower для мытьё пол цитрус 1л
2,средство для чистка люстр prosept universal anti dust 500мл
3,удалитель ржавчина prosept rust remover 0 5л 023 05
4,средство мыть для баня и сауна prosept multipower wood 1л


In [30]:
df.shape

(2622, 1)

### Векторизация названий

In [31]:
vectorizer = TfidfVectorizer()
df = vectorizer.fit_transform(df['name'])
df_1 = vectorizer.transform(df_1['name'])
df_2 = vectorizer.transform(df_2['name'])

In [32]:
print(df_1.shape)
print(df_2.shape)

(2128, 1010)
(494, 1010)


In [33]:
df_1 = df_1.toarray()
df_2 = df_2.toarray()

In [34]:
print(type(df_1))
print(type(df_2))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [35]:
print(df_1.shape)
print(df_2.shape)

(2128, 1010)
(494, 1010)


In [36]:
pairwise_distances(df_1, df_2, 'cosine').shape

(2128, 494)

In [37]:
# строим матрицу с расстояними между векторами
df = pd.DataFrame(index = marketing_product['id'], 
                    columns = marketing_dealerprice['product_key']+ '_' + pd.Series(range(marketing_dealerprice.shape[0])).astype(str), 
                    data = pairwise_distances(df_2, df_1, metric = 'cosine'))

In [38]:
df.head()

Unnamed: 0_level_0,546227_0,546408_1,546234_2,651258_3,546355_4,831859_5,546406_6,831858_7,857015_8,651265_9,...,546235_2118,651256_2119,651257_2120,856988_2121,856956_2122,651260_2123,860509000_2124,900996549_2125,530170161_2126,528911039_2127
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
245,0.959975,0.87861,0.971975,0.973751,0.969165,0.883767,0.972261,0.881558,0.972436,0.974655,...,0.972024,0.973531,0.969715,0.969981,0.969981,0.976279,0.974182,0.964623,0.794904,1.0
3,0.978345,0.979884,0.984837,0.985798,0.983317,0.980739,0.984992,0.980373,0.937521,0.94255,...,0.984864,0.874139,0.983615,0.931955,0.931955,0.887209,0.941478,0.770734,0.871615,0.828698
443,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.902746,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,0.703113,1.0,1.0,0.668357
147,1.0,0.941137,0.987138,1.0,0.985848,0.943638,0.987269,0.942567,1.0,0.988368,...,0.987161,1.0,1.0,0.986223,0.986223,0.989114,0.988151,0.983764,1.0,0.986764
502,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.817269,0.948908,...,1.0,1.0,1.0,0.939485,0.939485,1.0,0.749466,0.928685,0.885822,0.720135


In [39]:
df.shape

(494, 2128)

### Ввод названия товара дилера с возвратом соответствующих названий у заказчика.

In [40]:
# получим произвольное название для поиска соответствия
marketing_dealerprice.loc[marketing_dealerprice['product_key'] == '831859', 'product_name']

5    Пропитка PROSEPT Aquaisol для камня, концентрат  1:2  1л
Name: product_name, dtype: object

In [41]:
name = 'Средство для мытья плитки и керамогранита Prosept Multipower Kerama 1л'

In [42]:
product_key = marketing_dealerprice.loc[marketing_dealerprice['product_name'] == name, 'product_key']

In [43]:
product_key = product_key.to_list()[0] + '_' + str(product_key.index[0])

In [44]:
top_k = 5

### Получение названий.

In [45]:
z = df[product_key].sort_values()[:top_k].index.to_list()

In [46]:
marketing_product.loc[marketing_product['id'].isin(z) , 'name']

60       Средство для мытья полов PROSEPT Multipower "После дождя", 2 штуки*0.8 л.
63                     Концентрат для мытья полов и стен Multipower "Цитрус" 0,8 л
246    Средство для мытья плитки и керамогранитаMultipower Keramaконцентрат  / 5 л
247    Средство для мытья плитки и керамогранитаMultipower Keramaконцентрат  / 1 л
273                 Средство для мытья полов всех типов PROSEPT Multipower E, 1 л.
Name: name, dtype: object

### Получение id

In [47]:
q = df[product_key].sort_values()[:top_k]

In [48]:
q

id
41     0.071465
40     0.071465
30     0.746881
513    0.773902
470    0.782767
Name: 546406_6, dtype: float64

In [49]:
q = pd.DataFrame(q)

In [50]:
q['id'] = q.index.values

In [51]:
q.values.tolist()

[[0.07146514142404947, 41.0],
 [0.07146514142404947, 40.0],
 [0.7468807177310398, 30.0],
 [0.7739016164589374, 513.0],
 [0.782767450770523, 470.0]]

In [52]:
q.values

array([[7.14651414e-02, 4.10000000e+01],
       [7.14651414e-02, 4.00000000e+01],
       [7.46880718e-01, 3.00000000e+01],
       [7.73901616e-01, 5.13000000e+02],
       [7.82767451e-01, 4.70000000e+02]])

### Подсчет метрики accuracy

In [53]:
#df = df[list(set(df.columns))]

#df.columns = df.columns.astype(str)

matches = []

for col in set(df.columns):
        
    top_cands = df.loc[:, col].sort_values(ascending=True)[:top_k].index.tolist()
    product_key = ''.join(col.split('_')[:-1])
    
    # print(product_key)
    
    if  marketing_productdealerkey.loc[marketing_productdealerkey['key'] == product_key].shape[0] == 0:
        matches.append(0)
        continue
        
    match_id = marketing_productdealerkey.loc[marketing_productdealerkey['key'] == product_key, 'product_id'].values[0]
    if match_id in top_cands:
        matches.append(1)
    else:
        matches.append(0)
        
np.mean(matches)

0.7030075187969925