# Мэтчинг товаров дилера и заказчика

## Описание проекта

Заказчик производит несколько сотен различных товаров бытовой и промышленной химии, а затем продаёт эти товары через дилеров. Дилеры, в свою очередь, занимаются розничной продажей товаров в крупных сетях магазинов и на онлайн
площадках. Для оценки ситуации, управления ценами и бизнесом в целом, заказчик периодически собирает информацию о том, как дилеры продают их товар. Для этого они парсят сайты дилеров, а затем сопоставляют товары и цены. Зачастую описание товаров на сайтах дилеров отличаются от того описания, что даёт заказчик. Например, могут добавляться новый слова (“универсальный”, “эффективный”), объём (0.6 л -> 600 мл). Поэтому сопоставление товаров дилеров с товарами производителя делается вручную.  
Основная идея - предлагать несколько товаров заказчика, которые с наибольшей вероятностью соответствуют размечаемому товару дилера. Предлагается реализовать это решение, как онлайн сервис, открываемый в веб- браузере. Выбор наиболее вероятных подсказок делается методами машинного обучения

**ЦЕЛЬ:** разработать решения, которое автоматизирует процесс сопоставления товаров.  

**Задачи:**
   - выгрузить данные
   - сделать предобработку
   - обработать текст в столбцах с названиями товаров
   - создать ембеддинги предложений 
   - попробовать разные модели,
   - оценить метрики и выбрать лучшую модель


## Описание данных

Заказчик предоставил несколько таблиц (дамп БД), содержащих необходимые данные:  

1. `dealers` - список дилеров:
   - id - уникальный ключ дилера;
   - name - наименование дилера</br>
</br>  
2. `dealer_products` - результат работы парсера площадок дилеров:
   - product_key - уникальный номер позиции;
   - price - цена;
   - product_url - адрес страницы, откуда собраны данные;
   - product_name - заголовок продаваемого товара;
   - date - дата получения информации;
   - dealer_id - идентификатор дилера (внешний ключ к dealers)</br>
</br>
3. `products` - список товаров, которые производит и распространяет заказчик:
   - id - уникальный ключ товара в базе заказчика
   - article - артикул товара;
   - ean_13 - код товара (см. EAN 13)
   - name - название товара;
   - cost - стоимость;
   - recommended_price - рекомендованная цена;
   - category_id - категория товара;
   - ozon_name - названиет товара на Озоне;
   - name_1c - название товара в 1C;
   - wb_name - название товара на Wildberries;
   - ozon_article - описание для Озон;
   - wb_article - артикул для Wildberries;
   - ym_article - артикул для Яндекс.Маркета;</br>  
</br>  
4. `match` - таблица матчинга товаров заказчика и товаров дилеров:
   - key - внешний ключ к dealer_products;
   - product_id - внешний ключ к products;
   - dealer_id - внешний ключ к dealers.

In [1]:
import nltk
import spacy
import re 
import string
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from pymystem3 import Mystem
#nltk.download('stopwords')
from sklearn.feature_extraction.text import TfidfVectorizer
import warnings
warnings.simplefilter(action='ignore')
pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_colwidth', 500)

## Выгрузка и обработка данных

In [2]:
# Выгрузим данные из 4х таблиц в отдельные датафреймы

dealers = pd.read_csv('marketing_dealer.csv', sep=';')
dealer_products = pd.read_csv('marketing_dealerprice.csv', sep=';')
products = pd.read_csv('marketing_product.csv', sep=';')
match = pd.read_csv('marketing_productdealerkey.csv', sep=';')

In [3]:
dealers.sample(5)

Unnamed: 0,id,name
1,2,Akson
0,1,Moi_vibor_WB
16,18,Мasterstroy_spb_OZON\r\n
7,10,OnlineTrade
15,8,Leroy_Merlin


In [4]:
dealers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      18 non-null     int64 
 1   name    18 non-null     object
dtypes: int64(1), object(1)
memory usage: 416.0+ bytes


In [5]:
dealers['name'].unique()

array(['Moi_vibor_WB', 'Akson', 'Bafus', 'Castorama', 'Cubatora', 'Komus',
       'Megastroy', 'OnlineTrade', 'Petrovich', 'sdvor', 'simaLand',
       'VegosM', 'Vse_instrumeni', 'Vimos', 'Baucenter', 'Leroy_Merlin',
       'Мasterstroy_spb_OZON\r\n', 'Unicleaner_OZON'], dtype=object)

В таблице `dealers` собрана информация по названиям дилеров и их id. Всего в таблице представлено 18 уникальных дилеров.  
Для решения поставленной задачи на текущий момент данная таблица не требуется.

In [6]:
# удалим лишний столбец 'id
dealer_products = dealer_products.drop(['id'], axis=1)

In [7]:
dealer_products.head(5)

Unnamed: 0,product_key,price,product_url,product_name,date,dealer_id
0,546227,233.0,https://akson.ru//p/sredstvo_universalnoe_prosept_universal_spray_500ml/,"Средство универсальное Prosept Universal Spray, 500мл",2023-07-11,2
1,546408,175.0,https://akson.ru//p/kontsentrat_prosept_multipower_dlya_mytya_polov_tsitrus_1l/,"Концентрат Prosept Multipower для мытья полов, цитрус 1л",2023-07-11,2
2,546234,285.0,https://akson.ru//p/sredstvo_dlya_chistki_lyustr_prosept_universal_anti_dust_500ml/,"Средство для чистки люстр Prosept Universal Anti-dust, 500мл",2023-07-11,2
3,651258,362.0,https://akson.ru//p/udalitel_rzhavchiny_prosept_rust_remover_0_5l_023_05/,"Удалитель ржавчины PROSEPT RUST REMOVER 0,5л 023-05",2023-07-11,2
4,546355,205.0,https://akson.ru//p/sredstvo_moyushchee_dlya_bani_i_sauny_prosept_multipower_wood_1l/,Средство моющее для бани и сауны Prosept Multipower Wood 1л,2023-07-11,2


In [8]:
dealer_products.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20416 entries, 0 to 20415
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   product_key   20416 non-null  object 
 1   price         20416 non-null  float64
 2   product_url   20182 non-null  object 
 3   product_name  20416 non-null  object 
 4   date          20416 non-null  object 
 5   dealer_id     20416 non-null  int64  
dtypes: float64(1), int64(1), object(4)
memory usage: 957.1+ KB


In [9]:
dealer_products.nunique()

product_key     1965
price           1286
product_url     1883
product_name    1953
date              14
dealer_id         18
dtype: int64

In [10]:
sorted(dealer_products['date'].unique())

['2023-07-11',
 '2023-07-12',
 '2023-07-13',
 '2023-07-14',
 '2023-07-17',
 '2023-07-18',
 '2023-07-19',
 '2023-07-21',
 '2023-07-24',
 '2023-07-25',
 '2023-07-26',
 '2023-07-27',
 '2023-07-28',
 '2023-07-31']

В таблице из 20416 записей лишь около 10% уникальных ключей, ссылок и названий продуктов. Все данные собраны за 14 дней: с 11-07 по 31-0-23.

In [11]:
dealer_products.isnull().sum()

product_key       0
price             0
product_url     234
product_name      0
date              0
dealer_id         0
dtype: int64

В столбце product_url имеются пропуски, исследуем его подробнее.

In [12]:
no_url = dealer_products[dealer_products['product_url'].isnull()]['dealer_id'].unique()
no_url

array([7], dtype=int64)

In [13]:
dealers[dealers['id'] == no_url[0]]

Unnamed: 0,id,name
5,7,Komus


In [14]:
dealer_products[dealer_products['dealer_id'] == 7]

Unnamed: 0,product_key,price,product_url,product_name,date,dealer_id
97,1462352,189.0,,Средство для удаления жира и нагара Prosept Cooky Grill 500 мл,2023-07-11,7
177,1462335,233.0,,Полироль для мебели Prosept Universal Polish 500 мл,2023-07-31,7
397,1462337,213.0,,Средство для чистки каминных стекол Prosept Universal Hard 500 мл,2023-07-11,7
689,1565304,149.0,,Средство для мытья пола Prosept Multipower 800 мл,2023-07-11,7
717,1462346,159.0,,Средство для прочистки труб Prosept Bath Prof жидкость 1 л,2023-07-11,7
...,...,...,...,...,...,...
19213,1462347,189.0,,Средство для сантехники Prosept Bath Acryl +акрил 1 л,2023-07-31,7
19214,1462346,159.0,,Средство для прочистки труб Prosept Bath Prof жидкость 1 л,2023-07-31,7
19215,1462352,189.0,,Средство для удаления жира и нагара Prosept Cooky Grill 500 мл,2023-07-31,7
19216,1462354,219.0,,Средство для чистки ковровых покрытий Prosept Carpet DryClean шампунь 500 мл,2023-07-31,7


Все имеющиеся в таблице пропуски относятся к дилеру под номером 7 - Комус.

In [15]:
# Проверим длину названий продуктов для определения неявных пропусков.
dealer_products['product_name'].str.len().min(), dealer_products['product_name'].str.len().max()

(8, 131)

In [16]:
dealer_products[dealer_products['product_name'].str.len() == 8]

Unnamed: 0,product_key,price,product_url,product_name,date,dealer_id
32,44231946,994.0,https://www.wildberries.ru/catalog/44231946,ОSB BASE,2023-07-11,1
1718,44231946,994.0,https://www.wildberries.ru/catalog/44231946/detail.aspx?targetUrl=SP,ОSB BASE,2023-07-11,1
1885,44231946,994.0,https://www.wildberries.ru/catalog/44231946/detail.aspx?targetUrl=SP,ОSB BASE,2023-07-11,1
1963,44231946,994.0,https://www.wildberries.ru/catalog/44231946/detail.aspx?targetUrl=SP,ОSB BASE,2023-07-11,1
3276,44231946,994.0,https://www.wildberries.ru/catalog/44231946/detail.aspx?targetUrl=SP,ОSB BASE,2023-07-12,1
5110,44231946,994.0,https://www.wildberries.ru/catalog/44231946/detail.aspx?targetUrl=SP,ОSB BASE,2023-07-13,1
6766,44231946,994.0,https://www.wildberries.ru/catalog/44231946/detail.aspx?targetUrl=SP,ОSB BASE,2023-07-14,1
8346,44231946,994.0,https://www.wildberries.ru/catalog/44231946/detail.aspx?targetUrl=SP,ОSB BASE,2023-07-17,1
11054,44231946,994.0,https://www.wildberries.ru/catalog/44231946/detail.aspx?targetUrl=SP,ОSB BASE,2023-07-19,1
12269,44231946,994.0,https://www.wildberries.ru/catalog/44231946/detail.aspx?targetUrl=SP,ОSB BASE,2023-07-21,1


In [17]:
# проверим данные на дубликаты
dealer_products.duplicated().sum()

726

In [18]:
duplicates = dealer_products.duplicated()
dealer_products[duplicates].sort_values(by='product_name').head(10)

Unnamed: 0,product_key,price,product_url,product_name,date,dealer_id
1945,30420470,263.0,https://www.wildberries.ru/catalog/30420470/detail.aspx?targetUrl=SP,Bath Acid,2023-07-11,1
1867,30420470,263.0,https://www.wildberries.ru/catalog/30420470/detail.aspx?targetUrl=SP,Bath Acid,2023-07-11,1
1866,44231972,325.0,https://www.wildberries.ru/catalog/44231972/detail.aspx?targetUrl=SP,Bath Acid + Концентрат 1 л,2023-07-11,1
1944,44231972,325.0,https://www.wildberries.ru/catalog/44231972/detail.aspx?targetUrl=SP,Bath Acid + Концентрат 1 л,2023-07-11,1
1849,44232028,271.0,https://www.wildberries.ru/catalog/44232028/detail.aspx?targetUrl=SP,Bath Acid Концентрат,2023-07-11,1
1927,44232028,271.0,https://www.wildberries.ru/catalog/44232028/detail.aspx?targetUrl=SP,Bath Acid Концентрат,2023-07-11,1
1978,44231954,325.0,https://www.wildberries.ru/catalog/44231954/detail.aspx?targetUrl=SP,Bath Acid Концентрат 1 л,2023-07-11,1
1900,44231954,325.0,https://www.wildberries.ru/catalog/44231954/detail.aspx?targetUrl=SP,Bath Acid Концентрат 1 л,2023-07-11,1
1985,44232073,868.0,https://www.wildberries.ru/catalog/44232073/detail.aspx?targetUrl=SP,Bath Acid Концентрат 5 л,2023-07-11,1
1907,44232073,868.0,https://www.wildberries.ru/catalog/44232073/detail.aspx?targetUrl=SP,Bath Acid Концентрат 5 л,2023-07-11,1


In [19]:
# уберём дубликаты по столбцам: ключ, url и названию продукта
dealer_products.drop_duplicates(subset=['product_key', 'product_url', 'product_name'], inplace=True)

In [20]:
dealer_products.duplicated(subset=['product_key', 'product_url', 'product_name']).sum()

0

В таблице `dealer_products` 20416 записей.  
Имеются пропуски в столбце `product_url` - 234 записи и все для дилера с id 7 - Komus. Полных дублей в таблице нет, но есть повторяющиейся записи в зависимости от даты выгрузки. 
Все столбцы имеют правильный тип, кроме даты, в рамках проекта дату приводить к нужному формату нет необходимости.  
Столбец `product_key` содержит данные в текстового типа, он состоит из ключей не только в виде числа, но и в виде ссылок на сайты с продуктами.   

Столбец `product_name` является целевым: по нему будем находить соответствие продуктов из базы заказчика.  
В названиях имеются как слова на кириллице, так и на латинице; есть специальные символы, единицы измерения разные: кг, л, мл; в некоторых названиях в конце указан код, состоящий из цифр и "-"; попадаются сокращения (например: дер. конструкций, д/удаления), в рамках одного названия встречаются буквы в разных регистрах.

In [21]:
# удалим лишний столбец 'Unnamed: 0'
products = products.drop(['Unnamed: 0'], axis=1)

In [22]:
products.sample(5)

Unnamed: 0,id,article,ean_13,name,cost,recommended_price,category_id,ozon_name,name_1c,wb_name,ozon_article,wb_article,ym_article,wb_article_td
209,323,053-09,4680008000000.0,"Лак для камня PROSEPTготовый состав / 0,9 л",287.0,683.0,31.0,"Лак для камня с эффектом ""мокрый камень"" PROSEPT, 0.9 л.","Лак для камня с эффектом ""мокрый камень"" PROSEPT, 0.9 л.","Лак для камня с эффектом ""мокрый камень"" PROSEPT, 0.9 л.",452977474.0,150031320.0,053-09,
72,358,035-09,4680008000000.0,"Антисептик лессирующий BiO LASUR / бук / 0,9 л",255.0,607.0,31.0,"Антисептик лессирующийзащитно-декоративныйPROSEPT BiO LASUR / бук / 0,9 л","Антисептик лессирующийзащитно-декоративныйPROSEPT BiO LASUR / бук / 0,9 л","Антисептик лессирующийзащитно-декоративныйPROSEPT BiO LASUR / бук / 0,9 л",,,,
276,194,O1 01005,4680008000000.0,Нейтрализатор неприятных запаховFLOX PROFготовый состав / 5 л,568.0,1327.0,34.0,"Профессиональный нейтрализатор неприятных запахов PROSEPT Flox Prof, 5 л.","Профессиональный нейтрализатор неприятных запахов PROSEPT Flox Prof, 5 л.","Профессиональный нейтрализатор неприятных запахов PROSEPT Flox Prof, 5 л.",452399702.0,149595531.0,O1-01005,
188,327,056-09,4680008000000.0,"Лак яхтный PROSEPT, глянцевый,готовый состав / 0,9 л",372.0,885.0,31.0,"Лак яхтный глянцевый PROSEPT, 0.9 л.","Лак яхтный глянцевый PROSEPT, 0.9 л.","Лак яхтный глянцевый PROSEPT, 0.9 л.",452994092.0,150031324.0,056-09,
50,511,М006-2,4610093000000.0,"Набор для удаления загрязнений и наклеек PROSEPT, 2 средства (универсальный спрей для уборки и удалитель наклеек)",284.0,664.0,,"Набор для удаления загрязнений и наклеек PROSEPT, 2 средства (универсальный спрей для уборки и удалитель наклеек)",Набор для удаления загрязнений и наклеек PROSEPT,"Набор для удаления загрязнений и наклеек , 2 средства",464002480.0,150654375.0,М006-2,


In [23]:
products.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 496 entries, 0 to 495
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 496 non-null    int64  
 1   article            496 non-null    object 
 2   ean_13             464 non-null    float64
 3   name               494 non-null    object 
 4   cost               491 non-null    float64
 5   recommended_price  491 non-null    float64
 6   category_id        447 non-null    float64
 7   ozon_name          458 non-null    object 
 8   name_1c            485 non-null    object 
 9   wb_name            455 non-null    object 
 10  ozon_article       365 non-null    float64
 11  wb_article         340 non-null    float64
 12  ym_article         337 non-null    object 
 13  wb_article_td      32 non-null     object 
dtypes: float64(6), int64(1), object(7)
memory usage: 54.4+ KB


In [24]:
products.nunique()

id                   496
article              496
ean_13               464
name                 487
cost                 338
recommended_price    319
category_id           38
ozon_name            454
name_1c              473
wb_name              451
ozon_article         365
wb_article           339
ym_article           337
wb_article_td         32
dtype: int64

In [25]:
# удалим столбец wb_article_td так как он содержит мало записей и не содержит важной информации.
products.drop(['wb_article_td'], axis=1, inplace=True)

In [26]:
products.isna().sum()

id                     0
article                0
ean_13                32
name                   2
cost                   5
recommended_price      5
category_id           49
ozon_name             38
name_1c               11
wb_name               41
ozon_article         131
wb_article           156
ym_article           159
dtype: int64

In [27]:
mask = products['name'].isnull()
products[mask]

Unnamed: 0,id,article,ean_13,name,cost,recommended_price,category_id,ozon_name,name_1c,wb_name,ozon_article,wb_article,ym_article
23,503,0024-7 о,,,,,,,,,,150126213.0,
35,504,w022-05,,,,,,,,,,,


In [28]:
#удалим строки, где пропуски в названиии товара
products.dropna(subset=['name'], inplace=True)
products.shape

(494, 13)

In [29]:
mask = products['cost'].isnull()
products[mask]

Unnamed: 0,id,article,ean_13,name,cost,recommended_price,category_id,ozon_name,name_1c,wb_name,ozon_article,wb_article,ym_article
4,502,0024-7 б,,"Герметик акриловой цвет Белый, 7 кг",,,,,,,189522867.0,150126216.0,0024-7-б
109,449,0024-06 м12,,"Герметик акриловый цвет Медовый 0,6 л (12 шт)",,,25.0,,"Герметик акриловый цвет Медовый 0,6 л (12 шт)",,,,
110,454,0024-06 о12,,"Герметик акриловый цвет Орех, ф/п 600мл (12 штук )",,,25.0,,"Герметик акриловый цвет сосна, ф/п 600мл (12 штук )",,,,


In [30]:
products.duplicated().sum()

0

In [31]:
# изучим наименования продуктов детальнее
products[['name', 'name_1c']].sample(10)

Unnamed: 0,name,name_1c
344,Средство для мытья посуды в посудомоечной машине. Для жесткой водыCooky Splash Hard концентрат 1:200-1:2000 / 5 л,"Гель для посудомоечных машин, для жесткой воды, PROSEPT Splash Hard, 5 л."
91,"Концентрат для мытья полов и стен Multipower ""Цитрус"" 0,8 л 2 ШТ","Набор Концентрат для мытья полов и стен Multipower ""Цитрус"" 0,8 л 2 ШТ"
147,"Концентрат для мытья полов и стен Multipower ""Полевые цветы"" 0,8 л","Средство для мытья полов PROSEPT Multipower ""Полевые цветы"", 2 штуки*0.8 л."
414,"Антисептик невымываемый ХМ-11, ГОСТ / 5 л","Антисептик невымываемый PROSEPT ХМ-11 ГОСТ, 5 л."
406,"ОГНЕБИОЗАЩИТА I группа, бесцветный готовый состав / 10 кг","PROSEPT огнебиозащита для древесины. Высшая (1-ая) группа, 10л."
412,Антисептик для бани и сауны ECO SAUNAготовый состав / 10 л,"Антисептик для бани и сауны PROSEPT ECO SAUNA, 10 л."
122,Антисептик лессирующий BiO LASUR / бесцветный / 9 л,Антисептик лессирующийзащитно-декоративныйPROSEPT BiO LASUR / бесцветный / 9 л
41,Огнебиозащита ОГНЕБИО PROF 2 группа бесцветный готовый состав / 10 л,"Огнебиозащита для древесины PROSEPT ОГНЕБИО PROF 2-ая группа, 10л."
57,ПеногасительAntifoam концентрат до 1:300 / 1 л,ПеногасительAntifoam концентрат до 1:300 / 1 л
191,"Антисептик ECO ULTRA, коричневый / 10 л","Антисептик ECO ULTRA, коричневый / 10 л"


На первый взгляд в названиях из 1С меньше лишней или технической информации, меньше опечаток.

In [32]:
# проверим минимальную и максимальную длину названия
products['name'].str.len().min(), products['name'].str.len().max()

(3, 136)

In [33]:
products[products['name'].str.len() == 3]
# в данной строке отсутствует название, запись можно удалить
i = products[products['name'].str.len() == 3].index
products.drop(i, inplace = True)
products.reset_index(inplace = True)

In [34]:
products.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 493 entries, 0 to 492
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   index              493 non-null    int64  
 1   id                 493 non-null    int64  
 2   article            493 non-null    object 
 3   ean_13             463 non-null    float64
 4   name               493 non-null    object 
 5   cost               490 non-null    float64
 6   recommended_price  490 non-null    float64
 7   category_id        447 non-null    float64
 8   ozon_name          458 non-null    object 
 9   name_1c            485 non-null    object 
 10  wb_name            455 non-null    object 
 11  ozon_article       365 non-null    float64
 12  wb_article         339 non-null    float64
 13  ym_article         337 non-null    object 
dtypes: float64(6), int64(2), object(6)
memory usage: 54.0+ KB


В таблице `products` 496 записей.  
Имеются 2 записи, где отсутствует большая часть информации.  
Для товаров *Герметик акриловой цвет Белый, 7 кг; Герметик акриловый цвет Медовый 0,6 л (12 шт); Герметик акриловый цвет Орех, ф/п 600мл (12 штук)* отсутствуют стоимость и рекомендованная цена.
Дубликаты отсутствуют.  

Для построения модели мэчинга можем использовать данные в столбце `name` или `name_1c`, всего имеется 487 уникальных наименований.
В названиях имеются опечатки, лишние пробелы, специальные символы, иногда отсутствуют пробелы между словами: часто сливаются слова на кириллице и латинице. В части продуктов указана рекомендуемая концентрация, для некоторых продуктов указан вес (в кг.), а для других объём (в мл. или л.). Концентрация, вес или количество обычно указываются в конце названия. В рамках одного названия встречаются буквы в разных регистрах. Максимальная длина наименования продукта 136 символов, минимальная - 30.

In [35]:
# удалим лишний столбец 'Unnamed: 0'
match = match.drop(['id'], axis = 1)

In [36]:
match.sample(5)

Unnamed: 0,key,dealer_id,product_id
377,100121675,3,18
689,2769742,10,408
233,200711454,3,417
529,412168,9,394
171,200375953,3,243


In [37]:
match.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1700 entries, 0 to 1699
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   key         1700 non-null   object
 1   dealer_id   1700 non-null   int64 
 2   product_id  1700 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 40.0+ KB


In [38]:
match.nunique()

key           1700
dealer_id       18
product_id     438
dtype: int64

In [39]:
match.sort_values(by='key', ascending=False)

Unnamed: 0,key,dealer_id,product_id
440,https://kub02.ru/catalog/prosept/otbelivatel_dlya_drevesiny_prosept_50_1_1_1l/,6,240
439,https://kub02.ru/catalog/prosept/maslo_dlya_zashchity_polkov_prosept_sauna_oil_gotovyy_sostav_0_25l/,6,320
434,https://kub02.ru/catalog/prosept/lak_dlya_bani_i_sauny_termostoykiy_akrilovyy_prosept_0_9l/,6,321
449,https://kub02.ru/catalog/prosept/antiseptik_universalnyy_protiv_gribka_i_pleseni_prosept_antiplesen_got_sostav_5l/,6,290
432,https://kub02.ru/catalog/prosept/antiseptik_universalnyy_dlya_vnutr_i_naruzhn_prosept_universal_1l/,6,259
...,...,...,...
383,100067710,3,291
224,100067709,3,289
175,100067708,3,397
170,100067707,3,242


In [40]:
match.duplicated().sum()

0

В таблице `match` 1700 записей, кол-во уникальных id дилеров совпадает с количеством в таблице `dealers`. Пропусков нет, дубликатов тоже. Столбец `key` имеет текстовый формат, в нём есть записи не только уникальных ключей, но и url продуктов.  
Данная таблица может пригодиться, когда будем оценивать эффективность мэтчинга.

## Предобработка названий

In [41]:
# заполним пропуски в marketing_name данными из столбца name
products['name_1c'].fillna(products['name'], inplace=True)

В дальнейшем будем работать со столбцами `1c_name` из таблицы `products` и `product_name` из `dealer_products`.
Необходимо произвести предобработку текста, чтобы названия в обеих таблицах были наиболее схожи, для этого необходимо:
1. убрать лишние пробелы
2. привести к нижнему регистру
3. добавить пробелы между русскими словами и английскими: как до, так и после
4. убрать концентрацию, оставить только объём/вес 
5. перевести всё к одним ед. измерения: литры - в миллилитры (в идеале)

In [42]:
# функция для базовой обработки текста
def clean_text(text):
    #добавляем пробелы между русскими и английскими словами
    pattern = re.compile(r'(?<=[а-яА-Я])(?=[A-Z])|(?<=[a-zA-Z])(?=[а-яА-Я])')
    text = re.sub(pattern, ' ', text)
    #убираем указание концентрации
    pattern2 = re.compile(r'\b\d+:\d+\s*-\s*\d+:\d+\b|\s*\d+:\d+\s*')
    text = re.sub(pattern2, '', text)
    #убираем специальные символы
    remove = string.punctuation
    remove = remove.replace("-", "") # не убираем дефисы
    text = re.sub('[%s]' % re.escape(remove), '', text)
    # убираем лишние пробелы между словами
    text = re.sub(r'\s+', ' ', text)
    #приводим все слова к нижнему регистру
    text = text.lower()
    return text

# функция убирает служебные слова и лемматизирует текст

def preprocess_text(text):
    russian_stopwords = stopwords.words("russian")
    doc = nlp(text)
    tokens = [token.lemma_ for token in doc]
#     mystem = Mystem() 
#     tokens = mystem.lemmatize(text)
    tokens = [token for token in tokens if token not in russian_stopwords and token != " "]
    text = " ".join(tokens)
    return text

In [43]:
%%time
# создадим новый столбец marketing_name - он включает в себя все названия из 1с
products['marketing_name'] = products['name_1c'].apply(clean_text)

CPU times: total: 15.6 ms
Wall time: 13 ms


In [44]:
products[['name_1c','marketing_name']].sample(5,random_state=10)

Unnamed: 0,name_1c,marketing_name
274,"Профессиональное средство на основе ЧАС с дезинфицирующим эффектом PROSEPT UN-DZ, 500 мл.",профессиональное средство на основе час с дезинфицирующим эффектом prosept un-dz 500 мл
341,"Гель для посудомоечных машин, для жесткой воды, PROSEPT Splash Hard, 5 л.",гель для посудомоечных машин для жесткой воды prosept splash hard 5 л
152,Жидкое гель-мыло эконом-класса. Без красителей и ароматизаторовDiona Eготовый состав / 5 л,жидкое гель-мыло эконом-класса без красителей и ароматизаторов diona e готовый состав 5 л
302,"Профессиональное полимерное покрытие для пола PROSEPT Polish 250, 5 л.",профессиональное полимерное покрытие для пола prosept polish 250 5 л
146,Краска резиновая коричневый Ral 8017 / 12 кг,краска резиновая коричневый ral 8017 12 кг


In [45]:
# создадим столбец с единицами измерения, указанные в названии товара, и уберём их из самих названий
pattern = r'(\d+\s?[лмкг]+)'
products['measures'] = products['marketing_name'].str.extract(pattern)
products['marketing_name'] = products['marketing_name'].str.replace(pattern, '')

#уберём пробелы из единиц измерения для единообразия
products['measures'] = products['measures'].str.replace(' ', '')

In [46]:
%%time
# лемматизируем текст
nlp = spacy.load("ru_core_news_lg")
products['marketing_name'] = products['marketing_name'].apply(preprocess_text)

CPU times: total: 6.09 s
Wall time: 6.28 s


In [47]:
products[['name_1c','marketing_name']].sample(5,random_state=10)

Unnamed: 0,name_1c,marketing_name
274,"Профессиональное средство на основе ЧАС с дезинфицирующим эффектом PROSEPT UN-DZ, 500 мл.",профессиональный средство основа час дезинфицировать эффект prosept un - dz
341,"Гель для посудомоечных машин, для жесткой воды, PROSEPT Splash Hard, 5 л.",гель посудомоечный машина жёсткий вода prosept splash hard
152,Жидкое гель-мыло эконом-класса. Без красителей и ароматизаторовDiona Eготовый состав / 5 л,жидкий гель - мыло эконом - класс краситель ароматизатор diona e готовый состав
302,"Профессиональное полимерное покрытие для пола PROSEPT Polish 250, 5 л.",профессиональный полимерный покрытие пол prosept polish 250
146,Краска резиновая коричневый Ral 8017 / 12 кг,краска резиновый коричневый ral 8017


In [50]:
%%time
# аналогичным образом обработаем столбец product_name
display(dealer_products['product_name'].head())
dealer_products['dealer_name'] = dealer_products['product_name'].apply(clean_text)
display(dealer_products['dealer_name'].head())

0           Средство универсальное Prosept Universal Spray, 500мл
1        Концентрат Prosept Multipower для мытья полов, цитрус 1л
2    Средство для чистки люстр Prosept Universal Anti-dust, 500мл
3             Удалитель ржавчины PROSEPT RUST REMOVER 0,5л 023-05
4     Средство моющее для бани и сауны Prosept Multipower Wood 1л
Name: product_name, dtype: object

0           средство универсальное prosept universal spray 500мл
1        концентрат prosept multipower для мытья полов цитрус 1л
2    средство для чистки люстр prosept universal anti-dust 500мл
3             удалитель ржавчины prosept rust remover 05л 023-05
4    средство моющее для бани и сауны prosept multipower wood 1л
Name: dealer_name, dtype: object

CPU times: total: 62.5 ms
Wall time: 59 ms


In [51]:
%%time
dealer_products['dealer_name'] = dealer_products['dealer_name'].apply(preprocess_text)
dealer_products['dealer_name'].head()

CPU times: total: 18.9 s
Wall time: 19 s


0          средство универсальный prosept universal spray 500мл
1             концентрат prosept multipower мытьё пол цитрус 1л
2    средство чистка люстра prosept universal anti - dust 500мл
3          удалитель ржавчина prosept rust remover 05л 023 - 05
4           средство мыть баня сауна prosept multipower wood 1л
Name: dealer_name, dtype: object

In [52]:
# создадим столбец с единицами измерения, указанные в названии товара, и уберём их из самих названий
pattern = r'(\d+\s?[лмкг]+)'
dealer_products['measures'] = dealer_products['dealer_name'].str.extract(pattern)
dealer_products['dealer_name'] = dealer_products['dealer_name'].str.replace(pattern, '')

#уберём пробелы из единиц измерения для единообразия
products['measures'] = products['measures'].str.replace(' ', '')
dealer_products.head()

Unnamed: 0,product_key,price,product_url,product_name,date,dealer_id,dealer_name,measures
0,546227,233.0,https://akson.ru//p/sredstvo_universalnoe_prosept_universal_spray_500ml/,"Средство универсальное Prosept Universal Spray, 500мл",2023-07-11,2,средство универсальный prosept universal spray,500мл
1,546408,175.0,https://akson.ru//p/kontsentrat_prosept_multipower_dlya_mytya_polov_tsitrus_1l/,"Концентрат Prosept Multipower для мытья полов, цитрус 1л",2023-07-11,2,концентрат prosept multipower мытьё пол цитрус,1л
2,546234,285.0,https://akson.ru//p/sredstvo_dlya_chistki_lyustr_prosept_universal_anti_dust_500ml/,"Средство для чистки люстр Prosept Universal Anti-dust, 500мл",2023-07-11,2,средство чистка люстра prosept universal anti - dust,500мл
3,651258,362.0,https://akson.ru//p/udalitel_rzhavchiny_prosept_rust_remover_0_5l_023_05/,"Удалитель ржавчины PROSEPT RUST REMOVER 0,5л 023-05",2023-07-11,2,удалитель ржавчина prosept rust remover 023 - 05,05л
4,546355,205.0,https://akson.ru//p/sredstvo_moyushchee_dlya_bani_i_sauny_prosept_multipower_wood_1l/,Средство моющее для бани и сауны Prosept Multipower Wood 1л,2023-07-11,2,средство мыть баня сауна prosept multipower wood,1л


# Хакатон Просепт Х Яндекс.практикум

## Команда №2

### Разработка рекомендательной модели на основе данных о товарах.



### Заказчик

ООО «ПРОСЕПТ» — российская производственная компания, специализирующаяся на выпуске профессиональной химии. В своей работе используют опыт ведущих мировых производителей и сырье крупнейших химических концернов. Производство и логистический центр расположены в непосредственной близости от Санкт-Петербурга, откуда продукция компании поставляется во все регионы России.

**Сайт:** https://prosept.ru/


### Описание проекта/

Заказчик производит несколько сотен различных товаров бытовой и промышленной химии, а затем продаёт эти товары через дилеров. Дилеры, в свою очередь, занимаются розничной продажей товаров в крупных сетях магазинов и на онлайн площадках.
Для оценки ситуации,  управления ценами и  бизнесом в целом, заказчик периодически собирает информацию о том, как дилеры продают их товар. Для этого они парсят сайты дилеров, а затем сопоставляют товары и цены.
Зачастую описание товаров на сайтах дилеров отличаются от того описания, что даёт заказчик. Например, могут добавляться новый слова (“универсальный”, “эффективный”), объём (0.6 л -> 600 мл). Поэтому сопоставление товаров дилеров с товарами производителя делается вручную.


**Цель этого проекта** - разработка решения, которое отчасти автоматизирует процесс сопоставления товаров. Основная идея - предлагать несколько товаров заказчика, которые с наибольшей вероятностью соответствуют размечаемому товару дилера. 
Предлагается реализовать это решение, как онлайн сервис, открываемый в веб-браузере. Выбор наиболее вероятных подсказок делается методами машинного обучения.


### Описание данных.
Заказчик предоставил несколько таблиц (дамп БД), содержащих необходимые данные:

1.`marketing_dealer` - список дилеров;
2.`marketing_dealerprice` - результат работы парсера площадок дилеров:
- `product_key` - уникальный номер позиции;
- `price` - цена;
- `product_url` - адрес страницы, откуда собраны данные;
- `product_name` - заголовок продаваемого товара;
- `date` - дата получения информации;
- `dealer_id` - идентификатор дилера (внешний ключ к marketing_dealer)
3.`marketing_product` - список товаров, которые производит и распространяет заказчик;
- `article` - артикул товара;
- `ean_13` - код товара (см. EAN 13)
- `name` - название товара;
- `cost` - стоимость;
- `min_recommended_price` - рекомендованная минимальная цена;
- `recommended_price` - рекомендованная цена;
- `category_id` - категория товара;
- `ozon_name` - названиет товара на Озоне;
- `name_1c` - название товара в 1C;
- `wb_name` - название товара на Wildberries;
- `ozon_article` - описание для Озон;
- `wb_article` - артикул для Wildberries;
- `ym_article` - артикул для Яндекс.Маркета;

4.`marketing_productdealerkey` - таблица матчинга товаров заказчика и товаров дилеров
- `key` - внешний ключ к marketing_dealerprice
- `product_id` - внешний ключ к marketing_product
- `dealer_id` - внешний ключ к marketing_dealer




### Этапы выполнения проекта:

1) **Выгрузка и исследовательскй анализ данных.**
- В таблице dealers собрана информация по названиям дилеров и их id.
Всего в таблице представлено 18 уникальных дилеров.

- В таблице marketing_dealerprice из 20416 записей. 10% уникальных ключей, ссылок и названий продуктов. Все данные собраны за 14 дней: с 11-07 по 31-0-23.
Имеются пропуски в столбце product_url - 234 записи и все для дилера с id 7 - Komus.<br>
Полных дублей в таблице нет, но есть повторяющиейся записи в зависимости от даты выгрузки.<br>
Столбец product_key содержит данные в текстового типа, он состоит из ключей не только в виде числа, но и в виде ссылок на сайты с продуктами.

Столбец `product_name` является целевым: по нему будем находить соответствие продуктов из базы заказчика.<br>
В названиях имеются как слова на кириллице, так и на латинице; есть специальные символы, единицы измерения разные: кг, л, мл; в некоторых названиях в конце указан код, состоящий из цифр и "-"; попадаются сокращения (например: дер. конструкций, д/удаления), встречаются буквы в разных регистрах.

- В таблице marketing_product 496 записей.
Имеются 2 записи, где отсутствует большая часть информации.<br>
Дубликаты отсутствуют.<br>
Столбец `name_1c` всего имеется `487` уникальных наименований.<br>
В названиях имеются опечатки, лишние пробелы, специальные символы, иногда отсутствуют пробелы между словами: часто сливаются слова на кириллице и латинице.<br> 
В части продуктов указана рекомендуемая концентрация, для некоторых продуктов указан вес (в кг.), а для других объём (в мл. или л.). Концентрация, вес или количество обычно указываются в конце названия.<br>
Встречаются буквы в разных регистрах.<br>
Максимальная длина наименования продукта 136 символов, минимальная - 30.

- В таблице `marketing_productdealerkey` 1700 записей, кол-во уникальных id дилеров совпадает с количеством в таблице `marketing_dealer`.
Пропусков и дубликатов нет.<br>
Столбец `key` имеет текстовый формат, в нём есть записи не только уникальных ключей, но и url продуктов.


2) **Предобработка данных.**

Для работы выбрали столбцы `1c_name` из таблицы `marketing_product` и `product_name` из `marketing_dealerprice`<br>
Произвели предобработку текста, чтобы названия в обеих таблицах были наиболее схожи, для этого написали функцию, позволяющую выполнить следующие действия:

    - убрать лишние пробелы;
    - привести к нижнему регистру;
    - добавить пробелы между русскими словами и английскими, как до, так и после;
    - убрать концентрацию, оставить только объём/вес.
    

3) **Разработка модели:**
- основная библиотека, которую мы использовали для поиска соответствия названий - это `SentenceTransformers`;
- в качестве модели была использована предварительно обученная модель `tsb-roberta-large`;
- корпус названий из marketing_dealerprice и каждое название из marketing_product закодированы при помощи `SentenceTransformers('stsb-roberta-large')`;
- для каждого вектора названия товара из `marketing_product` считается косинусное расстояние между ним и каждым вектором названий из `marketing_dealerprice`;
- получаем `top_k` самых похожих предложений, получивших наивысшие оценки сходства. `top_k` можно задавать оператору;

4) **Интеграция модели:**
- создан файла `'.ру'` для интеграции модели с работой `Backend-разработчиков`.

## Вывод:

построена модель, которая для списка товаров? производимиых и распространяемых заказчиком, выдает `top_k` наиболее подходящих семантически названий товаров с площадок дилеров.
Точность модели-

### Стек технологий: 
- язык программирования: `Python` 
- библиотеки для ML: `Pandas`, `Sklearn`, `nltk`, `numpy`, `sentence_transformers`, `pytorch`, `transformers`. 