# 1. Импорт библиотек.

In [1]:
# Все import соберем в начале проекта:

import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import os
import seaborn as sns
import numpy as np

from skimpy import skim
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import NearestNeighbors

# Настроим вид таблиц:
pd.set_option("display.max_rows", 25)
pd.set_option("display.max_columns", 25)

# Чтобы полностью рассмотреть название продукта,
# снимем ограничения на количество символов в записи:
pd.set_option('display.max_colwidth', None)

In [2]:
# Загрузка файлов с данными.

df_dealer = pd.read_csv('data/marketing_dealer.csv', sep = ';')
df_dealerprice = pd.read_csv('data/marketing_dealerprice.csv', sep = ';')
df_product = pd.read_csv('data/marketing_product.csv', sep = ';')
df_productdealerkey = pd.read_csv('data/marketing_productdealerkey.csv', sep = ';')

In [3]:
display(df_dealer)

Unnamed: 0,id,name
0,1,Moi_vibor_WB
1,2,Akson
2,3,Bafus
3,5,Castorama
4,6,Cubatora
5,7,Komus
6,9,Megastroy
7,10,OnlineTrade
8,11,Petrovich
9,12,sdvor


In [4]:
skim(df_dealerprice)
df_dealerprice.sample(5)

Unnamed: 0,id,product_key,price,product_url,product_name,date,dealer_id
2262,2261,200544316,1070.0,https://www.bafus.ru/200544316/,Просепт Professional Crystal Black Active жидкое средство для стирки черных тканей (3 л),2023-07-12,3
16144,16183,1522050,309.0,https://www.onlinetrade.ru/catalogue/sredstva_dlya_stirki_belya-c847/prosept/zhidkoe_sredstvo_dlya_stirki_prosept_crystal_dlya_stirki_svetlykh_tkaney_1_l_4680008147301-1522050.html,"Жидкое средство для стирки PROSEPT CRYSTAL для стирки светлых тканей, 1 л",2023-07-26,10
2499,2493,https://kub02.ru/catalog/professionalnaya_bytovaya_khimiya/sredstvo_dlya_prochistki_trub_ot_zasorov_bath_prof_5l/,956.0,https://kub02.ru/catalog/professionalnaya_bytovaya_khimiya/sredstvo_dlya_prochistki_trub_ot_zasorov_bath_prof_5l/,"Средство для прочистки труб от засоров Bath Prof, 5л",2023-07-12,6
3803,3925,100067708,1805.0,https://www.bafus.ru/100067708/,Просепт Aquaisol пропитка для камня гидрофобизирующий состав (5 л),2023-07-13,3
9027,9057,1462345,149.0,,Средство для сантехники Prosept Bath Fungi для удаления плесени 500 мл,2023-07-18,7


In [5]:
skim(df_product)
df_product.head(5)

Unnamed: 0.1,Unnamed: 0,id,article,ean_13,name,cost,recommended_price,category_id,ozon_name,name_1c,wb_name,ozon_article,wb_article,ym_article,wb_article_td
0,0,245,008-1,4680010000000.0,Антисептик невымываемыйPROSEPT ULTRAконцентрат 1:10 / 1 л,360.0,858.0,20.0,"Антисептик невымываемый для ответственных конструкций PROSEPT ULTRA, концентрат, 1 л.","Антисептик невымываемый для ответственных конструкций PROSEPT ULTRA, концентрат, 1 л.","Антисептик невымываемый для ответственных конструкций PROSEPT ULTRA, концентрат, 1 л.",189522705.0,150033482.0,008-1,
1,1,3,242-12,,Антигололед - 32 PROSEPTготовый состав / 12 кг,460.16,1075.0,,,Антигололед - 32 PROSEPTготовый состав / 12 кг,,,,,
2,2,443,0024-06 с,4680010000000.0,"Герметик акриловый цвет сосна, ф/п 600мл",307.0,644.0,25.0,"Герметик акриловый для швов для деревянных домов, конструкций, изделий PROSEPT цвет сосна, ф/п 600мл","Герметик акриловый цвет сосна, ф/п 600мл","Герметик акриловый для швов для деревянных домов, конструкций, изделий PROSEPT цвет сосна, ф/п 600мл",189522735.0,150126217.0,0024-06-с,
3,3,147,305-2,4610090000000.0,Кондиционер для белья с ароматом королевского ИрисаCrystal Rinserконцентрат / 2 л,157.73,342.0,29.0,"Кондиционер для белья ""Королевский Ирис"" Prosept Crystal Rinser, 2 л.","Кондиционер для белья ""Королевский Ирис"" Prosept Crystal Rinser, 2 л.","Кондиционер для белья ""Королевский Ирис"" Prosept Crystal Rinser, 2 л.",339377922.0,150032962.0,305-2,
4,4,502,0024-7 б,,"Герметик акриловой цвет Белый, 7 кг",,,,,,,189522867.0,150126216.0,0024-7-б,


In [6]:
skim(df_productdealerkey)
df_productdealerkey.head(5)

Unnamed: 0,id,key,dealer_id,product_id
0,1,546227,2,12
1,2,651265,2,106
2,3,546257,2,200
3,4,546408,2,38
4,5,651258,2,403


# Выделим уникальные значения признаков товаров дилеров и товаров производителя.

In [7]:
# Переведём все названия товаров в нижний регистр

df_dealerprice['product_name'] = df_dealerprice['product_name'].str.lower()
df_product['name'] = df_product['name'].str.lower()

In [8]:
# Удалим символы запятая в именах товаров:

df_dealerprice['product_name'] = \
    df_dealerprice['product_name'].str.replace('[^\w\s]','')
df_product['name'] = \
    df_product['name'].str.replace('[^\w\s]','')

In [9]:
df_product.tail(20)

Unnamed: 0.1,Unnamed: 0,id,article,ean_13,name,cost,recommended_price,category_id,ozon_name,name_1c,wb_name,ozon_article,wb_article,ym_article,wb_article_td
476,476,371,0024-7с,4680010000000.0,герметик акриловый цвет сосна 7 кг,2646.0,5492.0,25.0,"Герметик акриловый для швов для деревянных домов, конструкций, изделий PROSEPT цвет сосна, 7 кг.","Герметик акриловый цвет Сосна, 7 кг","Герметик акриловый для швов для деревянных домов, конструкций, изделий PROSEPT цвет сосна, 7 кг.",189522866.0,150126204.0,0024-7с,
477,477,61,111-5,4680010000000.0,средство для устранения засоров в трубахbath profконцентрат 1100 5 л,409.0,956.0,45.0,"Средство для прочистки труб от засоров PROSEPT Bath Prof, 5 л.","Средство для прочистки труб от засоров PROSEPT Bath Prof, 5 л.","Средство для прочистки труб от засоров PROSEPT Bath Prof, 5 л.",411379449.0,150033031.0,111-5,111-50
478,478,57,110-1,4680010000000.0,гелеобразное средство усиленного действия для удаления ржавчины и минеральных отложенийbath extraконцентрат 1101100 1 л,122.54,286.0,52.0,"Гель для удаления ржавчины и минеральных отложений PROSEPT Bath Extra, 1л.","Гель для удаления ржавчины и минеральных отложений PROSEPT Bath Extra, 1л.","Гель для удаления ржавчины и минеральных отложений PROSEPT Bath Extra, 1л.",413264550.0,149811020.0,110-1,110-10
479,479,407,052-05,4680010000000.0,средство для снятия обоев концентрат 119 05 л,116.0,277.0,35.0,"Средство для снятия обоев PROSEPT, концентрат, 0.5л.","Средство для снятия обоев PROSEPT, концентрат, 0.5л.","Средство для снятия обоев PROSEPT, концентрат, 0.5л.",189522746.0,149970190.0,052-05,
480,480,398,021-1,4680010000000.0,очиститель фасадов salt cleaner концентрат 12 1 л,258.0,613.0,35.0,"Очиститель фасадов PROSEPT SALT CLEANER, концентрат, 1 л.","Очиститель фасадов PROSEPT SALT CLEANER, концентрат, 1 л.","Очиститель фасадов PROSEPT SALT CLEANER, концентрат, 1 л.",189522741.0,149976260.0,021-1,
481,481,293,044-05,4680010000000.0,антисептикгрунт osb base готовый состав 5 л,374.0,891.0,20.0,"Антисептик-грунт для плит OSB PROSEPT ОSB BASE, готовый состав, 5 л.","Антисептик-грунт для плит OSB PROSEPT ОSB BASE, готовый состав, 5 л.","Антисептик-грунт для плит OSB PROSEPT ОSB BASE, готовый состав, 5 л.",189522749.0,150033476.0,044-05,
482,482,382,048-10,4680010000000.0,грунт акваизол влагоизолирующийготовый состав 10 л,404.0,911.0,26.0,"Грунт влагоизолирующий PROSEPT Акваизол, 10 л.","Грунт влагоизолирующий PROSEPT Акваизол, 10 л.","Грунт влагоизолирующий PROSEPT Акваизол, 10 л.",189522794.0,149699642.0,048-10,
483,483,288,024-5,4680010000000.0,антисептик против жуков и других биопоражении антижук 5 л,257.0,613.0,20.0,"Антисептик универсальный против жуков и других насекомых PROSEPT АНТИЖУК, 5 л.","Антисептик универсальный против жуков и других насекомых PROSEPT АНТИЖУК, 5 л.","Антисептик универсальный против жуков и других насекомых PROSEPT АНТИЖУК, 5 л.",189522747.0,150034464.0,024-5,
484,484,418,069-1,4680010000000.0,краска резиновая белый ral 9003 1 кг,310.0,649.0,30.0,"Краска резиновая PROSEPT SuperRubber, белый Ral 9003, 1 кг.",Краска резиновая белый Ral 9003 / 1 кг,"Краска резиновая PROSEPT SuperRubber, белый Ral 9003, 1 кг.",288171258.0,149705170.0,069-1,
485,485,389,050-10,4680010000000.0,грунт универсальный пропиточныйготовый состав 10 л,410.0,908.0,26.0,"Грунт универсальный пропиточный для различных поверхностей, 10 л.","Грунт универсальный пропиточный для различных поверхностей, 10 л.","Грунт универсальный пропиточный для различных поверхностей, 10 л.",189522784.0,149699635.0,050-10,


In [10]:
# Выделим уникальные значения товаров дилеров.

print('Количество уникальных значений названия товара у дилеров:',
      len(df_dealerprice.product_name.value_counts()))
print('И это из', df_dealerprice.shape[0],
      'записей оригинального массива!')

# Выделим уникальные значения товаров производителя.

print('Количество уникальных значений названия товара у производителей:',
      len(df_product.name.value_counts()))
print('И это из', df_product.shape[0],
      'записей оригинального массива!')

Количество уникальных значений названия товара у дилеров: 1923
И это из 20416 записей оригинального массива!
Количество уникальных значений названия товара у производителей: 482
И это из 496 записей оригинального массива!


In [11]:
# Выберём только строки с уникальными значениями названий товаров.
# Сохраним первые дубликаты значений названий товаров.

df_dealerprice = df_dealerprice.drop_duplicates(subset=['product_name'])
df_dealerprice.info()
display(df_dealerprice.head(3))

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1923 entries, 0 to 20401
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id            1923 non-null   int64  
 1   product_key   1923 non-null   object 
 2   price         1923 non-null   float64
 3   product_url   1898 non-null   object 
 4   product_name  1923 non-null   object 
 5   date          1923 non-null   object 
 6   dealer_id     1923 non-null   int64  
dtypes: float64(1), int64(2), object(4)
memory usage: 120.2+ KB


Unnamed: 0,id,product_key,price,product_url,product_name,date,dealer_id
0,2,546227,233.0,https://akson.ru//p/sredstvo_universalnoe_prosept_universal_spray_500ml/,средство универсальное prosept universal spray 500мл,2023-07-11,2
1,3,546408,175.0,https://akson.ru//p/kontsentrat_prosept_multipower_dlya_mytya_polov_tsitrus_1l/,концентрат prosept multipower для мытья полов цитрус 1л,2023-07-11,2
2,4,546234,285.0,https://akson.ru//p/sredstvo_dlya_chistki_lyustr_prosept_universal_anti_dust_500ml/,средство для чистки люстр prosept universal antidust 500мл,2023-07-11,2


In [12]:
df_dealerprice.product_name.sample(10)

1340      акриловый герметик для швов в деревянных домах конструкциях изделиях prosept цвет сосна 06 л 002406с
478                                                      средстводляпрочисткитруботзасоровproseptbathprof750мл
16983                     жидкое гельмыло prosept экономкласса без красителей и ароматизаторов diona e пэт 5 л
108                                                                           просепт бетонконтакт грунт 12 кг
356                         просепт professional optic crystal средство для мытья стекол зеркал и пластика 1 л
250                                просепт professional cooky e гель экономкласса для мытья посуды вручную 5 л
1308                                                          влагоизолирующий грунт prosept акваизол 3 л 0483
99            просепт professional universal dz универсальный чистящий концентрат с антимикробным эффектом 5 л
7642     чистящее средство prosept bath acid plus для удаления ржавчины и минеральных отложений концентрат 5 л
1

## Названия, записанные без пробелов, одним набором символом:

In [13]:
# Замечаем, что есть названия, записанные без пробелов, одним набором символов:
df_dealerprice.product_name[430]

'отбеливательдлядревесиныprosepteco5010л'

In [14]:
df_dealerprice['product_name_split'] =\
    df_dealerprice['product_name'].apply(lambda x: x.split())
df_dealerprice.loc[df_dealerprice['product_name_split'].str.len() < 2]

Unnamed: 0,id,product_key,price,product_url,product_name,date,dealer_id,product_name_split
422,420,1001472240,515.0,https://www.castorama.ru/antizhuk-prosept-5-l-2/,антижукprosept5л,2023-07-11,5,[антижукprosept5л]
423,421,1001472227,3458.0,https://www.castorama.ru/antis_k_ultra_5l/,антисептикproseptecoultra5л,2023-07-11,5,[антисептикproseptecoultra5л]
424,422,1001472237,909.0,https://www.castorama.ru/antis_k_eco_ultra_10_l/,антисептикproseptecoultra10л,2023-07-11,5,[антисептикproseptecoultra10л]
425,423,1001472228,520.0,https://www.castorama.ru/antis_k_ultra_kor_5l-1001472228/,антисептикproseptecoultraкор5л,2023-07-11,5,[антисептикproseptecoultraкор5л]
426,424,1001472229,909.0,https://www.castorama.ru/antis_k_ultra_kor_10l/,антисептикproseptecoultraкор10л,2023-07-11,5,[антисептикproseptecoultraкор10л]
...,...,...,...,...,...,...,...,...
480,477,1001472282,509.0,https://www.castorama.ru/sr_vo_d_stirki_sport_odezhdy_1l/,жидкоесредстводлястиркиспортивнойодеждыproseptcrystalsport1л,2023-07-11,5,[жидкоесредстводлястиркиспортивнойодеждыproseptcrystalsport1л]
481,478,1001472280,403.0,https://www.castorama.ru/op_l_d_pmm_splash_rinser_0_8l/,ополаскивательдляпосудывпосудомоечноймашинеproseptsplashrinser08л,2023-07-11,5,[ополаскивательдляпосудывпосудомоечноймашинеproseptsplashrinser08л]
482,479,1001472279,650.0,https://www.castorama.ru/konts_t_d_myt_pos_v_pmm_1_l/,моющеесредстводляпосудывпосудомоечноймашинеproseptsplashlime1л,2023-07-11,5,[моющеесредстводляпосудывпосудомоечноймашинеproseptsplashlime1л]
483,480,1001472276,191.0,https://www.castorama.ru/cprey_d_ochis_kamin_stek_0_5l/,cпрейдляочисткикаминныхстеколотсажиикопотиproseptuniversalhard05л,2023-07-11,5,[cпрейдляочисткикаминныхстеколотсажиикопотиproseptuniversalhard05л]


In [15]:
# Из-за кратких сроков на проект решим проблемы двумя путями:
# - вручную,
# - создав вспомогательную программу.

In [16]:
true_name = (
 (429, 'отбеливатель для древесины prosept eco 505л'),
 (430, 'отбеливатель для древесины prosept eco 5010л'),
 (431, 'средство для мытья полов prosept multipower 1л'),
 (432, 'спрей для удаления жира prosept cooky grill 05л'),
 (435, 'средство для удаления плесени prosept fungi clean 05л'),
 (436, 'средство для мытья полов prosept multipower floor 1л'),
 (437, 'средство для удаления ржавчины prosept rust remover 05л'),
 (438, 'чистящее средство prosept universal spray 05л'),
 (439, 'средство для удаления граффити prosept duty graffiti 2л'),
 (440, 'средство для удаления жира prosept cooky grillge l05л'),
 (441, 'средство для удаления плесени и грибка prosept bath fungi05л'),
 (442, 'спрей для мытья акриловых поверхностей prosept bath uni 05л'),
 (443, 'средство для снятия обоев prosept 1л'),
 (444, 'средство для мытья стекол и зеркал prosept optic shine 05л'),
 (445, 'огнебиозащита для древесины prosept огнебиоprofi 2л 0075'),
 (446, 'огнебиозащита для древесины prosept огнебиоprofi 10л 00710'),
 (447, 'гель для мытья акриловых поверхностей prosept bath acryl 750мл'),
 (448, 'отбеливатель для древесины prosept 501л'),
 (449, 'огнебиозащита для древесины prosept огнебиоprofii 20л 00620к'),
 (450, 'огнебиозащита для древесины prosept огнебиоprofii 10л 00610к'),
 (451, 'огнебиозащита для древесины prosept огнебиоprofii 10л 06410'),
 (452, 'грунтовка универсальная prosept 05010 10л'),
 (453, 'чистящее средство prosept crystal hand 04кг'),
 (454, 'средство для мытья стекол зеркал и пластика prosept optic cristal 5л'),
 (456, 'добавка против плесени prosept 04102502 5л'),
 (457, 'лак для камня prosept 0532 полуматовый 2л'),
 (458, 'лак интерьерный prosept 05709 глянцевый 09л'),
 (459, 'лак для камня prosept 05309 полуматовый 09л'),
 (460, 'лак интерьерный prosept 05909 полуматовый 09л'),
 (461, 'средство для удаления плесени prosept 0255 5л'),
 (462, 'антисептик невымываемый prosept ecoultra орех 1л'),
 (463, 'антисептик невымываемый prosept ecoultra орех 5л'),
 (464, 'средство для удаления плесени prosept 02510 10л'),
 (465, 'средство для посудомоечной машины prosept splash 15кг'),
 (466, 'средство для удаления цемента prosept сement сlean 5л'),
 (467, 'средство для удаления цемента prosept сement сlean 1л'),
 (468, 'средство для удаления цемента prosept сement сlean 05л'),
 (469, 'средство для удаления ржавчины prosept bath acid 750мл'),
 (470, 'средство для удаления клея prosept duty universal 400мл'),
 (471, 'антисептик невымываемый prosept ecoultra зеленый лес 1л'),
 (472, 'средство для удаления граффити prosept duty graffiti 400мл'),
 (473, 'средство для ухода за мебелью prosept universal polish 05л'),
 (474, 'средство для очистки люстр prosept universal antidust 05л'),
 (475, 'чистящее средство для санитарных комнат prosept bathdz07 5л'),
 (476, 'средство для уборки после строительства prosept duty extra 1л'),
 (477, 'чистящее средство для бани и сауны prosept multipower wood 1л'),
 (478, 'средство для прочистки труб от засоров prosept bath prof 750мл'),
 (479, 'жидкое средство для стирки черных тканей prosept crystal black 1л'),
 (480, 'жидкое средство для стирки спортивной одежды prosept crystal sport 1л'),
 (481, 'ополаскиватель для посуды в посудомоечной машине prosept splash rinser 08л'),
 (482, 'моющее средство для посуды в посудомоечной машине prosept splash lime 1л'),
 (483, 'cпрей для очистки каминных стекол от сажи и копоти prosept universal hard 05л'),
 (513, 'огнебиозащита для древесины prosept огнебиоprofii 10л 06410и'),
)

for name in true_name:
    df_dealerprice.loc[df_dealerprice.index == name[0], ['product_name']] = name[1]

In [17]:
word_list = ['антижук', 'антисептик', 'prosept', 'ecoultra', 'жидкое', 
             'средство', 'для', 'стирки', 'спортивной', 'одежды', 'crystal', 
             'sport', 'ополаскиватель' 'посуды', 'впосудомоечной', 'машине', 
             'splash', 'rinser', 'моющее', 'lime', 'очистки', 'каминных', 
             'стекол', 'отсажи' 'икопоти', 'universal', 'hard', 'огнебиозащита', 
             'древесины', 'огнебио', 'profii', 'лак', 'интерьерный', 'глянцевый', 
             'полуматовый', '05709', '05909', 'xm', 'кор', 'eco', 'univerasal', 
             '5л', '10л',  '09л', '115л', '1110л'
            ]

def split_solid_name(name):
    '''
    Функция разделения на слова имени товара, записанного сплошь, без пробелов.
    '''   
    return(" ".join([word.lower() for word in word_list if word.lower() in name.lower()])).strip()


list_index_name_correction = \
    list(df_dealerprice.loc[df_dealerprice['product_name_split'].str.len() < 2].index)


for ind in list_index_name_correction:
    df_dealerprice.loc[df_dealerprice.index == ind, ['product_name']] = \
        split_solid_name(str(df_dealerprice[df_dealerprice.index == ind]['product_name']))


df_dealerprice['product_name_split'] =\
    df_dealerprice['product_name'].apply(lambda x: x.split())
df_dealerprice.loc[df_dealerprice['product_name_split'].str.len() < 2]

Unnamed: 0,id,product_key,price,product_url,product_name,date,dealer_id,product_name_split


In [18]:
## Удаляем значения массы и объема из названия:

In [19]:
pos = [0, 3, 252, 282, 430, 1090, 1309, 1312, 1391]

for i in pos:
    print(df_dealerprice.product_name[i])
    print(df_dealerprice.product_name[i].split(), '\n')

средство универсальное prosept universal spray 500мл
['средство', 'универсальное', 'prosept', 'universal', 'spray', '500мл'] 

удалитель ржавчины prosept rust remover 05л 02305
['удалитель', 'ржавчины', 'prosept', 'rust', 'remover', '05л', '02305'] 

просепт professional cooky gel lemon гель экономкласса для мытья посуды 5 л бутылка
['просепт', 'professional', 'cooky', 'gel', 'lemon', 'гель', 'экономкласса', 'для', 'мытья', 'посуды', '5', 'л', 'бутылка'] 

просепт professional cooky grill gel концентрат гелеобразный для чистки гриля и духовых шкафов 1 л
['просепт', 'professional', 'cooky', 'grill', 'gel', 'концентрат', 'гелеобразный', 'для', 'чистки', 'гриля', 'и', 'духовых', 'шкафов', '1', 'л'] 

prosept для древесины eco 10л
['prosept', 'для', 'древесины', 'eco', '10л'] 

отбеливатель для древесины prosept 50 20 л 24 кг 00120
['отбеливатель', 'для', 'древесины', 'prosept', '50', '20', 'л', '24', 'кг', '00120'] 

акриловый герметик для швов в деревянных домах конструкциях изделиях pro

# Признак длина названия.

In [20]:
# Добавим новый признак с длиной названия товара:

df_dealerprice['len_name'] = df_dealerprice['product_name'].str.len()
df_product['len_name'] = df_product['name'].str.len()

# Векторизация.

In [21]:
corpus_train = df_dealerprice['len_name'].values.astype('U')
count_tf_idf_train = TfidfVectorizer()
# count_tf_idf_train = TfidfVectorizer(ngram_range=(2, 2))
tf_idf_train = count_tf_idf_train.fit_transform(corpus_train)
print("Размер матрицы:", tf_idf_train.shape)

corpus_targer = df_product['name'].values.astype('U')
count_tf_idf_targer = TfidfVectorizer()
# count_tf_idf_targer = TfidfVectorizer(ngram_range=(2, 2))
tf_idf_targer = count_tf_idf_targer.fit_transform(corpus_targer)
print("Размер матрицы:", tf_idf_targer.shape)

Размер матрицы: (1923, 104)
Размер матрицы: (496, 640)


# NearestNeighbors

In [22]:
neigh = NearestNeighbors(n_neighbors = 5, algorithm = 'auto', n_jobs = -1)
neigh.fit(tf_idf_train)
distances, indices = neigh.kneighbors(tf_idf_targer)

ValueError: X has 640 features, but NearestNeighbors is expecting 104 features as input.