In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import LabelEncoder

import seaborn as sns
import warnings   
warnings.filterwarnings('ignore')
pd.set_option('display.max_rows', 100)

In [3]:
data = pd.read_excel('data_140000_200000.xlsx')
data1 = pd.read_excel('data_4000_8500.xlsx')

In [4]:
data0 = data.drop('id', axis = 1)
data1 = data1.drop('Индекс (id)', axis = 1)
data0.columns = ['Наименование', 'Код_ЕП_РФ_подкатегория', 'Подкатегория_текст']
data1.columns = ['Наименование', 'Код_ЕП_РФ_подкатегория', 'Подкатегория_текст']

df = pd.concat([data0, data1])

In [5]:
df = df.reset_index(drop = True)
df = df.drop_duplicates(keep = 'first')

In [6]:
df.head()

Unnamed: 0,Наименование,Код_ЕП_РФ_подкатегория,Подкатегория_текст
0,"Парацетамол таблетки 500 мг 10 шт., упаковки я...",9300.1,"Лекарственные средства, зарегистрированные в у..."
1,Перезаряжаемая литий-ионная батарея торговой м...,3482.2,Аккумуляторы и аккумуляторные батареи никель-м...
2,Перезаряжаемая литий-ионная батарея торговой м...,3482.2,Аккумуляторы и аккумуляторные батареи никель-м...
3,Аппарат вакуумно-лазерной терапии стоматологич...,9444.4,Приборы и аппараты для электролечения высокоча...
4,Блоки оконные и балконные дверные из алюминиев...,5270.1,Блоки оконные и балконные дверные из алюминиев...


In [7]:
df.nunique()

Наименование              160583
Код_ЕП_РФ_подкатегория       666
Подкатегория_текст           645
dtype: int64

In [8]:
df['Код_ЕП_РФ_подкатегория'].value_counts()

9300.1                    86752
2364.1                     6622
5990.1                     3163
5970.1                     2932
2293.1                     2743
                          ...  
9441.4; 9436.1                1
2293.2; 2293.5; 2293.1        1
3456.11                       1
9295.1; 9295                  1
1483.1; 2293                  1
Name: Код_ЕП_РФ_подкатегория, Length: 666, dtype: int64

В данных есть колоноки с несколькими категориями

In [20]:
df['multiple_codes'] = df['Код_ЕП_РФ_подкатегория'].apply(lambda x : 1 if ';' in x else 0)

In [21]:
df['multiple_codes'].value_counts()

0    162226
1      1023
Name: multiple_codes, dtype: int64

In [22]:
df[df['multiple_codes'] == 0].nunique()

Наименование              159709
Код_ЕП_РФ_подкатегория       403
Подкатегория_текст           385
multiple_codes                 1
Код_подкатегория             385
dtype: int64

In [23]:
df[df['multiple_codes'] == 1].nunique()

Наименование              973
Код_ЕП_РФ_подкатегория    263
Подкатегория_текст        260
multiple_codes              1
Код_подкатегория          260
dtype: int64

Drop invalid rows

In [24]:
df = df[df['multiple_codes'] == 0].drop('multiple_codes', axis=1)
df.head()

Unnamed: 0,Наименование,Код_ЕП_РФ_подкатегория,Подкатегория_текст,Код_подкатегория
0,"Парацетамол таблетки 500 мг 10 шт., упаковки я...",9300.1,"Лекарственные средства, зарегистрированные в у...",261
1,Перезаряжаемая литий-ионная батарея торговой м...,3482.2,Аккумуляторы и аккумуляторные батареи никель-м...,11
2,Перезаряжаемая литий-ионная батарея торговой м...,3482.2,Аккумуляторы и аккумуляторные батареи никель-м...,11
3,Аппарат вакуумно-лазерной терапии стоматологич...,9444.4,Приборы и аппараты для электролечения высокоча...,442
4,Блоки оконные и балконные дверные из алюминиев...,5270.1,Блоки оконные и балконные дверные из алюминиев...,51


Закодируем для удобства предсказания

In [25]:
le = LabelEncoder()
df['Код_подкатегория'] = le.fit_transform(df['Подкатегория_текст'])

In [26]:
df.nunique()

Наименование              159709
Код_ЕП_РФ_подкатегория       403
Подкатегория_текст           385
Код_подкатегория             385
dtype: int64

In [27]:
df.head()

Unnamed: 0,Наименование,Код_ЕП_РФ_подкатегория,Подкатегория_текст,Код_подкатегория
0,"Парацетамол таблетки 500 мг 10 шт., упаковки я...",9300.1,"Лекарственные средства, зарегистрированные в у...",156
1,Перезаряжаемая литий-ионная батарея торговой м...,3482.2,Аккумуляторы и аккумуляторные батареи никель-м...,7
2,Перезаряжаемая литий-ионная батарея торговой м...,3482.2,Аккумуляторы и аккумуляторные батареи никель-м...,7
3,Аппарат вакуумно-лазерной терапии стоматологич...,9444.4,Приборы и аппараты для электролечения высокоча...,267
4,Блоки оконные и балконные дверные из алюминиев...,5270.1,Блоки оконные и балконные дверные из алюминиев...,35


In [28]:
df.isna().sum()

Наименование              0
Код_ЕП_РФ_подкатегория    0
Подкатегория_текст        0
Код_подкатегория          0
dtype: int64

Почему кол-во кодов подкатегорий не равно ков-ву описаний?

In [29]:
df

Unnamed: 0,Наименование,Код_ЕП_РФ_подкатегория,Подкатегория_текст,Код_подкатегория
0,"Парацетамол таблетки 500 мг 10 шт., упаковки я...",9300.1,"Лекарственные средства, зарегистрированные в у...",156
1,Перезаряжаемая литий-ионная батарея торговой м...,3482.2,Аккумуляторы и аккумуляторные батареи никель-м...,7
2,Перезаряжаемая литий-ионная батарея торговой м...,3482.2,Аккумуляторы и аккумуляторные батареи никель-м...,7
3,Аппарат вакуумно-лазерной терапии стоматологич...,9444.4,Приборы и аппараты для электролечения высокоча...,267
4,Блоки оконные и балконные дверные из алюминиев...,5270.1,Блоки оконные и балконные дверные из алюминиев...,35
...,...,...,...,...
280643,"Посуда чугунная: кастрюли, сковороды, котлы, к...",9695.2,Посуда чугунная черная,246
280647,Посуда из полипропилена и полистирола одноразо...,2293.5,"Посуда, в том числе одноразового применения (к...",247
280674,"Посуда из керамики для взрослых: чашки, пиалы ...",5990.1,"Посуда керамическая (фарфоровая, полуфарфорова...",238
280684,Посуда из пластмассы для взрослых: фляги для в...,2293.5,"Посуда, в том числе одноразового применения (к...",247


In [30]:
from tqdm import tqdm

In [31]:
codes = {}
counter = 0
for i in tqdm(range(len(df))):
    #print(codes)
    if df.iloc[i, 2] in codes:
        if codes[df.iloc[i, 2]] == df.iloc[i, 1]:
            continue 
        else:
            print(f'{codes[df.iloc[i, 2]]} != {df.iloc[i, 1]}, {i}')
            counter += 1
    else:
        codes[df.iloc[i, 2]] = df.iloc[i, 1]
    

  4%|██▌                                                                      | 5775/162226 [00:00<00:13, 11842.45it/s]

9392.1 != 2386.3, 3660


  6%|████▏                                                                    | 9374/162226 [00:00<00:12, 11845.17it/s]

9392.1 != 2386.3, 7764
9296.23 != 9291.2, 8160
9296.23 != 9291.2, 8401
9296.23 != 9291.2, 8612
9296.23 != 9291.2, 9414
9296.23 != 9291.2, 9818
9398.1 != 9391.9, 9849
5463.9 != 8460.1, 9870


  7%|█████▏                                                                  | 11710/162226 [00:01<00:13, 10994.61it/s]

5463.9 != 8460.1, 10354
5463.9 != 8460.1, 10438
5463.9 != 8460.1, 10444
9392.1 != 2386.3, 10716
9392.1 != 2386.3, 10797
9392.1 != 2386.3, 11509
9392.1 != 2386.3, 11512
9296.23 != 9291.2, 11583
9392.1 != 2386.3, 11892
9392.1 != 2386.3, 11914


  9%|██████▋                                                                 | 15066/162226 [00:01<00:13, 10929.88it/s]

9296.23 != 9291.2, 13282
9296.23 != 9291.2, 13312
5463.9 != 8460.1, 13557
5463.9 != 8460.1, 14272
9296.23 != 9291.2, 14612
9296.23 != 9291.2, 14617
9296.23 != 9291.2, 14816
9296.23 != 9291.2, 14959
9296.23 != 9291.2, 15445


 11%|████████▏                                                               | 18503/162226 [00:01<00:12, 11156.36it/s]

9392.1 != 2386.3, 16079
9296.23 != 9291.2, 16287
9296.23 != 9291.2, 16495
9398.1 != 9391.9, 16528
9296.23 != 9291.2, 16622
9296.23 != 9291.2, 16890
2180.1 != 2387.2, 17394
9398.1 != 9391.9, 17574
2180.1 != 2387.2, 18056
9398.1 != 9391.9, 18429


 13%|█████████▏                                                              | 20798/162226 [00:01<00:12, 11072.41it/s]

9296.23 != 9291.2, 18645
9296.23 != 9291.2, 18647
2180.1 != 2387.2, 18718
9296.23 != 9291.2, 18851
9296.23 != 9291.2, 18853
9296.23 != 9291.2, 18855
9296.23 != 9291.2, 18857
2180.1 != 2387.2, 18996
5463.9 != 8460.1, 19511
5463.9 != 8460.1, 19513
5463.9 != 8460.1, 19517
5463.9 != 8460.1, 19520
2180.1 != 2387.2, 19538
9296.23 != 9291.2, 19812
5463.9 != 8460.1, 20232
9392.1 != 2386.3, 20302
9392.1 != 2386.3, 20304
9392.1 != 2386.3, 20305
5463.9 != 8460.1, 20392
2180.1 != 2387.2, 20465
9296.23 != 9291.2, 20511
2180.1 != 2387.2, 20573
9392.1 != 2386.3, 20625
9392.1 != 2386.3, 20626
9392.1 != 2386.3, 20628
9392.1 != 2386.3, 20629
5463.9 != 8460.1, 20759


 14%|██████████▏                                                             | 22977/162226 [00:02<00:13, 10584.93it/s]

2180.1 != 2387.2, 20804
5463.9 != 8460.1, 20956
9296.23 != 9291.2, 21151
9391.1 != 9391, 21691
9296.23 != 9291.2, 21742
2180.1 != 2387.2, 21880
2180.1 != 2387.2, 21979
9296.23 != 9291.2, 22498
9398.1 != 9391.9, 22529
2180.1 != 2387.2, 22547
5463.9 != 8460.1, 23068
9392.1 != 2386.3, 23126
2180.1 != 2387.2, 23327
9296.23 != 9291.2, 23340


 15%|███████████▎                                                             | 25076/162226 [00:02<00:14, 9524.04it/s]

2180.1 != 2387.2, 23700
2180.1 != 2387.2, 24411
2180.1 != 2387.2, 24421
2180.1 != 2387.2, 24935
2180.1 != 2387.2, 25045


 17%|████████████▌                                                           | 28234/162226 [00:02<00:13, 10090.29it/s]

9296.23 != 9291.2, 27004
9296.23 != 9291.2, 27326
9296.23 != 9291.2, 27419
9296.23 != 9291.2, 27485
9296.23 != 9291.2, 27508
9392.1 != 2386.3, 28297
9392.1 != 2386.3, 29057
9392.1 != 2386.3, 29061
9392.1 != 2386.3, 29102
9296.23 != 9291.2, 29190
3414.16 != 3414.18, 29280


 20%|██████████████                                                          | 31666/162226 [00:02<00:12, 10658.62it/s]

5463.9 != 8460.1, 29571
3414.16 != 3414.18, 30467
5463.9 != 8460.1, 30690
9398.1 != 9391.9, 31454
9296.23 != 9291.2, 31478


 21%|███████████████▏                                                         | 33778/162226 [00:03<00:14, 8988.65it/s]

9480.1 != 9480, 31953
9296.23 != 9291.2, 32084
9296.23 != 9291.2, 32691
9296.23 != 9291.2, 32756
9392.1 != 2386.3, 32928
9392.1 != 2386.3, 32945
9392.1 != 2386.3, 32946
3412.1 != 3412, 32948
9296.23 != 9291.2, 33144
9296.23 != 9291.2, 33201
2180.1 != 2180, 33442


 22%|████████████████▏                                                        | 35985/162226 [00:03<00:12, 9971.24it/s]

9392.1 != 2386.3, 34013
9296.23 != 9291.2, 34241
9296.23 != 9291.2, 35194
2180.1 != 2180, 35200
2180.1 != 2387.2, 35205


 24%|████████████████▉                                                       | 38244/162226 [00:03<00:12, 10235.90it/s]

2180.1 != 2387.2, 36192
2180.1 != 2180, 36195
2180.1 != 2387.2, 36197
2180.1 != 2387.2, 36214
2180.1 != 2387.2, 36215
2180.1 != 2180, 36216
2180.1 != 2180, 36261
2180.1 != 2180, 36316
2180.1 != 2180, 36424
9296.23 != 9291.2, 36434
3414.16 != 3414.18, 37092
9296.23 != 9291.2, 37599
2180.1 != 2387.2, 38816


 25%|██████████████████                                                       | 40246/162226 [00:03<00:12, 9385.20it/s]

9296.23 != 9291.2, 39127
9398.1 != 9391.9, 40629
2180.1 != 2387.2, 41131


 27%|███████████████████▎                                                    | 43557/162226 [00:04<00:11, 10317.07it/s]

9392.1 != 2386.3, 41586
9392.1 != 2386.3, 41628
9296.23 != 9291.2, 42087
9296.23 != 9291.2, 42093
9296.23 != 9291.2, 42451
9398.1 != 9391.9, 42455
3414.16 != 3414.18, 42509
9296.23 != 9291.2, 43894


 29%|████████████████████▊                                                   | 46769/162226 [00:04<00:10, 10543.69it/s]

9296.23 != 9291.2, 44662
9398.1 != 9391.9, 44684
5463.9 != 8460.1, 44964
9296.23 != 9291.2, 45272
9296.23 != 9291.2, 45816


 31%|██████████████████████▏                                                 | 50036/162226 [00:04<00:10, 10489.40it/s]

9296.23 != 9291.2, 48032
2180.1 != 2387.2, 48338
3412.1 != 3412, 48925


 32%|███████████████████████▏                                                | 52150/162226 [00:04<00:10, 10480.03it/s]

9296.23 != 9291.2, 50061
9296.23 != 9291.2, 50959
9296.23 != 9291.2, 52097
9296.23 != 9291.2, 52123
5463.9 != 8460.1, 52658
2180.1 != 2387.2, 52751

 33%|████████████████████████                                                | 54253/162226 [00:05<00:10, 10277.30it/s]


9398.1 != 9391.9, 53204


 35%|█████████████████████████                                               | 56340/162226 [00:05<00:10, 10320.50it/s]

9296.23 != 9291.2, 54885
9296.23 != 9291.2, 55046
5463.9 != 8460.1, 55327
2180.1 != 2387.2, 56145
9398.1 != 9391.9, 56772
2180.1 != 2387.2, 56889
2180.1 != 2387.2, 57189
2180.1 != 2387.2, 57218
2180.1 != 2387.2, 57261
2180.1 != 2387.2, 57353


 37%|██████████████████████████▌                                             | 59765/162226 [00:05<00:09, 10943.00it/s]

2180.1 != 2387.2, 58156
2180.1 != 2387.2, 58472
2180.1 != 2387.2, 58859
2180.1 != 2387.2, 59287
5463.9 != 8460.1, 60354


 38%|███████████████████████████▌                                            | 62014/162226 [00:05<00:09, 10883.97it/s]

9392.1 != 2386.3, 60596
9296.23 != 9291.2, 61143
9398.1 != 9391.9, 62858


 41%|█████████████████████████████▉                                          | 67320/162226 [00:06<00:09, 10359.12it/s]

9296.23 != 9291.2, 64619
9296.23 != 9291.2, 64737
9296.23 != 9291.2, 64812
9296.23 != 9291.2, 64824
9392.1 != 2386.3, 65220
2180.1 != 2387.2, 65287
9296.23 != 9291.2, 65718
9296.23 != 9291.2, 66355
9392.1 != 2386.3, 66413
9296.23 != 9291.2, 66926
9296.23 != 9291.2, 66962


 47%|█████████████████████████████████▌                                      | 75547/162226 [00:07<00:07, 11394.16it/s]

2180.1 != 2387.2, 73607
9296.23 != 9291.2, 74178
2180.1 != 2387.2, 74346
3414.16 != 3414.18, 74903
9296.23 != 9291.2, 75119
9296.23 != 9291.2, 75131
9398.1 != 9391.9, 75704


 48%|██████████████████████████████████▌                                     | 77774/162226 [00:07<00:08, 10501.01it/s]

9392.1 != 2386.3, 76109


 50%|████████████████████████████████████                                    | 81263/162226 [00:07<00:07, 11276.05it/s]

9296.23 != 9291.2, 78905
9398.1 != 9391.9, 79852
9392.1 != 2386.3, 80095


 51%|█████████████████████████████████████                                   | 83524/162226 [00:07<00:07, 11089.05it/s]

9296.23 != 9291.2, 82001
9296.23 != 9291.2, 82455
9296.23 != 9291.2, 82483
9296.23 != 9291.2, 84117
9296.23 != 9291.2, 84121


 53%|██████████████████████████████████████                                  | 85790/162226 [00:08<00:07, 10843.51it/s]

9296.23 != 9291.2, 84839
2180.1 != 2387.2, 85538
9392.1 != 2386.3, 85575
9392.1 != 2386.3, 86357


 56%|████████████████████████████████████████                                | 90333/162226 [00:08<00:06, 11102.70it/s]

9296.23 != 9291.2, 87661
9392.1 != 2386.3, 88075
9398.1 != 9391.9, 88265
9398.1 != 9391.9, 88544
9398.1 != 9391.9, 88718


 57%|█████████████████████████████████████████                               | 92589/162226 [00:08<00:06, 11061.57it/s]

9392.1 != 2386.3, 90580
9296.23 != 9291.2, 91656
9398.1 != 9391.9, 92800


 59%|██████████████████████████████████████████▌                             | 95956/162226 [00:09<00:06, 10723.07it/s]

9392.1 != 2386.3, 94335
9398.1 != 9391.9, 94479
9398.1 != 9391.9, 94570


 60%|███████████████████████████████████████████▌                            | 98097/162226 [00:09<00:06, 10612.49it/s]

9392.1 != 2386.3, 97039
9296.23 != 9291.2, 97133
9296.23 != 9291.2, 97818


 65%|█████████████████████████████████████████████▉                         | 105103/162226 [00:09<00:05, 10982.11it/s]

9296.23 != 9291.2, 102054
9398.1 != 9391.9, 104065
9296.23 != 9291.2, 104558
9296.23 != 9291.2, 104685
2180.1 != 2387.2, 104858


 66%|██████████████████████████████████████████████▉                        | 107360/162226 [00:10<00:04, 11099.70it/s]

2553.1 != 2557.1, 105176
2553.1 != 2557.1, 105183
2180.1 != 2387.2, 108249


 70%|█████████████████████████████████████████████████▌                     | 113167/162226 [00:10<00:04, 11361.05it/s]

9296.23 != 9291.2, 111513
9392.1 != 2386.3, 111616
9392.1 != 2386.3, 111697
9392.1 != 2386.3, 111699
9392.1 != 2386.3, 111700
9392.1 != 2386.3, 111885
3414.16 != 3414.18, 112310
2180.1 != 2387.2, 112482
2180.1 != 2387.2, 112551
9398.1 != 9391.9, 112573
2180.1 != 2387.2, 112589
2180.1 != 2387.2, 112591
9296.23 != 9291.2, 112781
9296.23 != 9291.2, 112931
9392.1 != 2386.3, 113061
9392.1 != 2386.3, 113063
9392.1 != 2386.3, 113079
9296.23 != 9291.2, 113157
9296.23 != 9291.2, 113214
9296.23 != 9291.2, 113216
9398.1 != 9391.9, 113217
9392.1 != 2386.3, 113239
9398.1 != 9391.9, 113457
9296.23 != 9291.2, 113483
9392.1 != 2386.3, 113620
9392.1 != 2386.3, 113623
9392.1 != 2386.3, 113627
9392.1 != 2386.3, 113628
2180.1 != 2387.2, 113977
9398.1 != 9391.9, 113992

 71%|██████████████████████████████████████████████████▌                    | 115389/162226 [00:10<00:04, 10563.58it/s]


9296.23 != 9291.2, 114167
9398.1 != 9391.9, 114384
9392.1 != 2386.3, 114470
9296.23 != 9291.2, 114515
2180.1 != 2387.2, 114626
2553.1 != 2557.1, 114852
9296.23 != 9291.2, 114987
9296.23 != 9291.2, 115015
9296.23 != 9291.2, 115071
2180.1 != 2387.2, 115169
9296.23 != 9291.2, 115243
9398.1 != 9391.9, 115259
9398.1 != 9391.9, 115305
9296.23 != 9291.2, 115381
9296.23 != 9291.2, 115481
9398.1 != 9391.9, 115525
9392.1 != 2386.3, 115588
9398.1 != 9391.9, 115653
2180.1 != 2387.2, 116029
2180.1 != 2387.2, 116163

 72%|███████████████████████████████████████████████████▍                   | 117602/162226 [00:10<00:04, 10811.82it/s]


2180.1 != 2387.2, 116323
2180.1 != 2387.2, 116330
9296.23 != 9291.2, 116356
9391.1 != 9391, 116624
9392.1 != 2386.3, 116629
9392.1 != 2386.3, 116630
2180.1 != 2387.2, 116751
2180.1 != 2387.2, 116764
9392.1 != 2386.3, 116786
2180.1 != 2387.2, 116807
9296.23 != 9291.2, 116835
9392.1 != 2386.3, 116836
9296.23 != 9291.2, 117341
2180.1 != 2387.2, 117541
2180.1 != 2387.2, 117591
9392.1 != 2386.3, 117634
9392.1 != 2386.3, 117636
9392.1 != 2386.3, 117637
9398.1 != 9391.9, 117743
9398.1 != 9391.9, 117745
2180.1 != 2180, 117825
2180.1 != 2387.2, 117869
9296.23 != 9291.2, 117872
2180.1 != 2180, 118359
9392.1 != 2386.3, 118404
9398.1 != 9391.9, 118461
3412.1 != 3412, 118486
9296.23 != 9291.2, 118571


 75%|████████████████████████████████████████████████████▉                  | 121082/162226 [00:11<00:03, 11421.01it/s]

2180.1 != 2387.2, 118745
2180.1 != 2180, 118809
9296.23 != 9291.2, 118942
9296.23 != 9291.2, 118944
2180.1 != 2387.2, 118949
9392.1 != 2386.3, 118995
9392.1 != 2386.3, 118997
9398.1 != 9391.9, 119390
9398.1 != 9391.9, 119406
9398.1 != 9391.9, 119450
9296.23 != 9291.2, 119457
9385.1 != 9385, 119467
2180.1 != 2387.2, 119534
9296.23 != 9291.2, 119662
3412.1 != 3412, 119717
2553.1 != 2557.1, 119745
9398.1 != 9391.9, 119830
9398.1 != 9391.9, 119837
9296.23 != 9291.2, 120462
9480.1 != 9480, 120495
9392.1 != 2386.3, 120526
2180.1 != 2387.2, 120663
9392.1 != 2386.3, 120672
9291.1 != 9291, 120750
9398.1 != 9391.9, 120856
9392.1 != 2386.3, 120874
9392.1 != 2386.3, 120875
9296.23 != 9291.2, 120879
9296.23 != 9291.2, 120883
2440.1 != 2440, 121101
2440.1 != 2440, 121102
2180.1 != 2387.2, 121280
2180.1 != 2387.2, 121316
9296.23 != 9291.2, 121322
9296.23 != 9291.2, 121335
9296.23 != 9291.2, 121402

 76%|█████████████████████████████████████████████████████▉                 | 123334/162226 [00:11<00:03, 10853.97it/s]


9398.1 != 9391.9, 121687
9296.23 != 9291.2, 121743
9392.1 != 2386.3, 121985
9296.23 != 9291.2, 121992
9291.1 != 9291, 122029
9398.1 != 9391.9, 122246
9296.23 != 9291.2, 122274
3412.1 != 3412, 122411
9392.1 != 2386.3, 122440
9392.1 != 2386.3, 122441
9296.23 != 9291.2, 122601
9391.1 != 9391, 122736
2180.1 != 2387.2, 122817
2180.1 != 2387.2, 122819
2553.1 != 2557.1, 122907
2553.1 != 2557.1, 122918
2553.1 != 2557.1, 122953
9296.23 != 9291.2, 123651
9291.1 != 9291, 123710
9398.1 != 9391.9, 123739
3412.1 != 3412, 123773
9291.1 != 9291, 123906
9291.1 != 9291, 123913
9291.1 != 9291, 123914
9291.1 != 9291, 123917
9291.1 != 9291, 123918
2180.1 != 2387.2, 123967


 78%|███████████████████████████████████████████████████████▍               | 126592/162226 [00:11<00:03, 10485.23it/s]

2180.1 != 2387.2, 124198
9433.1 != 9433, 124317
9434.1 != 9434, 124318
9398.1 != 9391.9, 124378
9392.1 != 2386.3, 124667
9398.1 != 9391.9, 124987
9392.1 != 2386.3, 125099
9398.1 != 9391.9, 125141
9391.1 != 9391, 125291
9398.1 != 9391.9, 125298
2553.1 != 2557.1, 125409
9398.1 != 9391.9, 125431
9392.1 != 2386.3, 125480
9398.1 != 9391.9, 125535
9398.1 != 9391.9, 125596
9398.1 != 9391.9, 125633
9398.1 != 9391.9, 125642
9398.1 != 9391.9, 125643
9391.1 != 9391, 125645
2180.1 != 2387.2, 125672
2180.1 != 2180, 125676
9392.1 != 2386.3, 125725
9480.1 != 9480, 125782
9480.1 != 9480, 125795
9480.1 != 9480, 125803
2180.1 != 2387.2, 125825
9480.1 != 9480, 125901
9480.1 != 9480, 125902
9480.1 != 9480, 125903
9296.23 != 9291.2, 125947
9398.1 != 9391.9, 125960
9391.1 != 9391, 125991
9391.1 != 9391, 125995
9296.23 != 9291.2, 126085
9391.1 != 9391, 126177
2180.1 != 2180, 126299
3412.1 != 3412, 126523
2180.1 != 2387.2, 126555


 79%|████████████████████████████████████████████████████████▍              | 128849/162226 [00:12<00:03, 10869.62it/s]

9391.1 != 9391, 126932
3412.1 != 3412, 126948
3412.1 != 3412, 126996
9296.23 != 9291.2, 127125
2440.1 != 2440, 127156
2440.1 != 2440, 127447
9291.1 != 9291, 127531
9392.1 != 2386.3, 127819
3412.1 != 3412, 127840
9398.1 != 9391.9, 127853
9391.1 != 9391, 128149
9391.1 != 9391, 128208
9391.1 != 9391, 128505
9480.1 != 9480, 128506
2440.1 != 2440, 128578
9391.1 != 9391, 128701
9391.1 != 9391, 128704
2553.1 != 2557.1, 129124
9296.23 != 9291.2, 129299


 81%|██████████████████████████████████████████████████████████▏             | 131029/162226 [00:12<00:03, 9883.83it/s]

9398.1 != 9391.9, 129527
9398.1 != 9391.9, 129849
9398.1 != 9391.9, 129887
9391.1 != 9391, 129889
2180.1 != 2387.2, 129946
9398.1 != 9391.9, 130019
9398.1 != 9391.9, 130247
9296.23 != 9291.2, 130626
9398.1 != 9391.9, 130911
9296.23 != 9291.2, 131110
9391.1 != 9391, 131120
9391.1 != 9391, 131179
9391.1 != 9391, 131183
9391.1 != 9391, 131186
9391.1 != 9391, 131324
9391.1 != 9391, 131325
9391.1 != 9391, 131541
9391.1 != 9391, 131596
9391.1 != 9391, 131599
9398.1 != 9391.9, 131682

 82%|██████████████████████████████████████████████████████████▎            | 133152/162226 [00:12<00:02, 10181.74it/s]


9398.1 != 9391.9, 131781
9392.1 != 2386.3, 131953
9398.1 != 9391.9, 132023
9391.1 != 9391, 132066
9391.1 != 9391, 132069
2180.1 != 2180, 132089
9392.1 != 2386.3, 132356
9392.1 != 2386.3, 132358
3412.1 != 3412, 132571
9398.1 != 9391.9, 132621
2180.1 != 2387.2, 132794
9296.23 != 9291.2, 132936
9398.1 != 9391.9, 132939
9398.1 != 9391.9, 133064
9296.23 != 9291.2, 133245
9391.1 != 9391, 133532
2180.1 != 2387.2, 133554


 83%|███████████████████████████████████████████████████████████▉            | 135161/162226 [00:12<00:02, 9673.26it/s]

9296.23 != 9291.2, 133849
9296.23 != 9291.2, 133856
9296.23 != 9291.2, 134200
3412.1 != 3412, 134311
9391.1 != 9391, 134461
9398.1 != 9391.9, 134536
2180.1 != 2387.2, 134722
9392.1 != 2386.3, 134779
9392.1 != 2386.3, 134781
2553.1 != 2557.1, 134843
9391.1 != 9391, 134917
2180.1 != 2387.2, 135232
2180.1 != 2180, 135268
9398.1 != 9391.9, 135309
3412.1 != 3412, 135350
9391.1 != 9391, 135564


 85%|████████████████████████████████████████████████████████████▉           | 137223/162226 [00:12<00:02, 9947.76it/s]

9391.1 != 9391, 135823
9296.23 != 9291.2, 135951
9391.1 != 9391, 135991
2180.1 != 2180, 136059
2553.1 != 2557.1, 136065
2180.1 != 2387.2, 136082
2180.1 != 2387.2, 136089
9398.1 != 9391.9, 136231
9398.1 != 9391.9, 136325
9398.1 != 9391.9, 136336
9398.1 != 9391.9, 136514
2440.1 != 2440, 136536
9391.1 != 9391, 136554
9433.1 != 9433, 136685
2180.1 != 2180, 136691
2180.1 != 2180, 136858
9385.1 != 9385, 137046
3412.1 != 3412, 137058
9296.23 != 9291.2, 137190
9398.1 != 9391.9, 137545
9398.1 != 9391.9, 137569
2180.1 != 2180, 137867
2180.1 != 2180, 137873
2180.1 != 2387.2, 137884
2180.1 != 2387.2, 137887
9398.1 != 9391.9, 137911
9296.23 != 9291.2, 137938
9392.1 != 2386.3, 138000
9391.1 != 9391, 138252
9391.1 != 9391, 138258
9391.1 != 9391, 138267
9392.1 != 2386.3, 138312


 86%|█████████████████████████████████████████████████████████████          | 139473/162226 [00:13<00:02, 10515.37it/s]

9385.1 != 9385, 138643
9392.1 != 2386.3, 138785
2553.1 != 2557.1, 138808
2553.1 != 2557.1, 138969
9296.23 != 9291.2, 139146
9392.1 != 2386.3, 139348
9392.1 != 2386.3, 139388
9392.1 != 2386.3, 139394
2553.1 != 2557.1, 139469
9398.1 != 9391.9, 139525
9398.1 != 9391.9, 139695
9398.1 != 9391.9, 139857


 87%|██████████████████████████████████████████████████████████████         | 141782/162226 [00:13<00:01, 10528.98it/s]

9398.1 != 9391.9, 140582
9392.1 != 2386.3, 140687
9392.1 != 2386.3, 140694
9398.1 != 9391.9, 140790
9398.1 != 9391.9, 140791
9398.1 != 9391.9, 140793
9398.1 != 9391.9, 140794
9398.1 != 9391.9, 140795
9296.23 != 9291.2, 140873
9398.1 != 9391.9, 141191
2180.1 != 2387.2, 141307
9296.23 != 9291.2, 141627
3412.1 != 3412, 141713
9398.1 != 9391.9, 141733
9392.1 != 2386.3, 141910
2180.1 != 2387.2, 142034
5463.9 != 8460.1, 142303
9296.23 != 9291.2, 142315
9392.1 != 2386.3, 142403
9392.1 != 2386.3, 142574
9392.1 != 2386.3, 142575


 89%|███████████████████████████████████████████████████████████████        | 144021/162226 [00:13<00:01, 10353.77it/s]

9296.23 != 9291.2, 143004
9398.1 != 9391.9, 143136
9296.23 != 9291.2, 143550
9392.1 != 2386.3, 143598
9392.1 != 2386.3, 143602
9392.1 != 2386.3, 143608
2180.1 != 2387.2, 143723
2180.1 != 2387.2, 143724
2180.1 != 2387.2, 143725
9296.23 != 9291.2, 143775
9296.23 != 9291.2, 143839
2180.1 != 2387.2, 143904
2553.1 != 2557.1, 144013
9392.1 != 2386.3, 144016
9296.23 != 9291.2, 144154
9392.1 != 2386.3, 144171
9392.1 != 2386.3, 144216
2180.1 != 2387.2, 144237
9392.1 != 2386.3, 144344
9392.1 != 2386.3, 144352
2180.1 != 2387.2, 144354
2180.1 != 2387.2, 144518
9296.23 != 9291.2, 144575
2180.1 != 2387.2, 144601
9296.23 != 9291.2, 144723
9392.1 != 2386.3, 144780
9392.1 != 2386.3, 144925
9296.23 != 9291.2, 145006


 91%|████████████████████████████████████████████████████████████████▍      | 147245/162226 [00:13<00:01, 10371.14it/s]

9296.23 != 9291.2, 145215
2180.1 != 2387.2, 145387
2180.1 != 2387.2, 145622
9392.1 != 2386.3, 145658
2553.1 != 2557.1, 145768
9392.1 != 2386.3, 145802
9296.23 != 9291.2, 145904
9392.1 != 2386.3, 145989
9392.1 != 2386.3, 145995
2553.1 != 2557.1, 146167
9296.23 != 9291.2, 146312
9296.23 != 9291.2, 146451
9392.1 != 2386.3, 146630
9392.1 != 2386.3, 146662
9392.1 != 2386.3, 146666
9392.1 != 2386.3, 146724
9392.1 != 2386.3, 146820
9398.1 != 9391.9, 146873
2553.1 != 2557.1, 146980
9392.1 != 2386.3, 146999
9398.1 != 9391.9, 147005
9398.1 != 9391.9, 147006
2180.1 != 2387.2, 147011
9296.23 != 9291.2, 147104
9392.1 != 2386.3, 147186
9392.1 != 2386.3, 147251


 92%|█████████████████████████████████████████████████████████████████▍     | 149488/162226 [00:14<00:01, 10813.27it/s]

9296.23 != 9291.2, 147452
9392.1 != 2386.3, 147454
9392.1 != 2386.3, 147534
9398.1 != 9391.9, 147591
9392.1 != 2386.3, 147680
9296.23 != 9291.2, 147798
9392.1 != 2386.3, 147805
9392.1 != 2386.3, 147822
2180.1 != 2387.2, 148301
9296.23 != 9291.2, 148487
9398.1 != 9391.9, 148595
9392.1 != 2386.3, 148848
2180.1 != 2387.2, 148897
9296.23 != 9291.2, 149044
2180.1 != 2387.2, 149381
2180.1 != 2387.2, 149472
2553.1 != 2557.1, 149765
9392.1 != 2386.3, 149900
9392.1 != 2386.3, 149998
9296.23 != 9291.2, 150018
9296.23 != 9291.2, 150023
9296.23 != 9291.2, 150024
9296.23 != 9291.2, 150027
9392.1 != 2386.3, 150185
9296.23 != 9291.2, 150220
9392.1 != 2386.3, 150305
2180.1 != 2180, 150333
9392.1 != 2386.3, 150419


 94%|██████████████████████████████████████████████████████████████████▉    | 152870/162226 [00:14<00:00, 11021.28it/s]

2180.1 != 2387.2, 150579
9296.23 != 9291.2, 150593
9296.23 != 9291.2, 150728
2553.1 != 2557.1, 150844
9296.23 != 9291.2, 150922
2180.1 != 2387.2, 151037
2180.1 != 2387.2, 151075
2180.1 != 2387.2, 151076
9296.23 != 9291.2, 151144
9296.23 != 9291.2, 151150
9296.23 != 9291.2, 151151
9296.23 != 9291.2, 151158
9392.1 != 2386.3, 151272
2553.1 != 2557.1, 151275
2180.1 != 2387.2, 151639
9296.23 != 9291.2, 151880
9296.23 != 9291.2, 151926
9296.23 != 9291.2, 152035
2180.1 != 2387.2, 152519


 96%|███████████████████████████████████████████████████████████████████▊   | 155015/162226 [00:14<00:00, 10190.45it/s]

3183.26 != 3181.10, 152874
9392.1 != 2386.3, 152997
9296.23 != 9291.2, 153004
9296.23 != 9291.2, 153006
9296.23 != 9291.2, 153423
9398.1 != 9391.9, 153542
9296.23 != 9291.2, 153729
2180.1 != 2180, 153871
9392.1 != 2386.3, 154021
9392.1 != 2386.3, 154102
9392.1 != 2386.3, 154210
9392.1 != 2386.3, 154229
9392.1 != 2386.3, 154393
2553.1 != 2557.1, 154590
2553.1 != 2557.1, 154611
9392.1 != 2386.3, 154681
9296.23 != 9291.2, 154715
9392.1 != 2386.3, 154820
9392.1 != 2386.3, 154983
9392.1 != 2386.3, 155043
9296.23 != 9291.2, 155151
2180.1 != 2387.2, 155462
3183.26 != 3451.11, 155558
9392.1 != 2386.3, 155628
9296.23 != 9291.2, 155647

 97%|████████████████████████████████████████████████████████████████████▋  | 157069/162226 [00:14<00:00, 10065.80it/s]


9392.1 != 2386.3, 155688
9392.1 != 2386.3, 156373
9392.1 != 2386.3, 156375
9296.23 != 9291.2, 156510
9392.1 != 2386.3, 156539
9392.1 != 2386.3, 156674
9392.1 != 2386.3, 156712
9392.1 != 2386.3, 156824
9392.1 != 2386.3, 156844
9392.1 != 2386.3, 156899
2180.1 != 2387.2, 157022
2180.1 != 2387.2, 157023
3183.26 != 3451.11, 157190
9296.23 != 9291.2, 157477
9296.23 != 9291.2, 157523
9392.1 != 2386.3, 157597

 99%|██████████████████████████████████████████████████████████████████████▏| 160331/162226 [00:15<00:00, 10609.86it/s]


9296.23 != 9291.2, 157677
9296.23 != 9291.2, 157818
9392.1 != 2386.3, 157926
9392.1 != 2386.3, 157946
9392.1 != 2386.3, 157988
9392.1 != 2386.3, 158011
3414.16 != 3414.18, 158051
9296.23 != 9291.2, 158161
9296.23 != 9291.2, 158163
3414.16 != 3414.18, 158231
2180.1 != 2387.2, 158369
9392.1 != 2386.3, 158657
9392.1 != 2386.3, 158797
9392.1 != 2386.3, 158951
9296.23 != 9291.2, 159075
9296.23 != 9291.2, 159154
9296.23 != 9291.2, 159156
9296.23 != 9291.2, 159196
9392.1 != 2386.3, 159377
2553.1 != 2557.1, 159381
9392.1 != 2386.3, 159471
3414.16 != 3414.18, 159619


100%|███████████████████████████████████████████████████████████████████████| 162226/162226 [00:15<00:00, 10645.88it/s]

9296.23 != 9291.2, 160451
2553.1 != 2557.1, 160460
9296.23 != 9291.2, 160470
9392.1 != 2386.3, 160525
2553.1 != 2557.1, 160580
2440.1 != 2440, 160598
9296.23 != 9291.2, 160718
9392.1 != 2386.3, 160871
9296.23 != 9291.2, 160893





In [43]:
df[(df.Подкатегория_текст == 'Средства дезинфицирующие') & (df.Код_ЕП_РФ_подкатегория != '2386.3')]

Unnamed: 0,Наименование,Код_ЕП_РФ_подкатегория,Подкатегория_текст,Код_подкатегория
3798,Дезинфицирующее средство с моющим эффектом,9392.1,Средства дезинфицирующие,318
5489,Дезинфицирующее средство с моющим эффектом «Mi...,9392.1,Средства дезинфицирующие,318
5496,Дезинфицирующее средство,9392.1,Средства дезинфицирующие,318
5503,Дезинфицирующее средство (салфетки),9392.1,Средства дезинфицирующие,318
9900,Средство дезинфицирующее «Клерсайд Спорицидал ...,9392.1,Средства дезинфицирующие,318
...,...,...,...,...
267539,"Средство дезинфицирующее с моющим эффектом ""Же...",9392.1,Средства дезинфицирующие,318
267582,Средство дезинфицирующее «DGM Steriguard EASY ...,9392.1,Средства дезинфицирующие,318
267583,Средство дезинфицирующее «DGM Steriguard EASY ...,9392.1,Средства дезинфицирующие,318
267603,Средство дезинфицирующее «DGM Steriguard EASY ...,9392.1,Средства дезинфицирующие,318


In [46]:
df[(df.Подкатегория_текст == 'Средства дезинфицирующие') & (df.Код_ЕП_РФ_подкатегория == '2386.3')]

Unnamed: 0,Наименование,Код_ЕП_РФ_подкатегория,Подкатегория_текст,Код_подкатегория
6978,Средство дезинфицирующее (кожный антисептик),2386.3,Средства дезинфицирующие,318
18582,"Средство зоогигиеническое «Ребавагин», выпуска...",2386.3,Средства дезинфицирующие,318
24463,"Средство для предварительной, окончательной и ...",2386.3,Средства дезинфицирующие,318
24576,"Средство дезинфицирующее ""DGM Steriguard EASY ...",2386.3,Средства дезинфицирующие,318
26012,"Средство дезинфицирующее ""DGM Steriguard EASY ...",2386.3,Средства дезинфицирующие,318
...,...,...,...,...
264756,"Средство дезинфицирующее ""ДЕЗАВИД для Сауны""",2386.3,Средства дезинфицирующие,318
265382,"Средство инсектицидное ""Жидкость от комаров дл...",2386.3,Средства дезинфицирующие,318
265527,"Средство родентицидное ""BROS гранулы от мышей ...",2386.3,Средства дезинфицирующие,318
267074,Средства дезинфекционные,2386.3,Средства дезинфицирующие,318


In [44]:
df[(df.Подкатегория_текст == 'Средства дезинфицирующие')]

Unnamed: 0,Наименование,Код_ЕП_РФ_подкатегория,Подкатегория_текст,Код_подкатегория
3798,Дезинфицирующее средство с моющим эффектом,9392.1,Средства дезинфицирующие,318
5489,Дезинфицирующее средство с моющим эффектом «Mi...,9392.1,Средства дезинфицирующие,318
5496,Дезинфицирующее средство,9392.1,Средства дезинфицирующие,318
5503,Дезинфицирующее средство (салфетки),9392.1,Средства дезинфицирующие,318
6978,Средство дезинфицирующее (кожный антисептик),2386.3,Средства дезинфицирующие,318
...,...,...,...,...
267582,Средство дезинфицирующее «DGM Steriguard EASY ...,9392.1,Средства дезинфицирующие,318
267583,Средство дезинфицирующее «DGM Steriguard EASY ...,9392.1,Средства дезинфицирующие,318
267598,Средство дезинфицирующее «Перекись водорода 6%»,2386.3,Средства дезинфицирующие,318
267603,Средство дезинфицирующее «DGM Steriguard EASY ...,9392.1,Средства дезинфицирующие,318


In [183]:
counter

904

In [32]:
codes_all = {}
counter = 0
for i in tqdm(range(len(df))):
    #print(codes)
    if df.iloc[i, 2] in codes_all:
        codes_all[df.iloc[i, 2]].append(df.iloc[i, 1])
    else:
        codes_all[df.iloc[i, 2]] = [df.iloc[i, 1]]

100%|███████████████████████████████████████████████████████████████████████| 162226/162226 [00:13<00:00, 11665.90it/s]


In [33]:
#codes_all

In [34]:
import statistics
from statistics import mode
 
def most_common(List):
    return(mode(List))

In [35]:
codes_matching = {}
for i in tqdm(codes_all.keys()):
    codes_matching[i] =  most_common(codes_all[i])

100%|█████████████████████████████████████████████████████████████████████████████| 385/385 [00:00<00:00, 27524.49it/s]


In [36]:
codes_df = pd.DataFrame(codes_matching, index = [0]).T.reset_index()
codes_df.columns = ['text', 'code']
codes_df.head()

Unnamed: 0,text,code
0,"Лекарственные средства, зарегистрированные в у...",9300.1
1,Аккумуляторы и аккумуляторные батареи никель-м...,3482.2
2,Приборы и аппараты для электролечения высокоча...,9444.4
3,Блоки оконные и балконные дверные из алюминиев...,5270.1
4,Изделия из бумаги бытового и санитарно-гигиени...,5463.1


In [51]:
num_invalid_codes = {}
for key in codes_matching.keys():
    num_invalid_codes[key] = 0
        

In [52]:
for i in tqdm(range(len(df))):
    if df.iloc[i, 1] != codes_matching[df.iloc[i, 2]]:
        num_invalid_codes[df.iloc[i, 2]] += 1

100%|███████████████████████████████████████████████████████████████████████| 162226/162226 [00:09<00:00, 16717.86it/s]


In [54]:
num_invalid_codes1 = {}
for i in num_invalid_codes.keys():
    if num_invalid_codes[i] != 0:
        num_invalid_codes1[i] = num_invalid_codes[i]

In [55]:
num_invalid_codes1

{'Среды питательные микробиологические, основы питательные и сырье биологическое для вирусологических питательных сред, применяемых в медицине': 3,
 'Материалы стоматологические': 36,
 'Средства дезинфицирующие': 158,
 'Удобрения минеральные': 129,
 'Комплектные трансформаторные подстанции': 15,
 'Камеры сборные одностороннего обслуживания': 9,
 'Средства защиты растений химические (пестициды)': 7,
 'Рукава резиновые напорные с текстильным каркасом': 26,
 'Продукция микробиологической промышленности': 9,
 'Изделия для внутреннего протезирования': 93,
 'Белково-витаминно-минеральные и амидо-витаминно-минеральные концентраты': 190,
 'Линзы для коррекции зрения': 9,
 'Инструменты оттесняющие': 1,
 'Материалы хирургические, средства перевязочные': 22,
 'Инструменты режущие и ударные с острой (режущей) кромкой': 2,
 'Стеклоочистители': 2}

In [200]:
#codes_df.to_csv('codes.csv', index = False)

Save data

In [147]:
df.to_csv('data.csv', index = False)

In [185]:
df.to_pickle('data.pkl')

Посмотрим на ошибки в кодах еще раз

In [213]:
codes = pd.DataFrame(df.Код_подкатегория.value_counts())
codes = codes[codes.Код_подкатегория < 3]
inds = codes.index

In [214]:
codes = codes.reset_index()
codes.columns = ['code', 'count']
codes

Unnamed: 0,code,count
0,285,2
1,297,2
2,357,2
3,171,2
4,362,2
5,381,2
6,366,2
7,3,2
8,16,2
9,42,2


In [218]:
df[df.Код_подкатегория.isin(inds)]

Unnamed: 0,Наименование,Код_ЕП_РФ_подкатегория,Подкатегория_текст,Код_подкатегория
30307,Выключатели автоматические вакуумные,3414.7,Выключатели автоматические быстродействующие д...,49
33127,Пигменты цветные порошковые (краска разметочна...,2322.1,Ультрамарины для красок для розничной торговли...,360
36348,Иммуноглобулины диагностические эшерихиозные т...,9381.5,Гамма- и иммуноглобулины гетерогенные,52
43516,Инвентарь для прикладных видов спорта: Луки сп...,9616.2,Холодное оружие: луки спортивные массовые,0
51890,"Покрышка для велосипедов, торговых марок: KEND...",2526.0,"Велошины, велопокрышки, велокамеры и велоизделия",42
65275,сыворотки иммунные,9382.4,Сыворотки прочие,339
67473,Щебень из плотных горных пород (граниты) для с...,5711.0,Материалы строительные нерудные,171
67948,РЕАКТОР ШУНТИРУЮЩИЙ,3414.19,Реакторы и реакторное оборудование для электро...,298
68073,Щебень из плотных горных пород (граниты) для с...,5711.0,Материалы строительные нерудные,171
70817,Ветеринарный препарат торговой марки FARMA PET...,9387.0,Аллергены (включая аллергены для ветеринарии),14
