In [1]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords 

# Загрузка данных

In [2]:
train = pd.read_parquet('data_fusion_train.parquet', engine='pyarrow')
train = train[train.category_id != -1].drop_duplicates('item_name')

In [3]:
other_data = pd.read_parquet('data_fusion_train.parquet', engine='pyarrow')
other_data = other_data[other_data.category_id == -1].drop_duplicates('item_name')

# Размеченные данные

In [4]:
train

Unnamed: 0,receipt_id,receipt_dayofweek,receipt_time,item_name,item_quantity,item_price,item_nds_rate,category_id,brands
1,11,6,20:34,"Молоко 3,2%,шт",2.000,8,2,78,
3,39,4,11:28,"Компот из изюма, 114 ккал",1.000,4,1,71,
4,39,4,11:28,"Макаронные изделия отварные (масло сливочное),...",1.000,4,1,71,
17,56,5,11:42,Кофе Капучино Большой Эден 18,1.000,12,1,70,
40,105,3,01:53,Хлеб на СЫВОРОТКЕ 350г,1.000,7,-1,84,
...,...,...,...,...,...,...,...,...,...
45669181,9880594,2,20:11,"Напиток Энерг. Ред Булл 0,355л",1.000,10,6,83,
45681543,9908635,5,01:09,Хеменгуэй Дайкири,1.000,15,6,0,
45690702,9929539,0,14:39,"Пиво светлое ""Халзан"" 4,5 % об, пл/б. 1,5 л(шт)",1.000,10,6,0,
45692298,9932986,3,22:26,Экспресс педикюр,1.000,15,6,42,


# Не размеченные данные

In [5]:
other_data

Unnamed: 0,receipt_id,receipt_dayofweek,receipt_time,item_name,item_quantity,item_price,item_nds_rate,category_id,brands
0,7,5,09:50,Флуконазол капс 150мг №1 Вертекс,1.000,7,-1,-1,вертекс
2,39,4,11:28,"Борщ Станичный с тушенкой, 103 ккал (завод, з/у)",1.000,6,1,-1,
6,39,4,11:28,"Филе Горизонт (филе птицы), 218 ккал",1.000,7,1,-1,горизонт
10,49,3,14:27,3 Бумага Упак 1/Прочи/В асс,1.000,8,1,-1,
11,49,3,14:27,4 Бумага Упак 1/Прочи/В асс,1.000,8,1,-1,
...,...,...,...,...,...,...,...,...,...
45729191,10016000,1,13:07,Краски аквар.12 цвет.медовые BRAUBERG,1.000,8,6,-1,brauberg
45729194,10016000,1,13:07,Зонт мужской автомат <>,1.000,16,6,-1,
45729196,10016004,2,18:43,"Пиво Ячменное фирменное с/б 0,5 л",2.000,9,-1,-1,
45729312,10016159,4,12:39,Слива Черная Пантера 1кг,0.439,11,-1,-1,


# \*\*\* Изучаем поле item_name \*\*\*

## Есть ли дубликаты в названиятоваров? Нет!

In [10]:
len(other_data['item_name'].tolist()) - len(set(other_data['item_name'].tolist()))

0

## Есть ли повторяющиеся слова? Точно есть! Но какие?

## Получаем все слова длинее одного сивола и словарь на основе этих слов

In [25]:
import re

product_names_arr = [[s for s in re.sub("[^а-я$]", " ", i.lower()).split(' ') if len(s) > 1] for i in other_data["item_name"].tolist()]


In [26]:
words = []
for i in product_names_arr:
    for el in i:
        words.append(el)

dictionary = set(words)

## Количество слов в словаре

In [27]:
len(dictionary)

219188

## Частоты появления слов

In [30]:
from collections import Counter

counter = Counter(words)

In [31]:
counter

Counter({'флуконазол': 515,
         'капс': 13808,
         'мг': 77148,
         'вертекс': 561,
         'борщ': 3461,
         'станичный': 141,
         'тушенкой': 123,
         'ккал': 3339,
         'завод': 1787,
         'филе': 15421,
         'горизонт': 173,
         'птицы': 2995,
         'бумага': 6753,
         'упак': 20264,
         'прочи': 8977,
         'асс': 17453,
         'брюки': 15506,
         'спорт': 2513,
         'мал': 5515,
         'бюстгальтер': 2515,
         'бн': 204,
         'багет': 3284,
         'мультизлаковый': 37,
         'ип': 11571,
         'аникеев': 148,
         'йогуртпит': 1,
         'клуб': 1968,
         'мар': 1276,
         'напиток': 42098,
         'дюшес': 1550,
         'пэт': 24164,
         'оао': 3711,
         'аян': 496,
         'респуб': 19,
         'хакасия': 34,
         'овощи': 4081,
         'пицца': 11240,
         'слоеная': 533,
         'гр': 230298,
         'огурцы': 6411,
         'пупырчатые': 77,
  