In [21]:
#!pip install transliterate

**Постановщик задачи:**  
Росстат Саратовской области

**Задача:**  
поиск и классификация конкретных категорий товаров в наборе различных наименований. Необходимо разметить следующие категории:
- Хлебные изделия - код 9
- Напитки газированные - код 4
- Вода - код 0
- Молоко 2.5-3.2 % - код 3
- Молочные продукты - код 2
- Макароны - код 1
- Фрукты - код 7
- Продукция общепитов - код 6
- Товары без категории  - код 10
В наборе данных существует сильный перевес в сторону товаров без категории.

**Метрика:**  
Recall

In [22]:
import pandas as pd
import re
from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformer
from sklearn.model_selection import train_test_split, GridSearchCV
from catboost import CatBoostClassifier, Pool
from sklearn.metrics import recall_score
from sklearn.pipeline import Pipeline
import warnings
import time

In [23]:
warnings.filterwarnings('ignore')
#pd.set_option('display.max_colwidth', None) #выводим на экран весь текст из колонки
pd.set_option('display.max_rows', None) #выводим на экран все строки
pd.set_option('display.max_columns', None) #выводим на экран все колонки
pd.set_option('display.max_colwidth', None) #выводим полный текст

In [24]:
df_train = pd.read_csv('train_dataset_train.csv')
df_test = pd.read_csv('test_dataset_test.csv')
sample_solution = pd.read_csv('sample_solution.csv')
excel = pd.read_excel('categories.xlsx', usecols='A:C', header=8, nrows=10)

In [25]:
#расшифровка категорий
excel

Unnamed: 0,Наименование товара (услуги)-представителя,Код \nтовара (услуги),Общая характеристика товара (услуги)-представителя
0,"Хлеб и булочные изделия из пшеничной муки различных сортов, кг",9,"Хлеб и булочные изделия из пшеничной муки высшего сорта, 1 и 2 сортов, а также с добавлением муки ржаной и отрубной (формовой, подовый, батоны и т.п.). За исключением сдобных булочных изделий."
1,"Напитки газированные, л",4,"Лимонад, содовая, кола и т.п., кроме кваса. За исключением воды минеральной."
2,"Вода минеральная и питьевая, л",0,"Вода минеральная столовая, лечебная и вода родниковая питьевая, с газом или без газа."
3,"Молоко питьевое цельное стерилизованное 2,5-3,2% жирности, л",3,"Молоко стерилизованное фасованное коровье, включая ультрапастеризованное, жирностью 2,5-3,2% типа ""36 копеек"", ""Лианозовское"", ""Царицынское"" и т.п. Кроме молочного продукта, растительного, топленого."
4,"Макаронные изделия из пшеничной муки высшего сорта, кг",1,"Макароны, спагетти, рожки, лапша и прочие макаронные изделия. За исключением вермишели."
5,"Продукция предприятий общественного питания быстрого обслуживания (сэндвич типа ""Гамбургер""), шт.",6,"Сэндвич, состоящий из мясной котлеты, бифштекса рубленого (из различных видов мяса) внутри разрезанной булки, типа гамбургер, чизбургер и т.п., реализуемый предприятиями общественного питания быстрого обслуживания: Макдональдс, KFС, Burger King и т.д."
6,Молоко питьевое,2,
7,Свежие фрукты,7,
8,Без категории,10,


In [26]:
train = df_train.copy()
test = df_test.copy()

In [27]:
id_group = excel['Код \nтовара (услуги)'].unique()

In [28]:
train['name'] = train['name'].fillna('нет')

In [29]:
def clean_text (data):
    data = data.str.lower()
    data = data.str.replace(r'[e]','е')
    data = data.str.replace(r'[t]','т')
    data = data.str.replace(r'[y]','у')
    data = data.str.replace(r'[u]','и')
    data = data.str.replace(r'[o]','о')
    data = data.str.replace(r'[p]','р')
    data = data.str.replace(r'[a]','а')
    data = data.str.replace(r'[h]','н')
    data = data.str.replace(r'[k]','к')
    data = data.str.replace(r'[x]','х')
    data = data.str.replace(r'[c]','с')
    data = data.str.replace(r'[b]','в')
    data = data.str.replace(r'[n]','п')
    data = data.str.replace(r'[m]','м')
    data = data.str.replace(r'[^а-яё]',' ')
    return data

In [30]:
%%time
train['name'] = clean_text (train['name'])

Wall time: 16.4 s


In [31]:
%%time
test['name'] = clean_text (test['name'])

Wall time: 7.11 s


In [32]:
stop_words = ['кг', 'г', 'л', 'шт', 'вес', 'гост', 'ту', 'тм', 'гр']

In [33]:
train = train.drop('id', axis=1)
test = test.drop('id', axis=1)

In [34]:
vectorize = TfidfVectorizer(
#    ngram_range=(1,3),  
#    min_df=3,
#    max_df=0.9,
#    use_idf=1,
#    smooth_idf=1,
#    sublinear_tf=1,
     stop_words=stop_words
)
#tf_idf.fit(train['name'])
#train['name'] = tf_idf.transform (train['name'])


In [35]:
X = train.drop('groups', axis=1)
y = train['groups']

In [36]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state=12345)

In [37]:
%%time
X_train = vectorize.fit_transform(X_train['name'])
X_test = vectorize.transform(X_test['name'])

Wall time: 8.62 s


In [38]:
import numpy as np
from sklearn.utils import compute_class_weight
classes = np.unique(y_train)
weights = compute_class_weight(class_weight='balanced', classes=classes, y=y_train) 
class_weights = dict(zip(classes, weights))

In [None]:
%%time

#cat_features =['name']

model = CatBoostClassifier(
    random_state=12345,
#    task_type='GPU',
    iterations = 300,   #v1 - 100
#    learning_rate = 0.1,
#   depth = 8, 
#    eval_metric = 'Recall',
    bootstrap_type ='Bernoulli', #v1- none
    class_weights = class_weights, #v1- none
    verbose = 10,
#    ignored_features = 'id',
#    loss_function = 'MultiClass',
#    classes_count = 11,
)

model.fit(X_train, y_train, early_stopping_rounds=10, eval_set=(X_test, y_test))#, plot=True)





Learning rate set to 0.193613
0:	learn: 1.5050089	test: 1.5090221	best: 1.5090221 (0)	total: 14.5s	remaining: 1h 12m 1s
10:	learn: 0.7165796	test: 0.7193241	best: 0.7193241 (10)	total: 1m 41s	remaining: 44m 24s
20:	learn: 0.5138359	test: 0.5159568	best: 0.5159568 (20)	total: 3m 4s	remaining: 40m 54s


In [None]:
predictions = model.predict(X_test)

In [None]:
print (recall_score(y_test, predictions, average='macro'))

In [None]:
final_test = vectorize.transform(test['name'])

In [None]:
pred_solution = model.predict(final_test)

In [None]:
sample_solution['groups'] = pred_solution.astype(int)

In [None]:
sample_solution.head()

In [None]:
sample_solution.to_csv('submission_3.csv', index=False)