In [None]:
!pip install catboost



In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import cross_validate, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from gensim.models import Word2Vec
from catboost import CatBoostClassifier

import nltk
from nltk import word_tokenize
nltk.download('stopwords')
from nltk.tokenize import RegexpTokenizer
from nltk.util import ngrams

# Dataset

In [None]:
cat = pd.read_csv('./data/categories.csv')

In [None]:
prod = pd.read_csv('./data/products.csv')

## Validation

In [None]:
cat.head()

In [None]:
prod.head()

In [None]:
cat.shape, prod.shape

In [None]:
prod['row_number'].shape[0] - prod['row_number'].unique().shape[0]

In [None]:
cat['category_id'].shape[0] - cat['category_id'].unique().shape[0]

## Feature Extraction

Количесво категорий - классов

In [None]:
prod.category_id.unique().shape

In [None]:
categories =  {row['category_id']:row['category_path'] for _, row in cat.iterrows()}

In [None]:
prod['full_category'] = prod['category_id'].apply(lambda cat_id: categories[cat_id])

In [None]:
prod['category_0'] = prod['full_category'].apply(lambda full_cat: full_cat.split('.')[0])
prod['category_1'] = prod['full_category'].apply(lambda full_cat: full_cat.split('.')[1])
prod['category_2'] = prod['full_category'].apply(lambda full_cat: full_cat.split('.')[2])
prod['category_3'] = prod['full_category'].apply(lambda full_cat: full_cat.split('.')[3])
prod['category_4'] = prod['full_category'].apply(lambda full_cat: full_cat.split('.')[4] if len(full_cat.split('.')) > 4 else np.nan)
cat['category_0'] = prod['category_0']
cat['category_1'] = prod['category_1']
cat['category_2'] = prod['category_2']
cat['category_3'] = prod['category_3']
cat['category_4'] = prod['category_4']

In [None]:
prod['category_0'].unique().shape, prod['category_1'].unique().shape, prod['category_2'].unique().shape, prod['category_3'].unique().shape, prod['category_4'].unique().shape

In [None]:
prod.head(7)

In [None]:
prod.info()

In [None]:
def tokenize(text):
    stopwords_rus = nltk.corpus.stopwords.words('russian')
    tokeniser = RegexpTokenizer("[A-Za-zА-Яа-я]+")
    tokens = tokeniser.tokenize(text)
    
    tokens_lower = [t.lower() for t in tokens]
    tokens_clean = [t for t in tokens_lower if t not in stopwords_rus]
    return ' '.join(tokens_clean)

In [None]:
%%time
prod['preproc'] = prod['product_title'].apply(tokenize)

In [None]:
prod.head()

На больших трех категориях объекты расположились практически хорошо.

In [None]:
sns.histplot(prod['category_1'])

Вторая категория имеет больше трети малочисленных класса и один класс к которому относиться чуть меньше трети объектов.

In [None]:
sns.histplot(prod['category_2'])

Классы этой группы категорий практически сбалансированные

## Feature generagion

In [None]:
%%time
w2v = Word2Vec(min_count=5, window=2, vector_size=50, sample=6e-5, alpha=0.03, min_alpha=0.0007, negative=10, seed=17)
w2v.build_vocab(prod['preproc'].apply(lambda x: x.split()), progress_per=1000)
w2v.train(prod['preproc'].apply(lambda x: x.split()), total_examples=w2v.corpus_count, epochs=60, report_delay=1)

Усредняем векторы word2veс и получаем вектор предожения

In [None]:
%%time
vect = prod['preproc'].apply(lambda text: np.mean([w2v.wv[w] for w in text.split() if w in w2v.wv], axis=0))

In [None]:
y = prod['category_1'][vect.notna()]
y_cat_2 = prod['category_2'][vect.notna()]
y_cat_3 = prod['category_3'][vect.notna()]
X = vect[vect.notna()]
X = np.stack(X)

In [None]:
level1_categories = prod[vect.notna()]['category_1'].values

In [None]:
level1_categories = level1_categories.reshape(-1, 1)

In [None]:
extnd_X = np.hstack([X, level1_categories])

In [None]:
extnd_X

In [None]:
len(prod['category_2'].unique())

### Кросс валидация на таргете с 3 большими категориями. Mean accuracy ~ 0.98, mean f1_micro ~ 0.98, mean f1_macro ~ 0.979

In [None]:
%%time
model = CatBoostClassifier(random_seed=17, depth=6, learning_rate=0.5, thread_count=4, loss_function='MultiClass', custom_metric='TotalF1', eval_metric='TotalF1')
result = pd.DataFrame(cross_validate(model, X, y, cv=4, 
    scoring=['accuracy', 'f1_micro', 'f1_macro', 'f1_weighted'], n_jobs=-1))
mean = result.mean().rename('{}_mean'.format)
std = result.std().rename('{}_std'.format)
results = pd.concat([mean[2:], std[2:]], axis=0)

In [None]:
results

### Кросс валидация на таргете с 37 категориями, без добавления в качестве признака таргет с прошлого уровня категорий (с 3 категориями). Mean accuracy ~ 0.826, mean f1_micro ~ 0.826, mean f1_macro ~ 0.618

In [None]:
%%time
model = CatBoostClassifier(random_seed=17, depth=6, learning_rate=0.5, thread_count=4, loss_function='MultiClass', custom_metric='TotalF1', eval_metric='TotalF1')
result = pd.DataFrame(cross_validate(model, X, y_cat_2, cv=4, 
    scoring=['accuracy', 'f1_micro', 'f1_macro', 'f1_weighted'], n_jobs=-1))
mean = result.mean().rename('{}_mean'.format)
std = result.std().rename('{}_std'.format)
results = pd.concat([mean[2:], std[2:]], axis=0)

In [None]:
results

### Кросс валидация на таргете с 37 категориями, c добавления в качестве признака таргет с прошлого уровня категорий (с 3 категориями). Mean accuracy ~ 0.827, mean f1_micro ~ 0.827, mean f1_macro ~ 0.617

In [None]:
%%time
model = CatBoostClassifier(random_seed=17, depth=6, learning_rate=0.5, thread_count=4, loss_function='MultiClass', custom_metric='TotalF1', eval_metric='TotalF1')
result = pd.DataFrame(cross_validate(model, StandardScaler().fit_transform(extnd_X), y_cat_2, cv=4, 
    scoring=['accuracy', 'f1_micro', 'f1_macro', 'f1_weighted'], n_jobs=-1))
mean = result.mean().rename('{}_mean'.format)
std = result.std().rename('{}_std'.format)
results = pd.concat([mean[2:], std[2:]], axis=0)

In [None]:
results

In [None]:
# %%time
# params = {'depth':[i for i in range(5, 10)],
# 'learning_rate':np.linspace(0.01, 0.5, 10).tolist(),
# 'l2_leaf_reg':[1, 3, 5, 7, 9]}
# params
# model = CatBoostClassifier(thread_count=4, loss_function='MultiClass', custom_metric='TotalF1', eval_metric='TotalF1')
# result = model.grid_search(X=X, y=y, param_grid=params, cv=4, plot=True, partition_random_seed=17, calc_cv_statistics=True,
#         search_by_train_test_split=True, refit=True, shuffle=True, stratified=None, train_size=0.8, verbose=True)

In [None]:
%%time
model = CatBoostClassifier(random_seed=17, depth=6, learning_rate=0.5, thread_count=4, loss_function='MultiClass', custom_metric='TotalF1', eval_metric='TotalF1')
result = pd.DataFrame(cross_validate(model, X, y_cat_3, cv=4, 
    scoring=['accuracy', 'f1_micro', 'f1_macro', 'f1_weighted'], n_jobs=-1))
mean = result.mean().rename('{}_mean'.format)
std = result.std().rename('{}_std'.format)
results = pd.concat([mean[2:], std[2:]], axis=0)

In [None]:
results

In [None]:
%%time
model = CatBoostClassifier(random_seed=17, depth=6, learning_rate=0.5, thread_count=4, loss_function='MultiClass', custom_metric='TotalF1', eval_metric='TotalF1')
model.fit(StandardScaler().fit_transform(extnd_X), y_cat_2)

Обучить после 2 уровня категорий классические модели машинного обучение очень затратно по времени и метрики получаются очень низкими. Даже SGD классификатор будет работать очень долго, потому что он строит для каждой пары двух категорий свой - бинарный классификатор и выполняется какого-то рода голосование.

Можно попробовать


1. Cгенерировать признаки например с помощью Bert или FastText и объеденить с признаками  Word2Vec. 
2. Использовать полученные результаты предсказаний высоких уровней для предсказания более низких, потому что это дает небольшой прирост к метрикам.
3. Можно попробовать обратиться в глубокому обучению, где будет несколько слоев на каждый уровень категорий и теже самые метрики: accuracy, f1_micro, f1_macro, f1_weight
ed.






In [None]:
from sklearn.pipeline import Pipeline

In [None]:
class Model():
    def __init__(self, model, cat_df):
        self.model = model
        self.cat = cat_df
        
    def fit():
        pass
    
    def predict(self, X):
        category_id = self.model.predict(X)
        print(self.cat[self.cat['category_2'] == category_id[0]]['category_title'].iloc[0])
        category_title = self.cat[self.cat['category_2'] == category_id[0]]['category_title'].iloc[0]
        return {'category_id' : category_id[0], 'category_title': category_title}

In [None]:
class NormolizeText():
    def __init__(self, w2v):
        self.w2v = w2v
        
    def fit():
        pass

    def preprocess_text(self, text):
        stop_word_list = nltk.corpus.stopwords.words('russian')
        tokeniser = RegexpTokenizer("[A-Za-zА-Яа-я]+")
        tokens = tokeniser.tokenize(text)
        
        tokens_lower = [t.lower() for t in tokens]
        tokens_clean = [t for t in tokens_lower if t not in stop_word_list]
        return ' '.join(tokens_clean)

    def vectorize(self, text):
        words = [self.w2v.wv[w] for w in text.split() if w in self.w2v.wv]
        if len(words) > 0:
            return np.mean(words, axis=0)
        return np.zeros(51)
        
    def transform(self, x):
        preprocessed = self.preprocess_text(x)
        features_x = self.vectorize(preprocessed)
        return features_x

In [None]:
steps = [('NormolizeText', NormolizeText(w2v)), ('model', Model(model, cat))]
pipe = Pipeline(steps)
pipe

In [None]:
pipe.predict('Зарядка')

In [None]:
import joblib
joblib.dump(pipe, 'model.joblib')