Устанавливаем необходимые пакеты

In [30]:
! pip install pymystem3 scipy numpy pandas nltk tqdm sklearn --user



You are using pip version 19.0.2, however version 19.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


In [31]:
import os
import scipy
import numpy as np
import pandas as pd


import nltk.corpus
from tqdm import tqdm
from pymystem3 import Mystem
from string import punctuation

from sklearn.metrics import accuracy_score
from sklearn.preprocessing import MaxAbsScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

nltk.download('stopwords')

tqdm.pandas()

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nahod\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Выполним предобработку данных: так как поля title, description текстовые, то произведём следующие действия:
* Удалим все символы кроме букв и цифр
* Приведём все символы к нижнему регистру
* С помощью библиотеки pymystem3 проведём лемматизацию слов. 

In [32]:
stemmer = Mystem() 
punctuation = [p for p in '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~«»']
stopwords = nltk.corpus.stopwords.words("russian") + nltk.corpus.stopwords.words("english")

def preprocess_text(text):
    text = ''.join([c if c not in punctuation else ' ' for c in text])
    tokens = stemmer.lemmatize(text.lower())

    tokens = [subtoken 
              for token in tokens 
              for subtoken in token.split() 
              if subtoken not in stopwords\
              and subtoken != " " and subtoken != '\n'
             ]
    
    text = " ".join(tokens)
    
    return text

def preprocessor(val):
    val['title'] = preprocess_text(val['title'])
    val['description'] = preprocess_text(val['description'])
    return val

In [33]:
# Path to the data
base_path = './data'

In [34]:
test, train = None, None

categories_path = os.path.join(base_path, 'category.csv')

test_path = os.path.join(base_path, 'test.csv')
train_path = os.path.join(base_path, 'train.csv')

test_stemmed_path = os.path.join(base_path, 'test_stemmed.csv')
train_stemmed_path = os.path.join(base_path, 'train_stemmed.csv')

if os.path.isfile(test_stemmed_path):
    test = pd.read_csv(test_stemmed_path).fillna('')
else:
    test = pd.read_csv(test_path).fillna('')
    test = test.progress_apply(preprocessor, axis=1)
    test = test.fillna('')
    test.to_csv(test_stemmed_path, index=False)

if os.path.isfile(train_stemmed_path):
    train = pd.read_csv(train_stemmed_path).fillna('')
else:
    train = pd.read_csv(train_path).fillna('')
    train = train.progress_apply(preprocessor, axis=1)
    train = train.fillna('')
    train.to_csv(train_stemmed_path, index=False)

Посмотрим на получившиеся данные

In [35]:
test.head()

Unnamed: 0,item_id,title,description,price
0,489517,стоик журнальный сталь,продавать журнальный столик изготовлять стол п...,10000.0
1,489518,iphone 5 64gb,телефон хороший состояние комплект гарантия са...,12500.0
2,489519,утеплитель,теплопельный лидер тепло толщина утеплитель 20...,250.0
3,489520,пальто демисезонный,продавать пальто женский букле отличный состоя...,1700.0
4,489521,samsung syncmaster t200n,условно рабочий проблема панель настройка мони...,1000.0


In [36]:
train.head()

Unnamed: 0,item_id,title,description,price,category_id
0,0,картина,гобелен размер 139х84см,1000.0,19
1,1,стул прессованный кожа,продавать недорого 4 стул светлый прессованный...,1250.0,22
2,2,домашний мини баня,мини баня мб 1 мини сауна предназначать принят...,13000.0,37
3,3,эксклюзивный коллекция книга трансаэро подарок,продавать эксклюзивный коллекция книга выпуска...,4000.0,43
4,4,ноутбук aser,продаваться ноутбук acer e5 511c2ta купить кон...,19000.0,1


Набор классов и функций для отображения качества модели на всех уровнях иерархии категорий

In [37]:
categories_pure = pd.read_csv(categories_path)
categories = []
for _, __ in categories_pure.iterrows():
    categories.append([__[0], __[1].split('|')])

In [38]:
class SingleClassPredictor:
    def __init__(self, class_id):
        self.class_id = class_id
    
    def predict(self, x):
        result = np.empty([x.shape[0]], dtype=np.int)
        result[:] = self.class_id
        return result
    
class Node:
    def __init__(self, name, parent=None, base_model=None, *base_model_args, **base_model_kwargs):
        self.name = name
        self.parent = parent
        self.children = []
        self.children_dict = dict()
        
        self.id = None
        self.subtree_ids = []

        self.base_model = base_model
        self.base_model_args = base_model_args
        self.base_model_kwargs = base_model_kwargs
        
        self.model = None
        self.accuracy = 0.0

        if parent:
            self.parent.children.append(self)
            self.parent.children_dict[name] = self
    
    def __str__(self):
        if self.id != None:
            return ' {0} Id: {1:d} Accuracy: {2:.3f} '.format(self.name, self.id, self.accuracy)
        return ' {0} Accuracy: {1:.3f} '.format(self.name, self.accuracy)
    
    def build(self, lines):
        for line in lines:
            node = self
            for category in line[1]:
                if category in node.children_dict:
                    node = node.children_dict[category]
                else:
                    node = Node(
                        category, node, base_model=self.base_model, 
                        *self.base_model_args, **self.base_model_kwargs
                    )
            node.id = line[0]
            
        self.get_subtree_ids()
        
    def get_subtree_ids(self):
        if len(self.children) == 0:
            self.subtree_ids = [self.id, ]
            return self.subtree_ids            
        result = []
        for node in self.children:
            result += node.get_subtree_ids()
        self.subtree_ids = list(sorted(result))
        return self.subtree_ids
    
    def set_accurasies(self, y_true, y_predict):
        idx_node = [idx for idx, value in enumerate(y_true) if value in self.subtree_ids]
        self.accuracy = np.mean(y_true[idx_node] == y_predict[idx_node])
        for node in self.children:
            node.set_accurasies(y_true, y_predict)
            
    def _get_y_node(self, y):
        y_node = []
        for value in y:
            for idx, node in enumerate(self.children):
                if value in node.subtree_ids:
                    y_node.append(idx)
                    break
        y_node = np.array(y_node)
        return y_node
        
    def fit(self, x, y):
        if len(self.children) == 0:
            return
        y_node = self._get_y_node(y)
        if len(np.unique(y_node)) == 1:
            self.model = SingleClassPredictor(y_node[0])
        else:
            self.model = self.base_model(*self.base_model_args, **self.base_model_kwargs)
            self.model.fit(x, y_node)
        for idx, node in enumerate(self.children):
            idx_node = np.argwhere(y_node == idx).reshape(-1)
            node.fit(x[idx_node], y[idx_node])
            
    def predict(self, x):
        result = np.empty([x.shape[0]], dtype=np.int)
        if len(self.children) == 0:
            result[:] = self.id
            return result
        
        y_node = self.model.predict(x)
        for idx, node in enumerate(self.children):
            idx_node = np.argwhere(y_node == idx).reshape(-1)
            result[idx_node] = node.predict(x[idx_node])
        return result

In [39]:
def print_tree(current_node, childattr='children', nameattr='name', indent='', last='updown'):

    if hasattr(current_node, nameattr):
        name = lambda node: getattr(node, nameattr)
    else:
        name = lambda node: str(node)

    children = lambda node: getattr(node, childattr)
    nb_children = lambda node: sum(nb_children(child) for child in children(node)) + 1
    size_branch = {child: nb_children(child) for child in children(current_node)}

    """ Creation of balanced lists for "up" branch and "down" branch. """
    up = sorted(children(current_node), key=lambda node: nb_children(node))
    down = []
    while up and sum(size_branch[node] for node in down) < sum(size_branch[node] for node in up):
        down.append(up.pop())

    """ Printing of "up" branch. """
    for child in up:     
        next_last = 'up' if up.index(child) is 0 else ''
        next_indent = '{0}{1}{2}'.format(indent, ' ' if 'up' in last else '│', ' ' * len(name(current_node)))
        print_tree(child, childattr, nameattr, next_indent, next_last)

    """ Printing of current node. """
    if last == 'up': start_shape = '┌'
    elif last == 'down': start_shape = '└'
    elif last == 'updown': start_shape = ' '
    else: start_shape = '├'

    if up: end_shape = '┤'
    elif down: end_shape = '┐'
    else: end_shape = ''

    print('{0}{1}{2}{3}'.format(indent, start_shape, name(current_node), end_shape))

    """ Printing of "down" branch. """
    for child in down:
        next_last = 'down' if down.index(child) is len(down) - 1 else ''
        next_indent = '{0}{1}{2}'.format(indent, ' ' if 'down' in last else '│', ' ' * len(name(current_node)))
        print_tree(child, childattr, nameattr, next_indent, next_last)

Преобразуем табличные данные в вещественные вектора:
* Поля title и description обрабатываются независимо.
* С помощью TfidfVectorizer преобразуем строки переменной длины в вектора фиксированной длины.
* Так как затем к данным будет применяться метрический алгоритм --- логистическая регрессия произведём нормализацию значений с помощью MaxAbsScaler

In [40]:
tfidf_title = TfidfVectorizer(
    encoding='utf-8', decode_error='strict', strip_accents='unicode', lowercase=True,
    preprocessor=None, tokenizer=None, analyzer='word', stop_words=None, 
    token_pattern=r"(?u)\b\w\w+\b", ngram_range=(1, 1), max_df=1.0, min_df=1, 
    max_features=None, vocabulary=None, binary=False, dtype=np.float64, 
    norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False
)
tfidf_description = TfidfVectorizer(
    encoding='utf-8', decode_error='strict', strip_accents='unicode', lowercase=True,
    preprocessor=None, tokenizer=None, analyzer='word', stop_words=None, 
    token_pattern=r"(?u)\b\w\w+\b", ngram_range=(1, 1), max_df=1.0, min_df=1, 
    max_features=None, vocabulary=None, binary=False, dtype=np.float64, 
    norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False
)

scaler_title = MaxAbsScaler()
scaler_description = MaxAbsScaler()
scaler_price = MaxAbsScaler()

x = scipy.sparse.hstack((
    scaler_title.fit_transform(tfidf_title.fit_transform(train['title'])),
    scaler_description.fit_transform(tfidf_description.fit_transform(train['description'])),
    scaler_price.fit_transform(scipy.sparse.csr_matrix(train['price'].values.reshape(-1, 1)))
))

x_test = scipy.sparse.hstack((
    scaler_title.transform(tfidf_title.transform(test['title'])),
    scaler_description.transform(tfidf_description.transform(test['description'])),
    scaler_price.transform(scipy.sparse.csr_matrix(test['price'].values.reshape(-1, 1)))
))

y = train['category_id'].values

Разобъём выборку на обучающую и валидационную

In [41]:
x_train, x_validate, y_train, y_validate = train_test_split(x, y, test_size=0.33, random_state=42)

В качестве модели для предсказаний используем мультиномиальную логистическую регрессию

In [42]:
model = LogisticRegression(
    penalty='l2', dual=False, tol=1e-4, C=1, fit_intercept=True, 
    intercept_scaling=1, class_weight=None, random_state=None, 
    solver='sag', max_iter=150, multi_class='multinomial', 
    verbose=2, warm_start=False, n_jobs=-1
)

In [43]:
model.fit(x_train, y_train)

[Parallel(n_jobs=-1)]: Using backend ThreadingBackend with 8 concurrent workers.


convergence after 142 epochs took 517 seconds


[Parallel(n_jobs=-1)]: Done   1 out of   1 | elapsed:  8.6min finished


LogisticRegression(C=1, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=150, multi_class='multinomial',
          n_jobs=-1, penalty='l2', random_state=None, solver='sag',
          tol=0.0001, verbose=2, warm_start=False)

In [44]:
y_predict = model.predict(x_validate)

In [45]:
print('Global accuracy: {0:.4f}'.format(accuracy_score(y_validate, y_predict)))

Global accuracy: 0.8853


Теперь посмотрим на значение accuracy на каждом уровне иерархии

In [46]:
# Increase jupyther cells width to show nice picture

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

In [47]:
root = Node('root')
root.build(categories)
root.set_accurasies(y_predict=y_predict, y_true=y_validate)
print_tree(root, nameattr='')

                                                     ┌ Красота и здоровье Accuracy: 0.899 ┐
                                                     │                                    └ Приборы и аксессуары Id: 37 Accuracy: 0.899 
                                                     │                                  ┌ Часы Id: 36 Accuracy: 0.952 
                                                     ├ Часы и украшения Accuracy: 0.956 ┤
                                                     │                                  └ Ювелирные изделия Id: 40 Accuracy: 0.962 
                       ┌ Личные вещи Accuracy: 0.868 ┤
                       │                             │                                           ┌ Аксессуары Id: 31 Accuracy: 0.733 
                       │                             ├ Одежда, обувь, аксессуары Accuracy: 0.857 ┤
                       │                             │                                           │                                ┌ Верхняя од

                       │                                     │                               ┌ Телевизоры и проекторы Id: 5 Accuracy: 0.960 
                       │                                     ├ Аудио и видео Accuracy: 0.946 ┤
                       │                                     │                               └ Акустика, колонки, сабвуферы Id: 12 Accuracy: 0.934 
                       └ Бытовая электроника Accuracy: 0.933 ┤
                                                             │                          ┌ iPhone Id: 0 Accuracy: 0.927 
                                                             │                          ├ Samsung Id: 2 Accuracy: 0.922 
                                                             │                          ├ Другие марки Id: 6 Accuracy: 0.854 
                                                             ├ Телефоны Accuracy: 0.909 ┤
                                                             │                          ├ Аксесс

Как видно, общий результат --- 88.5%. При этом хуже всего происходит классификация объявлений из категорий "Другое".

In [48]:
y_test_predict = model.predict(x_test)

In [49]:
with open(os.path.join(base_path, 'test_result.csv'), 'w') as file:
    file.write('item_id,category_id\n')
    for idx, value in enumerate(y_test_predict):
        file.write('{0:d},{1:d}\n'.format(test['item_id'][idx], value))