## Бейзлайн - простейший плоский классификатор на основе библиотеки FastText.

In [1]:
import os
from pathlib import Path
import fasttext
import numpy as np 
import pandas as pd
import csv
from gensim.utils import simple_preprocess

from HierarhicalLibrary import CategoryTree, Classifier

In [2]:
# Method for increasing the weight of the first words of title
def word_pyramid(string: str, min_n_words: int, max_n_words: int) -> list:
    result = []
    split = string.split(' ')
    for i in range(min_n_words, max_n_words+1):
        result += split[:i]
    return ' '.join(result)

# Predicting labels and probabilities for list of documents 
def predict_proba(documents: list) -> tuple:
    prediction = model.predict(documents, k=1)
    labels_result = []
    proba_result = []
    for label in prediction[0]:
        labels_result.append(int(label[0][9:]))
    return np.array(labels_result), np.array(prediction[1])[:, 0]

# Predicting on a single input
def predict(document):
    return int(model.predict(document)[0][0][9:])

# Test data preparation
def get_prepared_test_data(df_in: pd.DataFrame) -> pd.DataFrame:
    df=df_in.copy()
    df.drop(['rating', 'feedback_quantity'], axis=1, inplace=True)
    df.title = df.title.astype('string')
    df.short_description = df.short_description.astype('string')
    df.fillna(value='', inplace=True)
    df.name_value_characteristics = df.name_value_characteristics.astype('string')
    df = df.assign(Document=[str(x) + ' ' + str(y) + ' ' + str(z) + ' ' + word_pyramid(x, 2, 3) for x, y, z in zip(df['title'], df['short_description'], df['name_value_characteristics'])])
    df.drop(['title', 'short_description', 'name_value_characteristics'], axis=1, inplace=True)
    df.Document = df.Document.astype('string')
    df.Document = df.Document.apply(lambda x: ' '.join(simple_preprocess(x)))
    return df

def get_fasttext_multilabels(cat_tree: object, category_id: int) -> str:
    node_list = []
    for node in cat_tree.get_id_path(category_id):
        node_list.append(''.join(['__label__', str(node)]))
    return ' '.join(node_list)
    

Подготавливаем полный, тренировочный и валидационный датасеты:
перемешиваем данные в фрейме,
удаляем колонки рейтинга и кол-ва отзывов,
корректируем типы данных колонок,
заполняем пропущенные значения,
текст из колонок 'title', 'short_description' и 'name_value_characteristics' объединяем в колонку "Document", добавляем первые слова из колонки 'title', чтобы увеличить их вес (самые важные слова - в начале описания).

In [3]:
full_train_data = pd.read_parquet('train.parquet')

data_full = full_train_data.sample(frac=1, random_state=1).copy()
data_full.drop(['rating', 'feedback_quantity'], axis=1, inplace=True)
data_full.title = data_full.title.astype('string')
data_full.short_description = data_full.short_description.astype('string')
data_full.fillna(value='', inplace=True)
data_full.name_value_characteristics = data_full.name_value_characteristics.astype('string')
data_full = data_full.assign(Document=[str(x) + ' ' + str(y) + ' ' + str(z) + ' ' + word_pyramid(x, 2, 3) for x, y, z in zip(data_full['title'], data_full['short_description'], data_full['name_value_characteristics'])])
data_full.drop(['title', 'short_description', 'name_value_characteristics'], axis=1, inplace=True)
data_full.Document = data_full.Document.astype('string')

data = data_full[:-4000].reset_index(drop=True)
data_valid = data_full[-4000:].reset_index(drop=True)


Строим дерево каталога

In [4]:
cat_tree_df = pd.read_csv('categories_tree.csv', index_col=0)

In [5]:
cat_tree = CategoryTree()
cat_tree.add_nodes_from_df(cat_tree_df, parent_id_col='parent_id', title_col='title')
cat_tree.add_goods_from_df(data_full, category_id_col='category_id', good_id_col='id')

In [6]:
classifier = Classifier()

Преобразуем данные в формат, принимаемый FastText.

In [7]:
data.Document = data.Document.apply(lambda x: ' '.join(simple_preprocess(x)))
data_valid.Document = data_valid.Document.apply(lambda x: ' '.join(simple_preprocess(x)))

data.category_id = data.category_id.apply(lambda x: get_fasttext_multilabels(cat_tree, x))
data_valid.category_id = data_valid.category_id.apply(lambda x: get_fasttext_multilabels(cat_tree, x))

In [8]:
data.iloc[1]

id                                                        304936
category_id    __label__12917 __label__11328 __label__10091 _...
Document       силиконовый дорожный контейнер футляр чехол дл...
Name: 1, dtype: object

FastText принимает данные в виде текстовых файлов, поэтому сохраняем данные на диск.

In [9]:
# Saving the CSV file as a text file to train/test the classifier
data[['Document', 'category_id']].to_csv('train_fasttext.txt', 
                                          index = False, 
                                          sep = ' ',
                                          header = None, 
                                          quoting = csv.QUOTE_NONE, 
                                          quotechar = "", 
                                          escapechar = " ")

data_valid[['Document', 'category_id']].to_csv('test_fasttext.txt', 
                                               index = False, 
                                               sep = ' ',
                                               header = None, 
                                               quoting = csv.QUOTE_NONE, 
                                               quotechar = "", 
                                               escapechar = " ")


Обучаем модель.

In [29]:
# Training the fastText classifier
model = fasttext.train_supervised('train_fasttext.txt',
                                  lr=0.01,                
                                  dim=32,               
                                  ws=4, 
                                  loss='ova',                                  
                                  epoch=1,             
                                  neg=5,               
                                  wordNgrams=3)
classifier.fasttext = model

Read 5M words
Number of words:  87455
Number of labels: 1475
Progress: 100.0% words/sec/thread:  108335 lr:  0.000000 avg.loss: 30.973497 ETA:   0h 0m 0ss


При необходимости, сохраняем или загружаем модель.

In [8]:
# Save the trained model
path = os.path.join(Path(".").parent, 'FastText_baseline', )
model.save_model('fasttext_multilabel_model')

In [8]:
# Load the trained model
classifier.fasttext = fasttext.load_model('fasttext_model')



ValueError: fasttext_model cannot be opened for loading!

Проверяем качество классификации на трейне:

In [17]:
# Evaluating performance on the entire train file
_, precision, recall = classifier.fasttext.test('train_fasttext.txt') 
leaf_F1 = (2*precision*recall) / (precision+recall)

In [18]:
print(f'Train Leaf_F1={leaf_F1:.4f}') 

Train Leaf_F1=0.4068


Проверяем качество классификации на тестовой выборке:

In [31]:
# Evaluating performance on the entire test file
_, precision, recall = classifier.fasttext.test('test_fasttext.txt')                      
leaf_F1 = (2*precision*recall) / (precision+recall)

In [32]:
print(f'Test Leaf_F1={leaf_F1:.4f}') 

Test Leaf_F1=0.3432




Для того чтобы проверить качество иерархической классификации, инициализируем и заполняем класс дерева категорий.

Считаем метрики для train датасета.

In [15]:
data_test = data[:10000].copy()
data_test.category_id = data_test.category_id.apply(lambda text: text[9:]).astype('int')
data_test['predicted_id'] = data_test.Document.astype('string')
data_test.predicted_id = data_test.predicted_id.apply(lambda text: predict(text)).astype('int')

test_target = data_test.category_id.tolist()
pred_leafs = data_test.predicted_id.tolist()

print(f'Train hF1={cat_tree.hF1_score(test_target, pred_leafs):.4f}') #0.9187
print(f'Train hF1_01={cat_tree.hF1_score_01(test_target, pred_leafs):.4f}') #0.9463

Train hF1=0.9904
Train hF1_01=0.9936


Предсказываем категории в тестовом сете.

In [16]:
data_valid_test = data_valid.copy()
data_valid_test.category_id = data_valid_test.category_id.apply(lambda text: text[9:]).astype('int')
data_valid_test['predicted_id'] = data_valid_test.Document.astype('string')
data_valid_test.predicted_id = data_valid_test.predicted_id.apply(lambda text: predict(text)).astype('int')

Подготавливаем данные для расчета иерархической метрики.

In [17]:
test_target = data_valid_test.category_id.tolist()
pred_leafs = data_valid_test.predicted_id.tolist()

Расчет иерархической F1-меры. 

In [18]:
print(f'Validation hF1={cat_tree.hF1_score(test_target, pred_leafs):.4f}') #0.9187
print(f'Validation hF1_01={cat_tree.hF1_score_01(test_target, pred_leafs):.4f}') #0.9463

Validation hF1=0.9166
Validation hF1_01=0.9449


Несмотря на простоту алгоритма, после подбора гиперпараметров получился очень хороший бейзлайн, hF1=0.91.