# Final result: recall@10: 0.86, precision@3: 0.75

# fastText

fastText: recall@10: 0.79, precision@3: 0.70

Из fastText'a получилось выжать результат чуть-чуть лучший, чем результат бейзлайн, только либо в recall@10, либо в precision@3.
Предтренированные word2vec веса:
- ruwikiruscorpora (НКРЯ и Википедия) - результат примерно такой же
- news (русскоязычные новости 2013-2016) - результат примерно такой же
- fastText (из репозитория библиотеки) - результат такой же или немного лучше либо в recall@10, либо в precision@3

Предобработка текста: 
- токенизация, стемминг не дали прироста
- токенизация, лемматизация, выделение POS (часть речи), фильтрация по POS не дали прироста
Думаю, предобработка не помогла, потому что модель использует n-gram не только слов, но и символов, улавливает необходимые связи.
Предобученные вектора fastText были обучены на простом  тексте, а ruwikiruscorpora и news - на лемматизированном тексте с выделением POS и удалением слов определенных частей речи.

Модель сильно переобучена, разница score составляет 0.2-0.3 на train/test выборках.
Как боролся с переобучением:
- уменьшил количество эпох, иначе модель подгоняет веса под train выборку, фактически запоминает её вместо того, чтобы научиться обобщению:
    - 5 эпох - переобучения почти нет, но модель плохо обучается
    - 10, 15, 20 эпох - результат ниже бейзлайна, небольшое переобучение
- learning rate - от 0.05 до 1.5 - 1.3-1.5 плохо обучается, loss скачет; 0.05 плохо обучается, нужно больше эпох -> будет переобучение; 0.1 - 1 - результат не сильно меняется;
- dim - 30, 50, 70 не хватает для обучения, небольшое переобучение (разница на test/train ~ 0.04-0.09), 100-110 дает оптимальный результат, 300 - слишком сильное переобучение

ngram 1-3 не дал прироста по сравнению с 1-2
ws - результат при ws 3-9 несильно различается, ws 21 и ws 41 не дали прироста

Вывод: для этой модели нужно больше данных, её сложность позволяет обучиться, но из-за малого количества данных возникает сильное переобучение.

В таком случае можно попробовать более простые модели

# Более простые модели : recall@10: 0.86, precision@3: 0.75

Линейные модели неплохо справляются с классификацией текстов

In [1]:
import numpy as np
import pickle
import re
from Stemmer import Stemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.multiclass import OneVsRestClassifier
from sklearn.model_selection import cross_val_score
import pymystem3
import io
import nltk
import string
from nltk.corpus import stopwords
from sklearn.model_selection import GridSearchCV

In [2]:
DATA_FOLDER = '../data/'

In [3]:
m = pymystem3.Mystem()
def text_cleaner_lem(text):
    #токенизация
    text = text.lower()
    tokens = nltk.word_tokenize(text)

    #удаляю знаки препинания
    tokens = [i for i in tokens if ( i not in string.punctuation )]

    #удаляю стоп-слова
    stop_words = stopwords.words('russian')
    stop_words.extend(['из-за', 'что', 'это', 'так', 'вот', 'быть', 'как', 'в', '—', '–', 'к', 'на', 'который', 'ранее', 'свой'])
    tokens = [i for i in tokens if ( i not in stop_words )]

    #удаляю мусор из текста
    tokens = [i.replace("«", "").replace("»", "")
              .replace("``", "").replace("-", "").replace("''", "")
              .replace(",", "").replace(".", "") for i in tokens]
    text = ' '.join(tokens)
    lemmas = m.lemmatize(text)
    text = ' '.join(lemmas).replace('\n', ' ').split()
    text = [i for i in text if ( i not in stop_words )]
    lem_text = []
    for t in text:
        try:
        	pos = pos_map[m.analyze(t)[0]['analysis'][0]['gr'].split(',')[0].split('=')[0]]
            #удаляю слова, выраженные определенными частями речи 
        	if pos not in ('DET', 'SCONJ', 'INTJ', 'PRON', 'ADP'):
        		lem_text.append(t)
        except:
            lem_text.append(t)
    return ' '.join(lem_text)

In [4]:
#препроцессинг без удаления стоп-слов
def text_cleaner_lem_no_stopwords(text):
    #токенизация
    text = text.lower()
    tokens = nltk.word_tokenize(text)

    #удаляю знаки препинания
    tokens = [i for i in tokens if ( i not in string.punctuation )]

    #удаляю мусор из текста
    tokens = [i.replace("«", "").replace("»", "")
              .replace("``", "").replace("-", "").replace("''", "")
              .replace(",", "").replace(".", "") for i in tokens]
    text = ' '.join(tokens)
    lemmas = m.lemmatize(text)
    text = ' '.join(lemmas).replace('\n', ' ').split()
    return ' '.join(text)

In [5]:
#чтение набора данных, выделение тегов, их бинаризация для классификатора, выделение уникальных тегов для анализа
def read_dataset(train_data_name, train_target_name, test_data_name, test_target_name):
    with io.open(train_data_name) as f:
        f = f.read()
        train_data = np.array(list(map(lambda s: s.replace('|', ' '), f.split('\n')))[:-1])
    train_data_len = len(train_data)
    
    with io.open(train_target_name) as f:
        f = f.read()
        train_labels = list(map(lambda s: s.split('|'), f.split('\n')))[:train_data_len]
        unique_labels = np.unique(np.array(re.split('\W+', f)))[1:]
        train_target = []
        for obj_labels in train_labels:
            train_target.append([np.argwhere(unique_labels == label)[0][0] for label in obj_labels])
    #train_target = MultiLabelBinarizer().fit_transform(train_target)
    
    with io.open(test_data_name) as f:
        f = f.read()
        test_data = np.array(list(map(lambda s: s.replace('|', ' '), f.split('\n')))[:-1])
    test_data_len = len(test_data)
    
    with io.open(test_target_name) as f:
        f = f.read()
        test_labels = list(map(lambda s: s.split('|'), f.split('\n')))[:test_data_len]
        #unique_labels = np.unique(np.array(re.split('\W+', f)))[1:]
        #test_target = []
        for obj_labels in test_labels:
            train_target.append([np.argwhere(unique_labels == label)[0][0] for label in obj_labels])
    target = MultiLabelBinarizer().fit_transform(train_target)
            
    return train_data, target[:train_data_len], test_data, target[train_data_len:], train_labels, test_labels, train_target, target, unique_labels

In [6]:
X_train, y_train, X_test, y_test, train_labels, test_labels, target, target_bin, unique_labels = read_dataset(DATA_FOLDER + 'content_train', DATA_FOLDER + 'labels_train', DATA_FOLDER + 'content_test', DATA_FOLDER + 'labels_test')

# Analysis of label and word counts

In [7]:
train_labels[:10]

[['транспорт', 'строительство', 'метро', 'life78'],
 ['египет', 'новости', 'взрывы', 'вмире'],
 ['франция', 'новости', 'вмире'],
 ['происшествия', 'регионы', 'новости', 'life70'],
 ['владимиржириновский', 'новости', 'переворотвтурции'],
 ['италия', 'новости', 'вмире'],
 ['франция', 'новости', 'вмире'],
 ['новости', 'теннис', 'вмире'],
 ['ксениясобчак', 'кино', 'шоу'],
 ['марс', 'космос', 'наука', 'новости']]

In [8]:
train_labels_flatten = []
for train_class in train_labels:
    for label in train_class:
        train_labels_flatten.append(label)
print(len(train_labels_flatten))

239385


In [9]:
unique_labels_count = {}
for label in train_labels_flatten:
    try:
        unique_labels_count[label] += 1
    except:
        unique_labels_count[label] = 1

In [10]:
#доля тегов в процентах (train set)
[(k, unique_labels_count[k] / len(train_labels_flatten) * 100) for k in sorted(unique_labels_count, key=unique_labels_count.get, reverse=True)][:10]

[('новости', 18.539173298243416),
 ('вмире', 6.059694634166719),
 ('происшествия', 3.2153225974893997),
 ('life78', 2.4579652024980683),
 ('регионы', 2.415773753576874),
 ('сша', 2.10581281199741),
 ('москва', 1.9491613927355518),
 ('эксклюзивы', 1.526829166405581),
 ('украина', 1.4378511602648454),
 ('спорт', 1.0823568728199344)]

In [37]:
label_corr = np.corrcoef(y_train.T)

In [38]:
label_corr.shape

(860, 860)

In [40]:
#корреляция тегов, которую я в итоге не использовал
label_corr

array([[  1.00000000e+00,  -1.46622212e-03,  -2.57819297e-03, ...,
         -1.08272816e-03,  -1.00698772e-03,  -2.12716678e-03],
       [ -1.46622212e-03,   1.00000000e+00,   4.77719635e-02, ...,
         -2.11025709e-03,   6.98221097e-03,   1.08284212e-04],
       [ -2.57819297e-03,   4.77719635e-02,   1.00000000e+00, ...,
         -3.71065879e-03,   6.78345866e-03,  -2.42254306e-03],
       ..., 
       [ -1.08272816e-03,  -2.11025709e-03,  -3.71065879e-03, ...,
          1.00000000e+00,  -1.44930494e-03,  -3.06152029e-03],
       [ -1.00698772e-03,   6.98221097e-03,   6.78345866e-03, ...,
         -1.44930494e-03,   1.00000000e+00,  -2.84735673e-03],
       [ -2.12716678e-03,   1.08284212e-04,  -2.42254306e-03, ...,
         -3.06152029e-03,  -2.84735673e-03,   1.00000000e+00]])

In [11]:
#смотрю на мусорные слова -> добавляю в stop_words в text_cleaner_lem
train_words_freq = {}
for train_text in X_train:
    text_lem = text_cleaner_lem(train_text).split()
    for word in text_lem:
        try:
            train_words_freq[word] += 1
        except:
            train_words_freq[word] = 1

In [12]:
#доля слов в процентах (train set)
[(k, train_words_freq[k] / len(train_words_freq) * 100) for k in sorted(train_words_freq, key=train_words_freq.get, reverse=True)][:10]

[('россия', 10.140527073844837),
 ('человек', 9.908910428588111),
 ('год', 9.529370547705243),
 ('москва', 8.499746973412744),
 ('сша', 7.826306979641092),
 ('новый', 7.522675074934797),
 ('становиться', 7.0010510335162905),
 ('российский', 7.0010510335162905),
 ('президент', 5.39141266690023),
 ('мужчина', 5.284362956907626)]

# Scorer

Расчет prec@3, recall@10 по вероятностным предсказаниям модели;
выбираю наиболее вероятные (по предсказанию модели) теги, считаю avg_prec и avg_recall
f1-score - либо возвращает f1-score (для удобства расчетов), либо avg_prec и avg_recall для сравнения финального результата

In [13]:
def precision_at_3(pred, true):
    return np.intersect1d(true, pred).shape[0] / 3

In [14]:
def recall_at_10(pred, true):
    return np.intersect1d(true, pred).shape[0] / true.shape[0]

In [15]:
def average_precision(pred_argsort, true):
    avg_precision = 0
    for i in range(len(pred_argsort)):
        avg_precision += precision_at_3(pred_argsort[i][857:860], true[i])
    avg_precision /= len(pred_argsort)
    return avg_precision

In [16]:
def average_recall(pred_argsort, true):
    avg_recall = 0
    for i in range(len(pred_argsort)):
        avg_recall += recall_at_10(pred_argsort[i][850:860], true[i])
    avg_recall /= len(pred_argsort)
    return avg_recall

In [17]:
def f1_scorer(estimator, X, y):
    pred = estimator.predict_proba(X)
    pred_argsort = np.argsort(pred, axis=1)
    y_ = []
    for row in y:
        y_.append(np.argwhere(row == 1).flatten())
    avg_precision = average_precision(pred_argsort, y_)
    avg_recall = average_recall(pred_argsort, y_)
    f1_score = 2 * (avg_precision * avg_recall) / (avg_precision + avg_recall)
    return (avg_recall, avg_precision)

Среди простых моделей наилучший результат в классификации текстов обычно показывает SVM, но для расчета recall и precision в нашей multilabel classification задаче нам необходимо знать вероятностные предсказания модели, поэтому я выбрал показывающую неплохой результат Log Reg.

# Logistic Regression tuning

### Estimate time to find a solution

In [18]:
log_sgd_clf_default = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 2), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=20))),
])

In [19]:
%%time
log_sgd_clf_default.fit(X_train, y_train)

CPU times: user 11min 34s, sys: 10.8 s, total: 11min 45s
Wall time: 13min 8s


Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 2), norm='l2',
        preprocessor=<function text_c...r_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False),
          n_jobs=1))])

(recall@10, precision@3)

In [20]:
f1_scorer(log_sgd_clf_default, X_test, y_test)

(0.561933412698413, 0.5583999999999976)

всего 20 эпох - 13 минут, довольно долго

### Hyperparameter Search

Не стал настраивать, всё равно слишком долго будет рассчитываться на ноутбуке, в идеале около 100 000 запусков для расчета параметров (по етке), но даже всего несколько запусков займет часы (эпох в разы больше, чем в предыдущем примере)

In [None]:
#log_sgd_clf = Pipeline([
#    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 2), analyzer='word')),
#    ('clf', OneVsRestClassifier(SGDClassifier(loss='log'))),
#])

In [None]:
parameters = {'tfidf__ngram_range': [(1, 2), (1, 1), (1, 3)], 
              'tfidf__use_idf': (True, False),
              'tfidf__analyzer': ['word', 'letter'],
              'clf__estimator__alpha': [10**-7, 10**-4, 10**-1],
              'clf__estimator__penalty': ['elasticnet', 'l1', 'l2'],
              'clf__estimator__class_weight': ['balanced', 'None'], 
              'clf__estimator__learning_rate': ['invscaling', 'constant', 'optimal'], 
              'clf__estimator__l1_ratio': (0.1, 0.3, 0.5, 0.7, 0.9),
              'clf__estimator__n_iter': [20, 50, 100, 300, 500],
              'clf__estimator__eta0': [0.0001, 0.001, 0.01, 0.1, 1, 10]
} # 97'200 different models

In [None]:
#gs_clf = GridSearchCV(log_sgd_clf, parameters, scoring=f1_scorer, n_jobs=-1)

In [None]:
#gs_clf = gs_clf.fit(X_train, y_train)

In [None]:
#f1_scorer(log_sgd_clf_default, X_test, y_test)

In [None]:
#cross_val_score(estimator=log_sgd_clf_default, X=X_train, y=y_train, scoring=f1_scorer)

Так как я сильно очищаю текст, использование биграмм маловероятно даст прирост в качестве, но сильно увеличит количество признаков -> переобучение и увеличение времение обучения

In [48]:
log_sgd_clf_opt = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=300, penalty='l2'))),
])

In [49]:
log_sgd_clf_opt.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2',
        preprocessor=<function text_c...r_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False),
          n_jobs=1))])

test set:

In [50]:
f1_scorer(log_sgd_clf_opt, X_test, y_test)

(0.6229410317460309, 0.6032666666666621)

train set:

In [51]:
f1_scorer(log_sgd_clf_opt, X_train, y_train)

(0.6423100632511944, 0.6241098796079828)

#### Нет переобучения -> увеличиваю количество эпох

In [None]:
log_sgd_clf_opt_500 = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=500, penalty='l2'))),
])

In [None]:
log_sgd_clf_opt_500.fit(X_train, y_train)

In [None]:
pred = log_sgd_clf_opt_500.predict_proba(X_test)

In [None]:
f1_scorer(log_sgd_clf_opt_500, X_test, y_test)

In [None]:
f1_scorer(log_sgd_clf_opt_500, X_train, y_train)

#### результат не улучшился

### Не удалять стоп-слова и использовать n-gram

In [12]:
log_sgd_clf_opt_allwords = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem_no_stopwords, ngram_range=(1, 2), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=300, penalty='l2'))),
])

In [13]:
log_sgd_clf_opt_allwords.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 2), norm='l2',
        preprocessor=<function text_c...r_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False),
          n_jobs=1))])

In [14]:
pred = log_sgd_clf_opt_allwords.predict_proba(X_test)

In [15]:
f1_scorer(log_sgd_clf_opt_allwords, X_test, y_test)

(0.5553130952380952, 0.5547333333333303)

In [16]:
f1_scorer(log_sgd_clf_opt_allwords, X_train, y_train)

(0.5577440474109403, 0.5675034672447854)

#### результат значительно ухудшился

### Averaged SGD

In [7]:
log_asgd_clf = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=300, penalty='l2', eta0=0.1, average=True))),
])

In [8]:
log_asgd_clf.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2',
        preprocessor=<function text_c...r_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False),
          n_jobs=1))])

In [16]:
f1_scorer(log_asgd_clf, X_test, y_test)

(0.6240298412698405, 0.6034666666666619)

In [17]:
f1_scorer(log_asgd_clf, X_train, y_train)

(0.6434155510158026, 0.624290525972329)

#### Переобучения нет, но обучаемость модели меня не устраивает -> увеличу learning rate 

In [21]:
log_asgd_clf_lr1 = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=300, penalty='l2', eta0=1, average=True))),
])

In [22]:
log_asgd_clf_lr1.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2',
        preprocessor=<function text_c...r_t=0.5,
       random_state=None, shuffle=True, verbose=0, warm_start=False),
          n_jobs=1))])

In [24]:
f1_scorer(log_asgd_clf_lr1, X_test, y_test)

(0.6239898412698406, 0.6034666666666619)

In [25]:
f1_scorer(log_asgd_clf_lr1, X_train, y_train)

(0.6434237369877662, 0.6242963532744049)

#### Модель не очень хорошо обучается, переобучения нет -> уменьшу коэффициент регуляризации 

In [17]:
log_asgd_clf_reg = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=300, penalty='l2', alpha=1e-7, eta0=0.1, average=True))),
])

In [18]:
log_asgd_clf_reg.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2',
        preprocessor=<function text_c...r_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False),
          n_jobs=1))])

In [19]:
f1_scorer(log_asgd_clf_reg, X_test, y_test)

(0.8363179365079384, 0.7229999999999879)

In [20]:
f1_scorer(log_asgd_clf_reg, X_train, y_train)

(0.999990509822334, 0.9996328799692312)

модель сильно переобучается, но даёт результат на test set лучше, чем у бейзлайна: 0.836, 0.723

диапазон alpha = [1e-7, 1e-4], нужно найти наиболее подходящее значение

рекомендуемое количество эпох: 1e6 / n_samples, то есть 1e6 / 5e4 = 20

In [16]:
log_asgd_clf_reg_20 = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=20, penalty='l2', alpha=1e-7, eta0=1, learning_rate='constant', average=True))),
])

In [17]:
log_asgd_clf_reg_20.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2',
        preprocessor=<function text_c...r_t=0.5,
       random_state=None, shuffle=True, verbose=0, warm_start=False),
          n_jobs=1))])

In [18]:
f1_scorer(log_asgd_clf_reg_20, X_test, y_test)

(0.8591723809523841, 0.7488666666666539)

In [19]:
f1_scorer(log_asgd_clf_reg_20, X_train, y_train)

(0.9995708053275978, 0.9804319196298116)

In [20]:
pred_prob = log_asgd_clf_reg_20.predict_proba(X_test)

In [21]:
pred_argsort = np.argsort(pred_prob, axis=1)

In [23]:
i = 1
pred_argsort[i][850:860], np.argwhere(y_test[i] == 1).flatten()

(array([725, 640, 723, 539, 671,  58, 536, 742, 209, 522]),
 array([209, 522, 536, 742]))

коэффициент регуляризации достаточно низкий, чтобы получить среднее переобучение и при этом отличный результат на train set, то есть коэффициент не мешает модели обучаться, можно повысить

то же самое с optimal learning rate:

In [26]:
log_asgd_clf_reg_20_optimal = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=20, penalty='l2', alpha=1e-7, eta0=1, learning_rate='optimal', average=True))),
])

In [27]:
log_asgd_clf_reg_20_optimal.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2',
        preprocessor=<function text_c...r_t=0.5,
       random_state=None, shuffle=True, verbose=0, warm_start=False),
          n_jobs=1))])

In [28]:
f1_scorer(log_asgd_clf_reg_20_optimal, X_test, y_test)

(0.8034578571428572, 0.7249999999999877)

In [29]:
f1_scorer(log_asgd_clf_reg_20_optimal, X_train, y_train)

(0.9997108409462878, 0.9976865610759478)

результат значительно хуже, чем при constant learning rate

поэкспериментирую с разными коэф-ми рег-ии

In [30]:
log_asgd_clf_reg_20_e6 = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=20, penalty='l2', alpha=1e-6, eta0=1, learning_rate='constant', average=True))),
])

In [31]:
log_asgd_clf_reg_20_e6.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2',
        preprocessor=<function text_c...r_t=0.5,
       random_state=None, shuffle=True, verbose=0, warm_start=False),
          n_jobs=1))])

In [32]:
f1_scorer(log_asgd_clf_reg_20_e6, X_test, y_test)

(0.8585315079365108, 0.7497333333333207)

In [33]:
f1_scorer(log_asgd_clf_reg_20_e6, X_train, y_train)

(0.9990797788178143, 0.963404542964634)

результат на train set не улучшился по сравнению с alpha=1e-7, а на test set ухудшился

думаю, нужно поэкспериментировать с learning rate (eta0)

In [36]:
log_asgd_clf_reg_20_e7_eta1_5 = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=20, penalty='l2', alpha=1e-7, eta0=1.5, learning_rate='constant', average=True))),
])

In [37]:
log_asgd_clf_reg_20_e7_eta1_5.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2',
        preprocessor=<function text_c...r_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False),
          n_jobs=1))])

In [38]:
f1_scorer(log_asgd_clf_reg_20_e7_eta1_5, X_test, y_test)

(0.8563572222222247, 0.7451333333333197)

In [39]:
f1_scorer(log_asgd_clf_reg_20_e7_eta1_5, X_train, y_train)

(0.9997680872519168, 0.9910725732200322)

переобучение увеличилось, результат на train set остался тем же, увеличу коэф рег-ии и eta0

In [40]:
log_asgd_clf_reg_20_e6_eta2 = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=20, penalty='l2', alpha=1e-6, eta0=2, learning_rate='constant', average=True))),
])

In [41]:
log_asgd_clf_reg_20_e6_eta2.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2',
        preprocessor=<function text_c...r_t=0.5,
       random_state=None, shuffle=True, verbose=0, warm_start=False),
          n_jobs=1))])

In [42]:
f1_scorer(log_asgd_clf_reg_20_e6_eta2, X_test, y_test)

(0.8583450000000025, 0.7464666666666542)

In [43]:
f1_scorer(log_asgd_clf_reg_20_e6_eta2, X_train, y_train)

(0.9996261577600521, 0.9827511858559385)

особой разницы нет, попробую eta0 = 10 и optimal learning rate, т.к. eta0 довольно большая

In [48]:
log_asgd_clf_reg_20_e6_eta10 = Pipeline([
    ('tfidf', TfidfVectorizer(preprocessor=text_cleaner_lem, ngram_range=(1, 1), analyzer='word')),
    ('clf', OneVsRestClassifier(SGDClassifier(loss='log', n_iter=20, penalty='l2', alpha=1e-6, eta0=10, learning_rate='optimal', average=True))),
])

In [49]:
log_asgd_clf_reg_20_e6_eta10.fit(X_train, y_train)

Pipeline(steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2',
        preprocessor=<function text_c...r_t=0.5,
       random_state=None, shuffle=True, verbose=0, warm_start=False),
          n_jobs=1))])

In [50]:
f1_scorer(log_asgd_clf_reg_20_e6_eta10, X_test, y_test)

(0.8545111111111131, 0.7427999999999871)

In [51]:
f1_scorer(log_asgd_clf_reg_20_e6_eta10, X_train, y_train)

(0.9997059571121669, 0.9905947344498246)

# Более сложная модель - Deep CNN

Глубокая сврёрточная нейросеть для классификация multi-label текстов

### Prepare dataset

In [26]:
magpie_data = '../magpie-master/data/'

In [24]:
X_train[0]

'До конца июля будет достроен тоннель к станции метро "Новокрестовская"   Длина строящегося участка составляет 1969 метров, из них пройдено уже полкилометра.'

In [28]:
for i in range(X_train.shape[0]):
    with open(magpie_data + 'news-train/' + str(i) + '.txt', 'w') as f:
        f.write(X_train[i])

In [29]:
train_labels[0]

['транспорт', 'строительство', 'метро', 'life78']

In [30]:
for i in range(X_train.shape[0]):
    with open(magpie_data + 'news-train/' + str(i) + '.lab', 'w') as f:
        for lab in train_labels[i]:
            f.write(lab + '\n')

In [31]:
with open(magpie_data + 'news-train/' + str(2) + '.lab') as f:
    print(f.read())

франция
новости
вмире



In [33]:
for i in range(X_test.shape[0]):
    with open(magpie_data + 'news-test/' + str(i) + '.txt', 'w') as f:
        f.write(text_cleaner_lem(X_test[i]))

In [34]:
for i in range(X_test.shape[0]):
    with open(magpie_data + 'news-test/' + str(i) + '.lab', 'w') as f:
        for lab in test_labels[i]:
            f.write(lab + '\n')

In [35]:
with open(magpie_data + 'news-train/' + str(2) + '.txt') as f:
    print(f.read())

89-летний француз умер, опустив бюллетень в урну   Мужчину сразил сердечный приступ. За кого именно голосовал француз — неизвестно.


### Training

In [36]:
import gensim
from magpie import MagpieModel

Using TensorFlow backend.


In [62]:
#model = gensim.models.Word2Vec.load_word2vec_format('ruwikiruscorpora_0_300_20.bin', binary=True, unicode_errors='ignore')

In [37]:
#magpie = MagpieModel(word2vec_model=model)
magpie = MagpieModel()

In [38]:
train_dir = magpie_data + 'news-train/'

In [39]:
magpie.init_word_vectors(train_dir=train_dir, vec_dim=100)

Fitted to 21343 vectors
Fitted to 21213 vectors
Fitted to 21133 vectors
Fitted to 21128 vectors
Fitted to 21405 vectors
Fitted to 21343 vectors
Fitted to 21102 vectors
Fitted to 21054 vectors
Fitted to 21358 vectors
Fitted to 21357 vectors
Fitted to 20941 vectors
Fitted to 21316 vectors
Fitted to 21160 vectors
Fitted to 21480 vectors
Fitted to 21215 vectors
Fitted to 21070 vectors
Fitted to 21177 vectors
Fitted to 21148 vectors
Fitted to 21195 vectors
Fitted to 21136 vectors
Fitted to 21303 vectors
Fitted to 21354 vectors
Fitted to 21231 vectors
Fitted to 21158 vectors
Fitted to 21120 vectors
Fitted to 21323 vectors
Fitted to 21198 vectors
Fitted to 21184 vectors
Fitted to 21335 vectors
Fitted to 21188 vectors
Fitted to 21229 vectors
Fitted to 21089 vectors
Fitted to 21256 vectors
Fitted to 21163 vectors
Fitted to 21381 vectors
Fitted to 21261 vectors
Fitted to 21085 vectors
Fitted to 21196 vectors
Fitted to 21370 vectors
Fitted to 20971 vectors
Fitted to 21384 vectors
Fitted to 21085 

посмотрю на результат после 3 эпох:

In [40]:
magpie_labels = list(unique_labels_count.keys())
magpie.train(train_dir, magpie_labels, test_ratio=0, nb_epochs=3)

Epoch 1/3
Epoch 2/3
Epoch 3/3


<keras.callbacks.History at 0x1423d0ba8>

3 эпохи - 40 минут, пора сдавать решение, поэтому только эпох десять смогу пообучать.

In [63]:
magpie.save_model(magpie_data+'epoch3model')
magpie.save_word2vec_model(magpie_data+'w2vmodel')
magpie.save_scaler(magpie_data+'scaler', overwrite=True)

In [44]:
magpie.predict_from_text(text=X_test[0])[:10]

[('новости', 0.6501438),
 ('происшествия', 0.55050647),
 ('life78', 0.32509598),
 ('регионы', 0.26680365),
 ('пожары', 0.24418502),
 ('lifecorr', 0.18411613),
 ('взрывы', 0.094644241),
 ('аварии', 0.093614638),
 ('чп', 0.091868289),
 ('москва', 0.072364926)]

In [43]:
test_labels[0]

['пожары', 'происшествия', 'life78', 'lifecorr']

In [97]:
def average_precision_magpie(pred, true):
    avg_precision = 0
    for i in range(len(pred)):
        pred_lab= []
        for k in range(3):
            pred_lab.append(pred[i][k][0])
        avg_precision += precision_at_3(np.array(pred_lab), np.array(true[i]))
    avg_precision /= len(pred)
    return avg_precision

In [98]:
def average_recall_magpie(pred, true):
    avg_recall = 0
    for i in range(len(pred)):
        pred_lab= []
        for k in range(10):
            pred_lab.append(pred[i][k][0])
        avg_recall += recall_at_10(np.array(pred_lab), np.array(true[i]))
    avg_recall /= len(pred)
    return avg_recall

In [99]:
def f1_scorer_magpie(model, X, y):
    pred = []
    for text in X:
        pred.append(magpie.predict_from_text(text=text))
    avg_precision = average_precision_magpie(pred, y)
    avg_recall = average_recall_magpie(pred, y)
    f1_score = 2 * (avg_precision * avg_recall) / (avg_precision + avg_recall)
    return (avg_recall, avg_precision)

In [100]:
f1_scorer_magpie(magpie, X_test, test_labels)

(0.5823724603174599, 0.5521333333333318)

In [106]:
f1_scorer_magpie(magpie, X_train, train_labels)

(0.5978582653065172, 0.5614663822943585)

Вижу, что модель обучилась недостаточно хорошо, переобучения нет, поэтому можно обучать ещё. В Magpie модель каждый раз обучается с нуля (инициализирует веса)

Поставлю тренироваться 30 эпох. Не поставлю, не успел :(

In [None]:
magpie.train(train_dir, magpie_labels, test_ratio=0, nb_epochs=30)