Нужно подобрать оптимальные параметры pipeline с линейными моделями и векторизацией текстов.
Код для проверки качества представлен в скрипте text_classification_params_checker.py, 
а пример набора параметров в text_classification_params_example.json. 
Чекер с вашими параметрами должен отработать за 1 минуту на машинке для проверки.
Для сравнения на text_classification_params_example.json чекер работает 15 секунд.

In [1]:
from sklearn.datasets import fetch_20newsgroups
import numpy as np
import heapq
import json

In [2]:
all_categories = fetch_20newsgroups().target_names
all_categories

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

Возьмём темы из одного раздела, возможно, их будет сложнее отличать друг от друга

In [3]:
categories = [
    'sci.electronics',
    'sci.space',
    'sci.med'
]
train_data = fetch_20newsgroups(subset='train', categories=categories, remove=('headers', 'footers', 'quotes'))
test_data = fetch_20newsgroups(subset='test', categories=categories, remove=('headers', 'footers', 'quotes'))

Для векторизации текстов воспользуемся CountVectorizer, он представляет документ как мешок слов. Можно всячески варировать извлечение признаков (убирать редкие слова, убирать частые слова, убирать слова общей лексики, брать биграмы и т.д.)

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

In [12]:
CountVectorizer()

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

In [13]:
count_vectorizer = CountVectorizer(min_df=5, ngram_range=(1, 2)) 

In [26]:
# print(train_data.data[23], "\n\n\n\n")
# print(train_data.data[943], "\n\n\n\n")
# print(train_data.data[1232], "\n\n\n\n")

In [27]:
sparse_feature_matrix = count_vectorizer.fit_transform(train_data.data)
sparse_feature_matrix

<1778x10885 sparse matrix of type '<class 'numpy.int64'>'
	with 216486 stored elements in Compressed Sparse Row format>

In [31]:
# To many features !
print(sparse_feature_matrix.shape)

(1778, 10885)


In [38]:
#  for k, v in count_vectorizer.vocabulary_.items():
#     print(k)
#     print(v, "\n")

In [39]:
num_2_words = {
    v: k
    for k, v in count_vectorizer.vocabulary_.items()
}

In [41]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score

Обучим логистическую регрессию для предсказания темы документа

In [42]:
algo = LogisticRegression()
algo.fit(sparse_feature_matrix, train_data.target)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

Слова с наибольшим положительным весом, являются характерными словами темы

In [59]:
W = algo.coef_.shape[1]
for c in algo.classes_:
    topic_words = [
        num_2_words[w_num]
        for w_num in heapq.nlargest(10, range(W), key=lambda w: algo.coef_[c, w])
    ]
    print(',  '.join(topic_words))

circuit,  electronics,  power,  chips,  parts,  them,  the number,  used,  tv,  ve
msg,  medical,  my,  blood,  disease,  doctor,  health,  treatment,  your,  needles
space,  orbit,  nasa,  thanks for,  launch,  earth,  sorry,  moon,  spacecraft,  solar


Сравним качество на фолдах с качеством на трейне и на отложенном тесте

In [60]:
algo = LogisticRegression()
arr = cross_val_score(algo, sparse_feature_matrix, train_data.target, cv=5, scoring='accuracy')
print(arr)
print(np.mean(arr))

[ 0.8487395   0.84550562  0.83426966  0.83943662  0.82768362]
0.839127002447


Почему это неправильная кроссвалидация?

In [61]:
algo.fit(sparse_feature_matrix, train_data.target)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [63]:
accuracy_score(algo.predict(sparse_feature_matrix), train_data.target)

0.98031496062992129

In [64]:
accuracy_score(algo.predict(count_vectorizer.transform(test_data.data)), test_data.target)

0.79289940828402372

Мы видим переобучение, это проклятие размерности

In [128]:
algo = LogisticRegression(penalty='l2', C=1)
arr = cross_val_score(algo, sparse_feature_matrix, train_data.target, cv=5, scoring='accuracy')
print(arr)
print(np.mean(arr))

[ 0.8487395   0.84550562  0.83426966  0.83943662  0.82768362]
0.839127002447


In [129]:
algo.fit(sparse_feature_matrix, train_data.target)

LogisticRegression(C=1, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [130]:
accuracy_score(algo.predict(sparse_feature_matrix), train_data.target)

0.98031496062992129

In [131]:
accuracy_score(algo.predict(count_vectorizer.transform(test_data.data)), test_data.target)

0.79289940828402372

Добавление регуляризатора уменьшает отличие на трейне и тесте, но ухудшает качество. Поиграйтесь дома с параметрами регуляризации, чтобы получить максимальное качество.

Чтобы не делать векторизацию и обучение раздельно, есть удобный класс Pipeline. Он позволяет объединить в цепочку последовательность действий

In [123]:
from sklearn.pipeline import Pipeline

In [124]:
pipeline = Pipeline([
    ("vectorizer", CountVectorizer(min_df=5, ngram_range=(1, 2))), 
    ("algo", LogisticRegression())
])

In [125]:
pipeline.fit(train_data.data, train_data.target)

Pipeline(memory=None,
     steps=[('vectorizer', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=5,
        ngram_range=(1, 2), preprocessor=None, stop_words=None,
       ...ty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False))])

In [126]:
accuracy_score(pipeline.predict(train_data.data), train_data.target)

0.98031496062992129

In [127]:
accuracy_score(pipeline.predict(test_data.data), test_data.target)

0.79289940828402372

Значения примерно такие же как мы получали ранее, делаяя шаги раздельно.

In [132]:
from sklearn.pipeline import make_pipeline

При кроссвалидации нужно, чтобы CountVectorizer не обучался на тесте (иначе объекты становятся зависимыми). Pipeline позволяет это просто сделать.

In [133]:
pipeline = make_pipeline(CountVectorizer(min_df=5, ngram_range=(1, 2)), LogisticRegression())
arr = cross_val_score(pipeline, train_data.data, train_data.target, cv=5, scoring='accuracy')
print(arr)
print(np.mean(arr))

[ 0.83753501  0.84550562  0.82303371  0.83943662  0.83050847]
0.835203886829


In [135]:
pipeline = make_pipeline(CountVectorizer(min_df=5, ngram_range=(1, 2)), LogisticRegression())
arr = cross_val_score(pipeline, train_data.data, train_data.target, cv=3, scoring='accuracy')
print(arr)
print(np.mean(arr))

[ 0.80269815  0.81618887  0.80067568]
0.806520896951


В Pipeline можно добавлять новые шаги препроцессинга данных

In [142]:
from sklearn.feature_extraction.text import TfidfTransformer

Warning-и в данном случае это нормально, не пугайтесь. Это будет исправлено в следующих версиях библиотеки sklearn

In [192]:
pipeline = make_pipeline(CountVectorizer(min_df=1, ngram_range=(1, 1)), 
                         TfidfTransformer(norm='l2', use_idf=True, smooth_idf=False, 
                                         sublinear_tf=True ), 
                         LogisticRegression(penalty='l2', C=100))
arr = cross_val_score(pipeline, train_data.data, train_data.target, cv=3, scoring='accuracy')
print(arr)
print(np.mean(arr))

[ 0.90725126  0.88701518  0.87162162]
0.888629354481


In [193]:
pipeline.fit(train_data.data, train_data.target)

Pipeline(memory=None,
     steps=[('countvectorizer', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
  ...ty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False))])

In [194]:
accuracy_score(pipeline.predict(train_data.data), train_data.target)

0.98200224971878514

In [195]:
accuracy_score(pipeline.predict(test_data.data), test_data.target)

0.85122569737954357

Качество стало немного лучше

# Задание

1. Поиграйтесь с параметрами регуляризации, параметрами CountVectorizer и TfidfTransformer, чтобы получить максимальное качество. (нужно будет отправить на проверку, checker будет выложет позже)
2. Постройте список важных слов и словосочетаний для каждой темы (на основе значений коэффициентов). Это чисто по фану

In [149]:
params_example = json.load(open("hw_3_params_example.json"))

In [150]:
params_example

{'count_vectorizer_params': {'min_df': 5, 'ngram_range': [1, 2]},
 'logistic_regression_params': {'C': 1},
 'tfidf_transformer_params': {'norm': 'l1'}}

In [None]:
best_params = {}


Vowpal Wabbit on GitHub: https://github.com/JohnLangford/vowpal_wabbit

Vowpal Wabbit Tutorial: https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial

In [2]:
from vowpalwabbit.sklearn_vw import VWClassifier

ModuleNotFoundError: No module named 'vowpalwabbit'

In [1]:
pipeline = make_pipeline(CountVectorizer(min_df=5, ngram_range=(1, 2)), TfidfTransformer(), VWClassifier())
arr = cross_val_score(pipeline, train_data.data, train_data.target, cv=5, scoring='accuracy')
print(arr)
print(np.mean(arr))

NameError: name 'make_pipeline' is not defined

не работает :( VWClassifier только для бинарной классификации

In [35]:
import re

with open('train', 'w') as f:
    for text, target in zip(train_data.data, train_data.target):
        f.write('{} | {}\n'.format(target + 1, ' '.join(re.findall('\w+', text.lower()))))
        
with open('test', 'w') as f:
    for text, target in zip(test_data.data, test_data.target):
        f.write('{} | {}\n'.format(target + 1, ' '.join(re.findall('\w+', text.lower()))))

In [36]:
!rm train.cache
!vw -d train  -c --passes 10 -f vw.model --oaa 3

final_regressor = vw.model
Num weight bits = 18
learning rate = 0.5
initial_t = 0
power_t = 0.5
decay_learning_rate = 1
creating cache_file = train.cache
Reading datafile = train
num sources = 1
average  since         example        example  current  current  current
loss     last          counter         weight    label  predict features
1.000000 1.000000            1            1.0        3        1       43
1.000000 1.000000            2            2.0        1        3       90
0.750000 0.500000            4            4.0        2        2      348
0.750000 0.750000            8            8.0        2        3       89
0.687500 0.625000           16           16.0        1        2       57
0.687500 0.687500           32           32.0        3        3       30
0.562500 0.437500           64           64.0        3        1       22
0.460938 0.359375          128          128.0        1        1       33
0.367188 0.273438          256          256.0        1        1      116
0.

In [37]:
!vw -i vw.model -t test -p test.out

only testing
predictions = test.out
Num weight bits = 18
learning rate = 0.5
initial_t = 0
power_t = 0.5
using no cache
Reading datafile = test
num sources = 1
average  since         example        example  current  current  current
loss     last          counter         weight    label  predict features
0.000000 0.000000            1            1.0        1        1      127
0.000000 0.000000            2            2.0        3        3       43
0.000000 0.000000            4            4.0        2        2      295
0.250000 0.500000            8            8.0        2        3        1
0.250000 0.250000           16           16.0        2        2      179
0.281250 0.312500           32           32.0        2        3       52
0.265625 0.250000           64           64.0        3        1      214
0.179688 0.093750          128          128.0        2        2       69
0.175781 0.171875          256          256.0        1        3      105
0.189453 0.203125

In [38]:
count = 0
hits = 0
with open('test', 'r') as f_features, open('test.out', 'r') as f_predictions:
    for line_features, line_predictions in zip(f_features, f_predictions):
        count += 1
        hits += int(line_features.split()[0]) == int(line_predictions)
        
1. * hits / count

0.8224852071005917

In [39]:
!rm train.cache
!vw -d train  -c --passes 10 -f vw.model --ect 3 --quiet
!vw -i vw.model -t test -p test.out --quiet

count = 0
hits = 0
with open('test', 'r') as f_features, open('test.out', 'r') as f_predictions:
    for line_features, line_predictions in zip(f_features, f_predictions):
        count += 1
        hits += int(line_features.split()[0]) == int(line_predictions)
        
1. * hits / count

0.7844463229078613

In [40]:
!rm train.cache
!vw -d train  -c --passes 10 -f vw.model --csoaa 3 --quiet
!vw -i vw.model -t test -p test.out --quiet

count = 0
hits = 0
with open('test', 'r') as f_features, open('test.out', 'r') as f_predictions:
    for line_features, line_predictions in zip(f_features, f_predictions):
        count += 1
        hits += int(line_features.split()[0]) == int(line_predictions)
        
1. * hits / count

1.0