# Разрешение неоднозначности: WSD


In [1]:
import re
from collections import Counter
import os
from pprint import pprint
from pymystem3 import Mystem

In [2]:
m = Mystem()

2. Препроцессинг
Перед тем, как из множества контекстов получить набор признаков, нужно 
(1) убрать лишние символы
(2) убрать стоп-слова
(3) лемматизировать тексты

In [3]:
def load_stop_words(stop_filename):
	''' загрузить список стоп-слов из файла, одно слово на строке '''
	with open(stop_filename, encoding = 'utf-8') as f:
		stopwords = [w.strip() for w in f.readlines() if w.strip()]
	return set(stopwords)

stopw = "./stoplist_russian.txt"
print(load_stop_words(stopw))


{'ли', 'лишь', 'пока', 'свой', 'главный', 'над', 'примечательно', 'и', 'едва', 'со', 'каждый', 'я', 'еще', 'год', 'без', 'она', 'первый', 'с', 'по', 'по-прежнему', 'здесь', 'рамка', 'самый', 'восемь', 'уже', 'он', 'четыре', 'на', 'в', 'не', 'а', 'даже', 'этот', 'ещё', 'стать', 'во', 'что', 'после', 'два'}


In [4]:
def preprocessing(raw_text):
    clean_text = re.sub('\W+', ' ', raw_text) # \W = [^a-zA-Z0-9_]
    return clean_text

def lemmatize(input):
    return [lemma.strip() for lemma in m.lemmatize(preprocessing(input.lower())) if lemma.strip()]

text = "с виду воду, которая бьёт  рядом с французским городом Авен"
#m.lemmatize(text)

#r_text = "Он еле дождался, пока я доковыряюсь ключом в замке и, не снимая сапожек, прямиком пошёл в свою спальню."
#print(preprocessing(text))
print(lemmatize(text))

['с', 'вид', 'вода', 'который', 'бить', 'рядом', 'с', 'французский', 'город', 'авен']


In [5]:
def remove_stop_words(lemmas, stopwords):
    return ' '.join([word for word in lemmas if word not in stopwords])

#stop_words_filename = 'D:/GooDrive/0_2018_Edu_CL2/0_2018_Edu_HSE_Bak_CL2/WSD/WSD_Classifier/stoplist_russian.txt' 	# одно слово на строке
stop_words = load_stop_words(stopw)
raw_texts = ['Он', 'еле', 'дождался', 'пока', 'я', 'доковыряюсь', 'ключом', 'в', 'замке', 'и', 'не', 'снимая']
print(remove_stop_words(raw_texts, stop_words))

Он еле дождался доковыряюсь ключом замке снимая


# 1. Загрузка и адаптация корпуса
В качестве корпуса мы возьмем два файла, каждый из которых включает примерно 1000-1500 контекстов со словом "ключ", который доступен с сайта.  
Каждый контекст с новой строки.
Пусть примеры из файла spring.txt получают значение "0", а из файла key.txt значение 1

#положительная оценка
#отрицательная оценка
#текст твита
Напишем функцию, которая читает этот файл

In [12]:
# библиотека для поддержки различных кодировок при чтении/записи файлов
# вообще, все import лучше хранить в начале файла, но в IPython'е это не всегда удобно
import codecs

def load_files(filename):
    # список, где будут накапливаться результаты
    results = []
    
    # открываем файл как переменную inp_file.
    # Важно помнить, что в этой переменной хранится не сам текстовый файл, а своего рода указатель на него.
    # Файл еще предстоит прочитать.
    # Конструкция with следит за тем, чтобы переменная, которая после as, существовала только внутри блока.
    # Благодаря этому файл закроется сразу же после использования
    with(codecs.open(filename, encoding = 'utf-8')) as inp_file:
        # читаем первую строку "в никуда" (не сохраняем результат).
        # Первая строка у нас — это названия колонок, они нам не нужны
        inp_file.readline()
        # Для каждой строки в файле
        for line in inp_file:
            # откусываем концы строк
            line = line.strip('\r\n')
            # строка.count(подстрока) возвращает количество вхождений подстроки в строку
            if line.count('\t') != 1:
            # специальное ключевое слово для перехода к следующей итерации цикла
                continue
            # делим строку по табуляции и складываем в каждую из двух переменных очередное значение
            sence, context = line.split('\t')
            # добавляем кортеж (sence, context) в общий список результатов
            cx = lemmatize(context)
            cx = remove_stop_words(cx, stop_words)
            results.append((int(sence), cx))
    # возвращаем результаты в виде списка кортежей (sence, context)
    return results

In [21]:
# указываем абсолютный или относительный путь
data = load_files('D:/GooDrive/0_2018_Edu_CL2/0_2018_Edu_HSE_Bak_CL2/WSD/WSD_Classifier/data/spring-key.txt')

In [14]:
# напечатаем первые 10 элементов нашего корпуса
for item in data[:10]:
    print (item[0], item[1])

0 вид вода который бить рядом французский город авен
0 у обледенелый пень бить незамерзающий
0 дно озеро бить тысяча хотя расшевеливать его поверхность
0 землянка навстречу ты бить грязевый
0 из глубокий расселина бить горячий окутывать туман край впадина
0 каравай стол вода голова плечо
0 место шлюз бить могучий
0 подниматься река то подземный переставать биться
0 бить день ночь белый попыхивать белый дымок
0 живой вода бить


In [20]:
with codecs.open('D:/GooDrive/0_2018_Edu_CL2/0_2018_Edu_HSE_Bak_CL2/WSD/WSD_Classifier/data/lemmatized_data.txt', mode='w', encoding='utf-8') as wr:
    wr.write('sense\tcontext(lemmatized)\r\n')
    for item in data:
        wr.write(str(item[0]) + '\t' + item[1] + "\r\n")

2. Перевод корпуса в векторы признаков, feature vectors
Наш корпус загружен, теперь можно подумать об обучении. Что требуется для классификации?

Каждый объект, который передается в классификатор, для обучения или нет, должен быть преобразован в набор признаков (вектор). Количество признаков — это размерность вектора, а заодно и размерность пространства признаков. Чем больше признаков, тем проще может быть отличить один объект от другого, но тем больше расходы на хранение и вычисление (представьте, что у вас 1 000 000 объектов (в обучающей выборке или уже на этапе предсказания), и мы прибавили всего один признак — тут же надо добавить 1 000 000 значений).

При классификации текста часто используется подход мешок слов (bag of words). Это значит, что каждый текст рассматривается как набор слов, которые встретились в этом тексте. С одной стороны, теряются связи между токенами, с другой — всё становится значительно проще.

Мы будем пользоваться именно этим подходом для нашей задачи.

In [9]:
# математика
import numpy

# разные классификаторы
from sklearn.naive_bayes import MultinomialNB
from sklearn import tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import LinearSVC

# векторизация
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# деление корпуса train/test
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split

# Pipeline
from sklearn.pipeline import Pipeline

In [10]:
x_context = [item[1] for item in data]
y_labels = [item[0] for item in data]
print(x_context[:5])
print(y_labels[1])

['столицы не то чтобы бьёт  но и не стоит на', 'с виду воду, которая бьёт  рядом с французским городом Авен', 'у обледенелого пня, бьёт Незамерзающий  ', 'со дна озера били тысячи  и, хотя расшевелить его поверхность', 'землянки, навстречу тебе бьют грязевые  ']
0


In [11]:
def tokenize(input):
    return input.split(' ')

In [13]:
classifiers = [('SVM', LinearSVC), ('Bayes', MultinomialNB)]
vectorizers = [('Counts', CountVectorizer), ('TfIdf', TfidfVectorizer)]

In [14]:
classifiers[0][1]

sklearn.svm.classes.LinearSVC

Хочется получить:

Оценку по всем сочетаниям классификатора и векторизатора
Препроцессинг
По результатам: построить график

In [15]:
def score_classifier(clf, metric='f1'):
    scores = cross_val_score(pipeline, numpy.asarray(x_context), numpy.asarray(y_labels), cv=5, scoring=metric)
    score = sum(scores) / len(scores)
    
    return score

In [16]:
clf = MultinomialNB()
pipeline = Pipeline(
[
  ('vectorizer',  TfidfVectorizer(tokenizer=tokenize)),
  ('classifier',  clf)
])

pipeline.fit(numpy.asarray(x_context), numpy.asarray(y_labels))
pipeline.predict(x_context)

pipeline.predict([u'из ключа вода'])

print (score_classifier(pipeline))
print (score_classifier(pipeline, 'precision'))
print (score_classifier(pipeline, 'recall'))

0.875431922405
0.784195949295
0.991039222657


In [18]:
for clf in classifiers:
    for vctr in vectorizers:
        pipeline = Pipeline([
    ('vectorizer', vctr[1]()),
    ('classifier', clf[1]()) ])
        print (clf[0], vctr[0], score_classifier(pipeline))

SVM Counts 0.917138784905
SVM TfIdf 0.921444652546
Bayes Counts 0.920523775572
Bayes TfIdf 0.904697261704


In [19]:
scores = cross_val_score(pipeline, numpy.asarray(x_context), numpy.asarray(y_labels), cv=5, scoring='f1')
score = sum(scores) / len(scores)

print (score)
print (scores)

0.904697261704
[ 0.89269051  0.90202177  0.9216      0.90302067  0.90415335]


In [20]:
def score_classifier(clf, metric='f1'):
    scores = cross_val_score(pipeline, numpy.asarray(x_tweets), numpy.asarray(y_labels), cv=5, scoring=metric)
    score = sum(scores) / len(scores)
    
    return score

In [25]:
scores = cross_val_score(pipeline, numpy.asarray(x_context), numpy.asarray(y_labels), cv=5, scoring='f1')
score = sum(scores) / len(scores)

print (score)
print (scores)

0.904697261704
[ 0.89269051  0.90202177  0.9216      0.90302067  0.90415335]


In [27]:
#import sklearn

from nltk.corpus import stopwords
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import KFold
from sklearn.naive_bayes import MultinomialNB
from sklearn import tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import LinearSVC

from sklearn.metrics import precision_recall_curve
from sklearn.metrics import average_precision_score
from sklearn.model_selection import train_test_split

import numpy as np

from sklearn.feature_extraction.text import BinaryVectorizer, CountVectorizer, TfidfVectorizer

import os, sys, codecs

ImportError: cannot import name 'BinaryVectorizer'

In [29]:
texts = [item[1] for item in data]
for i in range(10):
    print (texts[i])
    
len(texts)

print (3974 *16344 * 4)

столицы не то чтобы бьёт  но и не стоит на
с виду воду, которая бьёт  рядом с французским городом Авен
у обледенелого пня, бьёт Незамерзающий  
со дна озера били тысячи  и, хотя расшевелить его поверхность
землянки, навстречу тебе бьют грязевые  
из глубоких расселин били горячие  окутывая туманом края впадины. 
каравай на столе, вода в  а голова на плечах… 
месте шлюза и били могучие  
поднялась в реке, то подземные  перестали биться. 
бьёт день и ночь белым  попыхивает белым дымком. 
259804224


In [31]:
vectorizer = TfidfVectorizer()

texts = [item[1] for item in data]
vectorized = vectorizer.fit_transform(texts)
vectorized

print (vectorized[0], vectorized[0].shape)

  (0, 6271)	0.484169179807
  (0, 3516)	0.403449206184
  (0, 6550)	0.25104021699
  (0, 7153)	0.318516883425
  (0, 442)	0.394305914941
  (0, 3681)	0.256734660607
  (0, 6265)	0.429424073665
  (0, 3312)	0.180388115529 (1, 7364)


In [32]:
clf = RandomForestClassifier(n_estimators=250)
y_labels = [item[0] for item in data]
clf.fit(vectorized.toarray(), y_labels)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=250, n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)

In [34]:
#clf.predict(vectorizer.fit([u'все было ужасно']))
clf.predict(vectorized[0].toarray())
print (y_labels[0])

0


In [36]:
y_labels = [item[0] for item in data]
X_train, X_test, y_train, y_test = train_test_split(vectorized, y_labels, test_size=0.1, random_state=42)
len(y_labels)
X_train.shape
y_train.shape
X_test[0].getnnz()

AttributeError: 'list' object has no attribute 'shape'

In [37]:
names = vectorizer.get_feature_names()

In [40]:
items = clf.predict(X_test.toarray())
right = 0
for i in range(len(items)):
    if items[i] == y_test[i]:
        right += 1
        
print ('Total: %d\nRight: %d\nScore: %.3f' % (len(items), right, float(right) / len(items)))

words = {}
for i in range(len(clf.feature_importances_)):
    words[names[i]] = clf.feature_importances_[i]
    
for item in sorted(words, key = lambda word: words[word], reverse=True):
    print (item, words[item])

Total: 244
Right: 240
Score: 0.984
замке 0.0580873821729
замок 0.0579150952307
бьет 0.029783048192
воды 0.0276645735157
вода 0.0220905845481
из 0.0212056789857
замка 0.0203856199642
дверь 0.0160810912026
била 0.0160118190188
воду 0.014800023702
земли 0.0106391453482
бьют 0.00980468762432
замки 0.00870057147899
не 0.00867434892265
двери 0.00785878272421
водой 0.00779406821845
замку 0.00702730494306
били 0.00681642219129
открывает 0.00667651547349
жизни 0.00613935527056
бил 0.00595161670576
замков 0.00563483322379
зажигания 0.00555353099665
замком 0.00552154927736
на 0.00551468460979
повернул 0.00529802455754
землю 0.00509749899416
где 0.00500718024602
он 0.00500676693978
от 0.0047170070109
замкам 0.00455281742942
реки 0.00392576738733
било 0.00379836708745
щелкнул 0.00368146318433
вод 0.00366424058021
дне 0.00349821027069
открывать 0.0034316414041
бить 0.00338845512747
под 0.00328127183493
воде 0.00324795985229
земле 0.00321896828546
как 0.00301564713648
бьющей 0.00300711189658
повернул

квартиры 0.000243196041105
двор 0.000242923947256
больше 0.000242733254841
случай 0.000241084259423
руки 0.0002404707051
бит 0.00024007336889
звякнули 0.000237709600651
ладони 0.000236097494969
вера 0.000235723859788
дежурной 0.000234946170028
вытекает 0.00023330640763
открываешь 0.000232340922959
бьетъ 0.000231581360022
комнату 0.000231199231902
подобрал 0.000230903451934
минеральные 0.000230659615102
лед 0.000229881063574
щелчок 0.000228967546393
студеные 0.000228796480859
самом 0.00022795650791
поэтому 0.000227781847348
ручейков 0.000226567294088
оборотами 0.00022606004705
генерала 0.00022604071024
звук 0.000225845596373
быстрый 0.000225598553604
поехали 0.000225396455342
камеры 0.00022402434916
роль 0.00022382421227
тёплый 0.000223044646367
вынув 0.000222887429051
открывающим 0.000222769977257
такой 0.000222698660041
отперли 0.000222353495974
тихое 0.000222041683734
берега 0.000221548221985
круг 0.000221411153121
сильным 0.000221274897937
перекатах 0.00022037461379
стол 0.000219827

одолеют 9.30991198696e-05
старуха 9.30096725454e-05
любезный 9.28676857688e-05
навешу 9.27802037597e-05
широким 9.24548150631e-05
небольшие 9.23825052458e-05
вулканов 9.21871356728e-05
ропотом 9.21859054624e-05
проявленьем 9.21148379047e-05
подгорного 9.20225359007e-05
рукою 9.20010162714e-05
изучение 9.19904441949e-05
сняла 9.1909914237e-05
бюро 9.18857027329e-05
выкрал 9.17159274314e-05
ведет 9.16714389766e-05
чудесная 9.16179192262e-05
каждому 9.15701770534e-05
дыру 9.15467323721e-05
гараж 9.14651810142e-05
образовавшееся 9.14585092215e-05
турецкие 9.14296866735e-05
лифта 9.14232433854e-05
поднесших 9.13018681955e-05
величайшему 9.12779413623e-05
башкина 9.1268679961e-05
десятка 9.1253245256e-05
цзян 9.11765708349e-05
народов 9.11531865462e-05
линейно 9.10033642228e-05
троекратного 9.09721021886e-05
висячим 9.09012224898e-05
озерами 9.05533519933e-05
фонтаны 9.04946566718e-05
рыцарь 9.03663073388e-05
выходящих 9.03316422347e-05
ахнул 9.03061024518e-05
спину 9.02368815496e-05
стиксов

приложил 6.18524208472e-05
велосипедными 6.18104643677e-05
источника 6.17942927856e-05
особенно 6.17526717523e-05
ключу 6.16609159765e-05
расширенной 6.16608191222e-05
небесной 6.16554646489e-05
воротами 6.16306237325e-05
ацетилхолин 6.16193661775e-05
крещальный 6.16059915107e-05
рыли 6.16009880495e-05
стороне 6.1558271901e-05
волны 6.1445430262e-05
садовского 6.13671305932e-05
догадалась 6.13436678549e-05
ими 6.13078599082e-05
торопливо 6.12585851228e-05
поют 6.12347249591e-05
сардин 6.10568038821e-05
местности 6.10382698408e-05
найденными 6.10300639504e-05
прямоугольного 6.10047889452e-05
ремесленное 6.09691148684e-05
вереи 6.09352772267e-05
светка 6.08423662585e-05
дождя 6.08360741144e-05
тотчас 6.08036201743e-05
больничные 6.07913925616e-05
вдругъ 6.07740315948e-05
снег 6.07410239574e-05
выносит 6.07055424448e-05
сырому 6.06906303545e-05
запрокидывается 6.06882308683e-05
уленгоу 6.06806789493e-05
выезжали 6.06037561854e-05
задач 6.05775556971e-05
полные 6.05359007609e-05
константин

грунтовых 4.35292871676e-05
потребовал 4.35211547948e-05
хулуай 4.34575691347e-05
деле 4.34392552738e-05
тыкать 4.33708630861e-05
вахтеров 4.33471774023e-05
протиснулась 4.33395990136e-05
страшно 4.33232056289e-05
еньбы 4.3229174332e-05
звенящим 4.32181710417e-05
спальни 4.32086535909e-05
даровитость 4.31330223219e-05
ездить 4.31178063042e-05
специальные 4.30662242184e-05
наполнить 4.30565788725e-05
закройте 4.30534798587e-05
роста 4.30194455208e-05
вытекающая 4.30143449781e-05
сигналы 4.29740108332e-05
приехал 4.29585435051e-05
холодным 4.29502328373e-05
подземное 4.29483031894e-05
бутырках 4.29428822147e-05
губ 4.29143612576e-05
ломами 4.29108337205e-05
жениха 4.28911367076e-05
ясыга 4.28574040271e-05
сооружение 4.28143709271e-05
прилетала 4.28063045597e-05
высокой 4.27854436828e-05
сруб 4.27589717673e-05
бесчувственный 4.27379666664e-05
гостиницах 4.27186856326e-05
клапаны 4.2685377128e-05
жизнестойкость 4.26836981618e-05
железными 4.26704433331e-05
иррациональной 4.26644225776e-05


спуск 2.75109445736e-05
возвращающийся 2.75063719147e-05
сбрасываемыми 2.74895135781e-05
штурман 2.74842030879e-05
борцовках 2.74417127167e-05
семена 2.73874837027e-05
ответила 2.73852335626e-05
квартир 2.73764247629e-05
камень 2.73614027085e-05
ныне 2.73599200496e-05
лёсса 2.73347591046e-05
будешь 2.73344537578e-05
умираетъ 2.73130261252e-05
представлял 2.73123967922e-05
бесконечную 2.73035437198e-05
землянки 2.72772032433e-05
огромному 2.72658954242e-05
понимаешь 2.72578744483e-05
запрещалось 2.72533453305e-05
моего 2.72460119434e-05
виду 2.72436481688e-05
лице 2.72422814289e-05
крутого 2.72156869095e-05
силой 2.71974270734e-05
жестяномъ 2.71644041113e-05
душа 2.7151754398e-05
круговое 2.71428028686e-05
аудитории 2.71395991201e-05
прошлом 2.71268186908e-05
уголь 2.71214200828e-05
северных 2.71213265135e-05
амбиции 2.71181878032e-05
лисицу 2.71001479493e-05
еду 2.70978834329e-05
двухсот 2.70940205059e-05
сердец 2.70517221269e-05
доски 2.70478397715e-05
пречистые 2.70449953688e-05
пере

каждая 1.66026610959e-05
видны 1.65948582995e-05
мертвая 1.65920961364e-05
ихний 1.65751398614e-05
этажа 1.65555712171e-05
говорю 1.65544296654e-05
жаждущим 1.65440276447e-05
вертел 1.65407799678e-05
стала 1.65405500846e-05
отсюда 1.6515659194e-05
сохла 1.64960817163e-05
поддаются 1.64920470929e-05
абажа 1.64830241115e-05
запираются 1.64790783235e-05
величины 1.64701566316e-05
родного 1.64514069468e-05
первого 1.64074233531e-05
удаляющиеся 1.64012384853e-05
отмеченную 1.63985809209e-05
водопоя 1.63844270485e-05
задвижка 1.63839908384e-05
лучшее 1.63819726592e-05
восточной 1.63808463947e-05
ручей 1.63650074144e-05
подле 1.63594632306e-05
протекаютъ 1.63378922056e-05
наличник 1.63312224184e-05
существующими 1.63098978119e-05
прудик 1.62665764836e-05
тока 1.62655090474e-05
клали 1.62629896428e-05
затворы 1.62480130559e-05
ниспосланное 1.62311005991e-05
дистиллированная 1.62248198103e-05
молиться 1.62224720071e-05
нищие 1.62048847673e-05
мрамору 1.61785612191e-05
бурлить 1.61665075053e-05


волшебной 1.03142511403e-05
горки 1.03093704712e-05
лесные 1.03080992992e-05
оказываемся 1.03042459627e-05
старается 1.02796858262e-05
пенилась 1.02780666404e-05
пустыне 1.02697263371e-05
врезался 1.02637487106e-05
мертво 1.02583000557e-05
услышали 1.02495105488e-05
увидеть 1.02311766814e-05
галины 1.02297052543e-05
ильич 1.02122652354e-05
курбатова 1.02067142342e-05
уходить 1.01736134687e-05
помогает 1.01645352425e-05
забубнила 1.0127005772e-05
беспрестанно 1.01182673808e-05
дусканья 1.01063123875e-05
местность 1.00980993688e-05
администрация 1.00945089353e-05
усталый 1.00822434458e-05
подбежала 1.00629339021e-05
брызги 1.00614657918e-05
недрах 1.005701854e-05
помнила 1.00526864309e-05
держался 1.00385161614e-05
ключи 1.00329490792e-05
привычным 1.00069989597e-05
разумъ 1.00059042955e-05
королевского 1.00016498687e-05
царапает 9.9907375012e-06
кристалл 9.99010339553e-06
наличником 9.98819825596e-06
устройство 9.97742785632e-06
антитело 9.97629809334e-06
стихотворения 9.9751566513e-06


захлопывает 5.30120532344e-06
ломай 5.29410794627e-06
поворачивала 5.28681131578e-06
средство 5.28310514552e-06
загремит 5.25717705025e-06
сундук 5.25464199681e-06
самостоятельно 5.25350428313e-06
согнувшись 5.25265953085e-06
пути 5.23585010665e-06
попробую 5.23533547013e-06
способный 5.23068026317e-06
ходят 5.22061031409e-06
проходили 5.2194334626e-06
вставив 5.21270403308e-06
тяжелая 5.20927485235e-06
вложили 5.20755807451e-06
передо 5.19836663599e-06
денно 5.19470588148e-06
относительно 5.17485081446e-06
утренняя 5.17423422929e-06
английском 5.17098756083e-06
воскликнет 5.17027904259e-06
пробуя 5.16793097473e-06
забором 5.16519433811e-06
могучей 5.15895476852e-06
убстер 5.15838033868e-06
приборы 5.15800092692e-06
пену 5.15573916141e-06
спастись 5.15468915621e-06
левинсону 5.15452445256e-06
рождественке 5.15204161132e-06
ругался 5.11875841423e-06
художник 5.1166866575e-06
примеси 5.10385324856e-06
зажег 5.10384858312e-06
запрятанными 5.07281177807e-06
терять 5.06665562756e-06
решился

поворачиваться 7.07662152931e-07
кустом 7.04274227942e-07
воткнув 7.00045952022e-07
глоток 6.98458433336e-07
моему 6.96985850683e-07
впервые 6.89157162381e-07
вкуса 6.87874543377e-07
связывается 6.84742661915e-07
поэмы 6.79357268439e-07
стукнули 6.79274311039e-07
ионов 6.78204987344e-07
оружие 6.76634588565e-07
просвещение 6.68894766637e-07
собственным 6.64927642807e-07
дыхание 6.64620133291e-07
любимого 6.62120061243e-07
яма 6.61812692161e-07
потный 6.60963830968e-07
стереохимия 6.60161769221e-07
борьба 6.56509503636e-07
небольшую 6.5649567462e-07
воздухом 6.55388308461e-07
рубахе 6.53439915443e-07
шубу 6.52454682085e-07
сосудов 6.51708460639e-07
столкнуться 6.5139554689e-07
зама 6.49705188818e-07
звоните 6.46663345416e-07
плечо 6.45669760183e-07
юльевна 6.45108897747e-07
припрется 6.44202853742e-07
потеряли 6.4347222591e-07
показывая 6.42020928689e-07
одними 6.39410949582e-07
кручинин 6.38919948674e-07
лавке 6.32324477352e-07
нажима 6.29437192272e-07
катериной 6.25345721064e-07
погре

глянул 2.34414206674e-09
нежданов 2.21705762982e-09
ненадолго 2.0883129723e-09
фараон 2.05582671841e-09
нажимаешь 2.04152094475e-09
являлась 1.97610329689e-09
жрать 1.94179805249e-09
заключения 1.89821171526e-09
чудо 1.87773172065e-09
пистолет 1.83042231307e-09
шпионов 1.82970447097e-09
вертела 1.81885323394e-09
таков 1.81595938312e-09
вставляете 1.79515832492e-09
ящичке 1.62584596583e-09
седенькими 1.60418594782e-09
99 1.59607901012e-09
принялась 1.56527541979e-09
захлопнув 1.49505919038e-09
xvii 1.46507738759e-09
подъезд 1.43838626518e-09
насчет 1.42981306495e-09
молодежной 1.42637072235e-09
домик 1.42388609643e-09
свесился 1.38146194412e-09
значащими 1.37208989111e-09
девушка 1.35731517254e-09
мастерскую 1.34897396162e-09
соловьиного 1.34677614757e-09
пружинная 1.33723780431e-09
простодушным 1.30902562182e-09
китайцев 1.29709034775e-09
прибор 1.29705887004e-09
эди 1.29254437389e-09
ругаясь 1.29026277782e-09
произвел 1.26626299045e-09
обыденно 1.26480087616e-09
прислушаться 1.2421757

In [41]:
#print data[10][0], data[10][1]
#items = clf.predict(vectorized[10])
#print items[0]
#print X_test
items = clf.predict(X_test.toarray())
right = 0
for i in range(len(items)):
    if items[i] == y_test[i]:
        right += 1
    #print items[i], y_test[i]
names = vectorizer.get_feature_names()
words = {}
print ('Total: %d\nRight: %d\nScore: %.3f' % (len(items), right, float(right) / len(items)))
for i in range(len(clf.feature_importances_)):
    words[names[i]] = clf.feature_importances_[i]
    
for item in sorted(words, key = lambda word: words[word], reverse=True):
    print (item, words[item])

Total: 244
Right: 240
Score: 0.984
замке 0.0580873821729
замок 0.0579150952307
бьет 0.029783048192
воды 0.0276645735157
вода 0.0220905845481
из 0.0212056789857
замка 0.0203856199642
дверь 0.0160810912026
била 0.0160118190188
воду 0.014800023702
земли 0.0106391453482
бьют 0.00980468762432
замки 0.00870057147899
не 0.00867434892265
двери 0.00785878272421
водой 0.00779406821845
замку 0.00702730494306
били 0.00681642219129
открывает 0.00667651547349
жизни 0.00613935527056
бил 0.00595161670576
замков 0.00563483322379
зажигания 0.00555353099665
замком 0.00552154927736
на 0.00551468460979
повернул 0.00529802455754
землю 0.00509749899416
где 0.00500718024602
он 0.00500676693978
от 0.0047170070109
замкам 0.00455281742942
реки 0.00392576738733
било 0.00379836708745
щелкнул 0.00368146318433
вод 0.00366424058021
дне 0.00349821027069
открывать 0.0034316414041
бить 0.00338845512747
под 0.00328127183493
воде 0.00324795985229
земле 0.00321896828546
как 0.00301564713648
бьющей 0.00300711189658
повернул

ради 0.000102425674393
хотели 0.000102317269053
старца 0.000102216149692
выхожу 0.000102018855393
некоторым 0.000101848373684
оставив 0.000101820777732
спасся 0.000101791559435
гия 0.00010164428806
молодая 0.00010139586197
духов 0.000101165678406
нами 0.000101125733941
давайте 0.000101124678116
сложности 0.000101113358044
иисус 0.00010106956556
выпил 0.000100891553128
семьею 0.00010085967869
обетованной 0.000100775608266
входит 0.000100646797226
продают 0.000100599473121
степной 0.000100487876715
анафорического 0.000100325284409
мелодичное 0.000100259045028
потоки 0.000100209007106
каналы 0.000100204109467
мира 0.000100184533279
превосходною 0.000100167669864
поднял 0.000100165792012
есенин 0.000100162173128
крайний 0.000100054691646
улиток 9.98831354343e-05
такие 9.98528479036e-05
курточкой 9.9852258389e-05
раны 9.97456662426e-05
правом 9.96820921696e-05
вышел 9.94742950082e-05
сне 9.94385320824e-05
счастье 9.91650562853e-05
прозрачный 9.91041929966e-05
замкнув 9.890452394e-05
титов 9

забил 6.49800038764e-05
бездонному 6.49368355354e-05
десятник 6.48746439055e-05
хлещущую 6.48329494005e-05
кипящий 6.48107208482e-05
запрятанный 6.47528605101e-05
земные 6.47526834133e-05
церковные 6.47493575193e-05
массивный 6.47277606452e-05
болоте 6.47051894322e-05
оживился 6.46739600932e-05
впадающих 6.46497157521e-05
бряцали 6.46206519871e-05
моро 6.46117866549e-05
позволит 6.45428416046e-05
домашних 6.45393477932e-05
столичных 6.45345231446e-05
чемодане 6.45145991424e-05
пульсировал 6.44858037343e-05
фомин 6.43522575377e-05
наиса 6.42540215372e-05
трав 6.41354204881e-05
величиной 6.4131608881e-05
мешочек 6.41263739855e-05
гаечным 6.41124923663e-05
спрятала 6.41096105829e-05
деньги 6.40825985631e-05
расколотыми 6.40794301078e-05
регулируем 6.40464543482e-05
кухню 6.40346022332e-05
числу 6.39908649681e-05
другие 6.39585076206e-05
забили 6.3889104064e-05
решил 6.38848700858e-05
пропажу 6.38480104384e-05
ножницъ 6.38079154145e-05
сидел 6.37915819932e-05
стеночку 6.37718079612e-05
душ

разворачивающейся 4.55529623689e-05
шишлин 4.55477309382e-05
ждала 4.55420917693e-05
жаворонки 4.55268090368e-05
находились 4.55006897188e-05
моей 4.54794529463e-05
названий 4.54545328441e-05
пудовую 4.54227681037e-05
жестоком 4.53698533467e-05
оставался 4.52910301428e-05
ямою 4.52899630546e-05
одним 4.52113201766e-05
сейсмические 4.51787154471e-05
откупоривания 4.51605261805e-05
гермоген 4.51594333027e-05
вторые 4.51485467681e-05
неприятельскую 4.51362296831e-05
избыток 4.50790471628e-05
петрова 4.50477303717e-05
прекрасной 4.50397358068e-05
минеральной 4.50172654485e-05
водительское 4.49971128419e-05
другого 4.49886454389e-05
неистощимый 4.49756117707e-05
желѣзныхъ 4.49681788566e-05
скобами 4.48790665607e-05
смех 4.48637098072e-05
шедший 4.48468777796e-05
общение 4.48193999369e-05
радушием 4.48074627095e-05
лесного 4.47747518969e-05
трахнулъ 4.47685668079e-05
заметив 4.47629031819e-05
ослабленным 4.47531451094e-05
опроставшуюся 4.47433144439e-05
выглянул 4.47356723038e-05
механиков 4

любому 2.99140763287e-05
аккуратно 2.9893970432e-05
заметно 2.98777325328e-05
симметричной 2.98703076311e-05
гостиницу 2.98328614392e-05
ящиках 2.98227333779e-05
пятачок 2.98151424082e-05
отыскивать 2.9810385662e-05
внимательно 2.97960686519e-05
капканы 2.9769863216e-05
закрыл 2.97596744526e-05
служитель 2.97560329469e-05
могучие 2.97523401524e-05
весь 2.97467886032e-05
банку 2.97336352339e-05
призывно 2.96824861208e-05
бандитов 2.96195779141e-05
густо 2.95966473947e-05
инструкцию 2.95925727218e-05
звонок 2.95548613289e-05
несравненно 2.95358734446e-05
дева 2.9506245169e-05
вставленные 2.94890317803e-05
правильного 2.94801124981e-05
попыхивает 2.94682584399e-05
работа 2.94676402586e-05
асцэн 2.94645003486e-05
фатьянка 2.94402396327e-05
хочу 2.94401664793e-05
болота 2.94381709973e-05
посуду 2.94351733281e-05
критики 2.94327745174e-05
озерам 2.94326865149e-05
закрывать 2.93696903837e-05
публицистическая 2.93292684326e-05
латы 2.92966224836e-05
такого 2.92835368981e-05
выдают 2.9272047951

толь 1.86350930724e-05
константиновна 1.86152206273e-05
глубинах 1.85911466246e-05
закрыты 1.85862837463e-05
глины 1.85712836107e-05
вела 1.85527905258e-05
десятков 1.85389482201e-05
выбивалась 1.85295074928e-05
гаврилов 1.85055498298e-05
решающая 1.84974372118e-05
пробивается 1.84911520659e-05
оставила 1.84881170009e-05
вулкана 1.8482568237e-05
казанской 1.84674617048e-05
народу 1.84633272579e-05
часто 1.84479145135e-05
подножиям 1.84407707264e-05
юго 1.83998317172e-05
ретиналя 1.8386095659e-05
морской 1.83790897875e-05
целебным 1.83709382307e-05
открытого 1.83376531847e-05
пруду 1.83348075626e-05
загадке 1.83143354761e-05
зарыдала 1.82936098924e-05
камнем 1.82872893573e-05
кодами 1.82817252289e-05
доподлинно 1.8280639349e-05
погрузил 1.82802143542e-05
стран 1.82795816153e-05
сказав 1.82662450369e-05
упомянутого 1.82592396127e-05
тайного 1.82310330423e-05
заключается 1.82293033981e-05
заглушил 1.82200998484e-05
оазисов 1.82091758634e-05
дефилей 1.82079087879e-05
расположенных 1.820288

сюрприз 1.18408766245e-05
висит 1.18311237717e-05
скрипичных 1.18256930641e-05
обливать 1.18186029765e-05
глазок 1.18166807455e-05
сегодняшнюю 1.18098517879e-05
простой 1.1807373601e-05
выкатилась 1.18036304899e-05
умойся 1.18001797051e-05
болгар 1.17965808358e-05
сыру 1.17873346488e-05
щедрой 1.17845809369e-05
лукашке 1.17715204574e-05
беда 1.17540519097e-05
неда 1.17495792639e-05
осмотрим 1.17328180674e-05
красный 1.1732665115e-05
животворящие 1.1714551523e-05
рабочих 1.17039235192e-05
коих 1.16837730631e-05
разгадыванию 1.16746749529e-05
наполнявшая 1.1659988287e-05
акси 1.16550396177e-05
опрометью 1.16525031676e-05
зловеще 1.16413515638e-05
долгие 1.16377881335e-05
чистыми 1.16355526883e-05
играют 1.16230050183e-05
караульщик 1.16119818408e-05
справиться 1.15926420033e-05
лучшие 1.15778573831e-05
сравнивать 1.15730160362e-05
фартука 1.1570175172e-05
внтуренним 1.1559647587e-05
своих 1.15536933266e-05
массы 1.15499423387e-05
бесплодном 1.15481452171e-05
самойло 1.15274900396e-05
про

вторгаясь 6.22529715183e-06
снежка 6.21936208137e-06
высеченного 6.20402987013e-06
взводятся 6.19060352186e-06
юность 6.18298389947e-06
проверим 6.17912354523e-06
купе 6.17885263945e-06
издала 6.16885115083e-06
развевались 6.1676733124e-06
непостоянному 6.16400056672e-06
закрывает 6.15837118492e-06
позвякивающие 6.15251885628e-06
темная 6.15212556396e-06
алексеевич 6.14567876338e-06
заказывать 6.14458113668e-06
обокрадена 6.13836952718e-06
бабушки 6.12124423523e-06
вашем 6.12080242957e-06
махоров 6.12053376027e-06
сравнительно 6.11418788597e-06
пацану 6.11379317612e-06
разбросаны 6.11124028043e-06
уверенно 6.10929791674e-06
коридорный 6.09514484396e-06
заперто 6.08880957583e-06
стражи 6.08684381822e-06
ложится 6.0867747483e-06
хозяине 6.082975426e-06
тайниках 6.0764313785e-06
помощью 6.07449177297e-06
горючий 6.06522082527e-06
импортного 6.05582598247e-06
подошла 6.05031069258e-06
осеняет 6.04881994287e-06
неожиданно 6.04842050461e-06
полны 6.04129704018e-06
разлившейся 6.03715255098e-

звуки 1.05438798766e-06
про 1.05363011271e-06
тартасов 1.05034129627e-06
поверну 1.04993969469e-06
боялась 1.04502796447e-06
осторожностью 1.04058413936e-06
поныне 1.03721200823e-06
порожден 1.03412697934e-06
хлопнул 1.03055985257e-06
жильцов 1.02173134715e-06
фигура 1.01510203759e-06
волю 1.01170966513e-06
хлопнула 1.00845459587e-06
работѣ 1.00545945553e-06
посмотрела 1.00500805922e-06
одновременно 1.00310085089e-06
внесены 1.00052164292e-06
пришло 1.00033234241e-06
отыскивая 9.96589385651e-07
анисимовой 9.96103524952e-07
манящая 9.94227433259e-07
лейтенант 9.89417152899e-07
говоря 9.87481705845e-07
дружба 9.8437039623e-07
кудрявые 9.75617653866e-07
карманом 9.75405605448e-07
матери 9.72196133429e-07
долина 9.70498953206e-07
одиночество 9.69324535987e-07
ход 9.68324631568e-07
закрывалась 9.64025047482e-07
ныряли 9.63991221744e-07
самая 9.59693196933e-07
оставляя 9.58975485358e-07
научила 9.56515437116e-07
андрюша 9.52478003717e-07
образовался 9.5122612256e-07
имею 9.50227183586e-07
им

передвинуть 1.35791957441e-08
основании 1.35546062034e-08
подбирает 1.34405481957e-08
навесил 1.33753101728e-08
боком 1.31484574315e-08
четвертую 1.31244157421e-08
последовало 1.29573798367e-08
клёкотов 1.28980762961e-08
напевал 1.28917835701e-08
длинная 1.27354364234e-08
опытный 1.2197782267e-08
алехин 1.21651092256e-08
горелку 1.20635696228e-08
вкладывать 1.19596373677e-08
очутился 1.17062838684e-08
раньше 1.16328881741e-08
дробится 1.14317211184e-08
хрустнул 1.13603436485e-08
первая 1.13330490245e-08
соскочили 1.1209421602e-08
серный 1.09651495805e-08
ручку 1.06795413471e-08
повертывающая 1.04896293988e-08
устройства 1.04699510749e-08
ущемлял 1.04245638731e-08
потопе 1.03461479147e-08
входил 1.02521071814e-08
бренчание 1.01835672503e-08
сумочку 1.00995718341e-08
сидела 1.00764606021e-08
тиррею 1.00289915654e-08
катя 1.00111886999e-08
починяя 1.00075964957e-08
памяти 1.00024771731e-08
городом 9.95886986744e-09
селезнем 9.84934861648e-09
врезали 9.73768469435e-09
яковлевна 9.686250207

In [42]:
names = vectorizer.get_feature_names()
len(names)

7364

In [None]:
print (len(data))
kf = KFold(3300, n_folds=10)
for train, test in kf:
    #print train, test
    X_train, X_test, y_train, y_test = vectorized[train], vectorized[test], y_labels[train], y_labels[test]