-  Провести классификацию русских текстов (в больших корпусах) на несколько категорий;
-  Провести предобработку текстов;
-  Сравнить эмбеддинги;
-  Попробовать несколько методов классификации (в т.ч. косинусы).

Будем использовать тексты из книги Дж. Р. Р. Толкина "Властелин Колец" и из записи лекций Зигмунда Фрейда "Введение в психоанализ".

In [None]:
!pip install nltk snowballstemmer pymorphy2 pymystem3 gensim



Импортируем библиотеки.

In [None]:
import os
import pandas as pd
import numpy as np
import nltk #большая библиотека, в которой содержится множество полезных функций для обработки текста, такие, как, например, удаление пунктуации, стемминг и лемматизацию
from snowballstemmer import RussianStemmer #стеммер для русского языка
import pymystem3 #лемматизатор
import pymorphy2 #морфоанализатор

Содержание первого текста из "Властелина колец".

In [None]:
with open("texts/lotr/1.txt", encoding="utf8") as f:
    example_text =f.read()
example_text

'Толкиен Джон Рональд Руэл\n\nХранители (Властелин колец - 1)\n\n\nДж.Р.Р.ТОЛКИЕН\n\nХРАНИТЕЛИ\n\n(ВЛАСТЕЛИН КОЛЕЦ. ЛЕТОПИСЬ ПЕРВАЯ)\n\nПРЕДИСЛОВИЕ АВТОРА\n\nЭта сказка возникла в устных рассказах, пока не стала историей Великой Войны Кольца, включая множество эскурсов в более древние времена. Она начала создаваться после того, как был написан "Хоббит", и по его первой публикации в 1937 году: но я не торопился с продолжением, потому что хотел прежде собрать и привести в порядок мифологию и легенды древних дней, а для этого потребовалось несколько лет. Я делал это для собственного удовольствия и мало надеялся, что другие люди заинтересуются моей работой, особенно потому что она была преимущественно лингвистической по побуждениям и возникла из необходимости привести в порядок мои отрывочные сведения о языках эльфов.\n\nКогда те, чьими советами и поддержкой я пользовался, заменили выражение "малая надежда" на "никакой надежды", я вернулся к продолжению, подбадриваемый требованиями читател

Проведем токенизацию, т.е. выделим отдельные слова и знаки пунктуации.

In [None]:
nltk.download('punkt')
nltk.download('stopwords')
tokens = nltk.word_tokenize(example_text)
tokens

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Notebook\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Notebook\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['Толкиен',
 'Джон',
 'Рональд',
 'Руэл',
 'Хранители',
 '(',
 'Властелин',
 'колец',
 '-',
 '1',
 ')',
 'Дж.Р.Р.ТОЛКИЕН',
 'ХРАНИТЕЛИ',
 '(',
 'ВЛАСТЕЛИН',
 'КОЛЕЦ',
 '.',
 'ЛЕТОПИСЬ',
 'ПЕРВАЯ',
 ')',
 'ПРЕДИСЛОВИЕ',
 'АВТОРА',
 'Эта',
 'сказка',
 'возникла',
 'в',
 'устных',
 'рассказах',
 ',',
 'пока',
 'не',
 'стала',
 'историей',
 'Великой',
 'Войны',
 'Кольца',
 ',',
 'включая',
 'множество',
 'эскурсов',
 'в',
 'более',
 'древние',
 'времена',
 '.',
 'Она',
 'начала',
 'создаваться',
 'после',
 'того',
 ',',
 'как',
 'был',
 'написан',
 '``',
 'Хоббит',
 "''",
 ',',
 'и',
 'по',
 'его',
 'первой',
 'публикации',
 'в',
 '1937',
 'году',
 ':',
 'но',
 'я',
 'не',
 'торопился',
 'с',
 'продолжением',
 ',',
 'потому',
 'что',
 'хотел',
 'прежде',
 'собрать',
 'и',
 'привести',
 'в',
 'порядок',
 'мифологию',
 'и',
 'легенды',
 'древних',
 'дней',
 ',',
 'а',
 'для',
 'этого',
 'потребовалось',
 'несколько',
 'лет',
 '.',
 'Я',
 'делал',
 'это',
 'для',
 'собственного',
 'удовольств

Воспользуемся стеммером, чтобы привести слова к одной форме.

In [None]:
stemmer = RussianStemmer()
stemmer.stemWords(example_text.lower().split())

['толк',
 'джон',
 'рональд',
 'руэл',
 'хранител',
 '(властелин',
 'колец',
 '-',
 '1)',
 'дж.р.р.толк',
 'хранител',
 '(властелин',
 'колец.',
 'летоп',
 'первая)',
 'предислов',
 'автор',
 'эт',
 'сказк',
 'возникл',
 'в',
 'устн',
 'рассказах,',
 'пок',
 'не',
 'стал',
 'истор',
 'велик',
 'войн',
 'кольца,',
 'включ',
 'множеств',
 'эскурс',
 'в',
 'бол',
 'древн',
 'времена.',
 'он',
 'нача',
 'создава',
 'посл',
 'того,',
 'как',
 'был',
 'написа',
 '"хоббит",',
 'и',
 'по',
 'ег',
 'перв',
 'публикац',
 'в',
 '1937',
 'году:',
 'но',
 'я',
 'не',
 'тороп',
 'с',
 'продолжением,',
 'пот',
 'что',
 'хотел',
 'прежд',
 'собра',
 'и',
 'привест',
 'в',
 'порядок',
 'мифолог',
 'и',
 'легенд',
 'древн',
 'дней,',
 'а',
 'для',
 'эт',
 'потребова',
 'нескольк',
 'лет.',
 'я',
 'дела',
 'эт',
 'для',
 'собствен',
 'удовольств',
 'и',
 'мал',
 'надеялся,',
 'что',
 'друг',
 'люд',
 'заинтерес',
 'мо',
 'работой,',
 'особен',
 'пот',
 'что',
 'он',
 'был',
 'преимуществен',
 'лингвистич

Попробуем также лемматизатор, с помощью которого приведем слова к начальной форме.

In [None]:
mystem = pymystem3.Mystem()
lemm=mystem.lemmatize(' '.join(tokens[:100]))
lemm

['толкиен',
 ' ',
 'джон',
 ' ',
 'рональд',
 ' ',
 'руэл',
 ' ',
 'хранитель',
 ' ( ',
 'властелин',
 ' ',
 'кольцо',
 ' - ',
 '1',
 ' ) ',
 'Дж',
 '.',
 'р',
 '.',
 'р',
 '.',
 'толкиен',
 ' ',
 'хранитель',
 ' ( ',
 'властелин',
 ' ',
 'кольцо',
 ' ',
 '. ',
 'летопись',
 ' ',
 'первый',
 ' ) ',
 'предисловие',
 ' ',
 'автор',
 ' ',
 'этот',
 ' ',
 'сказка',
 ' ',
 'возникать',
 ' ',
 'в',
 ' ',
 'устный',
 ' ',
 'рассказ',
 ' , ',
 'пока',
 ' ',
 'не',
 ' ',
 'становиться',
 ' ',
 'история',
 ' ',
 'великий',
 ' ',
 'война',
 ' ',
 'кольцо',
 ' , ',
 'включая',
 ' ',
 'множество',
 ' ',
 'эскурс',
 ' ',
 'в',
 ' ',
 'более',
 ' ',
 'древний',
 ' ',
 'время',
 ' ',
 '. ',
 'она',
 ' ',
 'начинать',
 ' ',
 'создаваться',
 ' ',
 'после',
 ' ',
 'то',
 ' , ',
 'как',
 ' ',
 'быть',
 ' ',
 'написать',
 ' `` ',
 'хоббит',
 " '' , ",
 'и',
 ' ',
 'по',
 ' ',
 'его',
 ' ',
 'первый',
 ' ',
 'публикация',
 ' ',
 'в',
 ' ',
 '1937',
 ' ',
 'год',
 ' : ',
 'но',
 ' ',
 'я',
 ' ',
 'не',
 ' ',

Также проведем лемматизацию с помощью морфологического анализатора.

In [None]:
morph=pymorphy2.MorphAnalyzer()
lemm_pymorph=[morph.parse(s)[0].normal_form for s in tokens[:100]]
lemm_pymorph

['толкиен',
 'джон',
 'рональд',
 'руэла',
 'хранитель',
 '(',
 'властелин',
 'кольцо',
 '-',
 '1',
 ')',
 'дж.р.р.толкийный',
 'хранитель',
 '(',
 'властелин',
 'кольцо',
 '.',
 'летопись',
 'первый',
 ')',
 'предисловие',
 'автор',
 'этот',
 'сказка',
 'возникнуть',
 'в',
 'устный',
 'рассказ',
 ',',
 'пока',
 'не',
 'стать',
 'история',
 'великий',
 'война',
 'кольцо',
 ',',
 'включая',
 'множество',
 'эскурс',
 'в',
 'более',
 'древний',
 'время',
 '.',
 'она',
 'начало',
 'создаваться',
 'после',
 'тот',
 ',',
 'как',
 'быть',
 'написать',
 '``',
 'хоббит',
 "''",
 ',',
 'и',
 'по',
 'он',
 'первый',
 'публикация',
 'в',
 '1937',
 'год',
 ':',
 'но',
 'я',
 'не',
 'торопиться',
 'с',
 'продолжение',
 ',',
 'потому',
 'что',
 'хотеть',
 'прежде',
 'собрать',
 'и',
 'привести',
 'в',
 'порядок',
 'мифология',
 'и',
 'легенда',
 'древний',
 'день',
 ',',
 'а',
 'для',
 'это',
 'потребоваться',
 'несколько',
 'год',
 '.',
 'я',
 'делать',
 'это',
 'для']

Сконкатенируем все получившиеся строки, чтобы собрать их в один текст.

In [None]:
' '.join(lemm_pymorph)

"толкиен джон рональд руэла хранитель ( властелин кольцо - 1 ) дж.р.р.толкийный хранитель ( властелин кольцо . летопись первый ) предисловие автор этот сказка возникнуть в устный рассказ , пока не стать история великий война кольцо , включая множество эскурс в более древний время . она начало создаваться после тот , как быть написать `` хоббит '' , и по он первый публикация в 1937 год : но я не торопиться с продолжение , потому что хотеть прежде собрать и привести в порядок мифология и легенда древний день , а для это потребоваться несколько год . я делать это для"

# Формирование выборки сырых данных

Функция лемматизации:

In [None]:
from string import punctuation

def lemmatize(input_text):
    tokens = nltk.word_tokenize(input_text)
    normed_tokens = [morph.parse(s)[0].normal_form for s in tokens]
    # исключим также стоп-слова - всякие предлоги, союзы и т.п.
    normed_tokens = [word for word in normed_tokens if word not in nltk.corpus.stopwords.words("russian")]
    # а также знаки препинания
    normed_tokens = [word for word in normed_tokens if word not in punctuation]
    return ' '.join(normed_tokens)

Формирование датафрейма с текстами.

In [None]:
#пустой датафрейм
df=pd.DataFrame(columns=['Text','Class'])
#Директории текстов
dir0="texts/lotr"
dir1="texts/freid"

#считаем все наши тексты в датафрейм с указанием класса
for filename in os.listdir(dir0):
    with open(os.path.join(dir0, filename), encoding="utf8") as file:
        contents = lemmatize(file.read())
    df = df.append(pd.Series({'Text':contents, 'Class':0}), ignore_index=True)
# и для второй папки тоже
for filename in os.listdir(dir1):
    with open(os.path.join(dir1,filename),encoding="utf8") as file:
        contents = lemmatize(file.read())
    df = df.append(pd.Series({'Text':contents, 'Class':1}), ignore_index=True)

Посмотрим на вид датафрейма:

In [None]:
df

Unnamed: 0,Text,Class
0,толкиен джон рональд руэла хранитель властелин...,0
1,скоро превзойти мастер бильбо заметить сэм боя...,0
2,книга 3 глава i. отплытие боромиро арагорн взб...,0
3,глава iii урукхая пин оковать смутный беспокой...,0
4,– песня – сказать погодя – эльфийский это трал...,0
5,пропеть гэндальф вмиг облик волшебно изменитьс...,0
6,глава viii дорога изенгарда ясный весенний утр...,0
7,– – сказать – это саруманов рука дело бросить ...,0
8,– здравствуй – сказать – успеть соскучиться эт...,0
9,– стеречь – настаивать фродый – да-да мочь сте...,0


Разобьем выборку на train и test.

In [None]:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train, y_test=train_test_split(df['Text'],df['Class'],test_size=0.3,random_state=64)

# Bag-of-Words эмбеддинг

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
bof_vect=CountVectorizer()
bof_vect.fit(np.hstack([X_train,X_test]))
bof_train=bof_vect.transform(X_train)
bof_test=bof_vect.transform(X_test)

Новое признаковое пространство:

In [None]:
bof_train.toarray()

array([[0, 2, 2, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [None]:
bof_train.toarray().shape

(28, 20474)

# TF-IDF эмбеддинг

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect=TfidfVectorizer()
tfidf_vect.fit(np.hstack([X_train,X_test]))
tfidf_train=tfidf_vect.transform(X_train)
tfidf_test=tfidf_vect.transform(X_test)

In [None]:
tfidf_train.toarray()

array([[0.        , 0.00870333, 0.01051643, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]])

In [None]:
tfidf_train.toarray().shape

(28, 20474)

# Word2vec эмбеддинг

In [None]:
from gensim.models import Word2Vec
X_train_w2v=X_train.apply(str.split)
X_test_w2v=X_test.apply(str.split)
w2v_vect=Word2Vec(np.hstack([X_train_w2v,X_test_w2v]),size=300,min_count=1,workers=8)

In [None]:
X_train_w2v

28    [двадцать, четвёртый, лекция, обычный, нервозн...
11    [простить, сказать, происходить, что-то, стран...
18    [``, надеяться, плохой, увидеть, '', сказать, ...
32    [тридцать, третий, лекция, женственность, уваж...
23    [девятый, лекция, цензура, сновидение, уважаем...
27    [двадцать, первый, лекция, развитие, либидо, с...
22    [шестой, лекция, предположение, техника, толко...
5     [пропеть, гэндальф, вмиг, облик, волшебно, изм...
35    [итак, подходить, наш, объяснение, весь, случа...
0     [толкиен, джон, рональд, руэла, хранитель, вла...
14    [знать, сказать, фродый, всё, добавить, смутит...
12    [глава, viii, близ, кирит-унгол, горлум, дёрга...
37    [четвёртый, лекция, ошибочный, действие, оконч...
15    [рассказать, мастер, старик, вяз, слышать, нем...
20    [предисловие, предлагать, внимание, читатель, ...
6     [глава, viii, дорога, изенгарда, ясный, весенн...
2     [книга, 3, глава, i., отплытие, боромиро, араг...
39    [пятый, лекция, трудность, первый, попытка

In [None]:
#X_train_w2v[12]

Преобразуем тексты песен в вектора - возьмем сумму векторов всех слов, которые входят в песню:

In [None]:
def text2vec(text):
    vecs=[]
    for word in text:
        try:
            vecs.append(w2v_vect[word])
        except KeyError:
            pass
        return np.sum(vecs, axis=0)/len(vecs)
w2v_train = X_train_w2v.apply(text2vec)
w2v_test = X_test_w2v.apply(text2vec)
w2v_train

  vecs.append(w2v_vect[word])


28    [-0.06015647, 0.05136624, 0.1757943, -0.017540...
11    [-0.05211502, 0.024849715, 0.22073875, 0.01756...
18    [-0.12757345, -0.08543694, 0.5910292, 0.170645...
32    [-0.05408588, 0.046317033, 0.16222596, -0.0184...
23    [-0.0076988395, 0.0063447533, 0.015547081, -0....
27    [-0.06015647, 0.05136624, 0.1757943, -0.017540...
22    [-0.013361737, 0.014108414, 0.04044937, -0.005...
5     [-0.009215495, 0.008272149, 0.03187278, -0.001...
35    [-0.12034873, 0.16039981, 0.33270684, -0.09894...
0     [-0.003756015, 0.0020871083, 0.009265125, -0.0...
14    [-0.10502334, 0.08048241, 0.5952781, -0.011248...
12    [-0.08478759, 0.051040545, 0.27901033, -0.0017...
37    [-0.0434786, 0.03876048, 0.1259714, -0.0177279...
15    [-0.12521827, 0.09246524, 0.4407539, -0.023891...
20    [-0.013344035, 0.012254981, 0.037188485, -0.00...
6     [-0.08478759, 0.051040545, 0.27901033, -0.0017...
2     [-0.14235328, 0.12582594, 0.42193455, -0.04963...
39    [-0.035101414, 0.031065771, 0.09972052, -0

In [None]:
w2v_train.shape

(28,)

In [None]:
w2v_train = np.dstack(w2v_train)[0]
w2v_train.shape

(300, 28)

In [None]:
w2v_test = np.dstack(w2v_test)[0]

# Классификация текстов

Для каждого эмбеддинга будем вычислять по 2 суммарных вектора.

BOW

In [None]:
freid_mean_bof = np.sum(bof_train[y_train==0],axis=0)
freid_mean_bof.shape

(1, 20474)

In [None]:
lotr_mean_bof=np.sum(bof_train[y_train == 1],axis=0)
lotr_mean_bof.shape

(1, 20474)

TF-IDF

In [None]:
freid_mean_tfidf = np.sum(tfidf_train[y_train==0],axis=0)
freid_mean_tfidf.shape

(1, 20474)

In [None]:
lotr_mean_tfidf=np.sum(tfidf_train[y_train == 1],axis=0)
lotr_mean_tfidf.shape

(1, 20474)

Word2vec

In [None]:
freid_mean_w2v = np.sum(w2v_train[:,y_train == 0],axis=1)
freid_mean_w2v.shape

(300,)

In [None]:
lotr_mean_w2v=np.sum(w2v_train[:,y_train == 1],axis=1)
lotr_mean_w2v.shape

(300,)

Посмотрим на их вид:

In [None]:
lotr_mean_bof

matrix([[1, 4, 2, ..., 0, 0, 1]], dtype=int64)

In [None]:
lotr_mean_tfidf

matrix([[0.00313945, 0.01922282, 0.01051643, ..., 0.        , 0.        ,
         0.00498215]])

In [None]:
lotr_mean_w2v

array([-6.05908453e-01,  6.16622806e-01,  1.72522879e+00, -3.06981444e-01,
       -3.08920789e+00, -1.80317476e-01, -6.14987791e-01, -2.22386050e+00,
        1.65072978e+00, -7.10936487e-01, -3.28956917e-02, -5.09994105e-03,
       -2.25669906e-01,  7.25746572e-01,  1.14189780e+00, -2.18601394e+00,
       -1.26225448e+00, -8.20975378e-02,  2.61820406e-01,  9.12439227e-01,
        1.63983822e+00,  5.70142448e-01, -1.18183935e+00, -1.13571382e+00,
        9.64314461e-01,  5.00278771e-01, -1.26691163e-01,  1.01075637e+00,
       -1.50264025e+00,  2.93729037e-01,  1.37128079e+00, -5.01523554e-01,
        1.03172493e+00, -1.29569530e+00, -6.16708517e-01,  7.64716864e-01,
       -1.00028001e-01,  3.17521334e-01,  2.11766928e-01, -2.01072574e-01,
        1.27278888e+00,  1.13051915e+00,  4.41777319e-01,  6.56623900e-01,
        1.41093701e-01, -3.32657695e-01, -3.11385959e-01, -5.27164578e-01,
       -6.76257849e-01,  2.81559885e-01, -3.87324090e-03,  8.68612081e-02,
       -8.29085946e-01, -

Построим датафреймы с результатами классификации тестовых текстов. Будем считать, что текст относится к тому классу, с которым его косинусное расстояние больше.

In [None]:
from scipy.spatial.distance import cosine
bof_freid = np.apply_along_axis(cosine,1,bof_test.toarray(),v=freid_mean_bof)
bof_lotr = np.apply_along_axis(cosine,1,bof_test.toarray(),v=lotr_mean_bof)
bof_results = pd.DataFrame([
    bof_freid,
    bof_lotr,
    np.maximum(bof_freid,bof_lotr) == bof_freid,
    y_test
],index=["Freud","Lotr","Predict","Class"]).T.astype(np.float)
bof_results

Unnamed: 0,Freud,Lotr,Predict,Class
0,0.13615,0.563671,0.0,0.0
1,0.14791,0.529693,0.0,0.0
2,0.533321,0.16012,1.0,1.0
3,0.168686,0.576188,0.0,0.0
4,0.1494,0.567331,0.0,0.0
5,0.177799,0.635317,0.0,0.0
6,0.593146,0.383607,1.0,1.0
7,0.594456,0.156627,1.0,1.0
8,0.62774,0.482127,1.0,1.0
9,0.291982,0.645652,0.0,0.0


Посчитаем accuracy для предсказаний:

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(bof_results['Predict'],bof_results['Class'])

1.0

In [None]:
tfidf_freid = np.apply_along_axis(cosine,1,bof_test.toarray(),v=freid_mean_tfidf)
tfidf_lotr = np.apply_along_axis(cosine,1,bof_test.toarray(),v=lotr_mean_tfidf)
tfidf_results = pd.DataFrame([
    tfidf_freid,
    tfidf_lotr,
    np.maximum(tfidf_freid,tfidf_lotr) == tfidf_freid,
    y_test
],index=["Freud","Lotr","Predict","Class"]).T.astype(np.float)
tfidf_results

Unnamed: 0,Freud,Lotr,Predict,Class
0,0.2001,0.650904,0.0,0.0
1,0.218433,0.623874,0.0,0.0
2,0.648069,0.243627,1.0,1.0
3,0.212253,0.660141,0.0,0.0
4,0.196674,0.654098,0.0,0.0
5,0.232048,0.708211,0.0,0.0
6,0.69499,0.386363,1.0,1.0
7,0.690395,0.195481,1.0,1.0
8,0.71902,0.474202,1.0,1.0
9,0.333109,0.714766,0.0,0.0


In [None]:
accuracy_score(tfidf_results['Predict'],tfidf_results['Class'])

1.0

In [None]:
w2v_freid = np.apply_along_axis(cosine,0,w2v_test,v=freid_mean_w2v)
w2v_lotr = np.apply_along_axis(cosine,0,w2v_test,v=lotr_mean_w2v)
w2v_results = pd.DataFrame([
    w2v_freid,
    w2v_lotr,
    np.maximum(w2v_freid,w2v_lotr) == w2v_freid,
    y_test
],index=["Freud","Lotr","Predict","Class"]).T.astype(np.float)
w2v_results

Unnamed: 0,Freud,Lotr,Predict,Class
0,0.104216,0.025346,1.0,0.0
1,0.042311,0.010137,1.0,0.0
2,0.244233,0.059901,1.0,1.0
3,0.060377,0.285088,0.0,0.0
4,0.010775,0.05183,0.0,0.0
5,0.060377,0.285088,0.0,0.0
6,0.030546,0.017439,1.0,1.0
7,0.102475,0.001205,1.0,1.0
8,0.386753,0.119193,1.0,1.0
9,0.032397,0.017258,1.0,0.0


In [None]:
accuracy_score(w2v_results['Predict'],w2v_results['Class'])

0.75

Применим классическую модель машинного обучения поверх эмбеддингов - случайный лес.

In [None]:
from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier().fit(tfidf_train.toarray(),y_train.tolist()).score(tfidf_test.toarray(),y_test.tolist())

1.0

In [None]:
from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier().fit(bof_train.toarray(),y_train.tolist()).score(bof_test.toarray(),y_test.tolist())

1.0

In [None]:
from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier().fit(w2v_train.T,y_train.tolist()).score(w2v_test.T,y_test.tolist())

0.9166666666666666

Качество стало лучше.