In [1]:
#Будем рассматривать задачу классификации текстов на 2 категории: исполняемые группой "Руки Вверх" и исполняемые группой "Ленинград".

In [None]:
!pip uninstall nltk snowballstemmer pymorphy2 pymystem3 gensim

Uninstalling nltk-3.4.5:
  Would remove:
    /Users/user/opt/anaconda3/lib/python3.7/site-packages/nltk-3.4.5.dist-info/*
    /Users/user/opt/anaconda3/lib/python3.7/site-packages/nltk/*
Proceed (y/n)? 

In [3]:
import nltk
import pymystem3
import pymorphy2
from snowballstemmer import RussianStemmer
nltk.download('punkt')
nltk.download('stopwords')
stemmer = RussianStemmer()
morph = pymorphy2.MorphAnalyzer()
mystem = pymystem3.Mystem()

[nltk_data] Downloading package punkt to /Users/user/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /Users/user/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [4]:
from string import punctuation

def lemmatize(input_text):
    tokens = nltk.word_tokenize(input_text)
    normed_tokens = [morph.parse(s)[0].normal_form for s in tokens]
    # исключим также стоп-слова - всякие предлоги, союзы и т.п.
    normed_tokens = [word for word in normed_tokens if word not in nltk.corpus.stopwords.words("russian")]
    normed_tokens = [word for word in normed_tokens if word not in nltk.corpus.stopwords.words("english")]
    # а также знаки препинания
    normed_tokens = [word for word in normed_tokens if word not in punctuation]
    return ' '.join(normed_tokens)

In [5]:
import os
import pandas as pd

# подготовим пустой датафрейм
df = pd.DataFrame(columns=['text', 'class'])

# это папки, в которых лежат файлы с текстами
dir0 = "alla"
dir1 = "fill"


In [6]:
# считаем все наши тексты в датафрейм с указанием класса
for filename in os.listdir(dir0):
    with open(os.path.join(dir0, filename), encoding='utf8', errors='ignore') as file:
        contents = lemmatize(file.read())
    df = df.append(pd.Series({'text': contents, 'class': 0}), ignore_index=True)

In [7]:
# и для второй папки тоже
for filename in os.listdir(dir1):
    with open(os.path.join(dir1, filename), encoding='utf8', errors='ignore') as file:
        contents = lemmatize(file.read())
    df = df.append(pd.Series({'text': contents, 'class': 1}), ignore_index=True)

In [8]:
df


Unnamed: 0,text,class
0,облако запускать бумажный змея думать змей уме...,0
1,мальчик пушистый зайчик хрупкий деточка мастер...,0
2,сказать прощать простить это вряд возможно ста...,0
3,счастие должный кончаться ... отвечать любовь ...,0
4,большак перекрёсток большой спешить жить любов...,0
5,близкие человек внезапно сделаться дальний вет...,0
6,плакать метель по-другому весь зимний день акв...,0
7,край земля солнце край дотронуться окно малино...,0
8,знать милый знать потерять потерять покинуть б...,0
9,снова видеть голуба далёкий свет прекрасный пр...,0


In [9]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df['text'], df['class'], test_size=0.1, stratify=df['class'])

In [10]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
bof_vect = CountVectorizer()
bof_vect.fit(np.hstack([X_train, X_test]))
bof_train = bof_vect.transform(X_train)
bof_test = bof_vect.transform(X_test)

In [11]:
bof_train.toarray()

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 2],
       ...,
       [0, 0, 0, ..., 1, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [12]:
bof_train.toarray().shape

(44, 1185)

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(np.hstack([X_train, X_test]))
tfidf_train = tfidf_vect.transform(X_train)
tfidf_test = tfidf_vect.transform(X_test)

In [14]:
tfidf_train.toarray()

array([[0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.08714899],
       ...,
       [0.        , 0.        , 0.        , ..., 0.07014224, 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]])

In [15]:
tfidf_train.toarray().shape

(44, 1185)

In [16]:
from gensim.models import Word2Vec
X_train_w2v = X_train.apply(str.split)
X_test_w2v = X_test.apply(str.split)
w2v_vect = Word2Vec(np.hstack([X_train_w2v, X_test_w2v]), size=100, min_count=5, workers=7)

In [17]:
X_train_w2v

1     [мальчик, пушистый, зайчик, хрупкий, деточка, ...
35    [знать, искать, бесполезный, мелькнуть, мгнове...
9     [снова, видеть, голуба, далёкий, свет, прекрас...
41    [дать, ..., дать, свобода, это, мир, всюду, да...
23    [день, весенний, прошептать, вернуть, вернуть,...
4     [большак, перекрёсток, большой, спешить, жить,...
37    [арбат, перемена, арбат, ух, -денёк, предлагат...
32    [мимо, пройти, прятать, взор, земля, опустить,...
36    [жить, свободно, темп, аллегро, глаз, твой, то...
34    [острый, игла, яркий, огонь, бег, бег, дорога,...
19    [рассказать, птица, манить, ввысь, дерзко, воз...
24    [снова, вечер, кидать, чета, нечет, выпадать, ...
30    [давно, верить, сон, изменчивый, бежать, волна...
29    [метель, пропеть, давно, отгреметь, фронт, люб...
3     [счастие, должный, кончаться, ..., отвечать, л...
27    [близкие, человек, внезапно, сделаться, дальни...
26    [дымно, зеркало, отражение, порой, видно, лицо...
45    [легко, жить, весь, ввысь, летать, лишь, с

In [18]:
w2v_vect['весь']


  """Entry point for launching an IPython kernel.


array([ 4.55486635e-03,  3.36431689e-03,  3.96913569e-03,  5.38529921e-03,
       -4.38190671e-03, -5.17025590e-03, -3.63345142e-03, -2.17260560e-03,
       -2.95926409e-04,  1.24440901e-02,  4.01095813e-03,  4.80905455e-03,
        1.47230076e-02,  1.37941102e-02, -1.20377988e-02, -2.63085472e-04,
       -1.47504043e-02,  1.08114695e-02, -1.34867756e-02, -6.70668529e-03,
       -5.11004077e-03, -1.26692103e-02, -1.25056654e-02, -4.89265379e-03,
        5.00844885e-03, -2.85282522e-03, -1.09431781e-02,  1.41425384e-02,
        3.85337090e-03,  6.77567301e-03,  1.75564401e-02, -1.05760451e-02,
       -1.36339990e-02,  1.00637390e-03,  1.05989166e-02, -1.91532134e-03,
       -2.26343311e-02,  2.36228239e-02,  7.39731966e-03, -1.52790500e-03,
        5.62626682e-03,  6.95569720e-03, -5.84877841e-03, -5.44326977e-05,
       -2.09236890e-03,  8.52332078e-03, -6.02197414e-03,  1.14268325e-02,
        1.38912722e-02, -2.69537395e-05,  2.90106982e-03, -1.52321692e-04,
        7.43420376e-03, -

In [19]:
w2v_vect.most_similar(negative=["друг"])

  """Entry point for launching an IPython kernel.


[('темп', -0.32318902015686035),
 ('берег', -0.3403627276420593),
 ('толпа', -0.35449570417404175),
 ('атлантида', -0.36792677640914917),
 ('знаешь', -0.37178903818130493),
 ('кончиться', -0.374877393245697),
 ('нить', -0.3810087740421295),
 ('пора', -0.3881117105484009),
 ('боль', -0.3958679139614105),
 ('давать', -0.39963388442993164)]

In [20]:
w2v_vect.most_similar(positive="друг")

  """Entry point for launching an IPython kernel.


[('плить', 0.7754060626029968),
 ('звонок', 0.7601403594017029),
 ('одинокий', 0.7508206367492676),
 ('твой', 0.750167727470398),
 ('поступать', 0.7449352145195007),
 ('знать', 0.7431308031082153),
 ('человек', 0.7428550124168396),
 ('весь', 0.7360861301422119),
 ('любить', 0.7352390289306641),
 ('припев', 0.7341479063034058)]

In [21]:
import numpy as np

def text2vec(text):
    """Усредняем векторы слов"""
    vecs = []
    for word in text:
        try:
            vecs.append(w2v_vect[word])
        except KeyError:
            pass
    return np.sum(vecs, axis=0) / len(vecs)

w2v_train = X_train_w2v.apply(text2vec)
w2v_test = X_test_w2v.apply(text2vec)
w2v_train

  


1     [0.00232428, 0.00060014095, -0.0011774866, 0.0...
35    [0.00087174296, 0.0008366525, 0.00031014762, 0...
9     [0.0017974164, -0.0004034641, -0.00053916627, ...
41    [0.0008122563, 0.0031429927, 0.000766179, 0.00...
23    [0.0016920479, 0.0021117008, 0.000953801, 0.00...
4     [-0.00030947203, 0.0007331486, 0.001063214, 0....
37    [0.0005198591, 0.0009043537, 0.0014512986, 0.0...
32    [0.0005470428, 0.0019860922, 0.0007789167, 0.0...
36    [0.00062293693, 0.002058415, 0.00035546653, 0....
34    [0.00022241371, 0.003397287, 0.0017644676, 0.0...
19    [0.0018196478, 0.0014313228, 0.00199879, 0.004...
24    [0.0006738088, 0.002936624, -0.00091647706, 0....
30    [0.0010681964, 0.0028840257, -0.0004196722, 0....
29    [-0.00016715945, 0.0023585255, -0.00014408171,...
3     [0.00062941835, 0.00030980227, 0.00077730324, ...
27    [0.00061015517, 0.0022630794, 0.0009056384, 0....
26    [0.00031020827, 0.002324028, 0.0006574095, 0.0...
45    [0.0013554245, 0.0027602431, 0.00075292186

In [22]:
w2v_train.shape

(44,)

In [23]:
w2v_train[0]

array([ 9.37871111e-04,  2.01035687e-03,  1.37600070e-03,  4.72613191e-03,
       -1.95502280e-03, -1.38961652e-03, -3.25109169e-04, -2.09120568e-03,
       -2.18879175e-03,  5.04039740e-03,  1.25499605e-03, -6.05468114e-04,
        5.31807775e-03,  7.33215548e-03, -3.45640397e-03,  9.45895037e-04,
       -4.59806714e-03,  2.84674740e-03, -6.29312731e-03, -3.16704763e-03,
       -2.22696969e-03, -4.28812765e-03, -5.88434143e-03, -1.25925243e-03,
        2.08199979e-03, -1.74866559e-03, -4.49339999e-03,  3.27360514e-03,
        2.96480232e-03,  3.87255359e-03,  5.20744640e-03, -5.27728302e-03,
       -5.80680277e-03, -1.95273533e-04,  4.59326198e-03,  1.23827532e-03,
       -8.04969668e-03,  8.56224820e-03,  2.32122280e-03,  1.14308752e-03,
        2.41390779e-03,  1.90671743e-03, -1.55390659e-03,  2.43520900e-03,
       -4.33863420e-03,  5.46316057e-03, -1.99465966e-03,  3.24870250e-03,
        4.41443734e-03, -7.44053395e-04,  2.83962255e-03, -1.36761717e-03,
        3.33823287e-03, -

In [24]:

w2v_train = np.dstack(w2v_train)[0]
w2v_train.shape

(100, 44)

In [25]:
w2v_test = np.dstack(w2v_test)[0]

In [26]:
alla_mean_w2v = np.sum(w2v_train[:, y_train == 0], axis=1)
alla_mean_w2v.shape

(100,)

In [27]:
fill_mean_w2v = np.sum(w2v_train[:, y_train == 1], axis=1)


In [28]:
alla_mean_w2v

array([ 0.0177348 ,  0.03309141,  0.01671001,  0.0972188 , -0.02606792,
       -0.03900424, -0.00053152, -0.04352348, -0.03513112,  0.09176718,
        0.01760084,  0.02092348,  0.11211278,  0.14917251, -0.08811212,
        0.01648688, -0.14079136,  0.06693785, -0.10101926, -0.06523994,
       -0.0396431 , -0.09571937, -0.12613152, -0.03519382,  0.03389265,
       -0.0357605 , -0.09333315,  0.09703109,  0.05299819,  0.08079077,
        0.11982332, -0.11750821, -0.12067071,  0.01964816,  0.09465915,
        0.01970136, -0.17801361,  0.1796079 ,  0.04458534,  0.00883484,
        0.0515404 ,  0.03346422, -0.06067708,  0.02239875, -0.06320573,
        0.1012396 , -0.04709689,  0.09980445,  0.09310925, -0.01147319,
        0.04171327, -0.04294796,  0.08436067, -0.03021769, -0.02048089,
       -0.01383701,  0.2113243 ,  0.01987473,  0.00571262, -0.04476163,
       -0.0328415 ,  0.04144749,  0.02802276,  0.04389107,  0.14965487,
       -0.07540485,  0.02194865,  0.09211575,  0.04076099,  0.07

In [29]:
fill_mean_w2v

array([ 0.02658251,  0.06042082,  0.01620303,  0.13421182, -0.02708822,
       -0.05968511,  0.01002055, -0.06610373, -0.04682462,  0.13891509,
        0.01315019,  0.03211551,  0.16152547,  0.19740604, -0.110771  ,
        0.0204776 , -0.19353698,  0.07996326, -0.14586276, -0.08701155,
       -0.05065118, -0.13734199, -0.16267447, -0.04956149,  0.05976707,
       -0.04590033, -0.12376004,  0.1360699 ,  0.06742678,  0.11507101,
        0.17207024, -0.16248108, -0.15364416,  0.02570247,  0.13060887,
        0.02212944, -0.25625473,  0.24908558,  0.04482983,  0.02498646,
        0.06531784,  0.04762432, -0.06866053,  0.03085866, -0.08648717,
        0.13247016, -0.07429805,  0.12341869,  0.12395313, -0.00435892,
        0.07021187, -0.06187961,  0.12338455, -0.03741885, -0.02944575,
       -0.02946964,  0.2907678 ,  0.02123197,  0.00829372, -0.0481474 ,
       -0.04959121,  0.05189966,  0.04154122,  0.06919862,  0.20751895,
       -0.10272896,  0.03008483,  0.13223688,  0.05766311,  0.09

In [30]:
from sklearn.metrics import accuracy_score
from scipy.spatial.distance import cosine


w2v_alla = np.apply_along_axis(cosine, 0, w2v_test, v=alla_mean_w2v)
w2v_fill = np.apply_along_axis(cosine, 0, w2v_test, v=fill_mean_w2v)

w2v_results = pd.DataFrame([
    w2v_alla,
    w2v_fill,
    np.maximum(w2v_alla, w2v_fill) == w2v_fill,
    y_test
], index=["alla", "fill", "predict", "class"]).T.astype(np.float)
w2v_results

Unnamed: 0,alla,fill,predict,class
0,0.054313,0.050486,0.0,1.0
1,0.028221,0.024527,0.0,0.0
2,0.010868,0.00981,0.0,1.0
3,0.010979,0.011159,1.0,1.0
4,0.02864,0.028752,1.0,0.0


In [31]:
accuracy_score(w2v_results['predict'], w2v_results['class'])

0.4

In [32]:
from sklearn.ensemble import RandomForestClassifier

In [33]:
RandomForestClassifier().fit(w2v_train.T, y_train.tolist()).score(w2v_test.T, y_test.tolist())



0.6

In [34]:
alla_mean_tfidf = np.sum(tfidf_train[ y_train == 0], axis=0)
alla_mean_tfidf.shape

ValueError: provided out is the wrong size for the reduction

In [None]:
fill_mean_tfidf = np.sum(tfidf_train[y_train == 1], axis=0)


In [None]:
tfidf_alla = np.apply_along_axis(cosine, 1, tfidf_test.toarray(), v=alla_mean_tfidf)
tfidf_fill = np.apply_along_axis(cosine, 1, tfidf_test.toarray(), v=fill_mean_tfidf)

tfidf_results = pd.DataFrame([
    tfidf_alla,
    tfidf_fill,
    np.maximum(tfidf_alla, tfidf_fill) == tfidf_fill,
    y_test
], index=["alla", "fill", "predict", "class"]).T.astype(np.float)
tfidf_results