In [28]:
#Будем рассматривать задачу классификации текстов на 2 категории: исполняемые группой "Руки Вверх" и исполняемые группой "Ленинград".

In [1]:
!pip install nltk snowballstemmer pymorphy2 pymystem3 gensim



In [2]:
import nltk
import pymorphy2
nltk.download('punkt')
nltk.download('stopwords')
morph = pymorphy2.MorphAnalyzer()

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Gamma\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Gamma\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [166]:
from string import punctuation

def lemmatize(input_text):
    tokens = nltk.word_tokenize(input_text)
    normed_tokens = [morph.parse(s)[0].normal_form for s in tokens]
    # исключим также стоп-слова - всякие предлоги, союзы и т.п.
    normed_tokens = [word for word in normed_tokens if word not in nltk.corpus.stopwords.words("russian")]
    normed_tokens = [word for word in normed_tokens if word not in nltk.corpus.stopwords.words("english")]
    # а также знаки препинания
    normed_tokens = [word for word in normed_tokens if word not in punctuation]
    return ' '.join(normed_tokens)

In [167]:
import os
import pandas as pd

# подготовим пустой датафрейм
df = pd.DataFrame(columns=['text', 'class'])

# это папки, в которых лежат файлы с текстами
dir0 = "C:\\Users\\Gamma\\Anaconda3\\123"
dir1 = "C:\\Users\\Gamma\\Anaconda3\\leningrad"

In [168]:
# считаем все наши тексты в датафрейм с указанием класса
for filename in os.listdir(dir0):
    with open(os.path.join(dir0, filename), encoding='utf8', errors='ignore') as file:
        contents = lemmatize(file.read())
    df = df.append(pd.Series({'text': contents, 'class': 0}), ignore_index=True)

In [169]:
# и для второй папки тоже
for filename in os.listdir(dir1):
    with open(os.path.join(dir1, filename), encoding='utf8', errors='ignore') as file:
        contents = lemmatize(file.read())
    df = df.append(pd.Series({'text': contents, 'class': 1}), ignore_index=True)

In [170]:
df

Unnamed: 0,text,class
0,любить самый нежный каждый день звонить встрет...,0
1,гулять сидеть невинность свой беречь весь это ...,0
2,мягкий мягкий снег окно умирать нежно таять ду...,0
3,знать готовый помчаться снова туда танец танец...,0
4,парень девчонка обижать парень знаешь встречат...,0
5,мягкий шёлк простыня напомнить нежность рука т...,0
6,двое разлить вод разный путь разный судьба про...,0
7,здравствовать плакать снова значит что-то знач...,0
8,начинать занятие гимнастика ходьба место приго...,0
9,песенка играть танцевать песенка поить песенка...,0


In [203]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df['text'], df['class'], test_size=0.4, stratify=df['class'])

In [204]:
#Bag of words embedding
from sklearn.feature_extraction.text import CountVectorizer
bof_vect = CountVectorizer()
bof_vect.fit(np.hstack([X_train, X_test]))
bof_train = bof_vect.transform(X_train)
bof_test = bof_vect.transform(X_test)

In [205]:
bof_train.toarray()

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [206]:
bof_train.toarray().shape

(29, 1178)

In [207]:
ruki_mean_bof = np.sum(bof_train[y_train == 0], axis=0)
ruki_mean_bof.shape

(1, 1178)

In [208]:
leningrad_mean_bof = np.sum(bof_train[y_train == 1], axis=0)

In [235]:
from scipy.spatial.distance import cosine
bof_ruki = np.apply_along_axis(cosine, 1, bof_test.toarray(), v=ruki_mean_bof)
bof_leningrad = np.apply_along_axis(cosine, 1, bof_test.toarray(), v=leningrad_mean_bof)

bof_results = pd.DataFrame([
    bof_ruki,
    bof_leningrad,
    np.maximum(bof_ruki, bof_leningrad) == bof_leningrad,
    y_test
], index=["ruki", "leningrad", "predict", "class"]).T.astype(np.float)
bof_results

Unnamed: 0,ruki,leningrad,predict,class
0,0.974423,0.978897,1.0,1.0
1,0.976648,0.972704,0.0,1.0
2,0.998991,0.99833,0.0,0.0
3,0.873494,0.858125,0.0,1.0
4,0.883597,0.87377,0.0,1.0
5,0.97024,0.975445,1.0,1.0
6,0.973294,0.96109,0.0,1.0
7,0.941826,0.936535,0.0,0.0
8,0.973564,0.973087,0.0,1.0
9,0.973146,0.955533,0.0,0.0


In [234]:
print(X_test)

34    знать милый знать потерять просто искать поздн...
33    река протекать асфальт петь тенор альт знакомы...
8     начинать занятие гимнастика ходьба место приго...
25    вечный любовь верный время зло память большой ...
21    знать жить любовь твой непросто отыскать весь ...
27    снова вечер кидать чета нечет выпадать чета сн...
46    знать искать бесполезный мелькнуть мгновение т...
6     двое разлить вод разный путь разный судьба про...
44    мимо пройти прятать взор земля опустить глаз с...
19    разлюбить весь забыть хороший звать звать зват...
22    метель пропеть давно отгреметь фронт любовь ве...
1     гулять сидеть невинность свой беречь весь это ...
4     парень девчонка обижать парень знаешь встречат...
0     любить самый нежный каждый день звонить встрет...
48    давно верить сон изменчивый бежать волна женщи...
43    гореть лететь жить спешить уметь наполовину св...
42    гаснуть мор отблеск закат лишь звезда видеть п...
28    идти пешком весь день нога устать писать с

In [236]:
from sklearn.metrics import accuracy_score
accuracy_score(bof_results['predict'], bof_results['class'])

0.55

In [211]:
from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier().fit(bof_train.toarray(), y_train.tolist()).score(bof_test.toarray(), y_test.tolist())



0.8

In [212]:
#Term Frequency — Inverse Document Frequency(TF-IDF) embedding
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(np.hstack([X_train, X_test]))
tfidf_train = tfidf_vect.transform(X_train)
tfidf_test = tfidf_vect.transform(X_test)

In [213]:
tfidf_train.toarray()

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [214]:
tfidf_train.toarray().shape

(29, 1178)

In [215]:
ruki_mean_tfidf = np.sum(tfidf_train[y_train == 0], axis=0)
ruki_mean_tfidf.shape

(1, 1178)

In [216]:
leningrad_mean_tfidf = np.sum(tfidf_train[y_train == 1], axis=0)

In [217]:
tfidf_ruki = np.apply_along_axis(cosine, 1, tfidf_test.toarray(), v=ruki_mean_tfidf)
tfidf_leningrad = np.apply_along_axis(cosine, 1, tfidf_test.toarray(), v=leningrad_mean_tfidf)

tfidf_results = pd.DataFrame([
    tfidf_ruki,
    tfidf_leningrad,
    np.maximum(tfidf_ruki, tfidf_leningrad) == tfidf_leningrad,
    y_test
], index=["ruki", "leningrad", "predict", "class"]).T.astype(np.float)
tfidf_results

Unnamed: 0,ruki,leningrad,predict,class
0,0.985412,0.989702,1.0,1.0
1,0.983855,0.984205,1.0,1.0
2,0.998728,0.998198,0.0,0.0
3,0.911252,0.925949,1.0,1.0
4,0.926612,0.938519,1.0,1.0
5,0.982587,0.987709,1.0,1.0
6,0.991727,0.990166,0.0,1.0
7,0.959117,0.961163,1.0,0.0
8,0.985815,0.987312,1.0,1.0
9,0.991068,0.987346,0.0,0.0


In [218]:
accuracy_score(tfidf_results['predict'], tfidf_results['class'])

0.7

In [219]:
from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier().fit(tfidf_train.toarray(), y_train.tolist()).score(tfidf_test.toarray(), y_test.tolist())



0.55

In [1]:
#Word to vector embedding
import numpy as np
from gensim.models import Word2Vec
X_train_w2v = X_train.apply(str.split)
X_test_w2v = X_test.apply(str.split)
w2v_vect = Word2Vec(np.hstack([X_train_w2v, X_test_w2v]), size=40, min_count=5)

NameError: name 'X_train' is not defined

In [221]:
X_train_w2v

35    [дать, ..., дать, свобода, это, мир, всюду, да...
41    [жить, свободно, темп, аллегро, глаз, твой, то...
45    [острый, игла, яркий, огонь, бег, бег, дорога,...
3     [знать, готовый, помчаться, снова, туда, танец...
39    [день, весенний, прошептать, вернуть, вернуть,...
18    [это, лето, стиль, самба, танцевать, ритм, мам...
14    [тихо, светить, луна, вдали, река, широкий, тр...
38    [женский, глаз, бывать, разный, гордый, звать,...
30    [легко, жить, весь, ввысь, летать, лишь, сон, ...
17    [спать, ночной, проспект, лунный, свет, провож...
26    [холодное, пот, ночь, просыпаться, кричать, пу...
47    [отшуметь, дневный, забота, юный, вечер, пахну...
36    [дочь, родиться, шарманщик, добрый, карло, пап...
31    [арбат, перемена, арбат, ух, -денёк, предлагат...
20    [одинокий, это, мир, ночь, пред, стен, одиноки...
12    [ветер, шуметь, негромко, листва, шелестеть, о...
24    [дымно, зеркало, отражение, порой, видно, лицо...
40    [зеркало, разбитый, осколок, склониться, о

In [222]:
import numpy as np

def text2vec(text):
    """Усредняем векторы слов"""
    vecs = []
    for word in text:
        try:
            vecs.append(w2v_vect[word])
        except KeyError:
            pass
    return np.sum(vecs, axis=0) / len(vecs)

w2v_train = X_train_w2v.apply(text2vec)
w2v_test = X_test_w2v.apply(text2vec)
w2v_train

  


35    [0.0018648981, -0.0017575219, -0.0050933505, -...
41    [-0.004794912, -0.00020170098, -0.00036036744,...
45    [-0.0040069786, 0.0016407197, 0.0024636197, -0...
3     [0.00034685552, -0.006646935, 1.1346066e-05, -...
39    [-0.002825268, 0.0007823748, -0.00016722502, -...
18    [0.00033447813, 0.0009712436, -0.0024436421, -...
14    [-0.0045185294, 0.0023274645, -0.0010787925, -...
38    [-0.0011305793, -0.006570177, 0.0028787376, -0...
30    [-0.0028807484, 0.00031856858, 0.00219461, -0....
17    [-0.0037354338, 0.00011767741, -0.0015385906, ...
26    [-0.0029802613, 0.0037359097, 0.00023727393, -...
47    [-0.004036227, -0.0019573213, -0.0011186862, -...
36    [-0.00026246998, 0.004083253, -7.0783326e-06, ...
31    [-0.004875654, -1.2397387e-05, 0.00040815372, ...
20    [-0.005601709, 0.0014563176, 0.0010720739, -0....
12    [-0.0021294998, 0.0018317339, -0.0026304952, -...
24    [0.00015215485, 0.0020032378, 0.0023089398, -0...
40    [-0.004143966, -0.00042641687, 0.000432736

In [223]:
w2v_train.shape

(29,)

In [224]:
w2v_train[0]

KeyError: 0

In [225]:
#w2v_train.drop(w2v_train.index[[0]], inplace=True)
w2v_train = np.dstack(w2v_train)[0]
w2v_train.shape

(40, 29)

In [226]:
w2v_test = np.dstack(w2v_test)[0]

In [227]:
ruki_mean_w2v = np.sum(w2v_train[:, y_train == 0], axis=1)
ruki_mean_w2v.shape

(40,)

In [228]:
leningrad_mean_w2v = np.sum(w2v_train[:, y_train == 1], axis=1)


In [229]:
ruki_mean_w2v

array([-0.02079956,  0.00094173, -0.00792698, -0.06565264, -0.07361753,
        0.12534969,  0.09169909,  0.11834064, -0.12879844,  0.04647215,
       -0.10114886, -0.1862827 , -0.02893993,  0.1128549 , -0.07904735,
       -0.03442311,  0.10307455, -0.02036589, -0.03962651, -0.02859519,
       -0.11183137, -0.16313143, -0.01457642, -0.1046503 , -0.09300938,
        0.09575684, -0.28272364,  0.09610929,  0.07500911, -0.0115705 ,
        0.04998386,  0.00993926, -0.0763779 ,  0.21129206, -0.06318156,
        0.00563464,  0.03889528,  0.12578347,  0.0234468 , -0.12908699],
      dtype=float32)

In [230]:
leningrad_mean_w2v

array([-5.54603413e-02,  3.29988543e-05,  1.32392803e-02, -1.10458776e-01,
       -1.29338369e-01,  1.79640532e-01,  1.40722990e-01,  1.61536425e-01,
       -1.82281882e-01,  6.23910762e-02, -1.25727579e-01, -2.45159045e-01,
       -4.62973341e-02,  1.62476510e-01, -1.03519462e-01, -6.34151921e-02,
        1.64372563e-01, -2.79999468e-02, -8.29101652e-02, -2.43540248e-03,
       -1.66191876e-01, -2.23481596e-01,  1.30515150e-03, -1.33403301e-01,
       -1.37659043e-01,  1.23786174e-01, -3.91064465e-01,  1.17155313e-01,
        8.73685181e-02,  3.91729968e-03,  7.59468675e-02,  3.20126452e-02,
       -1.07118048e-01,  2.91415900e-01, -8.01025704e-02,  2.68029682e-02,
        3.54807377e-02,  1.80433795e-01,  3.07268417e-03, -2.18457222e-01],
      dtype=float32)

In [231]:
from sklearn.metrics import accuracy_score
from scipy.spatial.distance import cosine


w2v_ruki = np.apply_along_axis(cosine, 0, w2v_test, v=ruki_mean_w2v)
w2v_leningrad = np.apply_along_axis(cosine, 0, w2v_test, v=leningrad_mean_w2v)

print(w2v_ruki)
print(w2v_leningrad)

w2v_results = pd.DataFrame([
    w2v_ruki,
    w2v_leningrad,
    np.maximum(w2v_ruki, w2v_leningrad) == w2v_leningrad,
    y_test
], index=["ruki", "leningrad", "predict", "class"]).T.astype(np.float)
w2v_results

[0.03823692 0.05163592 0.08774292 0.01788121 0.01748121 0.03019488
 0.0342806  0.04826236 0.02451926 0.06011486 0.01540279 0.02546847
 0.0232203  0.01451558 0.02767992 0.01888293 0.02969342 0.02289939
 0.02547473 0.06993771]
[0.03165329 0.04991227 0.09194189 0.01233327 0.01188439 0.03404546
 0.03231061 0.04418045 0.01874226 0.05506098 0.01780915 0.0282169
 0.02598393 0.01479864 0.02497089 0.02126187 0.02316809 0.02415591
 0.02353537 0.06011683]


Unnamed: 0,ruki,leningrad,predict,class
0,0.038237,0.031653,0.0,1.0
1,0.051636,0.049912,0.0,1.0
2,0.087743,0.091942,1.0,0.0
3,0.017881,0.012333,0.0,1.0
4,0.017481,0.011884,0.0,1.0
5,0.030195,0.034045,1.0,1.0
6,0.034281,0.032311,0.0,1.0
7,0.048262,0.04418,0.0,0.0
8,0.024519,0.018742,0.0,1.0
9,0.060115,0.055061,0.0,0.0


In [232]:
accuracy_score(w2v_results['predict'], w2v_results['class'])

0.4

In [233]:
from sklearn.ensemble import RandomForestClassifier

In [202]:
RandomForestClassifier().fit(w2v_train.T, y_train.tolist()).score(w2v_test.T, y_test.tolist())



0.64