# Preprocessing

In [272]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler
import plotly.express as px
from scipy.spatial.distance import euclidean

In [2]:
df = pd.read_csv('data/normalized_texts.csv')

In [3]:
df = df.drop('id', axis=1)

In [4]:
df

Unnamed: 0,paragraph_lemmatized
0,но тот кто сведущий в таинство творение не сея...
1,часть ввести федеральный закон от 2003 162 фз ...
2,елисей стоять тихо в сторона сказать вскоре чи...
3,ну девка смочь проговорить сафронов сознательн...
4,богатство кичиться звенеть серебро и злато бле...
...,...
1313,после общий пробуждение в ночлежный барак земл...
1314,я тайна творение в тиша вино открывать вновь о...
1315,и здесь решить быть начать завтра рыть земля н...
1316,деяние предусмотренный часть один или два наст...


In [176]:
import nltk
from nltk.corpus import stopwords

nltk.download("stopwords")
STOPS = set(stopwords.words("russian"))

[nltk_data] Downloading package stopwords to /home/iris/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [177]:
freq_list = set([line.strip().split(" ")[2] 
                  for line in open("data/lemma.num", "r+", encoding="cp1251").readlines() 
                  if line.strip()]).difference(STOPS)

len(freq_list)

32378

In [215]:
import numpy as np
from tqdm.notebook import tqdm

tokens = []
raw_vectors = []

with open("data/182/model.txt", "r+", encoding="utf-8") as rf:
    
    # пропускаем первую строку
    next(rf) 
    
    for line in tqdm(rf):
        line = line.strip()
        splitted = line.split(" ") 
        vector = np.array([float(n) for n in splitted[1:]])
        token = splitted[0].split("_")[0]
        
        if token in freq_list:
            tokens.append(token)
            raw_vectors.append(vector)

HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))




In [216]:
token2id = {t: i for i, t in enumerate(tokens)}
vectors = np.array(raw_vectors)

In [9]:
vectorizer = TfidfVectorizer()

In [10]:
tfidf = vectorizer.fit_transform(list(df['paragraph_lemmatized']))

In [412]:
vectorizer.vocabulary_

{'но': 5475,
 'тот': 10306,
 'кто': 4042,
 'сведущий': 8991,
 'таинство': 10109,
 'творение': 10151,
 'не': 5077,
 'сеять': 9161,
 'сердце': 9140,
 'этот': 11456,
 'сорняк': 9656,
 'детство': 2212,
 'мы': 4722,
 'ходить': 11019,
 'мудрость': 4681,
 'потом': 7439,
 'глупец': 1837,
 'учить': 10897,
 'туча': 10418,
 'прах': 7560,
 'по': 6715,
 'ветер': 1049,
 'уплыть': 10714,
 'от': 6095,
 'неверие': 5103,
 'до': 2264,
 'вера': 997,
 'расстояние': 8631,
 'вздох': 1092,
 'один': 5809,
 'сомнение': 9623,
 'искание': 3395,
 'познание': 7014,
 'провести': 8012,
 'веселие': 1034,
 'это': 11455,
 'драгоценный': 2426,
 'мгновение': 4419,
 'ибо': 3200,
 'наш': 5072,
 'расцвет': 8668,
 'увядание': 10509,
 'кровь': 3995,
 'влюбить': 1194,
 'лей': 4149,
 'они': 5906,
 'живой': 2650,
 'пожалеть': 6985,
 'хороший': 11038,
 'каяться': 3641,
 'как': 3559,
 'опасный': 5912,
 'безумец': 527,
 'убить': 10479,
 'тысяча': 10432,
 'мир': 4539,
 'уйти': 10607,
 'аскет': 391,
 'ты': 10429,
 'железо': 2622,
 'пр

In [217]:
docEmbeddings = []

In [218]:
for i in range(df.shape[0]):
    embedding = np.zeros_like(vectors[0])
    cnt = 0
    for word in df.iat[i, 0].split(' '):
        if (word in token2id):
            embedding += vectors[token2id[word]]
            cnt += 1
    embedding /= cnt
    # embedding /= np.linalg.norm(embedding)
    docEmbeddings.append(embedding)

In [219]:
scaler = StandardScaler()
docEmbeddings = scaler.fit_transform(docEmbeddings)

In [220]:
len(docEmbeddings[0])

300

# Training

In [221]:
from sklearn import cluster
import matplotlib.pyplot as plt

In [235]:
n_clusters=7

In [237]:
k_means = cluster.KMeans(n_clusters=n_clusters, random_state=10)
k_means.fit(docEmbeddings)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=7, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=10, tol=0.0001, verbose=0)

In [240]:
my_labels = k_means.labels_

In [241]:
map_union_clusters = [0, 1, 2, 3, 3, 3, 0]

In [242]:
for i in range(len(my_labels)):
    my_labels[i] = map_union_clusters[my_labels[i]]

In [231]:
import umap.umap_ as umap
reducer = umap.UMAP(n_neighbors=7, min_dist=0.2, metric="euclidean", random_state=10)

In [232]:
embedding = reducer.fit_transform(docEmbeddings)

(1318, 2)

In [262]:
cluster_embeddings = [np.zeros(300) for i in range(4)]
cnt = [0] * 4
for i in range(df.shape[0]):
    cluster_embeddings[my_labels[i]] += np.array(docEmbeddings[i])
    cnt[my_labels[i]] += 1
for i in range(4):
    cluster_embeddings[i] /= cnt[i]

In [263]:
transformed_cluster_embeddings = reducer.transform(cluster_embeddings)

In [265]:
tceDF = pd.DataFrame(transformed_cluster_embeddings, columns=['x', 'y'])
tceDF['id'] = [None] * 4
tceDF['cluster'] = [None] * 4
tceDF['color'] = [4] * 4

In [269]:
embDF = pd.DataFrame(embedding, columns=['x', 'y'])
embDF['id'] = range(embDF.shape[0])
embDF['cluster'] = my_labels
embDF['color'] = embDF['cluster']
embDF = embDF.append(tceDF)
# for i in ussr:
#     embDF.at[i, 'color'] = n_clusters + 1

In [270]:
px.scatter(embDF, x='x',y='y', hover_data=['id'], color='color')

# Find words specific to topics

In [284]:
near_words=[[] for i in range(4)]
for i in range(4):
    words_with_distances = []
    for word_ind in range(len(vectors)):
        vec = vectors[word_ind]
        words_with_distances.append((euclidean(cluster_embeddings[i], vec), word_ind))
    words_with_distances = sorted(words_with_distances)
    words = []
    for p in words_with_distances:
        words.append(p[1])
    near_words[i] = words

In [396]:
voices = [[0, 0, 0, 0] for i in range(df.shape[0])]

In [397]:
num_words = 1000
for text_ind in range(df.shape[0]):
    text = df.iat[text_ind, 0]
    text_tokens =  text.split(' ')
    for cluster_index in range(4):
        for word_ind in near_words[cluster_index][:num_words]:
            if (tokens[word_ind] in text_tokens):
                voices[text_ind][cluster_index] += 1

In [398]:
adv_rate = 2
cnt_empty = 0
cnt_dirty = 0
cnt_unclear = 0
empty_texts = []
dirty_texts = []
unclear_texts = []

for text_ind in range(df.shape[0]):
    text_voices = voices[text_ind]
    empty = True
    dirty = False
    unclear = False
    diff_clust = 0
    max_voices_ind = np.argmax(text_voices)
    for i in range(4):
        if (text_voices[i] != 0):
            diff_clust += 1
        if (max_voices_ind != i and text_voices[max_voices_ind] < adv_rate * text_voices[i]):
            unclear = True
    empty = (diff_clust == 0)
    dirty = (diff_clust >= 2)
    if (empty):
        cnt_empty += 1
        empty_texts.append(text_ind)
    if (dirty):
        cnt_dirty += 1
        dirty_texts.append(text_ind)
    if (unclear):
        cnt_unclear += 1
        unclear_texts.append(text_ind)
    

In [399]:
cnt_empty

0

In [400]:
cnt_dirty

1067

In [401]:
cnt_unclear

423

In [409]:
voices[3]

[31, 11, 6, 1]

In [410]:
df.iat[3, 0]

'ну девка смочь проговорить сафронов сознательный женщина твой мать и глубокий наш советский власть раз даже ребёнок не помнить матерь уже чуять товарищ ленин безвестный мужик с жёлтый глаз скулила в угол барак про один и то же свой горе только не говорить отчего оно а стараться большой весь угождать он тоскливый ум представляться деревня в ржа и над нея носиться ветер и тихо крутило деревянный мельница размалывать насущный мирный хлеб он жить так в недавний время чувствовать сытость в желудок и семейный счастие в душа и сколько год он ни смотреть из деревня вдаль и в будущее он видеть на конец равнина лишь слияние небо с земля а над себя иметь достаточный свет солнце и звезда'

In [403]:
unclear_texts

[2,
 9,
 15,
 25,
 28,
 35,
 36,
 44,
 49,
 53,
 54,
 55,
 57,
 58,
 64,
 65,
 69,
 77,
 86,
 90,
 92,
 93,
 94,
 96,
 97,
 100,
 102,
 110,
 111,
 112,
 114,
 117,
 119,
 124,
 127,
 130,
 134,
 159,
 164,
 165,
 166,
 167,
 168,
 169,
 170,
 171,
 173,
 178,
 181,
 184,
 186,
 187,
 189,
 191,
 201,
 203,
 204,
 208,
 213,
 215,
 230,
 232,
 240,
 242,
 244,
 246,
 247,
 249,
 251,
 253,
 258,
 259,
 261,
 263,
 276,
 277,
 278,
 283,
 286,
 298,
 302,
 312,
 320,
 325,
 336,
 337,
 342,
 352,
 362,
 364,
 366,
 368,
 370,
 374,
 378,
 380,
 381,
 385,
 386,
 388,
 390,
 393,
 395,
 396,
 398,
 400,
 401,
 404,
 407,
 408,
 409,
 413,
 414,
 415,
 416,
 417,
 418,
 421,
 423,
 424,
 431,
 432,
 435,
 438,
 439,
 440,
 444,
 446,
 447,
 448,
 451,
 452,
 453,
 454,
 457,
 459,
 461,
 465,
 467,
 469,
 472,
 474,
 475,
 477,
 482,
 483,
 484,
 488,
 490,
 494,
 501,
 505,
 507,
 510,
 512,
 514,
 515,
 517,
 519,
 520,
 526,
 528,
 530,
 534,
 538,
 542,
 544,
 545,
 546,
 547,
 548,
 

In [386]:
voices[44]

[1, 0, 0, 1]

In [389]:
for i in range(4):
    words = []
    for word_ind in near_words[i][:num_words]:
        words.append(tokens[word_ind])
    print(words)

['господь', 'господь', 'заступиться', 'человек', 'явиться', 'глас', 'погубить', 'молиться', 'господи', 'избавитель']
['засыпать', 'взгорок', 'мураш', 'поветь', 'заулок', 'бугор', 'чаща', 'посередке', 'истоптать', 'замереть']
['прыг', 'замурлыкать', 'проблеять', 'засмеяться', 'подлезть', 'промурлыкать', 'вскинуться', 'фыркнуть', 'тявкнуть', 'шепнуть']
['уголовно', 'уголовный', 'предусматривать', 'срок', 'ограничение', 'предусмотреть', 'выплата', 'рф', 'компетенция', 'уклонение']


In [387]:
df.iat[44, 0]

'слабый местный ветер начинать иногда шевелить лист но вскоре опять наступать тишина позади сад идти и петь свой песня то быть наверно счетовод с вечерний занятие или просто человек который скучно спать вдалеке на вес и без спасение светило неясный звезда и близкий она никогда не стать прушевский глядеть на нея сквозь мутный воздух время идти и он сомневаться либо я погибнуть прушевский не видеть кома бы он настолько требоваться чтоб непременно поддерживать себя до ещё далёкий смерть вместо надежда он остаться лишь терпение и за череда ночь за опасть расцвести и вновь погибший сад за встретить и минувший человек существовать он срок когда прийтись лечь на койка повернуться лицо к стена и скончаться не суметь заплакать'

In [353]:
voices

[[13, 3, 1, 0],
 [1, 0, 0, 34],
 [8, 7, 6, 2],
 [31, 11, 6, 1],
 [11, 5, 4, 1],
 [14, 5, 3, 0],
 [18, 4, 0, 0],
 [29, 3, 3, 0],
 [7, 2, 2, 0],
 [8, 2, 7, 2],
 [1, 0, 0, 27],
 [1, 0, 1, 29],
 [24, 2, 2, 0],
 [1, 0, 0, 33],
 [11, 5, 1, 1],
 [6, 6, 5, 0],
 [2, 0, 0, 12],
 [17, 3, 1, 0],
 [0, 0, 0, 30],
 [16, 5, 2, 0],
 [16, 6, 6, 2],
 [0, 0, 0, 23],
 [0, 1, 0, 37],
 [3, 0, 0, 24],
 [0, 0, 0, 17],
 [7, 11, 3, 3],
 [20, 2, 2, 0],
 [0, 1, 0, 27],
 [5, 5, 6, 0],
 [22, 2, 2, 0],
 [0, 0, 0, 22],
 [0, 0, 0, 16],
 [0, 0, 0, 21],
 [15, 2, 2, 2],
 [21, 4, 2, 0],
 [9, 5, 6, 1],
 [4, 7, 3, 0],
 [1, 0, 0, 33],
 [3, 0, 0, 27],
 [0, 0, 0, 23],
 [12, 2, 0, 0],
 [15, 4, 1, 0],
 [0, 0, 0, 21],
 [18, 4, 3, 0],
 [8, 14, 9, 3],
 [18, 2, 0, 0],
 [23, 5, 2, 0],
 [1, 0, 0, 27],
 [0, 0, 0, 16],
 [4, 3, 5, 1],
 [0, 0, 0, 24],
 [13, 4, 5, 0],
 [2, 1, 1, 26],
 [7, 8, 3, 0],
 [9, 15, 5, 2],
 [6, 8, 5, 2],
 [17, 1, 1, 0],
 [6, 5, 3, 3],
 [8, 11, 7, 0],
 [1, 0, 1, 33],
 [0, 0, 0, 30],
 [21, 5, 1, 0],
 [1, 0, 0, 24],
 [

In [330]:
my_new_labels = []
for text_ind in range(df.shape[0]):
    text_voices = voices[text_ind]
    print(text_voices)
    my_new_labels.append(np.argmax(text_voices))

[13, 3, 1, 0]
[1, 0, 0, 36]
[8, 7, 6, 2]
[32, 11, 6, 1]
[11, 5, 4, 1]
[15, 5, 3, 0]
[18, 4, 0, 0]
[31, 3, 3, 0]
[7, 2, 2, 0]
[8, 2, 7, 2]
[1, 0, 0, 28]
[1, 0, 1, 31]
[25, 2, 2, 0]
[1, 0, 0, 34]
[11, 5, 1, 1]
[6, 6, 5, 0]
[3, 0, 0, 12]
[19, 3, 1, 0]
[0, 0, 0, 31]
[16, 5, 2, 0]
[17, 6, 6, 2]
[0, 0, 0, 24]
[0, 1, 0, 40]
[3, 0, 0, 25]
[0, 0, 0, 18]
[8, 11, 3, 3]
[21, 2, 2, 0]
[0, 1, 0, 30]
[5, 5, 6, 0]
[22, 2, 2, 0]
[0, 0, 0, 23]
[0, 0, 0, 18]
[0, 0, 0, 22]
[15, 2, 2, 2]
[22, 4, 2, 0]
[9, 5, 6, 1]
[4, 7, 3, 0]
[1, 0, 0, 35]
[3, 0, 0, 28]
[0, 0, 0, 24]
[12, 2, 0, 0]
[17, 4, 1, 0]
[0, 0, 0, 22]
[18, 4, 3, 0]
[9, 14, 9, 4]
[18, 2, 0, 0]
[25, 5, 2, 0]
[1, 0, 0, 30]
[0, 0, 0, 17]
[4, 3, 5, 1]
[0, 0, 0, 26]
[14, 4, 5, 0]
[2, 1, 1, 28]
[8, 8, 3, 0]
[9, 15, 5, 2]
[7, 8, 5, 2]
[18, 1, 1, 0]
[6, 5, 3, 3]
[9, 11, 7, 0]
[1, 0, 1, 35]
[0, 0, 0, 31]
[23, 5, 1, 0]
[2, 0, 0, 25]
[12, 1, 3, 0]
[6, 3, 2, 9]
[7, 8, 2, 7]
[0, 0, 0, 35]
[0, 0, 0, 50]
[0, 0, 0, 64]
[7, 6, 7, 1]
[0, 0, 0, 20]
[0, 0, 0, 38]
[29, 

In [319]:
pd.Series(my_new_labels).value_counts()

0    1318
dtype: int64

# Words specific to clusters 2

In [411]:
for i in r

array([0, 3, 2, ..., 1, 3, 1], dtype=int32)

In [425]:
tfidf_dense = np.array(tfidf.todense())

In [428]:
tfidf_clust = [np.zeros(tfidf_dense.shape[1]) for i in range(4)]

In [429]:
cnt_texts_clust = [0] * 4

In [432]:
for text_ind in range(df.shape[0]):
    tfidf_clust[my_labels[text_ind]] += np.array(tfidf_dense[text_ind])
    cnt_texts_clust[my_labels[text_ind]] += 1

In [434]:
tfidf_clust[:, -3]

TypeError: list indices must be integers or slices, not tuple

# Answering

In [166]:
pairs = pd.read_csv('data/pairs.csv')

In [167]:
ans = pd.DataFrame(data=[0] * pairs.shape[0], columns=['gold'])

In [168]:
for i in range(pairs.shape[0]):
    value = int(my_labels[pairs.at[i, 'one'] - 1] == my_labels[pairs.at[i, 'two'] - 1])
    ans.at[i, 'gold'] = value

In [169]:
ans

Unnamed: 0,gold
0,0
1,0
2,0
3,0
4,1
...,...
12583,0
12584,1
12585,1
12586,0


In [170]:
import pandas as pd

In [171]:
ans.index.names = ['id']

In [172]:
ans.to_csv('data/ans.csv')