### Load libs

In [53]:
import pandas as pd
import numpy as np
import sklearn
import nltk
from nltk.corpus import stopwords
from gensim.models import Word2Vec
from sklearn.feature_extraction.text import TfidfVectorizer
nltk.download('stopwords')
import re
from scipy import spatial
import time
import multiprocessing

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\zhiti\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Load data

In [58]:
df1=pd.read_excel(r"datasets/extremism.xlsx")

df=pd.DataFrame()
df['id'] = df1['id']
df['text'] = df1['text']
df['class'] = df1['class']
df = df.dropna()

In [59]:
df

Unnamed: 0,id,text,class
0,1,Таким образом никто не внес большего вклад...,3.0
1,2,"Можно с уверенностью сказать, что все полезное...",3.0
2,3,Славяне должны на нас работать. Если они нам б...,3.0
3,4,"Русское государство росло, развивалось из свои...",3.0
4,5,Поставим власть под контроль народа,3.0
...,...,...,...
304,305,Социальное. Соответствующий подход предполагае...,0.0
305,306,Рост продуктивности человеческой деятельности ...,0.0
306,307,"Социальная дифференциация, в том числе по этни...",0.0
307,308,Демографический рост и расширение экономическо...,0.0


### Load models

In [114]:
exp_model = w2v_model.wv.load_word2vec_format(r'models/hachi.bin', binary=True)

In [117]:
exp_model.most_similar('хачи')

[('чурок', 0.9904348850250244),
 ('хачам', 0.9889359474182129),
 ('убивайте', 0.9868521690368652),
 ('россии', 0.9765247106552124),
 ('будут', 0.9525325298309326),
 ('убей', 0.8711485862731934),
 ('снова', 0.7811889052391052),
 ('нам', 0.725294828414917),
 ('своей', 0.7228884696960449),
 ('днем', 0.7154790759086609)]

## Prepare funcs

### Tokenization

In [61]:
patterns = "[0-9!#$%&'()*+,./:;<=>?@[\]^_`{|}~—\"\-]+"

def comma2space(word):
    new_word = ''
    try:
        for char in word:
            if char in patterns:
                char = ' '
            new_word += char
    except TypeError:
        pass
    return new_word
    
def lemmatize(doc):
    doc = re.sub(patterns, '', doc)
    tokens = []
    for token in doc.split():
        if token:
            
            token = token.lower()
            token = token.strip()
            tokens.append(token)
    return tokens

def dropstopwords(docs):
    stopwords = nltk.corpus.stopwords.words('russian')
    sen =  []
    for doc in docs:
        if (doc not in stopwords):
            sen.append(doc)
    return sen

def dropcomma(doc):
    new_sen = ''
    for char in doc:
        if (char not in patterns):
            new_sen += char
    return new_sen

def tokenize(docs):
    docs = comma2space(docs)
    docs = lemmatize(docs)
    docs = dropstopwords(docs)
    return docs

### Medium word-vector

In [119]:
def mediumVector(sen):
    medVec = exp_model[sen[0]]
    unexceptedVectors = 0
    for word in sen:
        vec = False
        try:
            vec = exp_model.word_vec(word)
            medVec = medVec + vec
        except:
            unexceptedVectors += 1
    if unexceptedVectors != 0 :
        print('Lost - ' + str(unexceptedVectors))
    elif unexceptedVectors == len(sen):
        print('Sentence lost')
        
    medVec = medVec - exp_model[sen[0]]
    medVec = medVec / (len(sen) - unexceptedVectors)
    return medVec

## Organise data 

In [121]:
data=df['text'].apply(tokenize)
data

0      [таким, образом, никто, внес, большего, вклада...
1      [уверенностью, сказать, полезное, хорошее, сов...
2      [славяне, должны, работать, нам, нужны, могут,...
3      [русское, государство, росло, развивалось, сво...
4                   [поставим, власть, контроль, народа]
                             ...                        
304    [социальное, соответствующий, подход, предпола...
305    [рост, продуктивности, человеческой, деятельно...
306    [социальная, дифференциация, числе, этническом...
307    [демографический, рост, расширение, экономичес...
308    [соответственно, политика, возникает, связи, у...
Name: text, Length: 309, dtype: object

In [123]:
df

Unnamed: 0,id,text,class,tokenized,medVec
0,1,Таким образом никто не внес большего вклад...,3.0,"[таким, образом, никто, внес, большего, вклада...","[-0.040627204, -0.015365397, -0.047234744, -0...."
1,2,"Можно с уверенностью сказать, что все полезное...",3.0,"[уверенностью, сказать, полезное, хорошее, сов...","[-0.03933827, -0.028398223, -0.06735049, -0.01..."
2,3,Славяне должны на нас работать. Если они нам б...,3.0,"[славяне, должны, работать, нам, нужны, могут,...","[-0.03659208, -0.06395723, -0.045187864, -0.03..."
3,4,"Русское государство росло, развивалось из свои...",3.0,"[русское, государство, росло, развивалось, сво...","[-0.010856689, -0.022112656, -0.07141073, -0.0..."
4,5,Поставим власть под контроль народа,3.0,"[поставим, власть, контроль, народа]","[-0.052434314, -0.07669519, -0.01961285, -0.03..."
...,...,...,...,...,...
304,305,Социальное. Соответствующий подход предполагае...,0.0,"[социальное, соответствующий, подход, предпола...","[-0.031028584, -0.050743006, -0.037808374, -0...."
305,306,Рост продуктивности человеческой деятельности ...,0.0,"[рост, продуктивности, человеческой, деятельно...","[-0.022473656, -0.05278062, -0.06827722, -0.03..."
306,307,"Социальная дифференциация, в том числе по этни...",0.0,"[социальная, дифференциация, числе, этническом...","[-0.01735261, -0.01962001, -0.04677039, -0.027..."
307,308,Демографический рост и расширение экономическо...,0.0,"[демографический, рост, расширение, экономичес...","[-0.037360966, -0.06539034, -0.062378313, -0.0..."


In [122]:
df['tokenized']=df['text'].apply(tokenize)
df['medVec']=df['tokenized'].apply(mediumVector)
df

KeyError: "word 'таким' not in vocabulary"

In [51]:

w2v_model = Word2Vec(
    min_count=10,
    window=10,
    size=300,
    negative=10,
    alpha=0.5,
    min_alpha=0.0007,
    sample=6e-5,
    sg=1,workers=4)

#BUILD_VOCAB()
t = time.time()
w2v_model.build_vocab(data, progress_per=100)
print("Time to build vocab': {} mins".format(round((time.time() - t) / 60, 2)))

#TRAIN()
w2v_model.train(data, total_examples=w2v_model.corpus_count, epochs=30, report_delay=1)
print('Time to train the model: {} mins'.format(round((time.time() - t) / 60, 2)))

Time to build vocab': 0.0 mins
Time to train the model: 0.0 mins


In [48]:
w2v_model.init_sims(replace=True)
w2v_model.wv.save_word2vec_format('hachi.bin', binary=True)

In [49]:
model1 = w2v_model.wv.load_word2vec_format(r'C:\Users\Zero\hachi.bin', binary=True)
model1.syn0

  model1.syn0


array([[-0.04750724, -0.09294917,  0.04646128, ..., -0.02326778,
        -0.02748158,  0.04694638],
       [-0.16215153, -0.03675573,  0.03022764, ...,  0.01612221,
         0.01322101, -0.03014729],
       [-0.05710144, -0.07443115,  0.06365845, ...,  0.00222445,
         0.00118704,  0.08087655],
       ...,
       [-0.12255844, -0.10139921, -0.03399283, ..., -0.02904652,
         0.03170789, -0.04719374],
       [-0.07217082, -0.05173732,  0.02180016, ...,  0.03493413,
        -0.015422  , -0.08324368],
       [-0.04941457, -0.06038683,  0.01956714, ..., -0.01193344,
        -0.02067705,  0.00612094]], dtype=float32)

In [64]:
model1.most_similar(positive=["смерть","хачи"])

[('будут', 0.893851637840271),
 ('россии', 0.874309778213501),
 ('хачам', 0.8688006401062012),
 ('чурок', 0.8652452230453491),
 ('убивайте', 0.8409756422042847),
 ('умереть', 0.7862440943717957),
 ('самоубийства', 0.7742125988006592),
 ('знаю', 0.7616627216339111),
 ('это', 0.7607013583183289),
 ('думаю', 0.7601228356361389)]

In [65]:
import numpy as np

index2word_set = set(model1.wv.index2word)

def avg_feature_vector(sentence, model, num_features, index2word_set):
    words = sentence.split()
    feature_vec = np.zeros((num_features, ), dtype='float32')
    n_words = 0
    for word in words:
        if word in index2word_set:
            n_words += 1
            feature_vec = np.add(feature_vec, model[word])
    if (n_words > 0):
        feature_vec = np.divide(feature_vec, n_words)
    return feature_vec

  index2word_set = set(model1.wv.index2word)


In [66]:
listok=['хач','убивай ',"негр"]
deist='всех'
score=[]
slovar={}
for i in range(len(listok)):
    s1_afv = avg_feature_vector(deist, model=model1, num_features=300, index2word_set=index2word_set)
    s2_afv = avg_feature_vector(listok[i], model=model1, num_features=300, index2word_set=index2word_set)
    sim = 1 - spatial.distance.cosine(s1_afv, s2_afv)
    score.append(sim)
    slovar.update({deist+' / '+listok[i]:sim})
sorted_tuples = sorted(slovar.items(), key=lambda item: item[1])

sorted_dict = {k: v for k, v in sorted_tuples}

print(sorted_dict)  # {1: 1, 3: 4, 2: 9}

{'всех / хач': nan, 'всех / убивай ': nan, 'всех / негр': nan}
