In [2]:
import gensim
import pandas as pd

In [3]:
corpus = pd.read_csv("tengrinews_articles-all-clean.csv", sep = ";") 

In [4]:
corpus.text.head()

0    Премьер-министр России Владимир Путин дал инте...
1    Казахстанская горнорудная корпорация ENRC обра...
2    В Костанае частный предприниматель привлечен к...
3    Мажилис одобрил закон "О Фонде национального б...
4    Генеральный директор холдинга "Нур-медиа" Арма...
Name: text, dtype: object

In [5]:
import string 
string.punctuation


'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [6]:
def remove_punct(text):
    text_nopunct = "".join([char for char in text if char not in string.punctuation])
    return text_nopunct

corpus_nopunct = corpus.text.apply(remove_punct)

In [7]:
corpus_nopunct.head()

0    Премьерминистр России Владимир Путин дал интер...
1    Казахстанская горнорудная корпорация ENRC обра...
2    В Костанае частный предприниматель привлечен к...
3    Мажилис одобрил закон О Фонде национального бл...
4    Генеральный директор холдинга Нурмедиа Арманжа...
Name: text, dtype: object

In [8]:
import re

def tokenize(text):
    tokens = re.split('\s+', text)
    tokens_decoded_lowered = []
    for word in tokens:
        tokens_decoded_lowered.append(word.decode("utf-8").lower())
    return tokens_decoded_lowered

In [9]:
corpus_tokens = corpus_nopunct[0:50000].apply(tokenize)
corpus_tokens.head()

0    [премьерминистр, россии, владимир, путин, дал,...
1    [казахстанская, горнорудная, корпорация, enrc,...
2    [в, костанае, частный, предприниматель, привле...
3    [мажилис, одобрил, закон, о, фонде, национальн...
4    [генеральный, директор, холдинга, нурмедиа, ар...
Name: text, dtype: object

In [10]:
import nltk
nltk.download('stopwords')
stopword = nltk.corpus.stopwords.words("russian")

[nltk_data] Downloading package stopwords to /home/dauken/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [11]:
def remove_stopwords(tokenized_list):
    text = [word for word in tokenized_list if word not in stopword]
    return text

corpus_cleaned = corpus_tokens.apply(remove_stopwords)

In [12]:
corpus_cleaned.head()

0    [премьерминистр, россии, владимир, путин, дал,...
1    [казахстанская, горнорудная, корпорация, enrc,...
2    [костанае, частный, предприниматель, привлечен...
3    [мажилис, одобрил, закон, фонде, национального...
4    [генеральный, директор, холдинга, нурмедиа, ар...
Name: text, dtype: object

In [13]:
import pymorphy2

morph = pymorphy2.MorphAnalyzer()

def lemmatize(tokens_list):
    lemmatized_tokens = []
    for token in tokens_list:
        lemmatized_tokens.append(morph.parse(token)[0].normal_form) 
    return lemmatized_tokens


In [14]:
corpus_lemmatized = corpus_cleaned.apply(lemmatize)

In [15]:
corpus_lemmatized.head()

0    [премьерминистр, россия, владимир, путин, дать...
1    [казахстанский, горнорудный, корпорация, enrc,...
2    [костанай, частный, предприниматель, привлечь,...
3    [мажилиса, одобрить, закон, фонд, национальный...
4    [генеральный, директор, холдинг, нурмедиа, арм...
Name: text, dtype: object

In [16]:
documents = corpus_lemmatized.values.tolist()
corpus_tosave  = corpus_lemmatized.apply(lambda x: " ".join([token.encode("utf-8") for token in x]))
corpus_tosave.head()

0    премьерминистр россия владимир путин дать инте...
1    казахстанский горнорудный корпорация enrc обра...
2    костанай частный предприниматель привлечь угол...
3    мажилиса одобрить закон фонд национальный благ...
4    генеральный директор холдинг нурмедиа арманжан...
Name: text, dtype: object

In [17]:
corpus_tosave_list = corpus_tosave.values.tolist()
corpus_tosave.head()

0    премьерминистр россия владимир путин дать инте...
1    казахстанский горнорудный корпорация enrc обра...
2    костанай частный предприниматель привлечь угол...
3    мажилиса одобрить закон фонд национальный благ...
4    генеральный директор холдинг нурмедиа арманжан...
Name: text, dtype: object

In [20]:
corpus_tosave.to_csv("corpus_lemtokenized.csv")

In [23]:
test = pd.read_csv("corpus_lemtokenized.csv", header=None)

In [24]:
test.head()

Unnamed: 0,0,1
0,0,премьерминистр россия владимир путин дать инте...
1,1,казахстанский горнорудный корпорация enrc обра...
2,2,костанай частный предприниматель привлечь угол...
3,3,мажилиса одобрить закон фонд национальный благ...
4,4,генеральный директор холдинг нурмедиа арманжан...


In [25]:
model = gensim.models.Word2Vec(
    documents,
    size=200,
    window=10,
    min_count=5,
    workers=10)
model.train(documents, total_examples=len(documents), epochs=10)

(66741353, 69887100)

In [1]:
w1 = "астана".decode("utf-8")
w1_similar = model.wv.most_similar(positive=w1)
for word in w1_similar:
    print(word[0])

NameError: name 'model' is not defined

In [47]:
print(len(list(model.wv.vocab)))

46631
