In [2]:
from nltk import WordPunctTokenizer
from tqdm import tqdm
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
import numpy as np
import pickle as pkl

In [3]:
tokenizer = WordPunctTokenizer()

In [4]:
def acquire_documents(filename):
    with open(filename+'.txt','r',encoding='utf-8') as l:
        lemmas = l.read().split('\n')
    l.close()
    tokens = tokenizer.tokenize_sents(lemmas)
    documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(tokens)]
    return tokens, documents

In [5]:
train_tokens, train_documents = acquire_documents('Train_lemmas')

In [6]:
dim = 300

In [7]:
model = Doc2Vec(train_documents, vector_size=dim, window=2, min_count=1, workers=4)

In [8]:
model.save('Train_only.model')

In [9]:
train_vectors = [model.infer_vector(i.words) for i in tqdm(train_documents)]

100%|██████████████████████████████████| 87719/87719 [01:16<00:00, 1141.26it/s]


In [10]:
test_tokens, test_documents = acquire_documents('Test_lemmas')

In [11]:
test_vectors = [model.infer_vector(i.words) for i in tqdm(test_documents)]

100%|██████████████████████████████████████| 999/999 [00:00<00:00, 1196.87it/s]


In [12]:
val_tokens, val_documents = acquire_documents('Val_lemmas')

In [13]:
val_vectors = [model.infer_vector(i.words) for i in tqdm(val_documents)]

100%|██████████████████████████████████████| 998/998 [00:00<00:00, 1219.84it/s]


In [14]:
with open('top_threehundred_ppmi.pkl', 'rb') as t:
    top_sets = {k:set(val[:150]) for k, val in (pkl.load(t)).items()}
t.close()

In [15]:
top_sets

{'anime': {'алхимик',
  'анимация',
  'аниме',
  'анимешник',
  'анимэ',
  'арка',
  'аудитория',
  'берсерка',
  'бибоп',
  'блич',
  'бог',
  'боевой',
  'брейгель',
  'вампир',
  'вести',
  'вещество',
  'включать',
  'восторг',
  'выставляться',
  'гиас',
  'голубой',
  'дворецкий',
  'действие',
  'долгий',
  'досматривать',
  'доставлять',
  'драма',
  'ева',
  'евангелиона',
  'жанр',
  'замок',
  'записывать',
  'заполнять',
  'запоминаться',
  'затягивать',
  'изящный',
  'иллюстратор',
  'индустрия',
  'ирония',
  'искусствовед',
  'исторический',
  'кандинский',
  'кафешок',
  'кино',
  'кинотеатр',
  'кисть',
  'комедия',
  'концовка',
  'короткий',
  'кошка',
  'кп',
  'куст',
  'лайт',
  'лекция',
  'ленин',
  'личность',
  'личный',
  'манга',
  'мангак',
  'мех',
  'меч',
  'миядзаки',
  'мувик',
  'мультик',
  'мультфильм',
  'набросок',
  'наличие',
  'нарут',
  'наруто',
  'натура',
  'небо',
  'недалеко',
  'необычно',
  'объектив',
  'обычный',
  'овашка',
  'огонь

In [16]:
categs = ['anime', 'art', 'books', 'films', 'food', 'football', 'games', 'music', 'nature', 'travel']
weights = [len(v) / max([len(v) for v in top_sets.values()]) for v in top_sets.values()]
def words_from_tokens(tokens):
    vec = [0] * 10
    for i in range(len(categs)):
        count = 0
        for t in tokens:
            if t in top_sets[categs[i]]:
                count += 1
        vec[i] = (count / len(tokens))/weights[i]
    vec = np.array(vec, dtype='float32')
    return vec

In [17]:
def vectors_from_corpus(corpus):
    vectors = [words_from_tokens(text) for text in tqdm(corpus)]
    return vectors

In [18]:
train_word_vectors = vectors_from_corpus(train_tokens)

100%|█████████████████████████████████| 87719/87719 [00:04<00:00, 18225.28it/s]


In [19]:
test_word_vectors = vectors_from_corpus(test_tokens)

100%|█████████████████████████████████████| 999/999 [00:00<00:00, 18440.84it/s]


In [20]:
val_word_vectors = vectors_from_corpus(val_tokens)

100%|█████████████████████████████████████| 998/998 [00:00<00:00, 16410.72it/s]


In [21]:
def joint_vectors(vectors, word_vectors):
    joint = [np.concatenate([vectors[i], word_vectors[i]]) for i in tqdm(range(len(vectors)))]
    return np.array(joint)

In [22]:
train = joint_vectors(train_vectors, train_word_vectors)

100%|████████████████████████████████| 87719/87719 [00:00<00:00, 281453.00it/s]


In [23]:
test = joint_vectors(test_vectors, test_word_vectors)

100%|████████████████████████████████████| 999/999 [00:00<00:00, 450597.88it/s]


In [24]:
val = joint_vectors(val_vectors, val_word_vectors)

100%|████████████████████████████████████| 998/998 [00:00<00:00, 202374.56it/s]


In [25]:
with open('Train_'+str(dim+10)+'_allwords.pkl', 'wb') as tr:
    pkl.dump(train, tr)

In [26]:
with open('Test_'+str(dim+10)+'_allwords.pkl', 'wb') as tst:
    pkl.dump(test, tst)

In [27]:
with open('Val_'+str(dim+10)+'_allwords.pkl', 'wb') as vl:
    pkl.dump(val, vl)