In [43]:
from tqdm import tqdm
import pickle as p
from numpy import random
import re

class unigram_model():
    def __init__(self, file):
        self.freq_of_word = {}
        self.freq_of_word_tag = {}
        self.train(file)
        del self.freq_of_word
        
        
    def add_word(self, word, tag):
        if word not in self.freq_of_word:
            self.freq_of_word[word] = 0
            self.freq_of_word_tag[word] = {}
        if tag not in self.freq_of_word_tag[word]:
            self.freq_of_word_tag[word][tag] = 0
        self.freq_of_word[word] = self.freq_of_word[word] + 1
        self.freq_of_word_tag[word][tag] = self.freq_of_word_tag[word][tag] + 1
    
    def train(self, file):
        with open(file) as train_file:
            for line in tqdm(train_file):
                if line[0] in '1234567890':
                    splited = line.split('\t')
                    word = splited[1].lower()
                    tag = splited[3]
                    self.add_word(word, tag)
        self.finish_train()
    
    def finish_train(self):
        for word in self.freq_of_word:
            for tag in self.freq_of_word_tag[word]:
                self.freq_of_word_tag[word][tag] = self.freq_of_word_tag[word][tag] / self.freq_of_word[word]
                
    def predict_word(self, word):
        word = word.lower()
        if word in self.freq_of_word_tag:
            tags = []
            probs = []
            for tag, prob in self.freq_of_word_tag[word].items():
                tags.append(tag)
                probs.append(prob)
            return random.choice(tags, p=probs)
        else:
            return None
        
    def predict_for_line_with_stdout(self, line):
        print('#text = {}'.format(line))
        counter = 0
        for word in re.findall(r'[\w]+\b', line):
            counter += 1
            print('{}\t{}\t{}'.format(counter, word, self.predict_word(word)))
    
    def transform_file(self, file):
        with open(file) as input_file:
            for line in input_file:
                self.predict_for_line_with_stdout(line)

In [48]:
output = 'saved_model.p'
model = unigram_model('syntagrus.conllu')
with open(output, 'wb') as model_file:
    p.dump(model, model_file, protocol=p.HIGHEST_PROTOCOL)

1017963it [00:02, 494386.60it/s]


In [45]:
model.transform_file('nightmare.txt')

#text = КОШМАР БОГОСЛОВА.

1	КОШМАР	NOUN
2	БОГОСЛОВА	None
#text = 

#text =       Знаменитому богослову доктору Таддеусу как-то приснилось, что он умер и отправился на небеса. Весь путь он проделал без всяких трудностей, так как богословские занятия научили его запросто ориентироваться в небе. Когда же наконец он прибыл к месту и стал стучаться в небесные ворота, то был удивлен подозрительностью, с которой его встретили. 

1	Знаменитому	ADJ
2	богослову	None
3	доктору	NOUN
4	Таддеусу	None
5	как	ADV
6	то	SCONJ
7	приснилось	VERB
8	что	SCONJ
9	он	PRON
10	умер	VERB
11	и	CCONJ
12	отправился	VERB
13	на	ADP
14	небеса	None
15	Весь	DET
16	путь	NOUN
17	он	PRON
18	проделал	VERB
19	без	ADP
20	всяких	DET
21	трудностей	NOUN
22	так	ADV
23	как	SCONJ
24	богословские	None
25	занятия	NOUN
26	научили	VERB
27	его	DET
28	запросто	ADV
29	ориентироваться	VERB
30	в	ADP
31	небе	NOUN
32	Когда	SCONJ
33	же	PART
34	наконец	ADV
35	он	PRON
36	прибыл	VERB
37	к	ADP
38	месту	NOUN
39	и	CCONJ
40	стал	VERB
41	стучаться	VERB