In [1]:
from word_dataset import WordDataset

In [47]:
import numpy as np
import nltk
import re

class WordDataset:
    def __init__(self):
        self.text    = None
        self.encoded = []
    
    
    def load(self, path):
        STOP_WORDS   = [u"[", u"]"]
        PUNCTS       = [u".", u",", u"?", u"!"]
        MIN_SENT_LEN = 2
        MAX_SENT_LEN = 30
        
        with open(path, 'r') as f:
            text=f.read()
            text = text.replace(u'\xa0', u' ').replace(u'\ufeff','')
            text = text.replace('\n', '.\n').replace('..\n', '.\n')

        sents = []
        for line in text.split('\n'):
            ls = nltk.tokenize.sent_tokenize(line)
            for s in ls:
                sents.extend(s.split(";"))

        word_text = []
        vocab     = set()
        for sent in sents:
            words = [w.lower() for w in nltk.tokenize.word_tokenize(sent) if w not in STOP_WORDS]
            if MIN_SENT_LEN <= len(words) <= MAX_SENT_LEN:
                if len(words) == 2 and words[1] in PUNCTS:
                    continue
                word_text.extend(words)
                vocab.update(words)

        self.char_text     = text
        self.word_text     = word_text
        self.word_to_token = {w: i for i, w in enumerate(vocab)}
        self.token_to_word = dict(enumerate(vocab))
        self.num_tokens    = len(vocab)
        self.encoded       = self.encode(word_text)


    def encode(self, words):
        return np.array([self.word_to_token[w] for w in words], dtype=np.int32)

    
    def decode(self, tokens):
        text = " ".join([self.token_to_word[t] for t in tokens])
        return text

    
    def decode_ext(self, tokens):
        text = " ".join([self.token_to_word[t] for t in tokens])
        text = text.replace(' .', '.').replace(' ,', ',')
        snts = text.split('.')
        text = ''
        for s in snts:
            s = s.strip()
            if len(s)<1: 
                continue
            s = s[0].upper() + s[1:]+'. '
            text += s
        return text.strip()

    
    def get_batches(self, n_seqs, n_steps):
        arr = self.encoded
        words_per_batch = n_seqs * n_steps
        n_batches = len(arr)//words_per_batch

        arr = arr[:n_batches * words_per_batch]
        arr = arr.reshape((n_seqs, -1))

        for n in range(0, arr.shape[1], n_steps):
            x = arr[:, n:n+n_steps]
            y = np.zeros_like(x)
            y[:, :-1], y[:, -1] = x[:, 1:], x[:, 0]
            yield x, y


In [59]:
%%time
dataset = WordDataset()
dataset.load('data/anna.txt')
print(dataset.num_tokens)

26078
CPU times: user 9.72 s, sys: 20 ms, total: 9.74 s
Wall time: 9.77 s


In [60]:
print(dataset.char_text[:284])
print('-'*50)
print(dataset.word_text[:52])

ЧАСТЬ ПЕРВАЯ.
.
.
.
I.
.
Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему.
.
Все смешалось в доме Облонских. Жена узнала, что муж был в связи с бывшею в их доме француженкою-гувернанткой, и объявила мужу, что не может жить с ним в одном доме.
--------------------------------------------------
['часть', 'первая', '.', 'все', 'счастливые', 'семьи', 'похожи', 'друг', 'на', 'друга', ',', 'каждая', 'несчастливая', 'семья', 'несчастлива', 'по-своему', '.', 'все', 'смешалось', 'в', 'доме', 'облонских', '.', 'жена', 'узнала', ',', 'что', 'муж', 'был', 'в', 'связи', 'с', 'бывшею', 'в', 'их', 'доме', 'француженкою-гувернанткой', ',', 'и', 'объявила', 'мужу', ',', 'что', 'не', 'может', 'жить', 'с', 'ним', 'в', 'одном', 'доме', '.']


In [61]:
words = dataset.word_text[:52]
print(dataset.encode(words))
print("[%s]" % dataset.decode_ext(dataset.encode(words)))
print(dataset.encode(['часть', 'первая', '.']))


[18547  3469  1285 14202  8378 22978 11997 20217 13743 22347  2245 24258
  9394  3765 24520 13166  1285 14202  7840 15874  9021 19907  1285 18258
 20764  2245 10130  2270 11481 15874  8121    47 23763 15874  5954  9021
 24066  2245  8543 18025  8384  2245 10130   876  5141  4337    47 24266
 15874 13254  9021  1285]
[Часть первая. Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему. Все смешалось в доме облонских. Жена узнала, что муж был в связи с бывшею в их доме француженкою-гувернанткой, и объявила мужу, что не может жить с ним в одном доме.]
[18547  3469  1285]


In [62]:
batches = dataset.get_batches(3, 10)
x,y = next(batches)
print(x)
print(y)
print()
for t in x:
    print('[%s]' % dataset.decode(t))
print()
for t in y:
    print('[%s]' % dataset.decode(t))


[[18547  3469  1285 14202  8378 22978 11997 20217 13743 22347]
 [13619 18501  2245 10601  8255 23306 24105  2245 18943  9098]
 [18881  5456  8543 26061    47 16612 17294  1285 10601   775]]
[[ 3469  1285 14202  8378 22978 11997 20217 13743 22347 18547]
 [18501  2245 10601  8255 23306 24105  2245 18943  9098 13619]
 [ 5456  8543 26061    47 16612 17294  1285 10601   775 18881]]

[часть первая . все счастливые семьи похожи друг на друга]
[константин дмитрич , – сказала дарья александровна , улыбаясь своею]
[стоял стремов и разговаривал с нею : . – теноров]

[первая . все счастливые семьи похожи друг на друга часть]
[дмитрич , – сказала дарья александровна , улыбаясь своею константин]
[стремов и разговаривал с нею : . – теноров стоял]
