In [1]:
'''
#Example script to generate text from Nietzsche's writings.
At least 20 epochs are required before the generated text
starts sounding coherent.
It is recommended to run this script on GPU, as recurrent
networks are quite computationally intensive.
If you try this script on new data, make sure your corpus
has at least ~100k characters. ~1M is better.
'''

from __future__ import print_function
from keras.callbacks import LambdaCallback
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM, Flatten
from keras.optimizers import RMSprop
from keras.utils.data_utils import get_file
import numpy as np
import random
import sys
import io

import json
import re

Using TensorFlow backend.


In [2]:
BEFORE_START = '\0'
AFTER_END = '\1'
def preproc(s):
    s = BEFORE_START + s + AFTER_END
    s = re.sub(r'\[.*\|.*\]', ' ', s)
    s = re.sub(r'[«»]', '"', s)
    return s.lower()

SEQ_LENGTH = 10

In [3]:
def read_vk_json(s, post_likes_min=0, comment_likes_min=0):
    with open(s, 'r') as f:
        posts = json.load(f)

    texts = []
    for p in posts:
        ptext = p['text'].strip()
        if len(ptext) > SEQ_LENGTH and p['likesCount'] >= post_likes_min:
            texts.append(ptext)

        for c in p['comments']:
            ctext = c['text'].strip()
            if c['likesCount'] >= comment_likes_min and len(ctext) > SEQ_LENGTH:
                texts.append(ctext)

    return [preproc(x) for x in texts]

In [4]:
kalik_texts = read_vk_json('data/kalikfan.json', comment_likes_min=5)
print('Number of Kalik samples:', len(kalik_texts))

Number of Kalik samples: 1899


In [5]:
jumoreski_texts = read_vk_json('data/jumoreski.json', 1600)
print('Number of Jumoreski samples:', len(jumoreski_texts))

Number of Jumoreski samples: 9626


In [6]:
texts = kalik_texts # + jumoreski_texts
print('texts:', len(texts))

texts: 1899


In [7]:
chars = sorted(list(set(''.join(texts))))
print('total chars before dropping rare:', len(chars))

total chars before dropping rare: 870


In [8]:
nums = {}
for c in chars:
    for t in texts:
        if c in t:
            if c not in nums:
                nums[c] = 0
            nums[c] += 1
            
MIN_OCCURANCES = 7

for c in chars:
    if nums[c] < MIN_OCCURANCES:
        texts = list(map(lambda t: t.replace(c, ''), texts))
            
nums = {}
for c in chars:
    for t in texts:
        if c in t:
            if c not in nums:
                nums[c] = 0
            nums[c] += 1
            
sorted( ((v,k) for k,v in nums.items()), reverse=False)

[(7, '☀'),
 (7, '🇧'),
 (7, '🌳'),
 (7, '🍁'),
 (7, '🍋'),
 (7, '🏋'),
 (7, '🐎'),
 (7, '🐩'),
 (7, '👁'),
 (7, '👈'),
 (7, '👠'),
 (7, '👪'),
 (7, '👫'),
 (7, '👷'),
 (7, '💁'),
 (7, '💕'),
 (7, '💙'),
 (7, '💜'),
 (7, '💰'),
 (7, '🔫'),
 (7, '🗯'),
 (7, '😒'),
 (7, '😙'),
 (7, '😚'),
 (7, '😣'),
 (7, '😧'),
 (7, '😮'),
 (7, '🤥'),
 (7, '🤰'),
 (7, '🧞'),
 (7, '🧠'),
 (8, '🇴'),
 (8, '🌑'),
 (8, '🍒'),
 (8, '💄'),
 (8, '💅'),
 (8, '💎'),
 (8, '🔮'),
 (8, '🗣'),
 (8, '😖'),
 (8, '🤑'),
 (8, '🤖'),
 (8, '🤷'),
 (9, '8'),
 (9, '_'),
 (9, 'v'),
 (9, '⛄'),
 (9, '❌'),
 (9, '🌞'),
 (9, '🎤'),
 (9, '🐔'),
 (9, '💆'),
 (9, '💔'),
 (9, '💧'),
 (9, '💫'),
 (9, '😐'),
 (9, '😥'),
 (9, '😴'),
 (9, '😻'),
 (9, '🙉'),
 (9, '🤭'),
 (9, '🥝'),
 (9, '🥵'),
 (9, '🥺'),
 (10, '6'),
 (10, '‼'),
 (10, '⚡'),
 (10, '🇪'),
 (10, '🇭'),
 (10, '🇿'),
 (10, '🍆'),
 (10, '🍺'),
 (10, '🏃'),
 (10, '🐰'),
 (10, '🐲'),
 (10, '👵'),
 (10, '🙂'),
 (10, '🙋'),
 (10, '🤟'),
 (10, '🤫'),
 (10, '🥰'),
 (11, '9'),
 (11, 'w'),
 (11, 'x'),
 (11, '☠'),
 (11, '✨'),
 (11, '🇲'),
 (11, '🇹'),
 (11, '🌝

In [9]:
chars = sorted(list(set(''.join(texts))))
print('total chars:', len(chars))
char_indices = dict((c, i) for i, c in enumerate(chars))
indices_char = dict((i, c) for i, c in enumerate(chars))

total chars: 335


In [10]:
# cut the text in semi-redundant sequences of maxlen characters
sentences = []
next_chars = []

for text in texts:
    t = [BEFORE_START] * (SEQ_LENGTH - 1) + list(text) + [AFTER_END] * SEQ_LENGTH
    for i in range(1, len(t) - SEQ_LENGTH, 1):
        sentences.append(t[i:i + SEQ_LENGTH])
        next_chars.append(t[i + SEQ_LENGTH])

# for i in range(0, len(text) - maxlen, step):
#     sentences.append(text[i: i + maxlen])
#     next_chars.append(text[i + maxlen])
print('nb sequences:', len(sentences))

nb sequences: 329671


In [11]:
print('Vectorization...')
x = np.zeros((len(sentences), SEQ_LENGTH, len(chars)), dtype=np.bool)
y = []
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        x[i, t, char_indices[char]] = 1
    y.append(char_indices[next_chars[i]])
y = np.array(y)

Vectorization...


In [12]:
# build the model: a single LSTM
print('Build model...')
model = Sequential()
model.add(LSTM(128, input_shape=(SEQ_LENGTH, len(chars)), return_sequences=True))
model.add(Flatten())
model.add(Dense(1024, activation='sigmoid'))
model.add(Dense(len(chars), activation='softmax'))

Build model...


In [13]:
optimizer = RMSprop(learning_rate=0.01)
model.compile(loss='sparse_categorical_crossentropy', optimizer=optimizer)

In [14]:
def sample(preds, temperature=1.0):
    # helper function to sample an index from a probability array
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.random.choice(np.arange(0, len(chars)), 1, False, preds)[0]

In [15]:
def on_epoch_end(epoch, _):
#     if epoch % 10 != 0:
#         return
    # Function invoked at end of each epoch. Prints generated text.
    print()
    # print('----- Generating text after Epoch: %d' % epoch)

    start_index = random.randint(0, len(text) - SEQ_LENGTH - 1)
    
    diversity = 0.5
    
    # print('----- diversity:', diversity)

    generated = ''
    sentence = ''.join([BEFORE_START] * SEQ_LENGTH)

    finished_well = False
    for i in range(400):
        x_pred = np.zeros((1, SEQ_LENGTH, len(chars)))
        for t, char in enumerate(sentence):
            x_pred[0, t, char_indices[char]] = 1.

        preds = model.predict(x_pred, verbose=0)[0]
        next_index = sample(preds, diversity)
        next_char = indices_char[next_index]
        if next_char == AFTER_END:
            finished_well = True
            break

        sentence = sentence[1:] + next_char

        sys.stdout.write(next_char)
        sys.stdout.flush()
    if not finished_well:
        sys.stdout.write('@@@')
        sys.stdout.flush()
    print()

In [16]:
print_callback = LambdaCallback(on_epoch_end=on_epoch_end)

In [17]:
model.fit(x, y,
          batch_size=2048,
          epochs=60,
          callbacks=[print_callback])

Epoch 1/60

 уо сзон и к сканккнии и ко ково осой  о им но  б ом н  зи м теулк иккиккоют симнеа  ти л реи  онмаоим кон ясннтя е снлм  ип а   имл йие   нм ано  о гк илем еинн кн ларнуогь некноа ватбмро микм  т   сснишс  аал рнам ма на к к  еатоа каокмлоас иктокакио мкамстеск с  ккз тнк ннак анн ро оттннтм д мт н к к  а кнаме  нлооекм листве  ииу и аавзт сбга а ооп и ь нкити со дмвнда нан срр оа лаи уоас к л е @@@
Epoch 2/60

хостчик бабета на демной дымного не дро заблать в тальком за кальянной порестаннак сварнуй накивой кальян сраст всем не поспоходот не порнина похосстолов не покрали сторной кальяндана на корамном походной кальянной поспонь завен луйт смоне в - не тем не кальянчик сладной в понником походвай братем порен лашем сторали за на сваем кальянной всем не своем вайскай и подного у тобо забувать на скумарны@@@
Epoch 3/60

а как же паропать попила как себе один накалик сказать в стоет русских на калик подоготь в калик покатит покурам самамоя не покумарное таких калик для какой

  preds = np.log(preds) / temperature


к покурить калик с русским курить калик с фотой моз - пока на поляди с такими день по кайфу😈
Epoch 9/60

.😱. братан все поспустили на тёлочка дожду с протезном накачаешь и такое не отмеестро на кальян и мундштук на пыхтят без калика подуда красиво придумывает в самым крутином напряги постьят по позданный кальянвцо поправил с мужбом курить кальян дымит по него полного минно вымы себя на иди тему углем его мундштукариков любимый кальян и кумарцами🥴🏼 на красов и покумарить само доброго дымного кальянско@@@
Epoch 10/60

🙄😵🤪😡😡 а то было😡
-так что? там подумать😤😤😤
- главное мундштук на красоте куришь калика покурим)
-ну ты мне ну никуса(после на пололовенные первые внимание👌😌😌
Epoch 11/60

как говорил сочить по своему подругать в кальянную печаль бы сочного кальянчик такой помода кальян это краля конечно, раскумарился как надо смотреть по дымов💨💨💨 а не по детски) доставяшь продварика" "кальянщиков что кальян из моим как бабаны предпожила своего стоит подудеть😁 да а тем ая куристо не скоро ка

👆🏾👍🏻👍🏻👍🏻 что и честреньу кальянчиком, да так, что аж сидя по сделали из размервать жижысовсеннеть😺
-а нообщей садя просто будет ходят, быше так а потом работяга приколюху с мотелю внет - миксоска до член😭 
всем дымоглотам💭👊 желаю здарный иду контыво подсабить планке?
-а можно на обдесло предвожить
ещё и ещё чамона краля вернётся с завода...уж будь добр спроси за эту ху*йнку наступила)
-дарксайдычо@@@
Epoch 31/60

это по мастур?😋

паря опасных😅😎😎😎 ждираем!

которык удали его покурямбать😌
——————
от подписчика)
Epoch 32/60

🤤😅пася реазь в общесь, нестоя с пивздаста развлично не помешается🤣😤💨 вон какие беляшь довать. 

всем сладкого покура😁😂
Epoch 33/60

1300aх себе каликом то она выстатила своею изберамию калик и заведут е**т его откадаюсь и упадом, как так можно и не вынулишки кралямся друзья собрались)
Epoch 34/60

1300a- б*р воловков, не подумали что кальян из бальне 👊😌брабочки🍏🍎 положил на спор в рот уже друзей (trie) кумарил в теме👍
Epoch 35/60

🤡😼😼😼😈😈

сперли блока - это калик☺️
Epo


100rm0, калика, джина-кальянщика петю или калик зарабатывать подрабатывать подрабатываться) походу это членистоного, да табачка забила? мелодёльно) 😁 бильную комментариев ☺️ от любитель он кальян углём немал за двумя зайцами🐇🐇🐇 погонишься, ни одну не надымит авто геройти эта пидертся тот срезлегь 🤘😄😂 ну с такими царицами нужен целый отряд пацанов😅
Epoch 58/60

это че за буква?)
-буква дэ братишка) вырубай свою виртуальную реальности, баба бога задотных друговскали по дела реально на колбусковы не золью всегда куришь кальян?
-братишка ты ошибаешься) футбала... ну и самый fанную приобрывают уголёканиками друга на фоноков и теперь не могут)
Epoch 59/60

1300o-что только за накуром?)
-пацаненко ты что сперно вообще блять ебнутые как такое собрание от тебя любимая😍

повезить??? калик разбомбил 🙂💪🙏 главного героя с сись будещего кумарного дня и кумакуро срачило псость красиво конечно😅
но вдыхать калик и не скушёт😂💨
—
Epoch 60/60

😱😼😁💭🔞👎 
ну оса или как там его) хуй с ним будет раз в день на

<keras.callbacks.callbacks.History at 0x7f549026a6d0>