# Text Generator using RNN
## Novel Generator based on custom fantasy books.
<br> At least 20 epochs are required before the generated text starts sounding coherent.
<br> *(This model is inspired by many examples, such as Keras samples, or tensorflow tutorials.)*
<br>
<br> Few notices:
<br>- This script is designed for <b>EXTREMELY</b> large text. (>> 1M characters)
<br>- This script is designed for ANY language. (It works for my language, at least.)
<br>- This script will use <b>8GB+</b> (this number depends on your dataset) of RAM when operated. (Whether you run with GPU or not.)
<br>- However, it is recommended to run this script on GPU, as recurrent networks are quite computationally intensive.
<br>- If you try this script on new data, make sure your corpus has at least ~100k characters. ~1M is better.

In [1]:
# import chardet
import numpy as np
import random
import sys
import tensorflow as tf
from collections import Counter
from konlpy.tag import Twitter

  from ._conv import register_converters as _register_converters


In [10]:
def load_file(path, filename):
    # path = get_file('path/to/text/file.txt', origin=None)
    # filename = 'D:/Seed_Downloads/Novel Dataset/Asian fantasy/NOVEL_01001.txt'
    if path[-1] is '/':
        file = path + filename
    else:
        file = path + '/' + filename

    read_file = open(file, 'rb').read()
    # encode_type = chardet.detect(read_file)['encoding']
    # print(encode_type)    # None이었다...
    # text = open(file, encoding=encode_type).read().lower()
    text = open(file, encoding=None).read().lower()

    print('corpus length:', len(text))
    
    return text

In [11]:
text = load_file('D:/Seed_Downloads/Novel Dataset/Asian fantasy/', 'NOVEL_01001.txt')

print('First 100 characters: {}'.format('\n' + text[:100]))
print("=" * 50)

corpus length: 2928103
First 100 characters: 
제 목:[검마전/ sword & magic story]-- 001.

< 검 마 전 : sword & magic story >

눈꺼풀이 무겁다. 머리도 띵하고. 눈을 떠야하는데.


#### <b>문제점</b>
단어를 나눌시 공백문자나 개행문자가 사라지는 현상이 있다. 따라서 다음과 같이 처리한다.
- 공백문자: ' SPACE '로 대체한다.
- 개행문자: ' ENTER '로 대체한다.

In [12]:
def remove_indicers(text):
    temp_text = text
    
    temp_text = temp_text.replace(" ", " SPACE ")
    temp_text = temp_text.replace("\n", " ENTER ")
    
    return temp_text

In [13]:
text = remove_indicers(text)

print('Fixed first 100 characters: {}'.format('\n' + text[:100]))

Fixed first 100 characters: 
제 SPACE 목:[검마전/ SPACE sword SPACE & SPACE magic SPACE story]-- SPACE 001. ENTER  ENTER < SPACE 검 SPA


### **단어 나누기**
konlpy모듈의 Twitter에서 제공하는 morphs메서드를 이용해서 단어를 추출해낸다.
<br> 추출 후 다음 기능을 생성한다.
- word_indices: 단어를 index로 변환
- indices_word: index를 단어로 변환

In [14]:
def split_to_word(text_replace):
    twitter = Twitter()
    text_split = twitter.morphs(text_replace)
    words = sorted(list(set(text_split)))
    min_word = min(words, key=len)
    max_word = max(words, key=len)

    print('Total words:', len(words))
    print('min word is: {} with length of {}'.format(min_word, len(min_word)))
    print('max word is: {} with length of {}'.format(max_word, len(max_word)))

    word_indices = dict((c, i) for i, c in enumerate(words))
    indices_word = dict((i, c) for i, c in enumerate(words))
    
    return text_split, words, word_indices, indices_word

In [16]:
text_split, words, word_indices, indices_word = split_to_word(text)

print('Split check: {}'.format(text_split[100]))
print('Word check: {}'.format(words[100]))

Total words: 30211
min word is: ! with length of 1
max word is: "@#%*(*^$#&*#$" with length of 15
Split check: 느낌
Word check: ..]


### **문장 생성**
라인별로 문장을 생성한다. 문장별로 단어 슬라이싱을 진행한다.

In [17]:
def sentence_create(text_split):
    sentences = []
    temp = ""

    twitter = Twitter()
    
    for i, word in enumerate(text_split):
        temp = temp + word + ' '
        if word == 'ENTER':
            temp = twitter.morphs(temp)
            sentences.append(temp)
            temp = ""

        else:
            continue

    print('Total number of Sentences: {}'.format(len(sentences)))
    
    return sentences

In [18]:
sentences = sentence_create(text_split)

print('Sentence check: {}'.format(sentences[0]))

Total number of Sentences: 109452
Sentence check: ['제', 'SPACE', '목', ':[', '검', '마전', '/', 'SPACE', 'sword', 'SPACE', '&', 'SPACE', 'magic', 'SPACE', 'story', ']--', 'SPACE', '001', '.', 'ENTER']


### **Input Sequence생성**
문장을 기준으로 Input에 들어갈 시퀀스를 생성한다. 각 시퀀스는 n개의 단어로 구성되어있다.
<br>여기서는 최대 길이의 문장(단어 개수 기준)을 기준으로 문장의 길이를 생성했다.
<br>예시 (최대길이: 25단어)
- 1번문장: 0 ~ 25번째
- 2번문장: 3 ~ 28번째
- 3번문장: 6 ~ 31번째
- ...
- n번문장: 3(n-1) ~ 3(n-1)+25번째

In [21]:
def generate_input_sequence(sentences):
    # cut the text in semi-redundant sequences of maxlen characters
    longest_sentence = max(sentences)
    maxlen = len(longest_sentence)
    step = 3
    # next_words = []
    sentence_data = []
    seq_count_ = (len(text_split) - maxlen) // step

    for i in range(0, len(text_split) - maxlen, step):
        sentence_data.append(text_split[i: i + maxlen])    # nth char ~ n+maxlen char = Sentence
        # next_words.append(text_split[i + maxlen])    # next_chars = from ith char ~ end
    
    return sentence_data, maxlen

In [22]:
sentence_data, maxlen = generate_input_sequence(sentences)

print('nb sequences:', len(sentence_data))
print('101th sentence length: {}'.format(len(sentence_data[100])))
print('max length: {}'.format(maxlen))

nb sequences: 682030
101th sentence length: 26
max length: 26


### **메모리 문제**
텍스트 데이터가 너무 크기 때문에 전체를 처리하려면 얼마나 많은 메모리 공간이 필요한지 추측해보았다.
<br>기준은 (문장개수 x 최대길이 x 단어개수) x 4bit / (2의32승)이다.

In [23]:
Memory_to_use = len(sentence_data) * maxlen * len(words) / (2^30)

print('Expected memory to prepare: {}GB'.format(Memory_to_use))

Expected memory to prepare: 19133036306.42857GB


### **시퀀스 체크**
시퀀스가 제대로 생성이 되었는지 확인해본다.

In [24]:
print('Sequence check...')
for i in range(3):
    print('Sentence {}:\n{}'.format(i, sentence_data[100+i]))

Sequence check...
Sentence 0:
['귀', '를', 'SPACE', '기울여', '도', 'SPACE', '바람소리', '조차', 'SPACE', '들리', '지', 'SPACE', '않는', '다', '.', 'SPACE', '그럼', '..', 'SPACE', '설마', 'SPACE', '난', 'ENTER', '정말로', 'SPACE', '죽은']
Sentence 1:
['기울여', '도', 'SPACE', '바람소리', '조차', 'SPACE', '들리', '지', 'SPACE', '않는', '다', '.', 'SPACE', '그럼', '..', 'SPACE', '설마', 'SPACE', '난', 'ENTER', '정말로', 'SPACE', '죽은', '거', '?', 'SPACE']
Sentence 2:
['바람소리', '조차', 'SPACE', '들리', '지', 'SPACE', '않는', '다', '.', 'SPACE', '그럼', '..', 'SPACE', '설마', 'SPACE', '난', 'ENTER', '정말로', 'SPACE', '죽은', '거', '?', 'SPACE', '으아', '..!', 'SPACE']


### **단어 → Index 변환**
실제로 처리할때는 String으로서의 단어가 아닌 int로서의 단어, 즉 index가 필요하다.
<br>따라서 단어를 Index로 변환해 줄 필요가 있다.

In [25]:
def word_to_indices(text_split):
    indice_list = []
    for i, word in enumerate(text_split):
        add_indice = word_indices[word]
        indice_list.append(add_indice)
        
    return indice_list

In [26]:
# encoded_text = word_to_indices(text_split)
# encoded_next_word = word_to_indices(next_words)

encoded_sentences = []
for sentence in sentence_data:
    encoded_sentences.append(word_to_indices(sentence))

# print('Encoded text sample: {}'.format(str(encoded_text[:20])))
# print('length of encoded list: {}'.format(len(encoded_text)))
# print('Encoded trigger word sample: {}'.format(str(encoded_next_word[:20])))
# print('length of encoded list: {}'.format(len(encoded_next_word)))
print('Encoded sentence sample: {}'.format(str(encoded_sentences[2])))
print('length of encoded sentence list: {}'.format(len(encoded_sentences)))

Encoded sentence sample: [110, 1008, 1308, 1008, 25, 1008, 1199, 1008, 1303, 1012, 1008, 114, 66, 1007, 1007, 989, 1008, 2873, 1008, 10268, 1008, 22969, 1008, 985, 1008, 1308]
length of encoded sentence list: 682030


### **Variable List**
- text: raw text
- text_split: word기준으로 나뉜 text
- words: 단어 corpus
- word_indices: 단어를 index로
- indices_word: index를 단어로
- sentences: 문장 기준으로 나뉜 text
- sentence_data: 문장 기준으로 생성된 sequence
- maxlen: 문장 최대 길이(int)
- encoded_sentences: index(int)로 변경된 sequence 목록

In [33]:
data_dim = len(words)
hidden_size = len(words)
num_classes = len(words)
sequence_length = maxlen
learning_rate = 0.001

### 현재 문제
- 이슈: 너무 크다 (파일사이즈)
    - 모든 방법을 이용해봤지만 여전히 너무 크다
- 결론: Iteration을 통해 Feeding을 실시간으로 하는 방법을 사용한다

<br>1. 원하는 Size의 Input/Output배열을 만든다
<br>2. 실시간 생성을 통한 feeding 진행
- 0~9999 생성
<br> Train (0 Epoch)
- 10000 ~ 19999 생성
<br> Train (0 Epoch)
- 20000 ~ 29999 생성
<br> Train (0 Epoch)
- ... (이하 생략)
- 680000 ~ 682030 생성
<br> Train (0 Epoch)

<br>3. Predict
<br>4. Loss 산출
<br>5. 2번의 과정을 다시 진행
<br>
<br>
<br> LSTM의 대략적인 구조는 다음과 같다.
<br> [Not-so-detailed Details]
<br> Input => LSTM_cell => predicted output at t
<br> => LSTM_cell => LAST predicted output at t