In [2]:
import pandas as pd
import numpy as np
import jieba
import matplotlib.pyplot as plt
from pylab import rcParams
from gensim.models import word2vec

%matplotlib inline

In [3]:
# Customizing plots with style 
rcParams['figure.figsize'] = 10, 5
rcParams['lines.linewidth'] = 2
plt.style.use('ggplot')

# 載入文字資料

In [5]:
# 收集自維基百科
with open("data/text/ref_text_tw.txt", "r", encoding="utf-8") as content:
    document_list = [line.strip().replace(' ', '') for line in content]

In [6]:
print(document_list[:5])
print("total document num: {}".format(len(document_list)))

['美希迪波路治一般稱作波路治，生於達爾貝達，摩洛哥職業足球運動員，現效力於美國職業足球大聯盟球會科羅拉多急流。', '羅利科隆出生於紐西蘭北島東北部吉斯伯恩，是一名英式足球足球運動員，司職前鋒前鋒，現時效力英甲球會斯坎索普聯足球俱樂部斯肯索普。', '他的機器實際上是在美國人口調查局的合約下完成的，製成後被用於1890年美國人口普查，普查工作因此得以在一年之內完成。', '石崎傳蔵，超級人瑞，曾是日本史上最年長男性。', '施世範，施琅第八子，襲封靖海侯。']
total document num: 33868


# 結巴分詞

In [8]:
# 用來存放分詞後的結果
preprocessed_documents = []
# 支援繁體中文較好的詞庫
jieba.set_dictionary("data/jieba_dict/dict.txt.big")
for document in document_list:
    preprocessed_document = list(jieba.cut(document))
    preprocessed_documents.append(preprocessed_document)

Building prefix dict from /notebook/text_generation/data/jieba_dict/dict.txt.big ...
Loading model from cache /tmp/jieba.u95f903d4a9c6428ab2ca77302262d5fe.cache
Loading model cost 0.865 seconds.
Prefix dict has been built succesfully.


In [9]:
# 此即為分詞處理好的 corpus
preprocessed_documents[:5]

[['美希迪波',
  '路治',
  '一般',
  '稱作',
  '波路治',
  '，',
  '生於',
  '達爾貝',
  '達',
  '，',
  '摩洛哥',
  '職業',
  '足球',
  '運動員',
  '，',
  '現',
  '效力',
  '於',
  '美國',
  '職業',
  '足球',
  '大',
  '聯盟',
  '球會',
  '科羅拉多',
  '急流',
  '。'],
 ['羅利',
  '科隆',
  '出',
  '生於',
  '紐西蘭',
  '北島',
  '東北部',
  '吉斯',
  '伯恩',
  '，',
  '是',
  '一名',
  '英式足球',
  '足球',
  '運動員',
  '，',
  '司職',
  '前鋒',
  '前鋒',
  '，',
  '現時',
  '效力',
  '英甲',
  '球會',
  '斯坎索',
  '普聯',
  '足球',
  '俱樂部',
  '斯肯',
  '索普',
  '。'],
 ['他',
  '的',
  '機器',
  '實際上',
  '是',
  '在',
  '美國',
  '人口',
  '調查局',
  '的',
  '合約',
  '下',
  '完成',
  '的',
  '，',
  '製成',
  '後',
  '被',
  '用於',
  '1890',
  '年',
  '美國',
  '人口普查',
  '，',
  '普查',
  '工作',
  '因此',
  '得以',
  '在',
  '一年',
  '之內',
  '完成',
  '。'],
 ['石崎傳',
  '蔵',
  '，',
  '超級',
  '人瑞',
  '，',
  '曾',
  '是',
  '日本',
  '史上',
  '最',
  '年長',
  '男性',
  '。'],
 ['施世範', '，', '施琅', '第八', '子', '，', '襲封', '靖海侯', '。']]

# 使用 word2vec 訓練詞向量

In [10]:
model = word2vec.Word2Vec(preprocessed_documents, min_count=1, window=10, sg=1)

In [11]:
model.wv.most_similar("李登輝", topn=50)

[('中國國民黨', 0.9695813059806824),
 ('行政院長', 0.9544570446014404),
 ('李光耀', 0.9486578702926636),
 ('陳水扁', 0.9451418519020081),
 ('週刊', 0.941198468208313),
 ('壹', 0.9401211738586426),
 ('楊尚昆', 0.9399914145469666),
 ('嚴家淦', 0.9387545585632324),
 ('副委員長', 0.9387299418449402),
 ('鄧樸方', 0.9385209083557129),
 ('第一夫人', 0.937179446220398),
 ('臺灣省', 0.9367967247962952),
 ('國務院', 0.9362314939498901),
 ('黨內', 0.935081958770752),
 ('鄧小平', 0.9340061545372009),
 ('尤索夫', 0.932681143283844),
 ('中央政治局', 0.9320656061172485),
 ('辦公室', 0.93101567029953),
 ('開幕', 0.9300265312194824),
 ('伉儷', 0.9298115968704224),
 ('周美青', 0.9285172820091248),
 ('劉少奇', 0.9277486801147461),
 ('中央委員會', 0.927346408367157),
 ('進步黨', 0.9272742867469788),
 ('胡錦濤', 0.9262086153030396),
 ('中央書記處', 0.9250250458717346),
 ('政務', 0.9247146844863892),
 ('李顯龍', 0.9238845109939575),
 ('習', 0.9232139587402344),
 ('溪口鎮', 0.9231336116790771),
 ('全國人大常委會', 0.9228649735450745),
 ('財政部長', 0.9225832223892212),
 ('薄熙來', 0.922290027141571),
 ('連戰', 0.9

In [12]:
model.wv.most_similar("男歌手", topn=50)

[('陳小藝', 0.9722805619239807),
 ('林添', 0.9699103236198425),
 ('鄭文堂', 0.9684057831764221),
 ('莉莉', 0.9674488306045532),
 ('方平', 0.9660378694534302),
 ('刀郎', 0.965023934841156),
 ('吳江', 0.9648232460021973),
 ('真人', 0.9648134708404541),
 ('周禹侯', 0.9644474387168884),
 ('漫畫家', 0.9620547294616699),
 ('陳寅恪', 0.9619317054748535),
 ('授書', 0.9612944722175598),
 ('喜劇演員', 0.9610087275505066),
 ('創意', 0.960940957069397),
 ('女高音', 0.9607799649238586),
 ('電子遊戲', 0.9606736302375793),
 ('唐師曾', 0.9603578448295593),
 ('痞子', 0.959084689617157),
 ('工旦行', 0.9574403762817383),
 ('楚原', 0.9574286937713623),
 ('柯一正', 0.9574140310287476),
 ('王銘琬', 0.9573221802711487),
 ('韋茲', 0.9570726156234741),
 ('女藝員', 0.9569762945175171),
 ('鮑爾是', 0.9568941593170166),
 ('臺語', 0.9564640522003174),
 ('柯克', 0.9563957452774048),
 ('大丈夫', 0.9563433527946472),
 ('警匪', 0.9562293887138367),
 ('諧星', 0.9561898112297058),
 ('北京電影學院', 0.9559077024459839),
 ('歌唱家', 0.9548507332801819),
 ('曹健', 0.9546404480934143),
 ('米高梅', 0.9545021653175

In [13]:
def word2idx(word):
    return model.wv.vocab[word].index

def idx2word(idx):
    return model.wv.index2word[idx]

In [14]:
# 檢視經過訓練出來之後的詞向量
pretrained_weights = model.wv.vectors
vocab_size, embedding_size = pretrained_weights.shape
print("vocab_size: {}, embedding_size: {}".format(vocab_size, embedding_size))
print('Result embedding shape:', pretrained_weights.shape)

vocab_size: 79279, embedding_size: 100
Result embedding shape: (79279, 100)


# 構建語言生成 RNN model

In [15]:
from keras.layers import Input, Embedding, LSTM, Dense
from keras.models import Sequential
from keras.callbacks import LambdaCallback, ModelCheckpoint

Using TensorFlow backend.


In [16]:
# slide window 用來控制學習的 seq 長度，size 越小，資料量越多，生成的文章會越有語意
def slide_window(a, size):
    window_list = []
    for i in range(len(a)):
        window = a[i:size+i]
        if len(window) < size:
            break
        window_list.append(window)
    return window_list

In [17]:
def split_train_x_and_train_y(docs, max_doc_length):
    seq_list = []
    for doc in docs:
        word_index_array = [word2idx(word) for word in doc]
        window_list = slide_window(word_index_array, max_doc_length)
        for window in window_list:
            seq_list.append(window)
    seq_list = np.array(seq_list)
    train_x = seq_list[:,:-1]
    train_y = seq_list[:,-1]
    return train_x, train_y

In [86]:
# 構建訓練資料
train_x, train_y = split_train_x_and_train_y(preprocessed_documents, 3)
print('train_x shape:', train_x.shape)
print('train_y shape:', train_y.shape)

train_x shape: (779607, 2)
train_y shape: (779607,)


In [18]:
def on_epoch_end(epoch, _):
    print('\nGenerating text after epoch: %d' % epoch)
    texts = ["施世範"]
    for text in texts:
        print('%s... -> %s' % (text, generate_next(texts, 10, 0.5)))

In [19]:
# define the checkpoint
filepath="weights.hdf5"
checkpoint = ModelCheckpoint(filepath, monitor='val_loss', verbose=1, save_best_only=True, mode='min')

In [20]:
rnn_model = Sequential()
rnn_model.add(model.wv.get_keras_embedding())
# rnn_model.add(LSTM(embedding_size, dropout=0.5, return_sequences=True))
rnn_model.add(LSTM(embedding_size, dropout=0.5))
rnn_model.add(Dense(units=vocab_size, activation="softmax"))
rnn_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
rnn_model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, None, 100)         7927900   
_________________________________________________________________
lstm_1 (LSTM)                (None, 100)               80400     
_________________________________________________________________
dense_1 (Dense)              (None, 79279)             8007179   
Total params: 16,015,479
Trainable params: 8,087,579
Non-trainable params: 7,927,900
_________________________________________________________________


In [97]:
rnn_model.fit(
    train_x, 
    train_y, 
    batch_size=512, 
    epochs=20, 
    callbacks=[LambdaCallback(on_epoch_end=on_epoch_end), checkpoint],
    validation_split=0.2
)

Train on 623685 samples, validate on 155922 samples
Epoch 1/20
Generating text after epoch: 0
施世範... -> 施世範紂王。被是是在立即他的國家隊
Epoch 00000: val_loss improved from inf to 7.61388, saving model to weights.hdf5
Epoch 2/20
Generating text after epoch: 1
施世範... -> 施世範開始2012年月日日，他，在
Epoch 00001: val_loss improved from 7.61388 to 7.25977, saving model to weights.hdf5
Epoch 3/20
Generating text after epoch: 2
施世範... -> 施世範之在中國足球運動員，於公元前的兒子
Epoch 00002: val_loss improved from 7.25977 to 7.06895, saving model to weights.hdf5
Epoch 4/20
Generating text after epoch: 3
施世範... -> 施世範的在上海足球俱樂部。與妻子，在
Epoch 00003: val_loss improved from 7.06895 to 6.95386, saving model to weights.hdf5
Epoch 5/20
Generating text after epoch: 4
施世範... -> 施世範的兒子，即他的兒子，他的
Epoch 00004: val_loss improved from 6.95386 to 6.88560, saving model to weights.hdf5
Epoch 6/20
Generating text after epoch: 5
施世範... -> 施世範。卡爾王子古斯塔夫阿道夫古斯塔夫古斯塔夫古斯塔夫王子，
Epoch 00005: val_loss improved from 6.88560 to 6.83636, saving model to weights.hdf5
Epoch 7

<keras.callbacks.History at 0x7f3aeab4a4e0>

In [21]:
rnn_model.load_weights(filepath)
rnn_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')

In [22]:
def sample(preds, temperature=1.0):
    """
    temperature 表示控制 sample 字的多樣性，越高越隨機
    越低則越強化原本預測機率的差距，ex: [0.2, 0.5, 0.3] -> [0.009, 0.91, 0.07]
    """
    if temperature <= 0:
        return np.argmax(preds)
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)

def generate_next(text, num_generated=10, temperature=1.0):
    word_idxs = [word2idx(word) for word in text]
    for i in range(num_generated):
        prediction = rnn_model.predict(x=np.array(word_idxs))
        idx = sample(prediction[-1], temperature)
        word_idxs.append(idx)
    return ''.join(idx2word(idx) for idx in word_idxs)

In [25]:
# 隨機生成文章
text_list = []
for i in range(20):
    text = generate_next([idx2word(np.random.randint(vocab_size))], 500, 0.5)
    text_list.append(text)

In [27]:
text_list

['十子，日本足球運動員。是一個中國足球俱樂部俱樂部俱樂部的日本足球俱樂部，又，故，再，為他是一個德國足球俱樂部俱樂部俱樂部俱樂部俱樂部莫斯科，她和吐蕃。他的青少年的日本足球會。他的弟弟，是日本足球甲級聯賽德甲及所有，被封為，巴西上陣，是來自的母親，由為了的妻子，在2003年，其去世，曾在古蘭經，是荷蘭足球乙級足球俱樂部乙級冠軍。的屍體，日本足球會，是瑞典足球俱樂部，這，在妻子的中國足球會。在此的兒子，由於的妻子，也是，是為八達，在1618，是日本足球俱樂部乙級聯賽。是他曾在新羅，美國總統，於1983，是一名已的兒子為。由他，是一位，為一級，便，於新加坡的國王。日本足球甲級聯賽。為了他的第二個的中國足球甲級聯賽球隊，是香港足球俱樂部俱樂部俱樂部俱樂部，在上海東亞比賽的他的希臘，是他的職業生涯，在巴黎埃菲爾鐵塔，他的組織。出任。是中國足球運動員前鋒。中國足球運動員，是羅馬的兒子，於1931，美國總統，他的弟弟，是美國美國，是他在法國足球運動員，是他是中國足球俱樂部俱樂部俱樂部曼聯。是一名，在，在中國足球俱樂部俱樂部俱樂部巴塞羅那足球甲級聯賽香港甲組足球聯賽甲組，從成為香港足球俱樂部俱樂部馬賽足球俱樂部俱樂部。妻子，在其，被獲勝，是一名的由中國足球俱樂部俱樂部俱樂部俱樂部俱樂部俱樂部，在英格蘭的兒子，是法國足球運動員，是瑞士，他被列入，是德國足球俱樂部、陳文紀繼承為他的地位，被選入。為瑞典皇家科學院，在分組賽。是法國足球乙級聯賽，也在倫敦的妹妹，是前球隊。為首的一些，也是中國足球俱樂部，於1999年，在前日本足球運動員，也曾擔任的日本足球俱樂部俱樂部杭州足球甲級聯賽球隊，是一名足球俱樂部俱樂部俱樂部執教，在將軍後，日本足球俱樂部歷史，是一名，在瑞典足球會。是一個廣泛的妹妹，是中國足球俱樂部俱樂部俱樂部的兒子，有一個日本國家足球隊阿根廷，擔任韓國，但在中國足球俱樂部俱樂部的連尹，在香港足球俱樂部乙級聯賽，在香港足球俱樂部浦東加盟。他，已退役生涯，在獲得的法國國家足球隊，於是他為了英國',
 '杜撰，也在1816，在楚布寺，與他於2005年的軍隊。成功，在在北京國安，是美國的一個日本足球俱樂部雷丁足球會，以雅典的韓國的兒子。，生於天津足球運動員，在1980年，在那裡，因為已經在的美國足球會，在同年由美國。是一名為球隊的女兒在由他的兒子，在8月日歲，他的牧師，是一個香港足球會

In [26]:
with open('article.txt', 'w', encoding='utf-8') as f:
    for text in text_list:
        f.write(f"{text}\n")

# 參考資料
1. https://zake7749.github.io/2016/08/28/word2vec-with-gensim/
2. https://gist.github.com/maxim5/c35ef2238ae708ccb0e55624e9e0252b
3. https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/
4. https://www.jianshu.com/p/e19b96908c69