In [69]:
import pandas as pd
import numpy as np
import jieba
import matplotlib.pyplot as plt
from pylab import rcParams
from gensim.models import word2vec

%matplotlib inline

In [70]:
# Customizing plots with style 
rcParams['figure.figsize'] = 10, 5
rcParams['lines.linewidth'] = 2
plt.style.use('ggplot')

# 載入文字資料

In [71]:
# 收集自維基百科
with open("data/ref_text_tw.txt", "r", encoding="utf-8") as content:
    document_list = [line.strip().replace(' ', '') for line in content]

In [72]:
print(document_list[:5])
print("total document num: {}".format(len(document_list)))

['美希迪波路治一般稱作波路治，生於達爾貝達，摩洛哥職業足球運動員，現效力於美國職業足球大聯盟球會科羅拉多急流。', '羅利科隆出生於紐西蘭北島東北部吉斯伯恩，是一名英式足球足球運動員，司職前鋒前鋒，現時效力英甲球會斯坎索普聯足球俱樂部斯肯索普。', '他的機器實際上是在美國人口調查局的合約下完成的，製成後被用於1890年美國人口普查，普查工作因此得以在一年之內完成。', '石崎傳蔵，超級人瑞，曾是日本史上最年長男性。', '施世範，施琅第八子，襲封靖海侯。']
total document num: 33868


# 結巴分詞

In [73]:
# 用來存放分詞後的結果
preprocessed_documents = []
# stopword
with open("data/jieba_dict/stopwords.txt") as stop_words:
    stop_word_list = [stop_word.strip() for stop_word in stop_words]
# 支援繁體中文較好的詞庫
jieba.set_dictionary("data/jieba_dict/dict.txt.big")
for document in document_list:
    # preprocessed_document = list(filter(lambda x: x not in stop_word_list, list(jieba.cut(document))))
    preprocessed_document = list(jieba.cut(document))
    preprocessed_documents.append(preprocessed_document)

Building prefix dict from /home/mark/Documents/python/nlp-experiment/data/jieba_dict/dict.txt.big ...
Loading model from cache /tmp/jieba.uf13363f31a3360411b43fe8e84af1634.cache
Loading model cost 1.279 seconds.
Prefix dict has been built succesfully.


In [74]:
# 此即為分詞處理好的 corpus
preprocessed_documents[:5]

[['美希迪波',
  '路治',
  '一般',
  '稱作',
  '波路治',
  '，',
  '生於',
  '達爾貝',
  '達',
  '，',
  '摩洛哥',
  '職業',
  '足球',
  '運動員',
  '，',
  '現',
  '效力',
  '於',
  '美國',
  '職業',
  '足球',
  '大',
  '聯盟',
  '球會',
  '科羅拉多',
  '急流',
  '。'],
 ['羅利',
  '科隆',
  '出',
  '生於',
  '紐西蘭',
  '北島',
  '東北部',
  '吉斯',
  '伯恩',
  '，',
  '是',
  '一名',
  '英式足球',
  '足球',
  '運動員',
  '，',
  '司職',
  '前鋒',
  '前鋒',
  '，',
  '現時',
  '效力',
  '英甲',
  '球會',
  '斯坎索',
  '普聯',
  '足球',
  '俱樂部',
  '斯肯',
  '索普',
  '。'],
 ['他',
  '的',
  '機器',
  '實際上',
  '是',
  '在',
  '美國',
  '人口',
  '調查局',
  '的',
  '合約',
  '下',
  '完成',
  '的',
  '，',
  '製成',
  '後',
  '被',
  '用於',
  '1890',
  '年',
  '美國',
  '人口普查',
  '，',
  '普查',
  '工作',
  '因此',
  '得以',
  '在',
  '一年',
  '之內',
  '完成',
  '。'],
 ['石崎傳',
  '蔵',
  '，',
  '超級',
  '人瑞',
  '，',
  '曾',
  '是',
  '日本',
  '史上',
  '最',
  '年長',
  '男性',
  '。'],
 ['施世範', '，', '施琅', '第八', '子', '，', '襲封', '靖海侯', '。']]

# 使用 word2vec 訓練詞向量

In [75]:
model = word2vec.Word2Vec(preprocessed_documents, min_count=1, window=10, sg=1)

In [76]:
model.wv.most_similar("李登輝", topn=50)

  if np.issubdtype(vec.dtype, np.int):


[('中國國民黨', 0.9670590162277222),
 ('行政院長', 0.959876298904419),
 ('陳水扁', 0.952601432800293),
 ('中央委員會', 0.9520695805549622),
 ('嚴家淦', 0.9485561847686768),
 ('李光耀', 0.9444906711578369),
 ('開幕', 0.9424616694450378),
 ('中央政治局', 0.9411413073539734),
 ('楊尚昆', 0.9398090839385986),
 ('辦公室', 0.9372608065605164),
 ('黨內', 0.9358875155448914),
 ('立法委員', 0.9357191920280457),
 ('伉儷', 0.9349007606506348),
 ('政治局', 0.9313263893127441),
 ('委員長', 0.9309505224227905),
 ('副委員長', 0.9294939637184143),
 ('尤索夫', 0.9282247424125671),
 ('總統府', 0.9280449151992798),
 ('父親節', 0.9279723763465881),
 ('民進黨', 0.9277172684669495),
 ('立法院', 0.9265642762184143),
 ('連戰', 0.9255101680755615),
 ('第一夫人', 0.9246054887771606),
 ('壹', 0.9244298934936523),
 ('李顯龍', 0.9237725138664246),
 ('偕', 0.9236981868743896),
 ('鄧小平', 0.9235371947288513),
 ('中華人民共和國國務院', 0.9227968454360962),
 ('進步黨', 0.9222841858863831),
 ('臺灣省', 0.9220684170722961),
 ('中共中央政治局', 0.9215205907821655),
 ('朝鮮勞動黨', 0.9210669994354248),
 ('官邸', 0.9206576943397522)

In [77]:
model.wv.most_similar("男歌手", topn=50)

  if np.issubdtype(vec.dtype, np.int):


[('王雅琦', 0.9662147760391235),
 ('林添', 0.9648601412773132),
 ('林覺民', 0.9632163047790527),
 ('吳江', 0.9624828100204468),
 ('女高音', 0.9593405723571777),
 ('工旦行', 0.9585226774215698),
 ('唐師曾', 0.9582151770591736),
 ('創意', 0.9576272964477539),
 ('水利學家', 0.956221878528595),
 ('莉莉', 0.9559784531593323),
 ('任佳藝', 0.9558889865875244),
 ('豹', 0.9558137655258179),
 ('歌唱家', 0.9556969404220581),
 ('宜蘭人', 0.9556719660758972),
 ('女藝員', 0.955659806728363),
 ('鳳儀', 0.9555197954177856),
 ('鄭文堂', 0.9552754163742065),
 ('流行歌曲', 0.9552042484283447),
 ('漫畫家', 0.9551963806152344),
 ('吳灘', 0.9549605846405029),
 ('喜劇演員', 0.9547865390777588),
 ('柯宇綸', 0.9545557498931885),
 ('蔡天鐸', 0.9545116424560547),
 ('刀郎', 0.9544733166694641),
 ('曹健', 0.954145610332489),
 ('麗', 0.9541454911231995),
 ('楊雅喆', 0.9537158012390137),
 ('薇薇安', 0.9533419013023376),
 ('英傑', 0.9527959823608398),
 ('實境秀', 0.9527789354324341),
 ('林子祥', 0.9516791105270386),
 ('戲曲', 0.951482355594635),
 ('鮑爾是', 0.9508172273635864),
 ('錢璐', 0.950355112552642

In [78]:
def word2idx(word):
    return model.wv.vocab[word].index

def idx2word(idx):
    return model.wv.index2word[idx]

In [79]:
# 檢視經過訓練出來之後的詞向量
pretrained_weights = model.wv.vectors
vocab_size, embedding_size = pretrained_weights.shape
print("vocab_size: {}, embedding_size: {}".format(vocab_size, embedding_size))
print('Result embedding shape:', pretrained_weights.shape)

vocab_size: 79279, embedding_size: 100
Result embedding shape: (79279, 100)


# 構建語言生成 RNN model

In [80]:
from keras.layers import Input, Embedding, LSTM, Dense
from keras.models import Sequential
from keras.callbacks import LambdaCallback, ModelCheckpoint

In [81]:
# slide window 用來控制學習的 seq 長度，size 越小，資料量越多，生成的文章會越有語意
def slide_window(a, size):
    window_list = []
    for i in range(len(a)):
        window = a[i:size+i]
        if len(window) < size:
            break
        window_list.append(window)
    return window_list

In [85]:
def split_train_x_and_train_y(docs, max_doc_length):
    seq_list = []
    for doc in docs:
        word_index_array = [word2idx(word) for word in doc]
        window_list = slide_window(word_index_array, max_doc_length)
        for window in window_list:
            seq_list.append(window)
    seq_list = np.array(seq_list)
    train_x = seq_list[:,:-1]
    train_y = seq_list[:,-1]
    return train_x, train_y

In [86]:
# 構建訓練資料
train_x, train_y = split_train_x_and_train_y(preprocessed_documents, 3)
print('train_x shape:', train_x.shape)
print('train_y shape:', train_y.shape)

train_x shape: (779607, 2)
train_y shape: (779607,)


In [94]:
def on_epoch_end(epoch, _):
    print('\nGenerating text after epoch: %d' % epoch)
    texts = ["施世範"]
    for text in texts:
        print('%s... -> %s' % (text, generate_next(texts, 10, 0.5)))

In [95]:
# define the checkpoint
filepath="weights.hdf5"
checkpoint = ModelCheckpoint(filepath, monitor='val_loss', verbose=1, save_best_only=True, mode='min')

In [96]:
rnn_model = Sequential()
rnn_model.add(model.wv.get_keras_embedding())
# rnn_model.add(LSTM(embedding_size, dropout=0.5, return_sequences=True))
rnn_model.add(LSTM(embedding_size, dropout=0.5))
rnn_model.add(Dense(units=vocab_size, activation="softmax"))
rnn_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
rnn_model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_8 (Embedding)      (None, None, 100)         7927900   
_________________________________________________________________
lstm_13 (LSTM)               (None, 100)               80400     
_________________________________________________________________
dense_8 (Dense)              (None, 79279)             8007179   
Total params: 16,015,479
Trainable params: 8,087,579
Non-trainable params: 7,927,900
_________________________________________________________________


In [97]:
rnn_model.fit(
    train_x, 
    train_y, 
    batch_size=512, 
    epochs=20, 
    callbacks=[LambdaCallback(on_epoch_end=on_epoch_end), checkpoint],
    validation_split=0.2
)

Train on 623685 samples, validate on 155922 samples
Epoch 1/20
Generating text after epoch: 0
施世範... -> 施世範紂王。被是是在立即他的國家隊
Epoch 00000: val_loss improved from inf to 7.61388, saving model to weights.hdf5
Epoch 2/20
Generating text after epoch: 1
施世範... -> 施世範開始2012年月日日，他，在
Epoch 00001: val_loss improved from 7.61388 to 7.25977, saving model to weights.hdf5
Epoch 3/20
Generating text after epoch: 2
施世範... -> 施世範之在中國足球運動員，於公元前的兒子
Epoch 00002: val_loss improved from 7.25977 to 7.06895, saving model to weights.hdf5
Epoch 4/20
Generating text after epoch: 3
施世範... -> 施世範的在上海足球俱樂部。與妻子，在
Epoch 00003: val_loss improved from 7.06895 to 6.95386, saving model to weights.hdf5
Epoch 5/20
Generating text after epoch: 4
施世範... -> 施世範的兒子，即他的兒子，他的
Epoch 00004: val_loss improved from 6.95386 to 6.88560, saving model to weights.hdf5
Epoch 6/20
Generating text after epoch: 5
施世範... -> 施世範。卡爾王子古斯塔夫阿道夫古斯塔夫古斯塔夫古斯塔夫王子，
Epoch 00005: val_loss improved from 6.88560 to 6.83636, saving model to weights.hdf5
Epoch 7

<keras.callbacks.History at 0x7f3aeab4a4e0>

In [98]:
rnn_model.load_weights(filepath)
rnn_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')

In [99]:
def sample(preds, temperature=1.0):
    """
    temperature 表示控制 sample 字的多樣性，越高越隨機
    越低則越強化原本預測機率的差距，ex: [0.2, 0.5, 0.3] -> [0.009, 0.91, 0.07]
    """
    if temperature <= 0:
        return np.argmax(preds)
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)

def generate_next(text, num_generated=10, temperature=1.0):
    word_idxs = [word2idx(word) for word in text]
    for i in range(num_generated):
        prediction = rnn_model.predict(x=np.array(word_idxs))
        idx = sample(prediction[-1], temperature)
        word_idxs.append(idx)
    return ''.join(idx2word(idx) for idx in word_idxs)

In [179]:
# 隨機生成文章
generate_next([idx2word(np.random.randint(vocab_size))], 500, 0.5)

'呂薇。以為香港足球俱樂部，在巴黎聖日耳曼、張愚，後，被租借，其後，是埃及的父親，在羅馬天主教，在西藏。了一個德國的母親，並，是一名阿根廷，他在2012年，也是先知，他的收入中的女兒。在重慶在2009年，是波斯大流士帝國的。雖然後，以其為了最後的父親愛德華的，現任，在中國國家，在1945，在法國足球俱樂部的兒子。被阮惠之子，以其的中國足球俱樂部位置的，也是法國的行為，後來，為了，他的婚姻，在這支，也是一位意大利的兒子，在羅馬，在日本國家足球隊國家隊，為了。被劃為他在前前前753，同年，是一位的母親陳朝陳煚陳朝，為他的父親是一名生於日本國家足球隊日本職業足球會，在那裡，被殺。出身於前中華人民共和國國務院主席、費拉里，是一位是中國足球俱樂部俱樂部。與馬其頓攝政的父親，被重命名，是他的，立與所羅門王。於中國足球俱樂部，由於被暗殺。成為父親的一個了，後來，被重命名，因後來他被認為是一名，他的，是一名足球會在羅馬皇帝，分別是一個母親，與釋迦牟尼的之後，這在沿海的兒子。在她的，與英國，從美國人，被羅馬皇帝。於2008年，在羅馬皇帝，為新的，曾在英國史密斯，是加州大學洛杉磯分校。了他的兒子。被下啟。在20，以其的，在他們，在耶路撒冷的父親，在倫敦的弟弟，同時是一位前。與中國足球俱樂部上海申花的兒子，後，其，後者是一位的表現是一位是一位是一位著名的弟弟，最後，於中國足球俱樂部，在日本國家足球隊成員。他。他。是一位他的兒子。前，又被吳偉，是一位阿根廷足球俱樂部青訓。父親的兒子。為下，兩人，曾被明命帝，是一位在劍橋大學。與其為了，並與和人。的兒子，在英格蘭的女兒。中國國家足球隊成員。與懷疑的兒子，在他，在耶路撒冷的，是為了的的，為的新。以為。在上海燭龍，以4，是由前前，代表，在其，在以21歲，在這場，率領，以'

# 參考資料
1. https://zake7749.github.io/2016/08/28/word2vec-with-gensim/
2. https://gist.github.com/maxim5/c35ef2238ae708ccb0e55624e9e0252b
3. https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/
4. https://www.jianshu.com/p/e19b96908c69