In [1]:
import pandas as pd
import numpy as np
import jieba
import matplotlib.pyplot as plt
from pylab import rcParams
from gensim.models import word2vec

%matplotlib inline

In [2]:
# Customizing plots with style 
rcParams['figure.figsize'] = 10, 5
rcParams['lines.linewidth'] = 2
plt.style.use('ggplot')

# 載入文字資料

In [3]:
# 收集自維基百科
with open("data/text/ref_text_tw.txt", "r", encoding="utf-8") as content:
    document_list = [line.strip().replace(' ', '') for line in content]

In [4]:
print(document_list[:5])
print("total document num: {}".format(len(document_list)))

['美希迪波路治一般稱作波路治，生於達爾貝達，摩洛哥職業足球運動員，現效力於美國職業足球大聯盟球會科羅拉多急流。', '羅利科隆出生於紐西蘭北島東北部吉斯伯恩，是一名英式足球足球運動員，司職前鋒前鋒，現時效力英甲球會斯坎索普聯足球俱樂部斯肯索普。', '他的機器實際上是在美國人口調查局的合約下完成的，製成後被用於1890年美國人口普查，普查工作因此得以在一年之內完成。', '石崎傳蔵，超級人瑞，曾是日本史上最年長男性。', '施世範，施琅第八子，襲封靖海侯。']
total document num: 33868


# 結巴分詞

In [5]:
# 用來存放分詞後的結果
preprocessed_documents = []
# stopword
with open("data/jieba_dict/stopwords.txt") as stop_words:
    stop_word_list = [stop_word.strip() for stop_word in stop_words]
# 支援繁體中文較好的詞庫
jieba.set_dictionary("data/jieba_dict/dict.txt.big")
for document in document_list:
    preprocessed_document = list(jieba.cut(document))
    preprocessed_documents.append(preprocessed_document)

Building prefix dict from /home/mark/Documents/python/nlp-experiment/data/jieba_dict/dict.txt.big ...
Loading model from cache /tmp/jieba.uf13363f31a3360411b43fe8e84af1634.cache
Loading model cost 1.227 seconds.
Prefix dict has been built succesfully.


In [6]:
# 此即為分詞處理好的 corpus
preprocessed_documents[:5]

[['美希迪波',
  '路治',
  '一般',
  '稱作',
  '波路治',
  '，',
  '生於',
  '達爾貝',
  '達',
  '，',
  '摩洛哥',
  '職業',
  '足球',
  '運動員',
  '，',
  '現',
  '效力',
  '於',
  '美國',
  '職業',
  '足球',
  '大',
  '聯盟',
  '球會',
  '科羅拉多',
  '急流',
  '。'],
 ['羅利',
  '科隆',
  '出',
  '生於',
  '紐西蘭',
  '北島',
  '東北部',
  '吉斯',
  '伯恩',
  '，',
  '是',
  '一名',
  '英式足球',
  '足球',
  '運動員',
  '，',
  '司職',
  '前鋒',
  '前鋒',
  '，',
  '現時',
  '效力',
  '英甲',
  '球會',
  '斯坎索',
  '普聯',
  '足球',
  '俱樂部',
  '斯肯',
  '索普',
  '。'],
 ['他',
  '的',
  '機器',
  '實際上',
  '是',
  '在',
  '美國',
  '人口',
  '調查局',
  '的',
  '合約',
  '下',
  '完成',
  '的',
  '，',
  '製成',
  '後',
  '被',
  '用於',
  '1890',
  '年',
  '美國',
  '人口普查',
  '，',
  '普查',
  '工作',
  '因此',
  '得以',
  '在',
  '一年',
  '之內',
  '完成',
  '。'],
 ['石崎傳',
  '蔵',
  '，',
  '超級',
  '人瑞',
  '，',
  '曾',
  '是',
  '日本',
  '史上',
  '最',
  '年長',
  '男性',
  '。'],
 ['施世範', '，', '施琅', '第八', '子', '，', '襲封', '靖海侯', '。']]

# 使用 word2vec 訓練詞向量

In [7]:
model = word2vec.Word2Vec(preprocessed_documents, min_count=1, window=10, sg=1)

In [8]:
model.wv.most_similar("李登輝", topn=50)

  if np.issubdtype(vec.dtype, np.int):


[('中國國民黨', 0.9659200310707092),
 ('行政院長', 0.946959912776947),
 ('嚴家淦', 0.9464354515075684),
 ('陳水扁', 0.9446552991867065),
 ('黨內', 0.9390124678611755),
 ('李光耀', 0.938780665397644),
 ('中央委員會', 0.9379827380180359),
 ('尤索夫', 0.9375807046890259),
 ('朝鮮勞動黨', 0.9359132647514343),
 ('第一夫人', 0.9350582361221313),
 ('副委員長', 0.932766318321228),
 ('辦公室', 0.9327172040939331),
 ('中央政治局', 0.9323389530181885),
 ('李顯龍', 0.9308685064315796),
 ('委員長', 0.9298253655433655),
 ('連戰', 0.9284915328025818),
 ('鄧樸方', 0.9271532297134399),
 ('中華人民共和國國務院', 0.9269112348556519),
 ('訪華', 0.9266548156738281),
 ('古蹟', 0.9263201355934143),
 ('立法委員', 0.9259499907493591),
 ('胡錦濤', 0.9239287972450256),
 ('開幕', 0.9237228631973267),
 ('國務院', 0.9223554134368896),
 ('中共中央政治局', 0.9216533899307251),
 ('總統府', 0.9210458993911743),
 ('習近平', 0.9210121631622314),
 ('溫家寶', 0.9209234118461609),
 ('父親節', 0.9205612540245056),
 ('鄧小平', 0.919984757900238),
 ('偕', 0.919459879398346),
 ('楊尚昆', 0.9181934595108032),
 ('伉儷', 0.9179744720458984),


In [9]:
model.wv.most_similar("男歌手", topn=50)

  if np.issubdtype(vec.dtype, np.int):


[('王雅琦', 0.9727765321731567),
 ('吳江', 0.9668613076210022),
 ('齊橋橋', 0.9624319672584534),
 ('宣萱', 0.9621230363845825),
 ('漫畫家', 0.961767852306366),
 ('莉莉', 0.9616739749908447),
 ('陳小藝', 0.9615285396575928),
 ('蔡天鐸', 0.9615163803100586),
 ('林翠', 0.961431622505188),
 ('曾國祥', 0.9607008695602417),
 ('喜劇演員', 0.9590493440628052),
 ('雲林縣', 0.958836019039154),
 ('節目主持', 0.9576021432876587),
 ('女藝員', 0.9572699069976807),
 ('顧正秋', 0.9570175409317017),
 ('鄭文堂', 0.9567718505859375),
 ('蘇州市', 0.9563143253326416),
 ('謝賢之子', 0.9562386274337769),
 ('餅店', 0.956059992313385),
 ('柯宇綸', 0.9560527801513672),
 ('曾懿貞', 0.9559885263442993),
 ('林子祥', 0.9558733701705933),
 ('郭鶴年', 0.9551891088485718),
 ('古裝劇', 0.9545445442199707),
 ('工旦行', 0.9544399976730347),
 ('女高音', 0.954109251499176),
 ('薇薇安', 0.9537578821182251),
 ('刀馬旦', 0.9533291459083557),
 ('李文華', 0.9529095888137817),
 ('台北', 0.952476441860199),
 ('馬榮', 0.9520549774169922),
 ('諧星', 0.9518327713012695),
 ('相聲', 0.9515189528465271),
 ('執業', 0.951433539390

In [10]:
def word2idx(word):
    return model.wv.vocab[word].index

def idx2word(idx):
    return model.wv.index2word[idx]

In [11]:
# 檢視經過訓練出來之後的詞向量
pretrained_weights = model.wv.vectors
vocab_size, embedding_size = pretrained_weights.shape
print("vocab_size: {}, embedding_size: {}".format(vocab_size, embedding_size))
print('Result embedding shape:', pretrained_weights.shape)

vocab_size: 79279, embedding_size: 100
Result embedding shape: (79279, 100)


# 構建語言生成 RNN model

In [36]:
from keras.layers import Input, Embedding, LSTM, Dense
from keras.models import Sequential
from keras.callbacks import LambdaCallback, ModelCheckpoint

Using TensorFlow backend.


In [37]:
# slide window 用來控制學習的 seq 長度，size 越小，資料量越多，生成的文章會越有語意
def slide_window(a, size):
    window_list = []
    for i in range(len(a)):
        window = a[i:size+i]
        if len(window) < size:
            break
        window_list.append(window)
    return window_list

In [38]:
def split_train_x_and_train_y(docs, max_doc_length):
    seq_list = []
    for doc in docs:
        word_index_array = [word2idx(word) for word in doc]
        window_list = slide_window(word_index_array, max_doc_length)
        for window in window_list:
            seq_list.append(window)
    seq_list = np.array(seq_list)
    train_x = seq_list[:,:-1]
    train_y = seq_list[:,-1]
    return train_x, train_y

In [40]:
# 構建訓練資料
train_x, train_y = split_train_x_and_train_y(preprocessed_documents, 100)
print('train_x shape:', train_x.shape)
print('train_y shape:', train_y.shape)

train_x shape: (79, 99)
train_y shape: (79,)


In [46]:
train_x[0]

array([14168,  1679,  1973,    14,   262,     3,   120,    12,   503,
          17,  6136,     0,   293,  5739,  2702, 48950,  7675,     2,
         515,  1706,  6885,     4, 65852,     4,  8903, 11020,     0,
        7131,   182,  3755,   639,   489,   136,  2106,     0,  4905,
         489,    24,     6,  8903,   785,   143,     0,    31,   596,
         346,  1208,  3650,  7131,     0,     5,  2242,    32,  2702,
        3650, 32567,   374,     0, 31587,    79,     2,  7296,    24,
        7374,  8903,     0,    35,   489,   214, 35316, 25881,     0,
        1370,  2702,  3650,  7374,  4250,     2,  2242,    11,   348,
         691,   823,    90,     0,    47,   388,   785, 16006,  5739,
        8285, 15222,  2242,    15,     0,   348,  3907,  5770,   386])

In [94]:
def on_epoch_end(epoch, _):
    print('\nGenerating text after epoch: %d' % epoch)
    texts = ["施世範"]
    for text in texts:
        print('%s... -> %s' % (text, generate_next(texts, 10, 0.5)))

In [95]:
# define the checkpoint
filepath="weights.hdf5"
checkpoint = ModelCheckpoint(filepath, monitor='val_loss', verbose=1, save_best_only=True, mode='min')

In [96]:
rnn_model = Sequential()
rnn_model.add(model.wv.get_keras_embedding())
# rnn_model.add(LSTM(embedding_size, dropout=0.5, return_sequences=True))
rnn_model.add(LSTM(embedding_size, dropout=0.5))
rnn_model.add(Dense(units=vocab_size, activation="softmax"))
rnn_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
rnn_model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_8 (Embedding)      (None, None, 100)         7927900   
_________________________________________________________________
lstm_13 (LSTM)               (None, 100)               80400     
_________________________________________________________________
dense_8 (Dense)              (None, 79279)             8007179   
Total params: 16,015,479
Trainable params: 8,087,579
Non-trainable params: 7,927,900
_________________________________________________________________


In [97]:
rnn_model.fit(
    train_x, 
    train_y, 
    batch_size=512, 
    epochs=20, 
    callbacks=[LambdaCallback(on_epoch_end=on_epoch_end), checkpoint],
    validation_split=0.2
)

Train on 623685 samples, validate on 155922 samples
Epoch 1/20
Generating text after epoch: 0
施世範... -> 施世範紂王。被是是在立即他的國家隊
Epoch 00000: val_loss improved from inf to 7.61388, saving model to weights.hdf5
Epoch 2/20
Generating text after epoch: 1
施世範... -> 施世範開始2012年月日日，他，在
Epoch 00001: val_loss improved from 7.61388 to 7.25977, saving model to weights.hdf5
Epoch 3/20
Generating text after epoch: 2
施世範... -> 施世範之在中國足球運動員，於公元前的兒子
Epoch 00002: val_loss improved from 7.25977 to 7.06895, saving model to weights.hdf5
Epoch 4/20
Generating text after epoch: 3
施世範... -> 施世範的在上海足球俱樂部。與妻子，在
Epoch 00003: val_loss improved from 7.06895 to 6.95386, saving model to weights.hdf5
Epoch 5/20
Generating text after epoch: 4
施世範... -> 施世範的兒子，即他的兒子，他的
Epoch 00004: val_loss improved from 6.95386 to 6.88560, saving model to weights.hdf5
Epoch 6/20
Generating text after epoch: 5
施世範... -> 施世範。卡爾王子古斯塔夫阿道夫古斯塔夫古斯塔夫古斯塔夫王子，
Epoch 00005: val_loss improved from 6.88560 to 6.83636, saving model to weights.hdf5
Epoch 7

<keras.callbacks.History at 0x7f3aeab4a4e0>

In [98]:
rnn_model.load_weights(filepath)
rnn_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')

In [99]:
def sample(preds, temperature=1.0):
    """
    temperature 表示控制 sample 字的多樣性，越高越隨機
    越低則越強化原本預測機率的差距，ex: [0.2, 0.5, 0.3] -> [0.009, 0.91, 0.07]
    """
    if temperature <= 0:
        return np.argmax(preds)
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)

def generate_next(text, num_generated=10, temperature=1.0):
    word_idxs = [word2idx(word) for word in text]
    for i in range(num_generated):
        prediction = rnn_model.predict(x=np.array(word_idxs))
        idx = sample(prediction[-1], temperature)
        word_idxs.append(idx)
    return ''.join(idx2word(idx) for idx in word_idxs)

In [179]:
# 隨機生成文章
generate_next([idx2word(np.random.randint(vocab_size))], 500, 0.5)

'呂薇。以為香港足球俱樂部，在巴黎聖日耳曼、張愚，後，被租借，其後，是埃及的父親，在羅馬天主教，在西藏。了一個德國的母親，並，是一名阿根廷，他在2012年，也是先知，他的收入中的女兒。在重慶在2009年，是波斯大流士帝國的。雖然後，以其為了最後的父親愛德華的，現任，在中國國家，在1945，在法國足球俱樂部的兒子。被阮惠之子，以其的中國足球俱樂部位置的，也是法國的行為，後來，為了，他的婚姻，在這支，也是一位意大利的兒子，在羅馬，在日本國家足球隊國家隊，為了。被劃為他在前前前753，同年，是一位的母親陳朝陳煚陳朝，為他的父親是一名生於日本國家足球隊日本職業足球會，在那裡，被殺。出身於前中華人民共和國國務院主席、費拉里，是一位是中國足球俱樂部俱樂部。與馬其頓攝政的父親，被重命名，是他的，立與所羅門王。於中國足球俱樂部，由於被暗殺。成為父親的一個了，後來，被重命名，因後來他被認為是一名，他的，是一名足球會在羅馬皇帝，分別是一個母親，與釋迦牟尼的之後，這在沿海的兒子。在她的，與英國，從美國人，被羅馬皇帝。於2008年，在羅馬皇帝，為新的，曾在英國史密斯，是加州大學洛杉磯分校。了他的兒子。被下啟。在20，以其的，在他們，在耶路撒冷的父親，在倫敦的弟弟，同時是一位前。與中國足球俱樂部上海申花的兒子，後，其，後者是一位的表現是一位是一位是一位著名的弟弟，最後，於中國足球俱樂部，在日本國家足球隊成員。他。他。是一位他的兒子。前，又被吳偉，是一位阿根廷足球俱樂部青訓。父親的兒子。為下，兩人，曾被明命帝，是一位在劍橋大學。與其為了，並與和人。的兒子，在英格蘭的女兒。中國國家足球隊成員。與懷疑的兒子，在他，在耶路撒冷的，是為了的的，為的新。以為。在上海燭龍，以4，是由前前，代表，在其，在以21歲，在這場，率領，以'

# 參考資料
1. https://zake7749.github.io/2016/08/28/word2vec-with-gensim/
2. https://gist.github.com/maxim5/c35ef2238ae708ccb0e55624e9e0252b
3. https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/
4. https://www.jianshu.com/p/e19b96908c69