# Week 13. In-Class Practice
## 修真聊天群的 word2vec 實作

In [98]:
import jieba
import numpy as np
import gensim
import warnings
from ipywidgets import IntProgress
from hanziconv import HanziConv
from IPython.display import display

In [28]:
file_train_read = []
with open('./dataset/xiuzhenliaotianqun.txt', encoding='utf-8') as file_train_raw:
    for line in file_train_raw:
        if line.strip() != '':
            file_train_read.append(HanziConv.toTraditional(line.strip()))

print("Text lines:", len(file_train_read))

Text lines: 213871


In [29]:
stopwords = set()
with open('./dataset/stopwords.txt') as stopword_file:
    for words in stopword_file:
        stopwords.add(HanziConv.toTraditional(words.strip()))

print("Stopwords number:", len(stopwords))

Stopwords number: 745


In [30]:
progress = IntProgress(min=0, max=len(file_train_read))
progress.value = 0
progress.description = "[ %s / %s ]"%(str(progress.value), str(progress.max))
display(progress)

file_train_seg = []
for i in range(len(file_train_read)):
    file_train_seg.append([' '.join([word for word in jieba.cut(file_train_read[i], cut_all=False)
                                            if word not in stopwords])])
    progress.value +=1
    progress.description = "[ %s / %s ]"%(str(progress.value), str(progress.max))

IntProgress(value=0, description='[ 0 / 213871 ]', max=213871)

In [31]:
# 將jieba的斷詞產出存檔
file_seg_word_done_path = 'corpus_seg_done.txt'
with open(file_seg_word_done_path, 'wb') as f:
    for i in range(len(file_train_seg)):
        f.write((file_train_seg[i][0] + '\n').encode('utf-8'))

# 檢視斷詞 jieba 的結果
def print_list_chinese(list):
    for i in range(len(list)):
        print(list[i])
        
print_list_chinese(file_train_seg[3])

季節 江南 地區 晝夜 溫差 變 很大 白天 還穿 褲衩 熱成 狗 晚上 縮 窩 裏 凍成 寒號 鳥


In [32]:
from gensim.models import word2vec
sentences = word2vec.LineSentence(file_seg_word_done_path)
model = word2vec.Word2Vec(sentences, size=250)
model.save("word2vec.model")

  "C extension not loaded, training will be slow. "


In [58]:
# 可以用 model.wv.syn0 檢視詞向量，因為一個詞有250個維度，全部列出過於冗長.....
# 這邊僅僅呈現 10 個詞的 10 個維度

model.wv.syn0[0:10,0:10]

  """Entry point for launching an IPython kernel.


array([[ 0.37159345,  0.36440477, -0.68283176, -0.3977087 , -1.2312399 ,
         0.19338082,  0.3192118 , -0.03781476,  1.0747726 , -0.7108403 ],
       [ 0.13085344, -0.3223434 ,  1.049067  , -0.2065799 ,  0.05534005,
        -0.635839  ,  0.27663794,  0.11506622, -0.37989545,  1.6684337 ],
       [ 0.368835  ,  0.2109844 , -0.7678621 ,  0.33032176, -0.38054812,
        -1.0027988 , -1.6532946 , -0.05391168, -0.02363169,  0.08944174],
       [ 1.2138239 ,  1.2577821 , -0.36262798,  0.34616736,  0.79602545,
         0.09819802, -1.0791831 , -0.49653545, -1.2262968 , -0.9167704 ],
       [-0.6844266 , -0.3682592 , -0.43402216, -0.6814844 , -0.22692993,
         0.67157906,  0.27216297,  0.10316256, -0.77437454, -0.63960934],
       [-0.09675064,  0.30531484,  0.7468311 , -0.2703993 ,  0.7651356 ,
         0.5088317 ,  0.20411667, -0.17121835, -0.0575964 , -0.09510022],
       [-1.4711207 ,  0.0647627 , -0.33499458,  0.7418404 ,  0.43193376,
         1.6202635 ,  0.7939597 , -0.45636332

In [67]:
# 可檢視第 996~1000 個字詞是什麼

for i in range(995,1000):
    print(model.wv.index2word[i])

之處
元
想想
如今
賬號


In [106]:
warnings.filterwarnings('ignore')

# 顯示空間距離相近的詞
print("宋書航 相近詞：", [i[0] for i in model.similar_by_vector('宋書航')], '\n')
print("修真 相近詞：", [i[0] for i in model.similar_by_vector('修真')], '\n')
print("法術 相近詞：", [i[0] for i in model.similar_by_vector('法術')], '\n')

# 顯示相近詞和詞向量，直接使用 similar_by_vector() 就可以了
model.similar_by_vector('宋書航')

宋書航 相近詞： ['書航', '赤瞳', '宋航', '將書航', '瞭書航', '由書航', '李教員', '蔥娘', '小彩', '葉思'] 

修真 相近詞： ['資料', '本次', '是否', '主要', '權限', '加入', '升級', '共享', '私人', '二號'] 

法術 相近詞： ['能力', '道術', '術', '催眠', '天賦', '技能', '幻術', '小法術', '秘法', '手法'] 



[('書航', 0.664),
 ('赤瞳', 0.603),
 ('宋航', 0.563),
 ('將書航', 0.522),
 ('瞭書航', 0.513),
 ('由書航', 0.478),
 ('李教員', 0.475),
 ('蔥娘', 0.473),
 ('小彩', 0.469),
 ('葉思', 0.469)]

回過頭來看一下詞向量模型的結果。

首先我們用咱們男主角的名字「宋書航」丟進去測試，原則上要跑出一些主線人物的名字，畢竟他們伴隨著男主角成長，比較可能存在類似的脈絡中而被模型捕捉到。乍看也還算合理，不過「瞭書航」、「由書航」這二個詞很明顯地就是由簡轉繁引發的斷詞失誤了。

第二個嘗試看看「修真」的相近詞，跑出來「資料」、「權限」、「共享」等詞彙，再度懷疑是斷詞引擎或者詞向量模型出了問題。其實不然，有看過這部小說的同學就會知道這部作品是多麼的不(ㄋㄠˇ) 落(ㄉㄨㄥˋ) 俗(ㄉㄚˋ) 套(ㄎㄞ)。這個例子再度告訴我們，Domain Knowlwdge 的重要性啊 XDDD。

最後看看「法術」的相近詞，嗯，終於合乎我們的預期。這些字詞都是玄幻修真類小說的常用語彙，成功～

---------

不過還有一個小麻煩，同樣關乎斷詞引擎的失誤，就是當我們輸入一個很重要的角色「白前輩」進去搜尋相近詞時，居然找不到！

In [107]:
model.similar_by_vector('白前輩')

KeyError: "word '白前輩' not in vocabulary"

這邊我們有兩個問題要修正，一是關於簡轉繁後的判讀失誤，二是人名的錯誤斷詞。第一個問題，我們可以先讓斷詞引擎斷完，我們再翻譯語料庫中的詞彙。第二個問題我們則要加入相關字詞的字庫來調整斷詞。