## Word Embedding
- Word Embedding (詞嵌入) 是自然語言處理 (NLP) 當中經常會使用到的一種『技術』，其核心概念為『將文字轉成數值型態』
- One-hot encoding、Word2Vec、Doc2Vec、Glove、FastText、ELMO、GPT、BERT
https://clay-atlas.com/blog/2019/11/26/nlp-word-embedding-%E7%AD%86%E8%A8%98/

## Word2vec
- Word2vec 依靠了 skip-gram 與 Continuous Bag of Word (CBOW) 的方法來實作，核心是一個極為淺層的類神經網路。透過使每個字詞與前後字詞的向量相近，來訓練出含有每個字詞語義的字詞向量。
- https://medium.com/life-of-small-data-engineer/%E8%83%BD%E8%A2%AB%E9%9B%BB%E8%85%A6%E7%90%86%E8%A7%A3%E7%9A%84%E6%96%87%E5%AD%97-nlp-%E4%B8%80-word-embedding-4146267019cb

In [None]:
!pip install jieba

In [None]:
!pip install gensim

In [None]:
!mkdir jieba_data

In [None]:
!wget https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big -O jieba_data/dict.txt.big

------------------------------------------------------
# 載入 jieba 函式庫、文章

In [1]:
import jieba
import time

# 載入繁體中文詞庫
jieba.set_dictionary('jieba_data/dict.txt.big')

# 開檔
fileAllLines = []
with open('Three Kingdoms.txt') as fileLine:
    for line in fileLine:
        #print(line)
        fileAllLines.append(line)

fileAllLines

['《三國演義》作者：羅貫中\n',
 '\n',
 '簡介\n',
 '\u3000\u3000三國演義是一本長篇歷史小說，可以說是中國古代長篇章回小說的開山之作，亦是四大名著之一。作者是明朝的羅貫中。故事自黃巾起義起，終於西晉統一。是書陳敘百年，賅括萬事，七實三虛。三國指的是魏，蜀，吳。小說通篇精巧敘述謀略，被譽為中國謀略全書。\n',
 '\u3000\u3000羅貫中（1330年一1400年之間），名本，號湖海散人，明代通俗小說家。他的籍貫一說是太原（今山西），一說是錢塘（今浙江杭州），不可確考。據傳說，羅貫中曾充任過元末農民起義軍張士誠的幕客．除《三國誌通俗演義》外，他還創作有《隋唐志傳》等通俗小說和《趙太祖龍虎風雲會》等戲劇。另外，有相當一部分人認為《水滸傳》後三十回也是其所作。\n',
 '\n',
 '目錄\n',
 '\n',
 '第001回\u3000宴桃園豪傑三結義\u3000斬黃巾英雄首立功 第002回\u3000張翼德怒鞭督郵\u3000何國舅謀誅宦豎 \n',
 '第003回\u3000議溫明董卓叱丁原\u3000饋金珠李肅說呂布 第004回\u3000廢漢帝陳留踐位\u3000謀董賊孟德獻刀 \n',
 '第005回\u3000發矯詔諸鎮應曹公\u3000破關兵三英戰呂布 第006回\u3000焚金闕董卓行兇\u3000匿玉璽孫堅背約 \n',
 '第007回\u3000袁紹磐河戰公孫\u3000孫堅跨江擊劉表 第008回\u3000王司徒巧使連環計\u3000董太師大鬧鳳儀亭 \n',
 '第009回\u3000除暴凶呂布助司徒\u3000犯長安李傕聽賈詡 第010回\u3000勤王室馬騰舉義\u3000報父仇曹操興師 \n',
 '第011回\u3000劉皇叔北海救孔融\u3000呂溫侯濮陽破曹操 第012回\u3000陶恭祖三讓徐州\u3000曹孟穗大戰呂布 \n',
 '第013回\u3000李傕郭汜大交兵\u3000楊奉董承雙救駕 第014回\u3000曹孟德移駕幸許都\u3000呂奉先乘夜襲徐郡 \n',
 '第015回\u3000太史慈酣鬥小霸王\u3000孫伯符大戰嚴白虎 第016回\u3000呂奉先射戟轅門\u3000曹孟德敗師淯水 \n',
 '第017回\u3000袁公路大起七軍\u3000曹孟德會合三將 第018

------------------------------------------------------
# 進行斷字斷詞
- 詞性說明: https://gist.github.com/luw2007/6016931

In [2]:
# 斷詞 (要跑10分鐘)

start_time = time.time()
import jieba.posseg as pseg #詞性標註

jieba.enable_parallel(4)  #平行計算 開啟並行分詞模式，參數為並行進程數

seg = []
for i in range(len(fileAllLines)):
    #cut_list = list( jieba.cut(fileAllLines[i], cut_all = False) )
    #seg.append([' '.join([ item for item in cut_list if len(item) > 1 ])])
    cut_result = list(pseg.cut(fileAllLines[i], use_paddle=False))
    
    each_line_list = []
    for w, p in cut_result:
        #只留下相關的詞性，其他詞性都丟掉
        if p in ['n', 'nr','ns','nt','nz','nl','ng', 't', 's','vn']:   
            #print("%s: %s"%(w, p))
            each_line_list.append(w)
    
    new_line = ' '.join(each_line_list)
    #print(new_line)
    seg.append(new_line)
    
print("--- spend %s seconds ---" % (time.time() - start_time))

Building prefix dict from /home/jovyan/work/jieba_data/dict.txt.big ...
Loading model from cache /tmp/jieba.ud3c40470d3518910bfd0dc86d865fad4.cache
Loading model cost 1.858 seconds.
Prefix dict has been built successfully.


--- spend 616.5098111629486 seconds ---


In [3]:
#總共幾個詞
print(len(seg)) 

6001


In [4]:
seg = [ s for s in seg if len(s) > 0] 
seg

['三國演義 作者 羅貫中',
 '三國演義 中國 古代 章回小說 開山 作 作者 明朝 羅貫中 故事 黃巾起義 西晉 統一 書 陳敘 萬事 三國 魏 吳 小說 通篇 謀略 中國 謀略 全書',
 '羅貫中 名本 湖海 散人 明代 籍貫 太原 山西 錢塘 浙江 杭州 據傳說 羅貫中 過元末 農民 起義軍 張士誠 幕客 三國 通俗 演義 創作 隋唐 志傳 太祖 龍虎風雲 戲劇 人 水滸傳 作',
 '目錄',
 '宴 桃園 結義 黃巾 英雄 立功 張翼德 鞭督 郵 何國舅 宦',
 '議溫 董卓 饋金 珠 李肅 呂布 漢帝 陳留 董賊 孟德獻刀',
 '矯詔 諸鎮 曹公 兵 戰呂布 金闕 董卓 行兇 玉璽 孫堅 背約',
 '袁紹 磐河 戰 公孫 孫堅 江 劉表 王司徒 董 太師 鳳儀亭',
 '除暴 呂布 司徒 長安 李 賈 王室 馬騰 報父仇 曹操 興師',
 '劉皇叔 北海 孔融 呂溫侯 濮陽 曹操 陶恭祖 徐州 曹孟穗 戰呂布',
 '李 郭 交兵 楊奉 董承雙 曹孟德 呂奉先 徐郡',
 '太史慈 小霸王 孫伯符 大戰 嚴白虎 呂奉先 射戟 轅門 曹孟德 師 水',
 '袁 公路 軍 曹孟德 賈文 料 敵 夏侯惇 矢 睛',
 '邳城 曹操 白門樓 呂布 曹阿 許田 董國舅 內閣 詔',
 '曹操 酒論 英雄 關公 城 車胄 袁 曹 關張 擒王 劉二',
 '衣 賊 吉 太醫 國賊 行兇 貴妃 皇叔 投 袁紹',
 '屯 土山 關公 事 白馬 曹操 重圍 袁本初 敗兵 關雲長 封金',
 '美髯公 走單騎 漢壽 侯 五關 蔡陽 兄弟 古城 主臣 聚義',
 '小霸王 於吉 碧 眼兒 江東 戰 官渡 本初 敗績 烏巢 孟德 糧',
 '曹操 倉 亭 本初 玄德 荊州 劉表 冀州 袁尚 漳河',
 '曹丕 甄氏 郭嘉遺 遼東 蔡夫人 屏 密語 劉皇叔 過檀溪',
 '玄德 南漳 單福 新野 英主 玄德 樊城 走馬 諸葛',
 '司馬徽 名士 劉玄德 隆中 決策 戰 長江 孫氏',
 '荊州 城 公子 博望坡 軍師 用兵 蔡夫人 議獻 荊州 諸葛亮 火燒 新野',
 '劉玄德 攜民 渡江 趙子龍 單騎 張翼德 長阪 橋 劉豫州 漢津口',
 '諸葛亮 舌戰 群儒 魯子敬 眾議 孔明 周瑜 孫權 曹操',
 '三江口 曹操 折兵 群英 蔣干 奇謀 孔明 借箭 黃蓋'

#### 準備存檔，將斷好的字詞存下來。先刪除之前留下的紀錄檔案(segDone.txt)

In [5]:
!rm -f segDone.txt

## 斷詞結果存檔

In [6]:
# 斷詞結果 存檔
segSaveFile = 'segDone.txt'
with open(segSaveFile, 'wb') as saveFile:
    for i in range(len(seg)):
        #words = seg[i][0].encode('utf-8')
        words = seg[i].encode('utf-8')
        
        if len(words) > 0:
            saveFile.write(words)
            saveFile.write('\n'.encode())

In [7]:
!head -10 segDone.txt

三國演義 作者 羅貫中
三國演義 中國 古代 章回小說 開山 作 作者 明朝 羅貫中 故事 黃巾起義 西晉 統一 書 陳敘 萬事 三國 魏 吳 小說 通篇 謀略 中國 謀略 全書
羅貫中 名本 湖海 散人 明代 籍貫 太原 山西 錢塘 浙江 杭州 據傳說 羅貫中 過元末 農民 起義軍 張士誠 幕客 三國 通俗 演義 創作 隋唐 志傳 太祖 龍虎風雲 戲劇 人 水滸傳 作
目錄
宴 桃園 結義 黃巾 英雄 立功 張翼德 鞭督 郵 何國舅 宦
議溫 董卓 饋金 珠 李肅 呂布 漢帝 陳留 董賊 孟德獻刀
矯詔 諸鎮 曹公 兵 戰呂布 金闕 董卓 行兇 玉璽 孫堅 背約
袁紹 磐河 戰 公孫 孫堅 江 劉表 王司徒 董 太師 鳳儀亭
除暴 呂布 司徒 長安 李 賈 王室 馬騰 報父仇 曹操 興師
劉皇叔 北海 孔融 呂溫侯 濮陽 曹操 陶恭祖 徐州 曹孟穗 戰呂布


In [8]:
!cat segDone.txt | wc -c

751665


------------------------------------------------------------
# 載入word2vec 函式庫
- 參考網頁：https://radimrehurek.com/gensim/models/word2vec.html
- 參數：https://www.kaggle.com/jerrykuo7727/word2vec
1. 一行一個句子，句子中的字必須預先處理好並以"空白"隔開

In [9]:
from gensim.models import word2vec

#一行一行的從檔案中取出句子：
#一行一個句子，句子中的字必須預先處理好並以空白隔開
sentences = word2vec.LineSentence("segDone.txt")

### word2vec訓練模型 參數
- size: 向量維度 = 300
- sg: 0(CBOW 挖掉1字 用上下文判斷是誰), 1(Skip-gram 給1個字問前後字是誰)
- window 文字會往前往後看幾個字，來確定字的意思

In [10]:
start_time = time.time()
model = word2vec.Word2Vec(sentences, size=300, sg=1, window=10, workers=3, min_count=2)  

print("--- spend %s seconds ---" % (time.time() - start_time))
model

--- spend 24.797760486602783 seconds ---


<gensim.models.word2vec.Word2Vec at 0x7f77082b5160>

### 儲存訓練好的word2vec 模型

In [11]:
model.save("word2vec.model")

#corpus總共幾字
model.corpus_total_words

114600

# 詞相似度 (在這向量周圍的有哪些)

In [12]:
 #找相似詞 & 相似度
model.wv.most_similar('赤壁') 

[('凌操', 0.9963431358337402),
 ('黃祖部', 0.9937536120414734),
 ('權命', 0.9933727979660034),
 ('蘇飛', 0.9929556846618652),
 ('孫韶', 0.9929320216178894),
 ('朱治', 0.9927619695663452),
 ('前驅', 0.9927304983139038),
 ('壽春', 0.9926618337631226),
 ('韓當', 0.9925028085708618),
 ('山賊', 0.9920915961265564)]

In [13]:
model.wv.similar_by_word('赤壁')

[('凌操', 0.9963431358337402),
 ('黃祖部', 0.9937536120414734),
 ('權命', 0.9933727979660034),
 ('蘇飛', 0.9929556846618652),
 ('孫韶', 0.9929320216178894),
 ('朱治', 0.9927619695663452),
 ('前驅', 0.9927304983139038),
 ('壽春', 0.9926618337631226),
 ('韓當', 0.9925028085708618),
 ('山賊', 0.9920915961265564)]

In [14]:
#算兩字相似度
model.wv.similarity('曹操','呂布')

0.5012141

In [15]:
#input_string = input('關鍵字:')
#model.wv.similar_by_word(input_string)

# 詞預測
有點像N-gram會預測下個詞是誰，但因為此處在斷詞時，已把連接詞拿掉，所以結果會有點怪

In [16]:
result = model.predict_output_word('關羽')
result

[('司馬懿', 0.00056044763),
 ('漢中', 0.00046418793),
 ('魏延', 0.00045864336),
 ('魏兵', 0.00041093738),
 ('汝', 0.0004092757),
 ('孔明', 0.0003957623),
 ('黃忠', 0.00038988257),
 ('孔明曰', 0.00038590367),
 ('魏', 0.0003812404),
 ('忠', 0.0003678931)]

# 類推 (analogy)
- Q：已知A1.A2兩點，給B1點 要用類推找出B2
- A：在項量裡 計算A1點~A2點 之間的距離，用這之間的向量 去平移到B1點，就可得出B2

#### [範例] 用英文為基百科做的
https://radimrehurek.com/gensim/models/keyedvectors.html

In [17]:
import gensim.downloader as api

# load pre-trained word-vectors from gensim-data
word_vectors = api.load("glove-wiki-gigaword-100")  

#在woman跟king之間拉出一條關係，然後類似的就推薦，相似度最高1
result = word_vectors.most_similar(positive=['woman', 'king'], negative=['man'])  
print("{}: {:.4f}".format(*result[0]))

result = word_vectors.most_similar_cosmul(positive=['woman', 'king'], negative=['man'])
print("{}: {:.4f}".format(*result[0]))

queen: 0.7699
queen: 0.8965


In [18]:
# 用類推方式 找出孫權和哪個詞 就像曹操和孔明間的向量相似

ans1 = model.wv.most_similar(positive=['曹操','孔明'], negative=['孫權'])
print("%s: %s"%(ans1[0]))

馬謖: 0.8931182622909546


### 把model降維度 (訓練時為300維，因為後面視覺化要用2維呈現)

In [19]:
from sklearn.decomposition import IncrementalPCA    # inital reduction
from sklearn.manifold import TSNE                   # final reduction
import numpy as np                                  # array handling


#要跑比較久
def reduce_dimensions(model):
    num_dimensions = 2  # final num dimensions (2D, 3D, etc)

    vectors = [] # positions in vector space
    labels = [] # keep track of words to label our data again later
    for word in model.wv.vocab:
        vectors.append(model.wv[word])
        labels.append(word)

    # convert both lists into numpy vectors for reduction
    vectors = np.asarray(vectors)
    labels = np.asarray(labels)

    # reduce using t-SNE
    vectors = np.asarray(vectors)
    tsne = TSNE(n_components=num_dimensions, random_state=0)
    vectors = tsne.fit_transform(vectors)

    x_vals = [v[0] for v in vectors]
    y_vals = [v[1] for v in vectors]
    return x_vals, y_vals, labels


x_vals, y_vals, labels = reduce_dimensions(model)

In [20]:
print(x_vals[:10]) #只看10個 X座標
print(y_vals[:10])
print(labels)

[-98.313065, -95.56786, -77.900375, 31.596209, 24.055567, 15.011341, 52.393993, -63.698204, -68.592415, 56.65794]
[28.43049, 25.957169, 9.240287, -49.96548, 55.64185, -66.207985, -59.267334, -6.518906, -21.66282, -23.85668]
['三國演義' '作者' '羅貫中' ... '陸景' '周旨' '張象']


# 模型視覺化

In [None]:
!pip install plotly

In [21]:
def plot_with_plotly(x_vals, y_vals, labels, plot_in_notebook=True):
    from plotly.offline import init_notebook_mode, iplot, plot
    import plotly.graph_objs as go

    trace = go.Scatter(x=x_vals, y=y_vals, mode='text', text=labels)
    data = [trace]

    if plot_in_notebook:
        init_notebook_mode(connected=True)
        iplot(data, filename='word-embedding-plot')
    else:
        plot(data, filename='word-embedding-plot.html')


def plot_with_matplotlib(x_vals, y_vals, labels):
    import matplotlib.pyplot as plt
    import random

    random.seed(0)

    plt.figure(figsize=(12, 12))
    plt.scatter(x_vals, y_vals)

    #
    # Label randomly subsampled 25 data points
    #
    indices = list(range(len(labels)))
    selected_indices = random.sample(indices, 25)
    for i in selected_indices:
        plt.annotate(labels[i], (x_vals[i], y_vals[i]))

try:
    get_ipython()
except Exception:
    plot_function = plot_with_matplotlib
else:
    plot_function = plot_with_plotly

plot_function(x_vals, y_vals, labels)