### Module 15: NLP & Word2vec :  Embedding Layer

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [2]:
docs = [
    "新的數學方法和概念，常常比解決數學問題本身更重要。",
    "在數學中，我們發現真理的主要工具是歸納和模擬。",
    "數學方法滲透並支配著一切自然科學的理論分支。它愈來愈成為衡量科學成就的主要標志了。",
    "第一是數學，第二是數學，第三是數學。",
    "歷史使人賢明，詩造成氣質高雅的人，數學使人高尚，自然哲學使人深沈，道德使人穩重，而倫理學和修辭學則使人善於爭論。"
       ]

In [3]:
import jieba
words_list = [list(jieba.cut(doc)) for doc in docs]
print(words_list)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.cache
Loading model cost 0.647 seconds.
Prefix dict has been built successfully.


[['新', '的', '數學', '方法', '和', '概念', '，', '常常', '比解', '決數學', '問題', '本身', '更', '重要', '。'], ['在', '數學', '中', '，', '我們', '發現', '真理', '的', '主要', '工具', '是', '歸納', '和', '模擬', '。'], ['數學', '方法', '滲透並', '支配', '著', '一切', '自然科', '學', '的', '理論', '分支', '。', '它', '愈來', '愈成', '為', '衡量', '科學', '成就', '的', '主要', '標志', '了', '。'], ['第一', '是', '數學', '，', '第二', '是', '數學', '，', '第三', '是', '數學', '。'], ['歷史', '使', '人賢明', '，', '詩', '造成', '氣質', '高雅', '的', '人', '，', '數學', '使', '人', '高尚', '，', '自然', '哲學', '使', '人', '深沈', '，', '道德', '使人', '穩重', '，', '而倫理學', '和', '修辭', '學則', '使', '人善', '於', '爭論', '。']]


In [4]:
# build word dictionary
vocb = set([word for words in words_list for word in words])
word_to_idx = {word: i for i, word in enumerate(vocb)}
idx_to_word = {word_to_idx[word]: word for word in word_to_idx}
print(vocb)

{'自然科', '哲學', '了', '道德', '而倫理學', '愈來', '主要', '第三', '學則', '高雅', '於', '新', '數學', '決數學', '為', '穩重', '，', '概念', '更', '第二', '它', '理論', '歷史', '詩', '自然', '深沈', '真理', '修辭', '和', '我們', '本身', '發現', '支配', '工具', '人賢明', '高尚', '爭論', '在', '模擬', '一切', '方法', '衡量', '科學', '使人', '。', '的', '問題', '歸納', '分支', '著', '滲透並', '學', '愈成', '人善', '造成', '中', '比解', '重要', '是', '標志', '氣質', '常常', '成就', '第一', '使', '人'}


In [5]:
print(word_to_idx)

{'自然科': 0, '哲學': 1, '了': 2, '道德': 3, '而倫理學': 4, '愈來': 5, '主要': 6, '第三': 7, '學則': 8, '高雅': 9, '於': 10, '新': 11, '數學': 12, '決數學': 13, '為': 14, '穩重': 15, '，': 16, '概念': 17, '更': 18, '第二': 19, '它': 20, '理論': 21, '歷史': 22, '詩': 23, '自然': 24, '深沈': 25, '真理': 26, '修辭': 27, '和': 28, '我們': 29, '本身': 30, '發現': 31, '支配': 32, '工具': 33, '人賢明': 34, '高尚': 35, '爭論': 36, '在': 37, '模擬': 38, '一切': 39, '方法': 40, '衡量': 41, '科學': 42, '使人': 43, '。': 44, '的': 45, '問題': 46, '歸納': 47, '分支': 48, '著': 49, '滲透並': 50, '學': 51, '愈成': 52, '人善': 53, '造成': 54, '中': 55, '比解': 56, '重要': 57, '是': 58, '標志': 59, '氣質': 60, '常常': 61, '成就': 62, '第一': 63, '使': 64, '人': 65}


In [6]:
print(idx_to_word)

{0: '自然科', 1: '哲學', 2: '了', 3: '道德', 4: '而倫理學', 5: '愈來', 6: '主要', 7: '第三', 8: '學則', 9: '高雅', 10: '於', 11: '新', 12: '數學', 13: '決數學', 14: '為', 15: '穩重', 16: '，', 17: '概念', 18: '更', 19: '第二', 20: '它', 21: '理論', 22: '歷史', 23: '詩', 24: '自然', 25: '深沈', 26: '真理', 27: '修辭', 28: '和', 29: '我們', 30: '本身', 31: '發現', 32: '支配', 33: '工具', 34: '人賢明', 35: '高尚', 36: '爭論', 37: '在', 38: '模擬', 39: '一切', 40: '方法', 41: '衡量', 42: '科學', 43: '使人', 44: '。', 45: '的', 46: '問題', 47: '歸納', 48: '分支', 49: '著', 50: '滲透並', 51: '學', 52: '愈成', 53: '人善', 54: '造成', 55: '中', 56: '比解', 57: '重要', 58: '是', 59: '標志', 60: '氣質', 61: '常常', 62: '成就', 63: '第一', 64: '使', 65: '人'}


In [7]:
vocb_size = len(vocb)
embedding_size = 200
embeds = nn.Embedding(vocb_size, embedding_size) 
print(embeds)

Embedding(66, 200)


In [8]:
word_to_idx["數學"]

12

In [9]:
look_up = torch.LongTensor([word_to_idx["數學"]])
print(embeds(look_up).shape)
print(embeds(look_up))

torch.Size([1, 200])
tensor([[ 2.0963,  0.1981, -1.7784,  1.0103, -2.1503, -0.3864, -1.3740, -0.8644,
         -1.2454,  0.8026,  0.1935, -0.6487,  0.7849, -1.1615, -1.2914, -0.3952,
         -0.8804,  1.3720,  0.9693, -0.3596,  0.3632, -0.8033, -1.7070, -0.3065,
          0.1396,  0.8496,  0.8920, -0.8671, -0.9784,  2.3705,  1.9180,  0.5076,
         -0.4949,  1.0286, -0.7519,  0.1273, -0.6449, -0.4252,  0.0296,  0.6249,
         -0.5070,  2.3412,  0.3954, -0.8889, -1.1631, -0.3813, -0.6472, -0.1931,
         -1.7338,  0.5116, -0.5269,  0.1209, -0.4763,  1.0263,  0.0412,  0.8848,
          0.2248, -0.4626, -2.9310,  0.3479,  0.5311,  2.1211, -0.5958, -0.2230,
         -1.6773,  0.2350,  0.2947, -0.3127,  0.3329,  0.4304,  1.0236, -0.5136,
         -0.4097,  0.2150,  0.4288,  0.5572,  2.0048,  0.0365, -1.8211, -0.4501,
         -0.8413, -1.0694, -0.1263,  2.0551,  0.2505,  1.5999,  0.1556, -0.5356,
         -1.1692,  0.2557, -0.3139,  0.5163,  0.1416,  1.6194, -0.5456, -1.1551,
       

# Use pre-trained word2vect 

In [10]:
import gensim
from gensim.models import Word2Vec
import gensim.downloader as api

# download the model and return as object ready for use
word2vec_model = api.load("glove-twitter-25")
#word2vec_model = gensim.models.KeyedVectors.load("news.word2vec")



In [11]:
embedding_shape = word2vec_model.vectors.shape
print(embedding_shape)

(1193514, 25)


In [12]:
import torch.nn as nn
import torch
#initialized embedding layer
embed = nn.Embedding(embedding_shape[0], embedding_shape[1])

#copy pre-trained word2vect model
embed.weight.data.copy_(torch.from_numpy(word2vec_model.vectors))

#freeze weight
embed.weight.requires_grad = False

In [13]:
index = word2vec_model.key_to_index["happy"]
#查表
print(embed(torch.LongTensor([index])).shape)
print(embed(torch.LongTensor([index])))

torch.Size([1, 25])
tensor([[-1.2304,  0.4831,  0.1410, -0.0295, -0.6525, -0.1855,  2.1033,  1.7516,
         -1.3001, -0.3211, -0.8477,  0.4200, -3.8823,  0.1964, -0.7286, -0.8527,
          0.2317, -1.0763, -0.8302,  0.1081, -0.5102,  0.2769, -1.1895,  0.9809,
         -0.1396]])


In [14]:
print(index)

177


In [15]:
word2vec_model.vectors[5160]

array([ 0.20555 ,  0.14291 ,  0.72309 , -0.82082 , -0.48214 ,  0.36303 ,
       -0.348   ,  2.2456  , -1.0749  , -0.79381 ,  0.33621 , -2.4247  ,
       -0.44681 , -0.70426 ,  1.3172  ,  0.48233 ,  0.074172, -0.15488 ,
        0.40502 , -0.29675 ,  0.89252 , -2.0936  ,  0.75108 ,  0.44415 ,
        0.83416 ], dtype=float32)

# Word to Indexes

In [16]:
docs = [["i","am","good","guy"],["delicious","food"]]

for doc in docs:
    for word in doc:
        word2vec_model.key_to_index[word]
indexes = [[word2vec_model.key_to_index[word] for word in doc] for doc in docs]
print(indexes)

[[10, 225, 117, 635], [6111, 656]]


In [18]:
import numpy as np
np_indexes = (np.array(indexes))
print(np_indexes)

[list([10, 225, 117, 635]) list([6111, 656])]
