# Embedding Layer

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [2]:
docs = [
    "新的數學方法和概念，常常比解決數學問題本身更重要。",
    "在數學中，我們發現真理的主要工具是歸納和模擬。",
    "數學方法滲透並支配著一切自然科學的理論分支。它愈來愈成為衡量科學成就的主要標志了。",
    "第一是數學，第二是數學，第三是數學。",
    "歷史使人賢明，詩造成氣質高雅的人，數學使人高尚，自然哲學使人深沈，道德使人穩重，而倫理學和修辭學則使人善於爭論。"
       ]

In [3]:
import jieba
words_list = [list(jieba.cut(doc)) for doc in docs]
print(words_list)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Student\AppData\Local\Temp\jieba.cache
Loading model cost 0.483 seconds.
Prefix dict has been built successfully.


[['新', '的', '數學', '方法', '和', '概念', '，', '常常', '比解', '決數學', '問題', '本身', '更', '重要', '。'], ['在', '數學', '中', '，', '我們', '發現', '真理', '的', '主要', '工具', '是', '歸納', '和', '模擬', '。'], ['數學', '方法', '滲透並', '支配', '著', '一切', '自然科', '學', '的', '理論', '分支', '。', '它', '愈來', '愈成', '為', '衡量', '科學', '成就', '的', '主要', '標志', '了', '。'], ['第一', '是', '數學', '，', '第二', '是', '數學', '，', '第三', '是', '數學', '。'], ['歷史', '使', '人賢明', '，', '詩', '造成', '氣質', '高雅', '的', '人', '，', '數學', '使', '人', '高尚', '，', '自然', '哲學', '使', '人', '深沈', '，', '道德', '使人', '穩重', '，', '而倫理學', '和', '修辭', '學則', '使', '人善', '於', '爭論', '。']]


In [6]:
# build word dictionary
vocb = set([word for words in words_list for word in words])
print(vocb)
word_to_idx = {word: i for i, word in enumerate(vocb)}
idx_to_word = {word_to_idx[word]: word for word in word_to_idx}
print(vocb)

{'爭論', '一切', '高尚', '問題', '學則', '常常', '滲透並', '詩', '人善', '和', '自然科', '使', '歷史', '主要', '高雅', '它', '中', '成就', '哲學', '分支', '本身', '方法', '重要', '深沈', '穩重', '在', '第三', '的', '支配', '數學', '概念', '衡量', '人', '模擬', '比解', '第一', '自然', '決數學', '工具', '是', '道德', '，', '而倫理學', '愈來', '為', '了', '造成', '更', '科學', '新', '愈成', '學', '理論', '第二', '人賢明', '使人', '發現', '著', '氣質', '修辭', '於', '標志', '歸納', '。', '我們', '真理'}
{'爭論', '一切', '高尚', '問題', '學則', '常常', '滲透並', '詩', '人善', '和', '自然科', '使', '歷史', '主要', '高雅', '它', '中', '成就', '哲學', '分支', '本身', '方法', '重要', '深沈', '穩重', '在', '第三', '的', '支配', '數學', '概念', '衡量', '人', '模擬', '比解', '第一', '自然', '決數學', '工具', '是', '道德', '，', '而倫理學', '愈來', '為', '了', '造成', '更', '科學', '新', '愈成', '學', '理論', '第二', '人賢明', '使人', '發現', '著', '氣質', '修辭', '於', '標志', '歸納', '。', '我們', '真理'}


In [5]:
print(word_to_idx)

{'衡量': 0, '愈來': 1, '人賢明': 2, '，': 3, '我們': 4, '是': 5, '方法': 6, '深沈': 7, '為': 8, '真理': 9, '著': 10, '在': 11, '歸納': 12, '學': 13, '標志': 14, '常常': 15, '理論': 16, '道德': 17, '它': 18, '數學': 19, '本身': 20, '而倫理學': 21, '工具': 22, '高尚': 23, '科學': 24, '主要': 25, '的': 26, '成就': 27, '歷史': 28, '人': 29, '中': 30, '使': 31, '比解': 32, '自然': 33, '修辭': 34, '滲透並': 35, '人善': 36, '支配': 37, '新': 38, '哲學': 39, '第二': 40, '造成': 41, '高雅': 42, '一切': 43, '氣質': 44, '決數學': 45, '使人': 46, '第三': 47, '詩': 48, '問題': 49, '自然科': 50, '分支': 51, '。': 52, '模擬': 53, '更': 54, '了': 55, '概念': 56, '重要': 57, '第一': 58, '爭論': 59, '和': 60, '愈成': 61, '發現': 62, '穩重': 63, '學則': 64, '於': 65}


In [6]:
print(idx_to_word)

{0: '衡量', 1: '愈來', 2: '人賢明', 3: '，', 4: '我們', 5: '是', 6: '方法', 7: '深沈', 8: '為', 9: '真理', 10: '著', 11: '在', 12: '歸納', 13: '學', 14: '標志', 15: '常常', 16: '理論', 17: '道德', 18: '它', 19: '數學', 20: '本身', 21: '而倫理學', 22: '工具', 23: '高尚', 24: '科學', 25: '主要', 26: '的', 27: '成就', 28: '歷史', 29: '人', 30: '中', 31: '使', 32: '比解', 33: '自然', 34: '修辭', 35: '滲透並', 36: '人善', 37: '支配', 38: '新', 39: '哲學', 40: '第二', 41: '造成', 42: '高雅', 43: '一切', 44: '氣質', 45: '決數學', 46: '使人', 47: '第三', 48: '詩', 49: '問題', 50: '自然科', 51: '分支', 52: '。', 53: '模擬', 54: '更', 55: '了', 56: '概念', 57: '重要', 58: '第一', 59: '爭論', 60: '和', 61: '愈成', 62: '發現', 63: '穩重', 64: '學則', 65: '於'}


In [7]:
vocb_size = len(vocb)  # 66
embedding_size = 200
embeds = nn.Embedding(vocb_size, embedding_size) 
print(embeds)

66
Embedding(66, 200)


In [8]:
word_to_idx["數學"]

19

In [8]:
look_up = torch.LongTensor([word_to_idx["數學"]])
print(embeds(look_up).shape)
print(embeds(look_up))

# 還沒train過 其實這向量沒有意義

torch.Size([1, 200])
tensor([[-7.8346e-01,  9.8232e-01, -1.2130e-01,  2.1810e-01, -6.9415e-02,
          1.6978e+00, -2.4325e-01, -2.4060e-01,  1.9885e+00, -2.6022e-02,
         -4.1901e-01, -1.3125e-01,  1.1121e+00,  1.2121e-02,  1.4913e+00,
          1.5119e-01, -1.2651e-01, -6.3120e-01, -9.4133e-01,  6.7252e-01,
         -2.9765e-01, -9.5471e-01,  5.5764e-01, -4.9128e-01, -6.2335e-01,
          3.4183e-01,  8.1355e-01, -1.9768e+00,  1.6110e+00,  1.6581e+00,
         -1.4435e-01,  4.1550e-01, -1.0098e+00, -1.3490e+00, -1.4543e+00,
         -1.4047e+00,  1.1309e+00,  8.7460e-01,  3.4590e-01, -1.9791e+00,
         -4.3906e-01, -1.9337e-01,  1.6910e-01, -8.2671e-01,  1.0557e+00,
         -4.8144e-01,  4.7116e-01,  6.4566e-01, -3.4474e-01,  4.1806e-03,
          1.7940e-01, -1.7304e-01,  1.3098e+00, -5.4056e-01, -1.5260e+00,
          2.4461e-01,  1.0570e+00,  3.3756e-01, -5.9510e-01, -3.2188e-01,
          1.1966e-01,  1.5973e+00, -7.2256e-01, -2.3459e-01,  4.3433e-01,
         -4.8255e

# Use pre-trained word2vect 

In [9]:
import gensim
from gensim.models import Word2Vec
import gensim.downloader as api

# download the model and return as object ready for use
word2vec_model = api.load("glove-twitter-25")
#word2vec_model = gensim.models.KeyedVectors.load("news.word2vec")

In [10]:
embedding_shape = word2vec_model.vectors.shape
print(embedding_shape)

(1193514, 25)


In [12]:
import torch.nn as nn
import torch
#initialized embedding layer
embed = nn.Embedding(embedding_shape[0], embedding_shape[1])

#copy pre-trained word2vect model
embed.weight.data.copy_(torch.from_numpy(word2vec_model.vectors))

#freeze weight
embed.weight.requires_grad = False

In [13]:
index = word2vec_model.key_to_index["happy"]
#查表
print(embed(torch.LongTensor([index])).shape)
print(embed(torch.LongTensor([index])))

torch.Size([1, 25])
tensor([[-1.2304,  0.4831,  0.1410, -0.0295, -0.6525, -0.1855,  2.1033,  1.7516,
         -1.3001, -0.3211, -0.8477,  0.4200, -3.8823,  0.1964, -0.7286, -0.8527,
          0.2317, -1.0763, -0.8302,  0.1081, -0.5102,  0.2769, -1.1895,  0.9809,
         -0.1396]])


In [14]:
print(index)

177


In [15]:
word2vec_model.vectors[5160]

array([ 0.20555 ,  0.14291 ,  0.72309 , -0.82082 , -0.48214 ,  0.36303 ,
       -0.348   ,  2.2456  , -1.0749  , -0.79381 ,  0.33621 , -2.4247  ,
       -0.44681 , -0.70426 ,  1.3172  ,  0.48233 ,  0.074172, -0.15488 ,
        0.40502 , -0.29675 ,  0.89252 , -2.0936  ,  0.75108 ,  0.44415 ,
        0.83416 ], dtype=float32)

# Word to Indexes

In [16]:
docs = [["i","am","good","guy"],["delicious","food"]]

for doc in docs:
    for word in doc:
        word2vec_model.key_to_index[word]
indexes = [[word2vec_model.key_to_index[word] for word in doc] for doc in docs]
print(indexes)

[[10, 225, 117, 635], [6111, 656]]


In [18]:
import numpy as np
np_indexes = (np.array(indexes))
print(np_indexes)

[list([10, 225, 117, 635]) list([6111, 656])]
