## 作業目標: 透過思考與回答以更加了解計數方法的詞向量

word embedding
多數的機器學習與深度學習的演算法都無法處理原始格式的字符和文本(string type)，因此我們需要將字符與文本轉化為數字(向量形式)才能
輸入模型進行如分類或回歸的任務，

詞嵌入根據方法的不同主要可以分為以下三類：

詞庫手法 (ex: WordNet)
計數手法 (ex: 共現矩陣、PPMI)
推論手法 (ex: word2vec)

### 請問詞庫手法會有什麼樣的優缺點？

詞庫手法為創建包含大量字詞的詞庫，將相同意思字詞(同義字)或相似意思字詞(相似字)分類在相同群組。

優點:
1.較為直觀當收集完詞庫後，將字詞轉換為向量較為容易
2.加以建立上下層關係定義字詞關聯性

缺點:
1.建立詞庫需要大量人力維護與時間成本
2.無法辨識新產生的詞
3.須以人工更新和維護詞庫
4.人為錯誤難以處理

### 請問共現矩陣有什麼樣的優缺點？ 

根據分佈假說，相似的字詞會有類似的上下文，因此我們可以透過計數周圍(window)的字詞來表達特定字詞的向量。

優點:
1.保留詞義與字詞間的關係 2.可以看到文字之前的關聯性

缺點:
1.矩陣維度龐大，需要大量的內存
2.對高頻詞效果較差（ex: “the apple“可能經常出現，但”the”跟”apple”的關聯性是不高的）

### 請問為何需要對共現矩陣或PPMI進行SVD降維?

PMI 的公式可以發現當兩個字詞的共生次數為 0 時，會產生負無窮大的輸出，為了修這樣的問題，將 PMI 改為 Positive PMI。
這兩種矩陣大部分為稀疏矩陣(sparse matrix)。因此可以透過SVD可以將這樣的矩陣降維，藉此達到重要特徵提取的功用。

### 實作cosine similarity

在比較兩個詞向量的相似度時可以使用cosine similarity:
$$
similarity(x,y) = \frac{x \cdot y}{||x||||y||} = \frac{x_1y_1+...+x_ny_n}{\sqrt{x_1^2+...+x_n^2}\sqrt{y_1^2+...+y_n^2}}
$$

請實作cosine similarity並計算共現矩陣課程範例中you向量([0,1,0,0,0,0,0])與I([0,1,0,1,0,0,0])向量的相似度

In [2]:
import numpy as np
I = np.array([0,1,0,0,0,0,0])
You = np.array([0,1,0,1,0,0,0])

def cos_similarity(x, y, eps=1e-8):
   return np.dot(x/np.sqrt(np.sum(x**2) + eps), y/np.sqrt(np.sum(y**2) + eps))

print(f"Similarity: {cos_similarity(I, You)}")

Similarity: 0.7071067758832467
