## 作業目標: 透過思考與回答以更加了解計數方法的詞向量

### 請問詞庫手法會有什麼樣的優缺點？

詞庫手法為創建包含大量字詞的詞庫，將相同意思字詞(同義字)或相似意思字詞(相似字)分類在相同群組。

優點:
將相似字詞放在同一群組，能有效縮減資料維度，轉換向量較為容易

缺點:
1. 當有舊慈產生新意時，此時分組分群會有錯誤的可能，需要人工協助定義
2. 建立辭庫耗時耗力

### 請問共現矩陣有什麼樣的優缺點？ 

根據分佈假說，相似的字詞會有類似的上下文，因此我們可以透過計數周圍(window)的字詞來表達特定字詞的向量。

優點:

* 保留了詞與詞之間的關係
* 建立好的共現矩陣可重複使用

缺點:

* 儲存矩陣需要大量的內存(因字詞多通常矩陣維度會很大)
* 無法良好處理高頻詞，例如the,a,is...等字詞可能常常出現，導致共生矩陣中的頻率很高

### 請問為何需要對共現矩陣或PPMI進行SVD降維?

在共現矩陣或PPMI中，這兩種矩陣為稀疏矩陣(sparse matrix)，其中大部分的元素都不重要(因值為0)。
因此透過SVD可以將這樣的矩陣轉為稠密矩陣(大多數的元素都非為0)，藉此可以達到重要特徵提取與降維的功用。

### 實作cosine similarity

在比較兩個詞向量的相似度時可以使用cosine similarity:
$$
similarity(x,y) = \frac{x \cdot y}{||x||||y||} = \frac{x_1y_1+...+x_ny_n}{\sqrt{x_1^2+...+x_n^2}\sqrt{y_1^2+...+y_n^2}}
$$

請實作cosine similarity並計算共現矩陣課程範例中you向量([0,1,0,0,0,0,0])與I([0,1,0,1,0,0,0])向量的相似度

In [13]:
import numpy as np
I = np.array([0,1,0,0,0,0,0])
You = np.array([0,1,0,1,0,0,0])

def cos_similarity(x, y, eps=1e-8):
    nx = x / np.sqrt(np.sum(x**2) + eps)
    ny = y / np.sqrt(np.sum(y**2) + eps)
    return np.dot(nx, ny)

print(f"Similarity: {cos_similarity(I, You)}")

Similarity: 0.7071067758832467


In [16]:
import numpy as np
I = np.array([0,1,0,0,0,0,0])
You = np.array([0,1,0,1,0,0,0])

def cos_similarity(x, y, eps=1e-8):
    nx = np.sqrt(np.sum(x**2) + eps)
    ny = np.sqrt(np.sum(y**2) + eps)
    d = np.dot(x,y)
    return d/(nx*ny)

print(f"Similarity: {cos_similarity(I, You)}")

Similarity: 0.7071067758832467
