## 作業目標: 透過思考與回答以更加了解計數方法的詞向量

### 請問詞庫手法會有什麼樣的優缺點？

詞庫手法為創建包含大量字詞的詞庫，將相同意思字詞(同義字)或相似意思字詞(相似字)分類在相同群組。

優點:
1. 當收集完詞庫後，將字詞轉成詞向量比較容易
2. 保留字詞的關聯性
3. 會分辨同義字或相似字

缺點:
1. 建立詞庫需要大量人力與時間成本
2. 因為詞庫是人工定義，因此透過詞庫手法轉成的詞向量會與人有很大的關係
3. 隨著時間的演進，會有新的詞出現或是舊的詞有不同的意思，無法辨識新產生的詞，需以人工更新與維護詞庫

### 請問共現矩陣有什麼樣的優缺點？ 

根據分佈假說，相似的字詞會有類似的上下文，因此我們可以透過計數周圍(window)的字詞來表達特定字詞的向量。

優點:
1. 有考慮上下文，保留詞與詞之間的關係。
2. 建立好的共現矩陣可多次使用

缺點:
1. 矩陣維度龐大，需要大量的內存
2. 對高頻詞效果較差，例如例如:the car的字詞常常出現，但'the' 和 'car'的關聯性不高

In [None]:
### 請問為何需要對共現矩陣或PPMI進行SVD降維?

在共現矩陣或PPMI中，朔的元素都為0，意味著這兩種矩陣維稀疏矩陣(sparse matrix)，
因為多數的值為0，所以大部分的元素都不重要。因此透過SVD可以將維度高的稀疏矩陣轉成
維度低的稠密矩陣。藉此可以達到重要特徵提取與降維的功用。

### 實作cosine similarity

在比較兩個詞向量的相似度時可以使用cosine similarity:
$$
similarity(x,y) = \frac{x \cdot y}{||x||||y||} = \frac{x_1y_1+...+x_ny_n}{\sqrt{x_1^2+...+x_n^2}\sqrt{y_1^2+...+y_n^2}}
$$

請實作cosine similarity並計算共現矩陣課程範例中you向量([0,1,0,0,0,0,0])與I([0,1,0,1,0,0,0])向量的相似度

In [3]:
import numpy as np
I = np.array([0,1,0,0,0,0,0])
You = np.array([0,1,0,1,0,0,0])

def cos_similarity(x, y, eps=1e-8):
    nx = x / np.sqrt(np.sum(x**2) + eps)
    ny = y / np.sqrt(np.sum(y**2) + eps)
    return np.dot(nx, ny)

print(f"Similarity: {cos_similarity(I, You)}")

Similarity: 0.7071067758832467
