## 作業目標: 透過思考與回答以更加了解計數方法的詞向量

---
### 請問詞庫手法會有什麼樣的優缺點？

詞庫手法為創建包含大量字詞的詞庫，將相同意思字詞(同義字)或相似意思字詞(相似字)分類在相同群組。

優點:
* `可讓同類型的字詞相關性更高更合理`

缺點:
* `詞庫建立非常花時間`
* `很多新的詞彙需要手動新增`

---
### 請問共現矩陣有什麼樣的優缺點？ 

根據分佈假說，相似的字詞會有類似的上下文，因此我們可以透過計數周圍(window)的字詞來表達特定字詞的向量。

優點:
* `上下文連貫性高`

缺點:
* `資料量大的時候，矩陣會過於龐大`

---
### 請問為何需要對共現矩陣或 PPMI 進行 SVD 降維?

* `詞向量維度過高時，需要降維來降低複雜度，有利於機器學習的訓練`

---
### 實作 cosine similarity

* 在比較兩個詞向量的相似度時可以使用cosine similarity:
$$
similarity(x,y) = \frac{x \cdot y}{||x||||y||} = \frac{x_1y_1+...+x_ny_n}{\sqrt{x_1^2+...+x_n^2}\sqrt{y_1^2+...+y_n^2}}
$$

1. 請實作 cosine similarity 
2. 並計算共現矩陣課程範例中 `you` 向量 ([0,1,0,0,0,0,0]) 與 `I` ([0,1,0,1,0,0,0]) 向量的相似度

In [2]:
import numpy as np
I = np.array([0,1,0,0,0,0,0])
You = np.array([0,1,0,1,0,0,0])

In [5]:
def cos_similarity(x, y, eps=1e-8):
    # 向量內積 dot / |向量 A 長度 * 向量 B 長度 |
    dot = sum(a * b for a, b in zip(x, y))
    vec_a = sum(a * a for a in x) ** 0.5
    vec_b = sum(b * b for b in y) ** 0.5
    
    return dot / (vec_a * vec_b)

In [6]:
print(f"Similarity: {cos_similarity(I, You)}")

Similarity: 0.7071067811865475


#### 使用 sklearn 的 `cosine_similarity()`

In [7]:
from sklearn.metrics.pairwise import cosine_similarity

In [11]:
cosine_similarity([I], [You])

array([[0.70710678]])