## NLP - Word Embedding

One hot encoding 將每個詞編碼，但不知道每個詞之間的相似度。

Word embedding 將詞分組列出權重。

```
        Man   Woman King  Queen Apple Orange
Gender  1.    -1.    .8    -.75   .0     .01  
Royal    .1     .12  .9     .92   .01    .0
Food     .02    .0   .001   .01   .8     .73
```

如 Man 在 one-hot encoding 中是 832th, 則 man 在直的 column 為 $ e_{832} = \begin{bmatrix} 1. \\ .1 \\ .02 \end{bmatrix} $ 

則可以回答這樣的詞義問題:

- a cup of apple ______.
- a cup of orange _______.

## Visualize word embeddings

T-SNE algorithm

使用大量 un-labeled text 獲得的 word embedding 結果。可以 transfer learning 用在 named entity recognition.

## Analogies

$$
e_{man} - e_{woman} \approx \begin{bmatrix}
-2 \\ 0 \\ 0 \\ 0
\end{bmatrix}, \ \ \ \ \ 
e_{king} - e_{queen} \approx \begin{bmatrix}
-2 \\ 0 \\ 0 \\ 0
\end{bmatrix}, \ \ \ \ \ 
$$

$$
e_{man} - e_{woman} \approx e_{king} - e_{?}
$$

find word w, such 

$arg \max sim\big( e_w, \ \ \ e_{king} - e_{man} + e_{woman} \big) $

## Cosine Similarity

$$
sim \big( u, v \big) = \frac{u^T v}{\Vert u \Vert_2 \ \ \Vert v \Vert_2}
$$

## Embedding Matrix

$
E : 300 \times 10000 \\
O_{6235} : 10000 \times 1 \\
e_{6235} = E \ O_{6235}
$

## Word2Vec

Skip Gram Model:

```
                  x   --->   y
content:c ("orange")  --->  target:t ("juice")
```

$
O_c \to E \to e_c = E O_c \to SOFTMAX \to \hat{y}
$

parameter associate with output t: $ \theta_t $, change output "t" be label.

$$
p\big( t \ \big| \ c \big) = \frac{e^{\theta_t^T e_c}}{\sum_j^{10000} e^{\theta_t^T e_c}} \\
\mathcal{L} \big( \hat{y}, y \big) = - \sum_{i=1}^{10000} y_i \log{\hat{y}_i}
$$

缺點:計算太慢

Hierarchical Softmax

the other model: CBOW

## Negative Sampling

```
context  |  word   |  target?
orange   |  juice  |       1
orange   |   king  |       0
orange   |   book  |       0
orange   |    the  |       0
orange   |     of  |       0
```

$$
P\big( y=1 \ \| \ c,t  \big) = \sigma \big( \theta_t^T e_c \big)
$$

給定 c, 對每一個 t (10000) 求 y 的 運算太大，因此隨機取 k 個 t, 做 binary classification.

Selecting negative samples, 使用 最常出現的詞，或 每個詞平均機會，都不好。使用介於兩者之間的選擇方式:

$
P \big( w_i \big) = \frac{f(w_i)^{3/4}}{\sum_j^{10000} f(w_j)^{3/4}}
$

## GloVe word vectors

Global Vectors for word representation

$ X_{ij} $ be the # of times `i (t)` appears in the context of `j (c)`.

Minimize:

$$
\sum_i^{10000} \sum_j^{10000} 
\mathcal{f} \big( X_{ij} \big)
\big( \theta_i^T e_j + b_i - b_j' - \log{X_{ij}} \big)^2
$$

$ \mathcal{f} \big( X_{ij} \big) $ 處理次數 0 以及太頻繁或太少出現次數問題，使用的權重。

$ \theta_i, e_j $ are symmetric, $ e_w^{(final)} = \frac{\theta_w + e_w}{2} $

## Sentiment Classification

將 word embedding 送入 RNN 獲得 y. 

利用 pre-trained word embedding, 則只需要普通數量的 training set 就可訓練。

## Debiasing word embeddings

性別 / 種族偏見？

SVU : Singular Value Decomposition, PCA

Steps:

1. Identify bias direction
1. Neutralize
1. Equalize