## Scaled Dot-Product Attention
來透過實際復刻Scaled Dot-Product Attention來更熟悉注意力(Attention)機制
<img height="300" src="./Scaled_Dot-Product_Attention.png" >  

這個架構可以分成以下幾點：
1. 定義QKV的來源
2. MatMul (點積) 計算
3. Scale (縮放)
4. Mask (選擇性) 的用途
5. SoftMax 的應用，使得注意力權重合為1
6. MatMul with V 得到最終的輸出

1. 執行以下程式在新的Block
```py
%pip install gensim -q
```

In [None]:
%pip install gensim -q

2. 載入需要的函式庫以及pretrained的Word2Vec模型

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import gensim.downloader as api

# 下載並加載預訓練的Word2Vec模型
model = api.load("word2vec-google-news-300")
print("Model loaded.")

這個模型會將自然語言轉成一個300維的向量

3. 完成以下ToDo part來完整整個Scaled Dot-Product Attention

In [None]:
# 簡單的詞嵌入函數
def word_embedding(word, model):
    try:
        return model[word]  # 嘗試從模型中獲取詞嵌入
    except KeyError:
        # 如果詞語不在詞嵌入模型的詞彙中，返回一個隨機向量
        return np.random.randn(model.vector_size)  # 返回隨機向量，避免程式錯誤

# SoftMax 函數
def softmax(x):
    exp_x = np.exp(x - np.max(x))  # 減去最大值避免溢出
    return exp_x / exp_x.sum(axis=-1, keepdims=True)  # 計算SoftMax並確保輸出形狀正確


#########       TODO: 實現 Scaled Dot-Product Attention 函數      #########
# Scaled Dot-Product Attention 函數
def scaled_dot_product_attention(Q, K, V, mask=None):
    
    # 設定維度參數
    # 縮放點積：計算Query和Key的內積，並除以維度的平方根
    # 查看有沒有遮罩，如果有，將遮罩的位置設為負無窮
    # 透過SoftMax函數計算注意力權重
    # 計算MatMul with V的值
    
    return output, attention_weights # 返回輸出和注意力權重

#########                        END TODO                        #########
sentence_1 = "the cat sat on the mat"
sentence_2 = "dogs are playing in the park"

# 將句子分割為詞語列表
words_1 = sentence_1.split()
words_2 = sentence_2.split()

# 將詞語轉換為embedding向量
Q = np.array([word_embedding(word, model) for word in words_1])  # 生成Query向量
K = np.array([word_embedding(word, model) for word in words_2])  # 生成Key向量
V = np.array([word_embedding(word, model) for word in words_2])  # 生成Value向量

# 計算attention機制的輸出和權重
output, attention_weights = scaled_dot_product_attention(Q, K, V)  # 計算注意力輸出和權重

# 視覺化attention權重
def plot_attention_weights(attention_weights, sentence_1, sentence_2):
    plt.figure(figsize=(10, 8))
    sns.heatmap(attention_weights, annot=True, cmap='coolwarm', xticklabels=sentence_2, yticklabels=sentence_1)  # 繪製熱圖並標註數值
    plt.xlabel('Key (Sentence 2)')
    plt.ylabel('Query (Sentence 1)')
    plt.title('Attention Weights')
    plt.show()

plot_attention_weights(attention_weights, words_1, words_2)

print("Output:\n", output)  # 輸出attention的最終結果
print("Attention Weights:\n", attention_weights)  # 輸出attention權重

## Result
結果應該會和以下的圖片一樣，或類似  
<img height="500" src="./output.png" >  

## FAQ
Q : 為甚麼KV 要用同一個向量代表  
A : 