# Transformer

[Vaswani, et al. (2017). Attention is all you need.](https://arxiv.org/pdf/1706.03762.pdf) で提案されたDeep Learningの新しいアーキテクチャ






## Scaled Dot-Product Attention


$$
\text{Attention}(Q, K, V)
= \text{softmax}
\left(
    \frac
    { Q K^T }
    { \sqrt{d_k} }
\right)
V
$$

単純化のためQ, Kの行列からベクトルをとってきて示すことにする。qとkの内積

内積は類似度に使われる（cf. コサイン類似度）

$$
\newcommand{\b}[1]{\boldsymbol{#1}}
\text{softmax}
\left(
    \frac{\b{q} \cdot \b{k}}
    {\sqrt{d}}
\right)
$$

これは

1. クエリ$\b{q}$とキー$\b{k}$の内積（＝類似度）を計算する
2. 次元数$d$によって正規化する（内積は次元数が多いほど値も大きくなるので）
3. softmaxによって確率値へと値の範囲を整える

という処理になる。いわば確率ベクトルを返すようなものになる。

例えば$i$番目のトークンだけこの出力値が1だとして、ほかが0だとすると、$V$の$i$番目のベクトルだけが出力となる

$$
\newcommand{\b}[1]{\boldsymbol{#1}}
\b{v}_i = (v_1, \cdots, v_d)
\\
\b{V} = 
\begin{pmatrix}
    \b{v}_1\\
    \b{v}_2\\
    \vdots\\
    \b{v}_n
\end{pmatrix}
\\
\b{p} = (p_1, \cdots, p_n) = 
\text{softmax}
\left(
    \frac{\b{q} \cdot \b{k}}
    {\sqrt{d}}
\right)
$$

とする

$$
\begin{align}
\b{p} \b{V}
&=  (p_1, \cdots, p_n)
\begin{pmatrix}
    v_{11} & \cdots & v_{1d}\\
    \vdots & \ddots & \vdots\\
    v_{n1} & \cdots & v_{nd}\\
\end{pmatrix}
\\
&= 
\begin{pmatrix}
    p_1 v_{11} + \cdots + p_n v_{n1},\
    \cdots, \
    p_1 v_{1d} + \cdots + p_n v_{nd}
\end{pmatrix}
\\
&= p_1 (v_{11}, \cdots, v_{1d}) + \cdots + p_n (v_{n1}, \cdots, v_{nd})
\\
&= \sum_i^n p_i \b{v}_i
\end{align}
$$

## 参考文献

- [Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.](https://arxiv.org/pdf/1706.03762.pdf)
- [The Illustrated Transformer](https://jalammar.github.io/illustrated-transformer/)
  - 和訳：[イラストでみるTransformer](https://tips-memo.com/translation-jayalmmar-transformer)
- [Encoder-Decoder ネットワーク [ディープラーニングの文脈で] | CVMLエキスパートガイド](https://cvml-expertguide.net/terms/dl/encoder-decoder/)
- [【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning - YouTube](https://www.youtube.com/watch?v=50XvMaWhiTY)