# Attention Mechanisms과 Self Attention
---

## 1.1 Attention Mechanism

### 1.1.1 Intuitions

**시계열 데이터**

<img src = "../src/images/transformer-self-attention-01.png">

- 시계열 데이터는 $\mathbf{x}$은 noisy한 특성을 갖고 있음.
- 시계열 데이터 내의 노이즈를 해소하기 위해 re-weighing을 함.
    - re-weighing방법은 시점 $i$의 값을 단순히 시점 $i$로 표현하는 것이 아닌 시점 $i$와 가까운 값들로 표현해보자.
    - 가중치 벡터를 위와 같이 정의할 수 있음.(e.g. 시점 $i$에 평균값을 값는 정규분포에서 추출한 값들.) $\mathbf{w_i}= [w_{0i}, \cdots, w_{ni}]/$
- 새로운 값 $y_i = w_i^TX$은 기존의 값$\mathbf{x}$과 어떤 가중치 $\mathbf{w_i}$의 내적으로 표현.
    - $y_i$는 시점 $i$뿐만 아니라 context에 대한 정보를 함께 갖고 있는 값으로 표현됨.

**텍스트 데이터**

<img src = "../src/images/transformer-self-attention-02.png">

- $t_i$는 토큰
- $v_i$는 임베딩
- $w_i$는 임베딩으로 표현되는 가중치
- $y_i$는 가중치 * 임베딩으로 변환된 값.
- 텍스트의 경우 시계열처럼 단순히 가까우면 가까울수록 높게 가중치를 주는 것으로 생각하기는 어려움.
    - 텍스트의 경우 언어학적 관계가 실제 가중치에 학습이 되도록 고민하는 것이 중요. *(HOW???)*


> 우리가 워드 임베딩에서 내적을 통해 의미적 유사성(proximity)을 벡터에 학습시켰던 아이디어를 다시 생각해보자.

### 1.1.2 Intuitions

In [None]:
bank of the river

In [1]:
import torch
from transformers import set_seed
set_seed(42)

In [8]:
V = torch.randn(size=(4,2))

In [35]:
softmax = torch.nn.Softmax(dim=1)

In [24]:
V[0].reshape(1,2) * V.T

RuntimeError: The size of tensor a (2) must match the size of tensor b (4) at non-singleton dimension 1

In [42]:
V[0] @ V[0]

tensor(0.0824)

In [42]:
V[0] @ V[0]

tensor(0.0824)

In [43]:
V[0] @ V.T

tensor([0.0824, 0.1338, 0.0155, 0.0386])

In [37]:
W = softmax(V @ V.T)

In [39]:
W.shape

torch.Size([4, 4])

In [79]:
transformed_bank = (W[0].reshape(4,1) * V).sum(axis=0)
transformed_of = (W[1].reshape(4,1) * V).sum(axis=0)
transformed_the = (W[2].reshape(4,1) * V).sum(axis=0)
transformed_river = (W[3].reshape(4,1) * V).sum(axis=0)

In [80]:
transformed_of

tensor([0.2361, 0.1879])

In [None]:
torch.cosine_similarity()

In [78]:
torch.cosine_similarity(V[0], V[3], dim=0)

tensor(0.1842)

In [82]:
torch.cosine_similarity(transformed_bank, transformed_river, dim=0)

tensor(0.9453)

In [77]:
torch.cosine_similarity(transformed_bank, transformed_river, dim=0)

tensor(0.9453)

In [74]:
transformed_river

tensor([0.1273, 0.3711])

In [55]:
W.shape

torch.Size([4, 4])

In [62]:
V

tensor([[ 0.2815,  0.0562],
        [ 0.5227, -0.2384],
        [-0.0499,  0.5263],
        [-0.0085,  0.7291]])

In [63]:
W.T

tensor([[0.2535, 0.2702, 0.2177, 0.2060],
        [0.2668, 0.3288, 0.1842, 0.1658],
        [0.2371, 0.2031, 0.2834, 0.2910],
        [0.2426, 0.1978, 0.3147, 0.3372]])

In [64]:
V

tensor([[ 0.2815,  0.0562],
        [ 0.5227, -0.2384],
        [-0.0499,  0.5263],
        [-0.0085,  0.7291]])

In [None]:
torch.einsum()

In [56]:
V.shape

torch.Size([4, 2])

In [45]:
V

tensor([[ 0.2815,  0.0562],
        [ 0.5227, -0.2384],
        [-0.0499,  0.5263],
        [-0.0085,  0.7291]])

In [49]:
0.2535 * 0.2815

0.07136025

In [40]:
V.shape


torch.Size([4, 2])

In [31]:
softmax(V[0] @ V.T)

tensor([0.2535, 0.2668, 0.2371, 0.2426])

In [12]:
softmax(V)

tensor([[0.2675, 0.1885],
        [0.3404, 0.1404],
        [0.1920, 0.3016],
        [0.2001, 0.3694]])

torch.nn.Softmax()

$$\text{Softmax}(x_{i}) = \frac{\exp(x_i)}{\sum_j \exp(x_j)}$$