## 단어 시퀀스

해당 단어가 나타났을때 다음 단어를 예측하면서 흘러가는 것

```
p(사건|조건) = p(조건, 사건) == `<모델>` / p(조건) 
```

으로 출현 확률을 계산하는데 이걸 문장 길이에 따라서 n 번 반복

ex)

```
p(운전|난폭) = p(난폭, 운전) / p(난폭)
```

일반적인 좌 -> 우 방향으로 다음 단어 예측을 순방향, 반대는 역방향 언어 모델

p(w|context `주변 맥락 정보`) 로 사용하기도 함

- 마스크 언어 모델

완전 문장 데이터에서 일부 단어를 마스킹 처리 시키면서 학습

- 스킵-그램 모델

중심 단어 주위의 단어를 이용해 학습

## 트랜스포머

### 인코더 - 디코더

기계 번역에서 주로 사용되어지는 방식

입력 데이터를 단어 시퀀스를 이용해 주요 정보를 압축 한 다음 그 정보를 바탕으로 디코더에 타겟 시퀀스 데이터와 함께 전달하여 변환된 결과를 복원하는 방식

ex)

한글로 된

```
나는 26살 입니다.
```

를 인코더에 넣고 디코더엔 시퀀스 시작 키 `<s>` 를 넣으면 

처음은 결과가 `I'm`

그 다음에도 똑같이 인코더에 

```
나는 26살 입니다.
```

디코더엔 `<s> I'm` 를 넣으면 

`I'm 26` 가 나오는 형식

이런 과정을 반복하여 출현 확률 조정

### 셀프 어텐션

자신에게 중요한 부분을 집중하여 성능 올리는 방식

|어텐션|합성곱 신경망|순환 신경망|셀프 어텐션|
|:------:|:--------:|:------:|:---:|
|RNN 문제점을 해결하기 위해 해당 단어가 어떤 요소에 주목할지를 결정 `카페-cafe` 이런식으로|CNN, 지역 특징 추출, 차례데로 단어들을 넘기며 학습, 대신 커널 크기만큼만 학습하는 단점| RNN, 특징중 하나가 이전에 있었던건 거의 잊어지게 되어지는 특징으로 인해 마지막 단어를 거의 의미 있다고 판단하는 경우 존재| 입력 시퀀스에서 부터 연관관계 연결을 지음 RNN 없이 동작, 디코더 블록 수 만큼 반복, `거기-카페`, `갔었어-카페`|

어떤 요소에 주목해야하는지와 그 요소가 어떤 요소와 연관이 있는지도 알 수 있음

query, key, value 로 이루어짐

문장을 이루는 소스 값을 쿼리,

그 쿼리에서 뻗어나와 같은 문장에 연결관계를 지을 타겟들을 키

키 각각에 연관성 가중치를 값 으로 정의

각각 계산은 행렬 수식

query = (word embedding demension x word num) x W(q)

key = (word embedding demension x word num) x W(k)

value = (word embedding demension x word num) x W(v)

W 값들은 각각 갱신되며 서로 다른 초기값들을 가짐

#### Attention 계산해보기

```
Attension(Q, K, V) = softmax(QK^T / sqrt(d_k)) * V
```

그니까 풀어서 보면

`쿼리` 계산 값과 `전치한 키` 계산을 곱한 걸 차원 수 만큼 제곱근 한 걸로 나누어 주고 softmax 치환한 다음 `가중치` 값과 곱함

QK^T

이때 쿼리와 키간의 문맥적 관계성이 있음

In [8]:
import torch
import numpy as np
from torch.nn.functional import softmax

In [2]:
x = torch.tensor([
    [1.0, 0.0, 1.0, 0.0],
    [0.0, 2.0, 0.0, 2.0],
    [1.0, 1.0, 1.0, 1.0]
])

In [3]:
w_query = torch.tensor([
    [1.0, 0.0, 1.0],
    [1.0, 0.0, 0.0],
    [0.0, 0.0, 1.0],
    [0.0, 1.0, 1.0]
])

In [4]:
w_key = torch.tensor([
    [0.0, 0.0, 1.0],
    [1.0, 1.0, 0.0],
    [0.0, 1.0, 0.0],
    [1.0, 1.0, 0.0],
])

In [5]:
w_value = torch.tensor([
    [0.0, 2.0, 0.0],
    [0.0, 3.0, 0.0],
    [1.0, 0.0, 3.0],
    [1.0, 1.0, 0.0]
])

In [6]:
mulQuery = torch.matmul(x, w_query)
mulKey = torch.matmul(x, w_key)
mulValue = torch.matmul(x, w_value)

mulQuery, mulKey, mulValue

(tensor([[1., 0., 2.],
         [2., 2., 2.],
         [2., 1., 3.]]),
 tensor([[0., 1., 1.],
         [4., 4., 0.],
         [2., 3., 1.]]),
 tensor([[1., 2., 3.],
         [2., 8., 0.],
         [2., 6., 3.]]))

In [7]:
attScore = torch.matmul(mulQuery, mulKey.T)
attScore

tensor([[ 2.,  4.,  4.],
        [ 4., 16., 12.],
        [ 4., 12., 10.]])

In [10]:
dimSqrt = np.sqrt(mulKey.shape[-1])
dimSqrt, mulKey.shape, mulKey.shape[-1]

(1.7320508075688772, torch.Size([3, 3]), 3)

In [11]:
attenSoftmax = softmax(attScore / dimSqrt, dim=-1)
attenSoftmax

tensor([[1.3613e-01, 4.3194e-01, 4.3194e-01],
        [8.9045e-04, 9.0884e-01, 9.0267e-02],
        [7.4449e-03, 7.5471e-01, 2.3785e-01]])

In [12]:
weight = torch.matmul(attenSoftmax, mulValue)
weight

tensor([[1.8639, 6.3194, 1.7042],
        [1.9991, 7.8141, 0.2735],
        [1.9926, 7.4796, 0.7359]])