## 어텐션 매커니즘을 코딩하기
이 notebook에서 사용하는 package를 미리 import 하자

In [1]:
from importlib.metadata import version

print("torch version:", version("torch"))

torch version: 2.5.1


이 노트북에서는 LLM의 핵심인 어텐션 매커니즘을 다룬다
![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)
1. 초반에는 단순한 숫자를 사용해서 간단한 self-attention을 코딩
2. 이제는 LLM이 사용하기 위해서 학습 가능한 가중치를 사용한 self attention을 코딩
3. 실제 LLM이 사용하는 방식인 미래의 토큰을 보지 않게 하는 방식, causal attention 방식을 코딩
4. 이 causal attention을 병렬적으로 수행하고 서로 다른 context를 학습할 수 있는 multi head 어텐션 방식을 코딩

### 긴 문장을 LLM이 사용할 수 있게 모델링 할때 발생하는 문제

![image.png](attachment:image.png)
각 언어간 문법적, 어휘적 구조 차이때문에 문장에 있는 단어를 일대일 대응로 직접 번역할 수 없다.
* `i am a boy` 라는 문장을 단어별로 번역하면 `나는 이다 남자` 라고 된다.


트랜스포머 모델 이전에는 기계번역 작업에 encoder-decoder RNN을 주로 사용했다.
![image-2.png](attachment:image-2.png)
* 이 방식의 인코더는 토큰을 입력 받아서 전체 입력 토큰의 모든 정보를 한 곳에 담은 표현을 은닉층에 저장했다.
* 이렇게 되면 멀리 떨어져 있는 단어의 토큰 정보가 점점 희석 되면서 해당 은닉층이 전체 문장의 맥락을 효과적으로 저장할 수 없다는 가장 큰 한계점이 있다. 

### 어텐션 매커니즘을 사용해서 데이터 종속성을 고려하기
![image-3.png](attachment:image-3.png)
어텐션 매커니즘을 사용해서 텍스트를 생성하는 디코더는 모든 입력 토큰들을 모두 고려할 수 있게 됐으며, 특히 입력 토큰중에서 더 자세히 보아야 할 부분을 판단할 수 있게 됐다.
* 즉 특정 토큰을 생성할 때 이제는 수많은 입력 토큰 중에서 특별히 중요한 입력 토큰의 정보를 우선적으로 고려할 수 있게 됐다.


![image-4.png](attachment:image-4.png)
트랜스포머에서 self-attention은 시퀀스 내의 각 위치가 다른 모든 위치와 상호작용하며, 그 중요도를 판단할 수 있도록 하여 입력 표현을 향상시키기 위해 고안된 기법.

### self attention을 통해서 입력의 다른 부분에 집중하기
#### 학습 가능한 가중치를 제외한 단순한 self-attention 매커니즘 구현하기
이번에는 매우 단순한 self-attention을 구현할 것이고, 이 구현체는 가중치를 가지고 있지 않다.
* 이 코드는 단순히 이해를 돕기 위한 것이고 실제 트랜스포머에서 사용하는 구현체가 아니다
* 다음 챕터에서 단순한 어텐션 매커니즘을 실제 어텐션 매커니즘으로 구현한다.


입력 문장이 x(1) ~ x(T)으로 이루어져 있다고 가정하자. 각 x는 토큰의 임베딩 벡터 표현이다.

__우리의 목표는__  각 임베딩 벡터 x(i)에 해당하는 __문맥 벡터 z(i)__ 를 구하는 것이다.
![image.png](attachment:image.png)
* 문맥 벡터 (context vector) z(i)는 x(1) 부터 x(T) 까지 벡터의 가중합이다.

예를 들어서 z(2)는 두번째 입력 벡터인 x(2)에 대해서 x(1) 부터 x(T)까지 모든 벡터에 특정한 가중치를 곱하고 모두 더한 것을 의미한다.
* 어텐션 가중치는 각 입력 요소가 z(2)를 계산할 때 얼마나 기여하는지 결정하는 값
* 다시말해서 z(2)는 x(2)와 관련된 모든 입력 요소들의 정보를 포함한 수정 버전이다.


관례적으로 어텐션 점수(attention score)를 정규화한 값을 어텐션 가중치 (attention weight)라고 한다.

##### 코드 구현
__step 1__ 정규화되지 않은 어텐션 점수 w 를 계산

두번째 입력 토큰을 쿼리라고 가정하자 즉 q(2) = x(2)라고 가정. 그러면 정규화되지 않은 attention score을 다음과 같이 내적을 통해 계산할 수 있다.  

![image.png](attachment:image.png)  

여기서 아래첨자 _21_ 은 두번째 입력 쿼리와 첫번째 입력 토큰 사이 내적을 했다는 뜻이다.

* 참고로 입력 문장은 이미 3차원 벡터로 임베딩이 되어있다고 가정

In [2]:
import torch

inputs = torch.tensor(
  [[0.43, 0.15, 0.89], # Your     (x^1)
   [0.55, 0.87, 0.66], # journey  (x^2)
   [0.57, 0.85, 0.64], # starts   (x^3)
   [0.22, 0.58, 0.33], # with     (x^4)
   [0.77, 0.25, 0.10], # one      (x^5)
   [0.05, 0.80, 0.55]] # step     (x^6)
)

  cpu = _conversion_method_template(device=torch.device("cpu"))


이 책에서는 일반적인 딥러닝 표현을 따른다.
* 행은 학습 데이터, 열은 특성 값
* 위 텐서의 경우 각 행은 단어를 나타내고 각 열은 임베딩 차원을 의미


첫번째 목표는 어떻게 문맥 벡터 (context vector) z(2)를 계산하는지 알아보는 것이기 때문에, 두번째 입력 토큰인 x(2)를 쿼리로 설정한다.

아래 그림은 어텐션 점수를 계산하는 첫번째 과정을 보여준다. 쿼리 임베딩 벡터는 나머지 모든 임베딩 벡터에 대해서 내적을 계산한다. (자기 자신도 계산한다) 

![image.png](attachment:image.png) 

* 여기서는 2번째 토큰인 x(2)에 대해서만 계산하지만 이후에는 __모든 문맥 벡터를 계산하게__ 행렬곱으로 일반화한다.
* 첫번째 단계는 쿼리 벡터인 x(2)와 모든 입력 토큰 사이 내적을 계산해서 정규화되지 않은 어텐션 값 (attention score)을 계산하는 것이다.

In [3]:
query = inputs[1] #2nd input token is the query

attn_scores_2 = torch.empty(inputs.shape[0])
for i, x_i in enumerate(inputs):
    # 둘다 1차원 벡터이기 때문에 전치가 필요 없다.
    attn_scores_2[i] = torch.dot(query, x_i)

print(attn_scores_2)

tensor([0.9544, 1.4950, 1.4754, 0.8434, 0.7070, 1.0865])


__step 2__ : 정규화 되지 않은 어텐션 점수값을 정규화 한다.
* 정규화는 모든 값을 더했을때 1이 되게 만드는 것.

가장 간단한 방법은 어텐션 점수의 총 합으로 각 점수를 나누면 된다.
![image.png](attachment:image.png)

In [4]:
attn_weights_2_tmp = attn_scores_2 / attn_scores_2.sum()

print("Attention weights:", attn_weights_2_tmp)
print("Sum:", attn_weights_2_tmp.sum())

Attention weights: tensor([0.1455, 0.2278, 0.2249, 0.1285, 0.1077, 0.1656])
Sum: tensor(1.0000)


__하지만__

실제로는 정규화를 할 때 _softmax 함수_ 를 사용한다.
* 이 함수는 극단적인 수치를 다루기 더 좋으며, 학습할때 더 바람직한 기울기 속성을 가지고 있기 때문.
* 다음 함수는 스케일링을 위한 소프트맥스 함수의 단순한 구현이며, 이 방식 또한 벡터의 요소를 총 합 1인 상태로 정규화한다. 

In [5]:
def softmax_naive(x):
    return torch.exp(x) / torch.exp(x).sum(dim=0)

attn_weights_2_naive = softmax_naive(attn_scores_2)

print("Attention weights:", attn_weights_2_naive)
print("Sum:", attn_weights_2_naive.sum())

Attention weights: tensor([0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581])
Sum: tensor(1.)


위에 있는 단순한 구현은 오버플로우나 언더플로우 문제 때문에 매우 큰 숫자나 작은 숫자 입력값에 대해서 수치적 안정성 문제가 발생한다.
* 그래서 실제로는 파이토치에서 구현한 softmax 함수를 사용하는게 좋다.

In [6]:
attn_weights_2 = torch.softmax(attn_scores_2, dim=0)

print("Attention weights:", attn_weights_2)
print("Sum:", attn_weights_2.sum())

Attention weights: tensor([0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581])
Sum: tensor(1.)


__step 3__: 임베딩된 입력 토큰에 어텐션 가중치를 곱하고 모두 더해서 문맥 벡터 z(2)를 구한다.
* x(i)에 어텐션 가중치를 곱하고 모두 더하면 결과값이 나옴
![image.png](attachment:image.png)

In [7]:
query = inputs[1]

context_vec_2 = torch.zeros(query.shape)
for i, x_i in enumerate(inputs):
    context_vec_2 += attn_weights_2[i] * x_i

print(context_vec_2)

tensor([0.4419, 0.6515, 0.5683])


#### 모든 입력 토큰에 대해서 어텐션 가중치 (attention weights) 를 구하기

__모든 입력 토큰을 대상으로 일반화하기__
![image.png](attachment:image.png)
* 지금까지는 토큰 2에 대해서 어텐션 가중치와 문맥 벡터를 구했다면 이제는 모든 토큰에 대해서 어텐션 가중치와 문맥 벡터를 


self-attention에서 어텐션 점수를 구하는 것부터 출발한다. 그 이후에는 어텐션 점수를 정규화해서 어텐션 가중치를 구한다.
* 이 어텐션 가중치는 입력 벡터에 가중합을 구해서 문맥 벡터를 생성한다.
![image-2.png](attachment:image-2.png)

In [8]:
# step1 - 입력 토큰 행렬끼리 곱하면 쉽게 각 토큰끼리 유사도를 구할 수 있다. (정규화 x)
attn_scores = inputs @ inputs.T
print(attn_scores)

tensor([[0.9995, 0.9544, 0.9422, 0.4753, 0.4576, 0.6310],
        [0.9544, 1.4950, 1.4754, 0.8434, 0.7070, 1.0865],
        [0.9422, 1.4754, 1.4570, 0.8296, 0.7154, 1.0605],
        [0.4753, 0.8434, 0.8296, 0.4937, 0.3474, 0.6565],
        [0.4576, 0.7070, 0.7154, 0.3474, 0.6654, 0.2935],
        [0.6310, 1.0865, 1.0605, 0.6565, 0.2935, 0.9450]])


__항상 헷갈리는 축의 개념__ 

![image.png](attachment:image.png)

0 -> 행으로 계산, 1 -> 열으로 계산

In [9]:
# step2 - 각 행을 상대로 정규화를 진행
attn_weights = torch.softmax(attn_scores, dim=-1)
print(attn_weights)

tensor([[0.2098, 0.2006, 0.1981, 0.1242, 0.1220, 0.1452],
        [0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581],
        [0.1390, 0.2369, 0.2326, 0.1242, 0.1108, 0.1565],
        [0.1435, 0.2074, 0.2046, 0.1462, 0.1263, 0.1720],
        [0.1526, 0.1958, 0.1975, 0.1367, 0.1879, 0.1295],
        [0.1385, 0.2184, 0.2128, 0.1420, 0.0988, 0.1896]])


In [10]:
# step3 - 어텐션 가중치에 입력 임베딩 토큰 행렬을 곱한다.
# (5, 5) * (5, 3) 
all_context_vecs = attn_weights @ inputs
print(all_context_vecs)

tensor([[0.4421, 0.5931, 0.5790],
        [0.4419, 0.6515, 0.5683],
        [0.4431, 0.6496, 0.5671],
        [0.4304, 0.6298, 0.5510],
        [0.4671, 0.5910, 0.5266],
        [0.4177, 0.6503, 0.5645]])


In [11]:
# 위에서 2번째 토큰 대상으로 구한 값이랑 비교
print("Previous 2nd context vector:", context_vec_2)

Previous 2nd context vector: tensor([0.4419, 0.6515, 0.5683])


### 학습 가능한 가중치를 포함한 self attention 구현하기

다음 사진은 어떻게 self-attention 매커니즘을 구현하는지, 이 구현 내용이 어떻게 책에 통합되는지 보여준다
![image.png](attachment:image.png)


#### 어텐션 가중치를 단계별로 계산하기
이 챕터에서는 다른 유명한 LLM의 트렌스포머 아키텍처에서 사용하는 self-attention 매커니즘을 구현한다.
* self-attention 매커니즘은 `scaled dot-product attention` 이라고도 부른다.
* 입력 벡터를 대상으로 가중 합을 구한 context vector를 계산하고 싶기 때문에 어텐션 가중치가 필요하다.  

이전 챕터에서 학습한 내용과 아주 약간 차이가 나는 점
* 모델 학습에 필요한 가중치 행렬 도입
* 이 가중치 행렬은 모델이 좋은 문맥 벡터를 생성하고 학습하기 위해서 매우 중요하다.

![image-2.png](attachment:image-2.png)
* self-attention 매커니즘을 단계별로 구현하기 위해서는 3가지 학습 가중치 행렬 W(q), W(k), W(v)를 도입한다.
* embedding 벡터에 3가지 가중치 행렬곱을 수행해서 query, key, value 벡터를 계산한다. 

![image-3.png](attachment:image-3.png)


* 입력 벡터 x와 쿼리 벡터 q의 차원은 같을수도 있고 다를수도 있으며 모델의 설계에 따라 달라진다.
* gpt 모델에서는 입력 벡터와 출력 벡터의 차원은 보통 같다. 여기서는 교육용 목적으로 입력값과 출력값의 차원을 다르게 한다.

In [12]:
x_2 = inputs[1] # 2번째 입력 벡터
d_in = inputs.shape[1] # 입력 벡터 임베딩 차원 -> d=3
d_out = 2 # 출력 벡터 임베딩 차원 -> d=2

아래에서 3개의 가중치 행렬을 초기화한다.
* `requires_grad=False` -> 교육용 목적으로 가중치 학습을 이루어지지 않게 함
* `requires_grad=True` -> 모델 가중치 학습을 가능하게 함

In [13]:
torch.manual_seed(123)  

W_query = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)
W_key = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)
W_value = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)

In [14]:
# query, key, value 벡터를 계산하기

query_2 = x_2 @ W_query
key_2 = x_2 @ W_key
value_2 = x_2 @ W_value

query_2

tensor([0.4306, 1.4551])

In [15]:
# 6개 토큰을 3차원에서 2차원으로 변환하는 작업, 각각 토큰을 key와 value로 변환하는 작업

keys = inputs @ W_key
values = inputs @ W_value

print("keys.shape:", keys.shape)
print("values.shape:", values.shape)

keys.shape: torch.Size([6, 2])
values.shape: torch.Size([6, 2])


__step2__ : __쿼리와 각 key vector를 내적해서 정규화하지 않은 attention score을 계산한다__
![image.png](attachment:image.png)

In [16]:
keys_2 = keys[1]
attn_score_22 = query_2.dot(keys_2)
attn_score_22

tensor(1.8524)

In [17]:
# 6개 입력이 있기 때문에 주어진 query vector에 대해서 6개의 어텐션 점수를 계산한다.
attn_scores_2 = query_2 @ keys.T # key는 행 별로 나타낸다
attn_scores_2

tensor([1.2705, 1.8524, 1.8111, 1.0795, 0.5577, 1.5440])

__step3__
![image.png](attachment:image.png)


이전에 사용했던 softmax 함수를 사용해서 어텐션 가중치를 계산한다 (각 query에 대한 모든 어텐션 점수의 합이 1로 만들기)
* 이전과 다른점은 embedding 차원의 제곱근으로 나눠서 어텐션 점수를 스케일링 한다

In [18]:
d_k = keys.shape[1]
attn_weights_2 = torch.softmax(attn_scores_2 / d_k**0.5, dim=-1)
attn_weights_2

tensor([0.1500, 0.2264, 0.2199, 0.1311, 0.0906, 0.1820])

__step 4__ 
query vector 2에 대한 context vector를 계산하자
![image.png](attachment:image.png)

In [19]:
context_vec_2 = attn_weights_2 @ values
context_vec_2

tensor([0.3061, 0.8210])

### self attention 클래스 구현하기

모든것을 담아서 python class에 self attention 매커니즘을 구현할 수 있다.
![image.png](attachment:image.png)

In [20]:
import torch.nn as nn

class SelfAttention_v1(nn.Module):

    def __init__(self, d_in, d_out):
        super().__init__()
        self.W_query = nn.Parameter(torch.rand(d_in, d_out))
        self.W_key = nn.Parameter(torch.rand(d_in, d_out))
        self.W_value = nn.Parameter(torch.rand(d_in, d_out))
    
    def forward(self, x):
        keys = x @ self.W_key
        queries = x @ self.W_query
        values = x @ self.W_value

        attn_scores = queries @ keys.T
        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)

        context_vec = attn_weights @ values
        return context_vec

torch.manual_seed(123)
sa_v1 = SelfAttention_v1(d_in, d_out)
sa_v1(inputs)

tensor([[0.2996, 0.8053],
        [0.3061, 0.8210],
        [0.3058, 0.8203],
        [0.2948, 0.7939],
        [0.2927, 0.7891],
        [0.2990, 0.8040]], grad_fn=<MmBackward0>)

`torch.linear` 에서 __bias를 제거하면__ `nn.Parameter` 를 사용한 행렬 곱과 같다.
* `nn.Linear` 를 사용햇을때 가장 큰 장점은 가중치 초기화를 자동으로 해주며, 이는 더 안정적인 모델 학습을 가능하게 한다.

In [21]:
class SelfAttention_v2(nn.Module):

    def __init__(self, d_in, d_out, qkv_bias=False):
        super().__init__()
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
    
    def forward(self, x):
        keys = self.W_key(x)
        queries = self.W_query(x)
        values = self.W_value(x)

        attn_scores = queries @ keys.T
        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)

        context_vec = attn_weights @ values
        return context_vec

torch.manual_seed(789)
sa_v2 = SelfAttention_v2(d_in, d_out)
sa_v2(inputs)

tensor([[-0.0739,  0.0713],
        [-0.0748,  0.0703],
        [-0.0749,  0.0702],
        [-0.0760,  0.0685],
        [-0.0763,  0.0679],
        [-0.0754,  0.0693]], grad_fn=<MmBackward0>)

### 이후에 있는 단어를 가리는 `causal attention` 구현하기

causal attention에서는 상삼각 성분 부분을 마스킹한다.
* 주어진 입력에 대해서 LLM이 context vector를 계산할때 현재 이후의 토큰을 참조하지 않게 한다.
![image.png](attachment:image.png)

#### casual attention mask 적용 

이 부분에서는 이전 self-attention 매커니즘을 causal self-attnetion으로 전환한다.  
* 모델의 예측이 미래 토큰이 아닌 이전 토큰의 위치에만 의존하게 하는 방식을 말한다.
* 이것을 수행하기 위해서는 주어진 토큰에 대해서 현재 토큰 이후에 있는 토큰 부분을 전부 마스킹 해야한다.
![image.png](attachment:image.png)  

* causal self-attention을 공부하기 위해서 이전에 사용했던 어텐션 점수와 가중치를 사용하자


In [22]:
# 편의를 위해서 query와 key 가중치 행렬을 재사용한다.
queries = sa_v2.W_query(inputs)
keys = sa_v2.W_key(inputs)
attn_scores = queries @ keys.T

attn_weights = torch.softmax(attn_scores / keys.shape[-1] ** 0.5, dim=-1)
attn_weights

tensor([[0.1921, 0.1646, 0.1652, 0.1550, 0.1721, 0.1510],
        [0.2041, 0.1659, 0.1662, 0.1496, 0.1665, 0.1477],
        [0.2036, 0.1659, 0.1662, 0.1498, 0.1664, 0.1480],
        [0.1869, 0.1667, 0.1668, 0.1571, 0.1661, 0.1564],
        [0.1830, 0.1669, 0.1670, 0.1588, 0.1658, 0.1585],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<SoftmaxBackward0>)

미래에 있는 어텐션 가중치를 마스킹하는 가장 간단한 방식은 
* 대각 성분아래는 1로, 위는 0으로 세팅된 행렬을 pytorch의 `tril` 함수를 사용한다.

In [23]:
context_length = attn_scores.shape[0]
mask_simple = torch.tril(torch.ones(context_length, context_length))
mask_simple

tensor([[1., 0., 0., 0., 0., 0.],
        [1., 1., 0., 0., 0., 0.],
        [1., 1., 1., 0., 0., 0.],
        [1., 1., 1., 1., 0., 0.],
        [1., 1., 1., 1., 1., 0.],
        [1., 1., 1., 1., 1., 1.]])

In [24]:
# 이제 어텐션 가중치에 마스킹을 수행해서 대각 위 성분을 모두 0으로 만들자
masked_simple = attn_weights * mask_simple
masked_simple

tensor([[0.1921, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2041, 0.1659, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2036, 0.1659, 0.1662, 0.0000, 0.0000, 0.0000],
        [0.1869, 0.1667, 0.1668, 0.1571, 0.0000, 0.0000],
        [0.1830, 0.1669, 0.1670, 0.1588, 0.1658, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<MulBackward0>)

그러나 softmax 이후에 마스킹을 하면 softmax로 만든 확률 분포가 깨지게 된다.
* 즉 모든 요소를 더했을 때 1이 되지 않음.
* 그래서 마스킹 이후에 다시 정규화를 수행해야한다.

In [25]:
row_sums = masked_simple.sum(dim=-1, keepdim=True)
masked_simple_norm = masked_simple / row_sums
masked_simple_norm

tensor([[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.5517, 0.4483, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.3800, 0.3097, 0.3103, 0.0000, 0.0000, 0.0000],
        [0.2758, 0.2460, 0.2462, 0.2319, 0.0000, 0.0000],
        [0.2175, 0.1983, 0.1984, 0.1888, 0.1971, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<DivBackward0>)

지금까지 casual attention 매커니즘을 코딩했다. 이후에는 지금까지했던 과정을 더 효율적으로 하는 방법을 알아보자

따라서 어텐션 가중치의 상 대각 성분을 0으로 바꾸고 다시 정규화를 수행하는 것 보다는 아직 정규화 되지 않은 attention 점수의 상 대각 성분을 음의 무한대로 바꾸고 softmax 함수에 태우는 것이 더 효율적임
* softmax는 음의 무한대를 넣었을때 0이 나오기 때문

In [26]:
mask = torch.triu(torch.ones(context_length, context_length), diagonal=1)
masked = attn_scores.masked_fill(mask.bool(), -torch.inf)
masked

tensor([[0.2899,   -inf,   -inf,   -inf,   -inf,   -inf],
        [0.4656, 0.1723,   -inf,   -inf,   -inf,   -inf],
        [0.4594, 0.1703, 0.1731,   -inf,   -inf,   -inf],
        [0.2642, 0.1024, 0.1036, 0.0186,   -inf,   -inf],
        [0.2183, 0.0874, 0.0882, 0.0177, 0.0786,   -inf],
        [0.3408, 0.1270, 0.1290, 0.0198, 0.1290, 0.0078]],
       grad_fn=<MaskedFillBackward0>)

In [27]:
# 위 결과에 softmax 태우기 -> 정규화 수행
attn_weights = torch.softmax(masked / keys.shape[-1]**0.5, dim=-1)
attn_weights

tensor([[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.5517, 0.4483, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.3800, 0.3097, 0.3103, 0.0000, 0.0000, 0.0000],
        [0.2758, 0.2460, 0.2462, 0.2319, 0.0000, 0.0000],
        [0.2175, 0.1983, 0.1984, 0.1888, 0.1971, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<SoftmaxBackward0>)

#### dropout과 함께 attention 가중치에 마스킹하기

추가로 학습과정에서 과적합을 줄이기 위해서 dropout을 적용한다.

다음 2가지 상황 중 한가지에 적용을 한다.
* attention weight를 계산하고 나서 적용하기 or value 벡터에 attention 가중치를 곱한 이후 적용하기
__여기서는 일반적으로 사용되는 방식인 attention weight 계산 이후에 dropout을 적용하는 것을 사용하자.__

예를 들어서 50% dropout 확률을 사용하면 어텐션 가중치의 무작위 절반을 마스킹한다.
* gpt 모델을 사용할때는 보통 0.1, 0.2 정도의 낮은 dropout 확률을 사용한다.
 
![image.png](attachment:image.png)
 
* dropout 값이 0.5라면 dropout 되지 않는 성분들은 1 / (1 - `dropout_rate`) 값을 곱해서 스케일링 한다. (즉 보정을 취함) 
* 참고로 운영체제에 따라서 dropout 결과가 다른 버그가 있다고 한다. [버그 설명](https://github.com/pytorch/pytorch/issues/121595)

In [28]:
torch.manual_seed(123)
dropout = torch.nn.Dropout(0.5)
example = torch.ones(6, 6)

dropout(example)

tensor([[2., 2., 2., 2., 2., 2.],
        [0., 2., 0., 0., 0., 0.],
        [0., 0., 2., 0., 2., 0.],
        [2., 2., 0., 0., 0., 2.],
        [2., 0., 0., 0., 0., 2.],
        [0., 2., 0., 0., 0., 0.]])

In [29]:
torch.manual_seed(123)
dropout(attn_weights)

tensor([[2.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.8966, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.6206, 0.0000, 0.0000, 0.0000],
        [0.5517, 0.4921, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.4350, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.3327, 0.0000, 0.0000, 0.0000, 0.0000]],
       grad_fn=<MulBackward0>)

#### casual self attention class를 구현하기

이제 causal + dropout masking을 포함한 self attention 클래스를 구현할 준비가 됐다.
* 한개보다 더 많은 입력을 배치 형태로 처리하기 위해서 챕터 2에서 구현한 dataloader를 지원한다.
* 배치 입력을 위해서 입력 텍스트를 복제한다.

In [37]:
batch = torch.stack((inputs, inputs), dim=0)
batch.shape # 각 6개 토큰이 들어가 있는 2개 input, 각 토큰은 3차원

torch.Size([2, 6, 3])

참고로 dropout은 오직 학습할때만 적용하며 추론할때는 적용하지 않는다.
![image.png](attachment:image.png)

In [None]:
class CausalAttention(nn.Module):

    def __init__(self, d_in, d_out, context_length, dropout, qkv_bias=False):
        super().__init__()
        self.d_out = d_out
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.dropout = nn.Dropout(dropout) # New
        self.register_buffer('mask', torch.triu(torch.ones(context_length, context_length), diagonal=1)) # New
    
    def forward(self, x):
        b, num_tokens, d_in = x.shape
        """
        아래 구현처럼 하면 num_tokens가 context_length 보다 크면 마스킹할 때 에러가 발생한다.
        실제로는 문제가 안되는데, LLM에서 forward 함수에 들어가기 전에 
        입력값을 context_length를 초과하지 않게 하기 때문에 상관이 없다.
        """
        keys = self.W_key(x)
        queries = self.W_query(x)
        values = self.W_value(x)

        attn_scores = queries @ keys.transpose(1, 2) # x가 3차원 텐서라는 사실을 잊지말자
        # _ operation 은 in-place연산 -> 실제 값을 바꿈
        # context_size보다 작은 수의 토큰이 들어올때를 처리하기 위해서 `:num_tokens` 연산을 사용
        attn_scores.masked_fill_(self.mask.bool()[:num_tokens, :num_tokens], -torch.inf)

        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
        attn_weights = self.dropout(attn_weights) # New

        context_vec = attn_weights @ values
        return context_vec

torch.manual_seed(123)

context_length = batch.shape[1]
ca = CausalAttention(d_in, d_out, context_length, 0.0)

context_vecs = ca(batch)
print(context_vecs)
print("context_vecs.shape:", context_vecs.shape)

tensor([[[-0.4519,  0.2216],
         [-0.5874,  0.0058],
         [-0.6300, -0.0632],
         [-0.5675, -0.0843],
         [-0.5526, -0.0981],
         [-0.5299, -0.1081]],

        [[-0.4519,  0.2216],
         [-0.5874,  0.0058],
         [-0.6300, -0.0632],
         [-0.5675, -0.0843],
         [-0.5526, -0.0981],
         [-0.5299, -0.1081]]], grad_fn=<UnsafeViewBackward0>)
context_vecs.shape: torch.Size([2, 6, 2])


https://github.com/rasbt/LLMs-from-scratch/tree/main/ch03/01_main-chapter-code