<a href="https://colab.research.google.com/github/Haj1h0/llm-from-scratch-code/blob/main/ch3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from importlib.metadata import version

print("파이토치 버전:", version("torch"))

파이토치 버전: 2.9.1


In [2]:
import torch

inputs = torch.tensor(  # 3차원 벡터로 임베딩한 입력 시퀀스
  [[0.43, 0.15, 0.89], # Your     (x^1)
   [0.55, 0.87, 0.66], # journey  (x^2)
   [0.57, 0.85, 0.64], # starts   (x^3)
   [0.22, 0.58, 0.33], # with     (x^4)
   [0.77, 0.25, 0.10], # one      (x^5)
   [0.05, 0.80, 0.55]] # step     (x^6)
)

In [3]:
# 트랜스포머의 Self-Attention은 시퀀스에 있는 각 위치가 동일 시퀀스에 있는 모든 다른 위치와 상호 작용하여 관련성을 결정함으로써 입력 표현을 향상시킨다.
# inputs[1]인 두 번째 입력 토큰 "journey"와 모든 입력 토큰들(자기 자신 포함) 사이에서
# 점곱을 계산하여 정규화되지 않은(softmax를 적용하지 않은) 어텐션 점수를 구하는 코드
# inputs[1]이 query인 것은 sample일 뿐, Self-Attention에서는 모든 단어가 차례로 query가 되어 다른 단어들과의 관계를 계산한다.
# xᵢ와 query(= x²)의 방향이 비슷할수록 점곱이 크고 유사도가 높다. → attention score ↑
# 방향이 다르면 점곱이 작고 유사도가 낮다. → attention score ↓
# attention_scores = Q · Kᵀ

query = inputs[1]  

# inputs.shape = torch.Size([6, 3]) # 6개의 단어, 각각 3차원 벡터로 표현
# inputs.shape[0] → 6 (첫 번째 차원의 크기), inputs.shape[1] → 3 (두 번째 차원의 크기) 즉, shape[0]: 행의 개수, shape[1]: 열의 개수
# torch.empty(6) = [쓰레기값, 쓰레기값, 쓰레기값, 쓰레기값, 쓰레기값, 쓰레기값] 즉, attention 점수 저장용 1차원 텐서 공간
# ex) # i=3: attn_scores_2[3] = 0.22*0.55 + 0.58*0.87 + 0.33*0.66 = 0.8414
attn_scores_2 = torch.empty(inputs.shape[0]) 
for i, x_i in enumerate(inputs):
    attn_scores_2[i] = torch.dot(x_i, query) # 1차원 벡터이므로 전치 X
# 질문하신 내용처럼 torch.dot은 오직 1차원 텐서에만 사용 가능하기 때문에 순서가 바뀌어도 연산 결과(스칼라 값)가 동일한 것이고,
# 나중에 차원이 높아지면 **@ (행렬 곱)**를 사용하는 것이 정석입니다.
print(attn_scores_2)

tensor([0.9544, 1.4950, 1.4754, 0.8434, 0.7070, 1.0865])


In [4]:
# calculating the attention score of query inputs[0]

res = 0.

for idx, element in enumerate(inputs[0]):
    res += inputs[0][idx] * query[idx]  # == torch.dot(inputs[0], query)

print(res)
print(torch.dot(inputs[0], query))

tensor(0.9544)
tensor(0.9544)


In [5]:
# normalizes the attention score to a sum of 1
# attn_scores_2 / attn_scores_2.sum()을 통한 normalization은 음수 발생 시 확률 분포의 성질을 만족하지 못한다.

attn_weights_2_tmp = attn_scores_2 / attn_scores_2.sum()

print("어텐션 가중치:", attn_weights_2_tmp)
print("합:", attn_weights_2_tmp.sum())

어텐션 가중치: tensor([0.1455, 0.2278, 0.2249, 0.1285, 0.1077, 0.1656])
합: tensor(1.0000)


In [6]:
# Naive function with direct softmax implementation 
# softmax(si) = exp(si) / Σ exp(sj)
# sum = 1, 모든 값은 0~1 사이, 큰 값은 더 크게 만들어주고 (확실성↑), 작은 값은 더 작아짐 (불확실성↓)
# 이는 attention이 더 날카롭고 선명해져 '확률 분포’를 만들기에 매우 적합하다.
# 해당 함수는 입력이 매우 작거나 클 경우 언더플로우 혹은 오버플로우가 발생할 수 있기에 수치적으로 불안정하다.
# 큰 값에 exp()를 적용하면 오버플로우 발생 가능, 작은 값에 exp()를 적용하면 언더플로우 발생 가능

def softmax_naive(x):
    return torch.exp(x) / torch.exp(x).sum(dim=0)

attn_weights_2_naive = softmax_naive(attn_scores_2)

print("어텐션 가중치:", attn_weights_2_naive)
print("합:", attn_weights_2_naive.sum())

어텐션 가중치: tensor([0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581])
합: tensor(1.)


In [7]:
# torch.softmax()

attn_weights_2 = torch.softmax(attn_scores_2, dim=0)

print("어텐션 가중치:", attn_weights_2)
print("합:", attn_weights_2.sum())

어텐션 가중치: tensor([0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581])
합: tensor(1.)


In [8]:
# context vector 계산
# "journey" 토큰이 다른 모든 토큰들의 정보를 가중평균하여 새로운 표현을 만드는 코드

query = inputs[1] 

context_vec_2 = torch.zeros(query.shape)  # [0.00, 0.00, 0.00], query와 같은 shape인 3차원 영벡터
for i,x_i in enumerate(inputs):
    context_vec_2 += attn_weights_2[i]*x_i  # scala X vector = “1행 3열” 또는 “3차원 벡터”

# 문맥 벡터 = Σ (어텐션 가중치 × 입력 벡터)
# context_vec_2 = 0.1386 × [0.43, 0.15, 0.89]  ("Your")
#              + 0.2379 × [0.55, 0.87, 0.66]  ("journey") ← 가장 큰 영향!
#              + 0.2331 × [0.57, 0.85, 0.64]  ("starts")
#              + 0.1237 × [0.22, 0.58, 0.33]  ("with")
#              + 0.1082 × [0.77, 0.25, 0.10]  ("one")
#              + 0.1581 × [0.05, 0.80, 0.55]  ("step")
#              ─────────────────────────────────────
#              = [0.4419, 0.6515, 0.5683]
# 6개의 3차원 입력 벡터에 어텐션 가중치를 적용하여 가중 평균을 구함으로써, 주변 토큰의 정보를 유기적으로 흡수한 단일 문맥 벡터(Context Vector)
print(context_vec_2) 

tensor([0.4419, 0.6515, 0.5683])


In [9]:
# 모든 입력 토큰 쌍에 대해 attention score를 계산

attn_scores = torch.empty(6, 6)

for i, x_i in enumerate(inputs):  # Query
    for j, x_j in enumerate(inputs):  # Key
        attn_scores[i, j] = torch.dot(x_i, x_j)

print(attn_scores)  # attn_scores[1, :] == attn_scores_2

tensor([[0.9995, 0.9544, 0.9422, 0.4753, 0.4576, 0.6310],
        [0.9544, 1.4950, 1.4754, 0.8434, 0.7070, 1.0865],
        [0.9422, 1.4754, 1.4570, 0.8296, 0.7154, 1.0605],
        [0.4753, 0.8434, 0.8296, 0.4937, 0.3474, 0.6565],
        [0.4576, 0.7070, 0.7154, 0.3474, 0.6654, 0.2935],
        [0.6310, 1.0865, 1.0605, 0.6565, 0.2935, 0.9450]])


In [10]:
attn_scores = inputs @ inputs.T  # [6,3] @ [3,6] = [6,6]
print(attn_scores)

tensor([[0.9995, 0.9544, 0.9422, 0.4753, 0.4576, 0.6310],
        [0.9544, 1.4950, 1.4754, 0.8434, 0.7070, 1.0865],
        [0.9422, 1.4754, 1.4570, 0.8296, 0.7154, 1.0605],
        [0.4753, 0.8434, 0.8296, 0.4937, 0.3474, 0.6565],
        [0.4576, 0.7070, 0.7154, 0.3474, 0.6654, 0.2935],
        [0.6310, 1.0865, 1.0605, 0.6565, 0.2935, 0.9450]])


In [11]:
# 각 행의 합이 1이 되도록 정규화

# dim = -1 은 "마지막 차원, 축(axis)"을 의미한다. 즉, 텐서의 가장 오른쪽 축을 기준으로 연산하겠다는 뜻이다. 
# dim=1 또는 dim=-1: 행 방향으로 softmax (각 행의 합 = 1), dim=0: 열 방향으로 softmax (각 열의 합 = 1)
attn_weights = torch.softmax(attn_scores, dim=-1) 

print(attn_weights)

tensor([[0.2098, 0.2006, 0.1981, 0.1242, 0.1220, 0.1452],
        [0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581],
        [0.1390, 0.2369, 0.2326, 0.1242, 0.1108, 0.1565],
        [0.1435, 0.2074, 0.2046, 0.1462, 0.1263, 0.1720],
        [0.1526, 0.1958, 0.1975, 0.1367, 0.1879, 0.1295],
        [0.1385, 0.2184, 0.2128, 0.1420, 0.0988, 0.1896]])


In [12]:
row_2_sum = sum([0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581])
print("두 번째 행의 합:", row_2_sum)

print("모든 행의 합:", attn_weights.sum(dim=-1))

두 번째 행의 합: 1.0
모든 행의 합: tensor([1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000])


In [13]:
# context vector = attention weight * 값(Value)

all_context_vecs = attn_weights @ inputs # [6,6] @ [6,3] = [6,3]
print(all_context_vecs)

tensor([[0.4421, 0.5931, 0.5790],
        [0.4419, 0.6515, 0.5683],
        [0.4431, 0.6496, 0.5671],
        [0.4304, 0.6298, 0.5510],
        [0.4671, 0.5910, 0.5266],
        [0.4177, 0.6503, 0.5645]])


In [14]:
print("이전에 계산한 두 번째 문맥 벡터:", context_vec_2)

이전에 계산한 두 번째 문맥 벡터: tensor([0.4419, 0.6515, 0.5683])


In [15]:
# 훈련 가능한 가중치를 가진 셀프 어텐션 구현하기
# 셀프 어텐션 메커니즘을 구현하기 위해 세 개의 훈련 가중치 행렬 Wq, Wk, Wv를 도입한다.
# 이 세 개의 행렬에 행렬 곱셈을 적용하여 임베딩된 입력 토큰 Xi을 쿼리, 키, 값 벡터로 투영합니다.
# X = TokenEmbedding + PositionEmbedding
# 쿼리 벡터 qi = xi * Wq

In [16]:
# GPT 모델에서는 입력과 출력 차원이 일반적으로 같습니다. 하지만 계산 과정을 설명하기 쉽도록 입력과 출력 차원을 다르게 하겠습니다.
x_2 = inputs[1] # 두 번째 입력 원소, [0.55, 0.87, 0.66]
d_in = inputs.shape[1] # 입력 임베딩 크기, d=3
d_out = 2 # 출력 임베딩 크기, d=2
x_2

tensor([0.5500, 0.8700, 0.6600])

In [None]:
# 정말 좋은 질문입니다! 결론부터 말씀드리면 **"항상 동일한 것은 아니지만, 많은 모델에서 동일하게 설정(Default)하는 경우가 많다"**가 정답입니다.보통 입력 임베딩의 크기를 $d_{model}$이라 하고, $Q, K, V$를 만들기 위한 가중치 행렬(Weight Matrix)의 결과 차원을 $d_k$라고 부릅니다.1. 차원이 동일한 경우 (예: 기본 Transformer)가장 유명한 논문인 Attention Is All You Need의 기준으로는 다음과 같습니다.입력 임베딩 ($d_{model}$): 512차원가중치 결과 ($d_k, d_v$): 512차원 (단, 멀티 헤드 어텐션으로 나뉘기 전 총합 기준)이 경우 입력 벡터의 길이와 출력 벡터의 길이가 같습니다. 이렇게 하면 잔차 연결(Residual Connection)을 할 때 입력값과 결과값을 더하기가 아주 편하기 때문에 기본값으로 많이 사용합니다.2. 차원이 다른 경우 (설계에 따라 가능)수학적으로는 가중치 행렬 $W_Q, W_K, W_V$의 크기를 조절하여 임베딩 차원을 늘리거나 줄일 수 있습니다.예를 들어, 입력 임베딩은 512차원인데 $Q, K, V$는 256차원으로 설계할 수 있습니다.이때 가중치 행렬의 크기는 $512 \times 256$이 됩니다.3. 멀티 헤드 어텐션(Multi-Head Attention)에서의 비밀여기서 헷갈리기 쉬운 포인트가 하나 더 있습니다. 실제 모델은 하나의 큰 어텐션을 쓰는 게 아니라 여러 개로 쪼개서 씁니다.**전체 차원($d_{model}$)**이 512이고 **헤드(Head)**가 8개라면:각 헤드에서의 실제 $Q, K, V$ 벡터 크기는 $512 \div 8 = 64$차원이 됩니다.즉, 개별 헤드 내부에서는 **입력(512) $\neq$ 출력(64)**으로 크기가 다릅니다! 하지만 나중에 이 8개를 다시 합치면 원래의 512차원으로 돌아오는 구조입니다.

In [17]:
torch.manual_seed(123)

W_query = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)
W_key   = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)
W_value = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)
# 가중치 행렬로 모델을 훈련하려면 requires_grad=True로 지정해서 훈련 과정 중에 이 행렬들을 업데이트해야 한다. 출력 간소화 위해 False

In [18]:
query_2 = x_2 @ W_query # 두 번째 입력 원소에 대한 값을 계산하므로 _2로 씁니다.
key_2 = x_2 @ W_key
value_2 = x_2 @ W_value

print(query_2)
print(x_2.shape)
print(W_query.shape)
print(query_2.shape)

tensor([0.4306, 1.4551])
torch.Size([3])
torch.Size([3, 2])
torch.Size([2])


In [19]:
# 여섯 개의 입력 토큰을 3D에서 2D 임베딩 공간에 투영.
keys = inputs @ W_key
values = inputs @ W_value

print("keys.shape:", keys.shape)
print("values.shape:", values.shape)

keys.shape: torch.Size([6, 2])
values.shape: torch.Size([6, 2])


In [20]:
keys_2 = keys[1] # 파이썬 인덱스는 0부터 시작합니다.
# attn_score_22 = query_2.dot(keys_2)
attn_score_22 = query_2 @ keys_2

print(attn_score_22)

tensor(1.8524)


In [21]:
# attn_score_22 = query_2 @ keys_2.T 
# 1차원 텐서에 “행렬용 전치(.T)”를 동일하게 적용하려고 하면 에러(또는 shape 불일치)가 나는 게 정상이야.
# 더 좋은 코드로 줄이기 가능 GPT 질문 -> 2D로 맞추고 점곱하기? 최적?
# print(attn_score_22)

tensor(1.8524)


  attn_score_22 = query_2 @ keys_2.T


In [22]:
attn_scores_2 = query_2 @ keys.T # 주어진 쿼리에 대한 모든 어텐션 점수
print(attn_scores_2)

tensor([1.2705, 1.8524, 1.8111, 1.0795, 0.5577, 1.5440])


In [23]:
# attention score -> attention weight, 이때 임베딩 차원의 제곱근 d_k ** 0.5 로 나누어 어텐션 점수의 스케일을 조정한다.
# 임베딩 차원의 제곱근으로 나눈다” → 정확히는 키 벡터의 차원 dₖ의 제곱근(√dₖ)
# 나누는 이유로는 점곱(dot product)이 차원이 커질수록 너무 커지기 때문이다. 값이 커질수록 softmax가 극단적으로 편향될 가능성이 있다.
# 그럼 왜 하필 “제곱근(√dₖ)”으로 나누는가? 핵심은 점곱(dot product)의 분산이 dₖ에 비례해서 증가한다. 고로 제곱근(√dₖ)로 나누면 분산이 1로 보정된다.
d_k = keys.shape[1]
print(d_k)
attn_weights_2 = torch.softmax(attn_scores_2 / d_k**0.5, dim=-1)
print(attn_weights_2)

2
tensor([0.1500, 0.2264, 0.2199, 0.1311, 0.0906, 0.1820])


In [24]:
context_vec_2 = attn_weights_2 @ values
print(context_vec_2)

tensor([0.3061, 0.8210])


In [25]:
# 셀프 어텐션 파이썬 클래스 구현하기
import torch.nn as nn

class SelfAttention_v1(nn.Module):

    def __init__(self, d_in, d_out):
        super().__init__()
        self.W_query = nn.Parameter(torch.rand(d_in, d_out))
        self.W_key   = nn.Parameter(torch.rand(d_in, d_out))
        self.W_value = nn.Parameter(torch.rand(d_in, d_out))

    def forward(self, x):
        keys = x @ self.W_key
        queries = x @ self.W_query
        values = x @ self.W_value

        attn_scores = queries @ keys.T # omega
        attn_weights = torch.softmax(
            attn_scores / keys.shape[-1]**0.5, dim=-1
        )

        context_vec = attn_weights @ values
        return context_vec

torch.manual_seed(123)
sa_v1 = SelfAttention_v1(d_in, d_out)
print(sa_v1(inputs))

# 입력 shapes:
# Q: (batch, seq_len, head_dim)
# K: (batch, seq_len, head_dim)
# Kᵀ: (batch, head_dim, seq_len) -> K.transpose(-2, -1)
# K.T는 2차원 텐서(행렬)일 때만 안전하게 동작

tensor([[0.2996, 0.8053],
        [0.3061, 0.8210],
        [0.3058, 0.8203],
        [0.2948, 0.7939],
        [0.2927, 0.7891],
        [0.2990, 0.8040]], grad_fn=<MmBackward0>)


In [26]:
"""
class SelfAttention(nn.Module):
    def __init__(self, d_model, d_k):
        super().__init__()
        self.W_Q = nn.Parameter(torch.randn(d_model, d_k))
        self.W_K = nn.Parameter(torch.randn(d_model, d_k))
        self.W_V = nn.Parameter(torch.randn(d_model, d_k))

    def forward(self, x):
        Q = x @ self.W_Q
        K = x @ self.W_K
        V = x @ self.W_V

        scores = Q @ K.transpose(-2, -1) / math.sqrt(K.size(-1)) # K.size(-1) = K 텐서의 마지막(last) 차원의 크기를 가져온다는 의미 = = key 벡터의 차원 d_k
        attn = scores.softmax(dim=-1)
        out = attn @ V
        return out
"""

'\nclass SelfAttention(nn.Module):\n    def __init__(self, d_model, d_k):\n        super().__init__()\n        self.W_Q = nn.Parameter(torch.randn(d_model, d_k))\n        self.W_K = nn.Parameter(torch.randn(d_model, d_k))\n        self.W_V = nn.Parameter(torch.randn(d_model, d_k))\n\n    def forward(self, x):\n        Q = x @ self.W_Q\n        K = x @ self.W_K\n        V = x @ self.W_V\n\n        scores = Q @ K.transpose(-2, -1) / math.sqrt(K.size(-1)) # K.size(-1) = K 텐서의 마지막(last) 차원의 크기를 가져온다는 의미 = = key 벡터의 차원 d_k\n        attn = scores.softmax(dim=-1)\n        out = attn @ V\n        return out\n'

In [27]:
# nn.Parameter(torch.rand(...) 대신에 nn.Linear를 사용하는 또 다른 큰 장점은 nn.Linear는 안정적으로 모델을 훈련하는데 도움이 되는 가중치 초기화를 제공한다.
# nn.Linear(in, out)는 내부에서 Xavier(Glorot) 초기화를 자동 적용하여 일정한 통계적 기준에 따라 “좋은 초기값”으로 설정됨, 학습 안정성 ↑
# nn.Parameter(torch.randn(...))은 정규분포(평균=0, 표준편차=1)로 초기화됨, 분포는 N(0, 1), 가중치 크기가 nn.Linear보다 더 크거나 다양할 수 있음, 학습 안정성은 스스로 책임지는 방식

class SelfAttention_v2(nn.Module):

    def __init__(self, d_in, d_out, qkv_bias=False):
        super().__init__()
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)

    def forward(self, x):
        keys = self.W_key(x)
        queries = self.W_query(x)
        values = self.W_value(x)

        attn_scores = queries @ keys.T
        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)

        context_vec = attn_weights @ values
        return context_vec

torch.manual_seed(789)
sa_v2 = SelfAttention_v2(d_in, d_out)
print(sa_v2(inputs))

tensor([[-0.0739,  0.0713],
        [-0.0748,  0.0703],
        [-0.0749,  0.0702],
        [-0.0760,  0.0685],
        [-0.0763,  0.0679],
        [-0.0754,  0.0693]], grad_fn=<MmBackward0>)


In [28]:
# 코잘 어텐션으로 미래의 단어를 감추기
# 코잘 어텐션에서 주대각선 위의 어텐션 가중치를 마스크하여 주어진 입력에 대해 어텐션 가중치로 문맥 벡터를 계산하는 동안 미래 토큰을 엿볼수 없게 한다.
# 코잘 어텐션을 사용하지 않을 경우, 모델은 실제 생성 과정에서는 이용할 수 없는 정보를 사용하게 됨
# 즉, 훈련 환경과 추론 환경이 달라짐 → 모델이 망함 -> 이를 **정보 누수(data leakage)**라고 한다.
# 편의상 이전 절에서 만든 SelfAttention_v2 객체의 쿼리와 키 가중치 행렬을 재사용.

queries = sa_v2.W_query(inputs)
keys = sa_v2.W_key(inputs)
attn_scores = queries @ keys.T

attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
print(attn_weights)

tensor([[0.1921, 0.1646, 0.1652, 0.1550, 0.1721, 0.1510],
        [0.2041, 0.1659, 0.1662, 0.1496, 0.1665, 0.1477],
        [0.2036, 0.1659, 0.1662, 0.1498, 0.1664, 0.1480],
        [0.1869, 0.1667, 0.1668, 0.1571, 0.1661, 0.1564],
        [0.1830, 0.1669, 0.1670, 0.1588, 0.1658, 0.1585],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<SoftmaxBackward0>)


In [29]:
# 미래 어텐션 가중치를 마스킹하는 가장 간단한 방법은 파이토치 tril 함수로 주대각선과 그 아래의 원소는 1, 주대각선 위의 원소는 0인 마스크를 만드는 것.
# torch.tril()을 사용하면 주대각선 기준으로 위쪽을 0으로 만드는 마스크 텐서 생성.

# 어텐션 스코어 행렬의 크기는 (seq_len × seq_len)
# 행(row, i) = 현재 "쿼리 토큰" (i번째 토큰)
# 열(column, j) = 보고 싶은 "키 토큰" (j번째 토큰)
# 즉, 행 i는 “i번째 토큰이 누구를 참고하냐”, 열 j는 “j번째 토큰을 참고할지 말지”

context_length = attn_scores.shape[0]
mask_simple = torch.tril(torch.ones(context_length, context_length)) # diagonal=-1, triu()
print(mask_simple)

tensor([[1., 0., 0., 0., 0., 0.],
        [1., 1., 0., 0., 0., 0.],
        [1., 1., 1., 0., 0., 0.],
        [1., 1., 1., 1., 0., 0.],
        [1., 1., 1., 1., 1., 0.],
        [1., 1., 1., 1., 1., 1.]])


In [30]:
masked_simple = attn_weights * mask_simple  # torch.tril(attn_weights)와 동일
print(masked_simple)

tensor([[0.1921, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2041, 0.1659, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2036, 0.1659, 0.1662, 0.0000, 0.0000, 0.0000],
        [0.1869, 0.1667, 0.1668, 0.1571, 0.0000, 0.0000],
        [0.1830, 0.1669, 0.1670, 0.1588, 0.1658, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<MulBackward0>)


In [31]:
# 하지만 위와 같이 마스크를 소프트맥스 이후에 적용하면 소프트맥스로 만든 확률 분포가 어그러집니다.
# 실무에서는 스케일링 → 마스크 → softmax 이 순서가 정석이며 가장 안정적. 마스킹 후 스케일을 한다면, -inf / √d_k 같은 쓸데없는 연산 발생
# masked_fill : scores = scores.masked_fill(mask == 0, float('-inf'))
# cf) 소프트 맥스 사용 이유 : 단순 정규화하면 "평평한 분포"가 나와서 Attention의 날카로운 선택 능력이 사라짐. 고로 attention은 큰 score를 더 중요하게 보고, 작은 score는 훨씬 덜 보게 되어야 함

# 각 행의 합이 1이 되도록 만들기 위해 어텐션 가중치를 다음과 같이 정규화할 수 있습니다.
row_sums = masked_simple.sum(dim=-1, keepdim=True) # 마지막 차원(dim=-1)을 따라 각 row 합을 구함
# keepdim=True는 shape을 (batch, seq_len, 1)처럼 유지하기 위함 → 그래야 나중에 broadcasting으로 나누기 가능
# broadcasting은 서로 다른 shape의 텐서끼리 연산할 때, PyTorch가 작은 텐서를 자동으로 큰 텐서에 맞게 확장해주는 규칙이다.
masked_simple_norm = masked_simple / row_sums
print(masked_simple_norm)

tensor([[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.5517, 0.4483, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.3800, 0.3097, 0.3103, 0.0000, 0.0000, 0.0000],
        [0.2758, 0.2460, 0.2462, 0.2319, 0.0000, 0.0000],
        [0.2175, 0.1983, 0.1984, 0.1888, 0.1971, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<DivBackward0>)


In [32]:
# 소프트맥스 함수에 들어가기 전에 정규화되지 않은 어텐션 점수를 음의 무한대로 마스킹
# torch.tril() → Lower triangular (아래 삼각형)
# torch.triu() → Upper triangular (위 삼각형)

mask = torch.triu(torch.ones(context_length, context_length), diagonal=1)
masked = attn_scores.masked_fill(mask.bool(), -torch.inf) # .masked_fill() = mask.bool()에서 True인 위치는 attn_scores 값을 -inf로 바꿔라, 즉, 첫 번째 인자 = 어느 위치를 바꿀지(Tensor of bool), 두 번째 인자 = 뭘로 바꿀지(value)
print(masked)

tensor([[0.2899,   -inf,   -inf,   -inf,   -inf,   -inf],
        [0.4656, 0.1723,   -inf,   -inf,   -inf,   -inf],
        [0.4594, 0.1703, 0.1731,   -inf,   -inf,   -inf],
        [0.2642, 0.1024, 0.1036, 0.0186,   -inf,   -inf],
        [0.2183, 0.0874, 0.0882, 0.0177, 0.0786,   -inf],
        [0.3408, 0.1270, 0.1290, 0.0198, 0.1290, 0.0078]],
       grad_fn=<MaskedFillBackward0>)


In [33]:
attn_weights = torch.softmax(masked / keys.shape[-1]**0.5, dim=-1)
print(attn_weights)

tensor([[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.5517, 0.4483, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.3800, 0.3097, 0.3103, 0.0000, 0.0000, 0.0000],
        [0.2758, 0.2460, 0.2462, 0.2319, 0.0000, 0.0000],
        [0.2175, 0.1983, 0.1984, 0.1888, 0.1971, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<SoftmaxBackward0>)


In [34]:
# 드롭아웃으로 어텐션 가중치에 추가적으로 마스킹하기
# 코잘(Causal) 마스킹은 언어모델이 오토리그레시브 구조를 지키도록 강제하는 제약 조건으로 과적합과는 관련 없음. 훈련/추론 consistency(일관성) 문제이다.
# 과적합 방지는 드롭아웃(Dropout) 같은 regularization 기법으로 해결한다.
# Self-Attention에서 Dropout은 softmax를 적용한 후에 적용한다.
# QKᵀ → scaling → mask → softmax → dropout → V 곱하기

In [35]:
# 이 예시에서는 드롭아웃 비율을 50%으로 지정합니다. 어텐션 가중치의 절반을 랜덤하게 마스킹한다는 의미입니다. (나중에 GPT 모델을 훈련할 때는 0.1이나 0.2 정도의 낮은 드롭아웃 비율을 사용하겠습니다.

# 드롭아웃 비율 0.5(50%)를 적용하면 드롭아웃되지 않은 값은 1/0.5=2배 만큼 크기가 증가할 것입니다.
# 스케일 조정 배율은 1 / (1 - dropout_rate)와 같이 계산합니다.
# 드롭아웃은 단순히 “값을 없애는(0으로 만드는)” 게 아닌 훈련 시 평균적 분포(scale)를 유지하기 위해 남은 값들을 1/(1-p) 만큼 키운다.
# 이를 **“inverted dropout”**이라고 부른다.
# 예로 값만 없애는 droupout 진행 시, dropout 전에 평균 = (2+3+5+7)/4 = 4.25, dropout 후 평균 = (2+5)/4 = 1.75 (절반 이하)로 모델의 출력을 계속 작게 만들어버림, 스케일이 변경된다.
# 그래서 남아 있는 값들을 1 / (1 - p) 만큼 키워 원래 값과 대략 동일한 스케일을 유지한다.

torch.manual_seed(123)
dropout = torch.nn.Dropout(0.5) # 50% 드롭아웃 비율
example = torch.ones(6, 6) # 1로 채워진 행렬을 만듭니다.

print(dropout(example))

tensor([[2., 2., 0., 2., 2., 0.],
        [0., 0., 0., 2., 0., 2.],
        [2., 2., 2., 2., 0., 2.],
        [0., 2., 2., 0., 0., 2.],
        [0., 2., 0., 2., 0., 2.],
        [0., 2., 2., 2., 2., 0.]])


In [36]:
torch.manual_seed(123)
print(dropout(attn_weights))

tensor([[2.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.7599, 0.6194, 0.6206, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.4921, 0.4925, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.3966, 0.0000, 0.3775, 0.0000, 0.0000],
        [0.0000, 0.3327, 0.3331, 0.3084, 0.3331, 0.0000]],
       grad_fn=<MulBackward0>)


In [37]:
# 코잘 어텐션 클래스 구현하기? 라기보다 배치 구현
batch = torch.stack((inputs, inputs), dim=0)
print(batch.shape) # 각각 여섯 개의 토큰으로 구성된 두 개의 입력. 각 토큰의 임베딩 차원은 3입니다.

torch.Size([2, 6, 3])


In [38]:
class CausalAttention(nn.Module):

    def __init__(self, d_in, d_out, context_length,
                 dropout, qkv_bias=False):
        super().__init__()
        # self.d_out = d_out
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.dropout = nn.Dropout(dropout) # 추가
        self.register_buffer('mask', torch.triu(torch.ones(context_length, context_length), diagonal=1)) # 추가

    def forward(self, x):
        b, num_tokens, d_in = x.shape # b: 배치 차원
        # 입력의 `num_tokens`가 `context_length`를 넘는 경우 마스크 생성에서 오류가 발생합니다.
        # 실제로는 forward 메서드에 들어오기 전에 LLM이 입력이 `context_length`를
        # 넘지 않는지 확인하기 때문에 문제가 되지 않습니다.
        keys = self.W_key(x)
        queries = self.W_query(x)
        values = self.W_value(x)

        attn_scores = queries @ keys.transpose(1, 2) # 전치
        attn_scores.masked_fill_(  # _ 메서드는 인플레이스 연산입니다.
            self.mask.bool()[:num_tokens, :num_tokens], -torch.inf)  # `:num_tokens`은 배치에 있는 토큰 개수가 문맥 길이보다 짧은 경우를 고려합니다.
        attn_weights = torch.softmax(
            attn_scores / keys.shape[-1]**0.5, dim=-1
        )
        attn_weights = self.dropout(attn_weights) # 추가

        context_vec = attn_weights @ values
        return context_vec

torch.manual_seed(123)

context_length = batch.shape[1]
ca = CausalAttention(d_in, d_out, context_length, 0.0)

context_vecs = ca(batch)

print(context_vecs)
print("context_vecs.shape:", context_vecs.shape)

tensor([[[-0.4519,  0.2216],
         [-0.5874,  0.0058],
         [-0.6300, -0.0632],
         [-0.5675, -0.0843],
         [-0.5526, -0.0981],
         [-0.5299, -0.1081]],

        [[-0.4519,  0.2216],
         [-0.5874,  0.0058],
         [-0.6300, -0.0632],
         [-0.5675, -0.0843],
         [-0.5526, -0.0981],
         [-0.5299, -0.1081]]], grad_fn=<UnsafeViewBackward0>)
context_vecs.shape: torch.Size([2, 6, 2])


In [39]:
# 싱글 헤드 어텐션을 멀티 헤드 어텐션으로 확장하기
# 멀티헤드는 각 헤드마다 "다른 관점"을 학습시키기 위해서 싱글 헤드를 여러 개 병렬 실행한 뒤 → concat → 마지막에 선형변환 한 번 더 해주는 구조다.

# 1. 여러 개의 싱글 헤드 어텐션 층 쌓기

class MultiHeadAttentionWrapper(nn.Module):

    def __init__(self, d_in, d_out, context_length, dropout, num_heads, qkv_bias=False):
        super().__init__()
        self.heads = nn.ModuleList(
            [CausalAttention(d_in, d_out, context_length, dropout, qkv_bias)
             for _ in range(num_heads)]
        )

    def forward(self, x):
        return torch.cat([head(x) for head in self.heads], dim=-1)


torch.manual_seed(123)

context_length = batch.shape[1] # 토큰 개수
d_in, d_out = 3, 2
mha = MultiHeadAttentionWrapper(
    d_in, d_out, context_length, 0.0, num_heads=2
)

context_vecs = mha(batch)

print(context_vecs)
print("context_vecs.shape:", context_vecs.shape)

# 위 구현에서 임베딩 차원은 4입니다. 문맥 벡터는 물론 쿼리, 키, 값 벡터의 차원으로 d_out=2를 지정했기 때문입니다. 두 개의 어텐션 헤드가 있으므로 출력 임베딩 차원은 2*2=4가 됩니다.

tensor([[[-0.4519,  0.2216,  0.4772,  0.1063],
         [-0.5874,  0.0058,  0.5891,  0.3257],
         [-0.6300, -0.0632,  0.6202,  0.3860],
         [-0.5675, -0.0843,  0.5478,  0.3589],
         [-0.5526, -0.0981,  0.5321,  0.3428],
         [-0.5299, -0.1081,  0.5077,  0.3493]],

        [[-0.4519,  0.2216,  0.4772,  0.1063],
         [-0.5874,  0.0058,  0.5891,  0.3257],
         [-0.6300, -0.0632,  0.6202,  0.3860],
         [-0.5675, -0.0843,  0.5478,  0.3589],
         [-0.5526, -0.0981,  0.5321,  0.3428],
         [-0.5299, -0.1081,  0.5077,  0.3493]]], grad_fn=<CatBackward0>)
context_vecs.shape: torch.Size([2, 6, 4])


In [40]:
# 2.  가중치 분할로 멀티 헤드 어텐션 구현하기
# 대신에 하나의 W_query, W_key, W_value 가중치 행렬을 만든다음 개별 어텐션 헤드를 위해 이 가중치를 개별 행렬로 분할합니다.

class MultiHeadAttention(nn.Module):
    def __init__(self, d_in, d_out, context_length, dropout, num_heads, qkv_bias=False):
        super().__init__()
        assert (d_out % num_heads == 0), \
            "d_out은 num_heads로 나누어 떨어져야 합니다"

        self.d_out = d_out
        self.num_heads = num_heads
        self.head_dim = d_out // num_heads # 원하는 출력 차원에 맞도록 투영 차원을 낮춥니다.

        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.out_proj = nn.Linear(d_out, d_out)  # Linear 층을 사용해 헤드의 출력을 결합합니다.
        self.dropout = nn.Dropout(dropout)
        self.register_buffer(
            "mask",
            torch.triu(torch.ones(context_length, context_length),
                       diagonal=1)
        )

    def forward(self, x):
        b, num_tokens, d_in = x.shape
        # `CausalAttention`과 마찬가지로, 입력의 `num_tokens`가 `context_length`를 넘는 경우 마스크 생성에서 오류가 발생합니다.
        # 실제로는 forward 메서드에 들어오기 전에 LLM이 입력이 `context_length`를
        # 넘지 않는지 확인하기 때문에 문제가 되지 않습니다.

        keys = self.W_key(x) # 크기: (b, num_tokens, d_out)
        queries = self.W_query(x)
        values = self.W_value(x)

        # `num_heads` 차원을 추가함으로써 암묵적으로 행렬을 분할합니다.
        # 그다음 마지막 차원을 `num_heads`에 맞춰 채웁니다: (b, num_tokens, d_out) -> (b, num_tokens, num_heads, head_dim)
        keys = keys.view(b, num_tokens, self.num_heads, self.head_dim)
        values = values.view(b, num_tokens, self.num_heads, self.head_dim)
        queries = queries.view(b, num_tokens, self.num_heads, self.head_dim)

        # 전치: (b, num_tokens, num_heads, head_dim) -> (b, num_heads, num_tokens, head_dim)
        keys = keys.transpose(1, 2)
        queries = queries.transpose(1, 2)
        values = values.transpose(1, 2)

        # 코잘 마스크로 스케일드 점곱 어텐션(셀프 어텐션)을 계산합니다.
        attn_scores = queries @ keys.transpose(2, 3)  # 각 헤드에 대해 점곱을 수행합니다.

        # 마스크를 불리언 타입으로 만들고 토큰 개수로 마스크를 자릅니다.
        mask_bool = self.mask.bool()[:num_tokens, :num_tokens]

        # 마스크를 사용해 어텐션 점수를 채웁니다.
        attn_scores.masked_fill_(mask_bool, -torch.inf)

        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
        attn_weights = self.dropout(attn_weights)

        # 크기: (b, num_tokens, num_heads, head_dim)
        context_vec = (attn_weights @ values).transpose(1, 2)

        # 헤드를 결합합니다. self.d_out = self.num_heads * self.head_dim
        context_vec = context_vec.contiguous().view(b, num_tokens, self.d_out)
        context_vec = self.out_proj(context_vec) # 투영

        return context_vec

torch.manual_seed(123)

batch_size, context_length, d_in = batch.shape
d_out = 2
mha = MultiHeadAttention(d_in, d_out, context_length, 0.0, num_heads=2)

context_vecs = mha(batch)

print(context_vecs)
print("context_vecs.shape:", context_vecs.shape)

tensor([[[0.3190, 0.4858],
         [0.2943, 0.3897],
         [0.2856, 0.3593],
         [0.2693, 0.3873],
         [0.2639, 0.3928],
         [0.2575, 0.4028]],

        [[0.3190, 0.4858],
         [0.2943, 0.3897],
         [0.2856, 0.3593],
         [0.2693, 0.3873],
         [0.2639, 0.3928],
         [0.2575, 0.4028]]], grad_fn=<ViewBackward0>)
context_vecs.shape: torch.Size([2, 6, 2])


In [41]:
# (b, num_heads, num_tokens, head_dim) = (1, 2, 3, 4)
# a.shape -> (1, 2, 3, 4) batch = 1, num_heads = 2, num_tokens = 3, head_dim = 4, 각 head마다 “토큰 3개, 각 토큰의 벡터는 길이 4”인 구조.

a = torch.tensor([[[[0.2745, 0.6584, 0.2775, 0.8573],
                    [0.8993, 0.0390, 0.9268, 0.7388],
                    [0.7179, 0.7058, 0.9156, 0.4340]],

                   [[0.0772, 0.3565, 0.1479, 0.5331],
                    [0.4066, 0.2318, 0.4545, 0.9737],
                    [0.4606, 0.5159, 0.4220, 0.5786]]]])

print(a @ a.transpose(2, 3)) # [1, 2, 3, 3]
# a.transpose(2, 3) = (1, 2, 3, 4) -> (1, 2, 4, 3), num_tokens ↔ head_dim 축을 바꿔버림
# @ 연산은 마지막 두 차원만 가지고 행렬곱을 수행하고, 나머지 차원(b, head)은 그대로 유지하면서 독립적으로 계산한다. 마지막 두 차원 앞에 있는 배치 차원들은 자동 브로드캐스팅
# transpose(2, 3) == transpose(-2, -1)
a.shape

tensor([[[[1.3208, 1.1631, 1.2879],
          [1.1631, 2.2150, 1.8424],
          [1.2879, 1.8424, 2.0402]],

         [[0.4391, 0.7003, 0.5903],
          [0.7003, 1.3737, 1.0620],
          [0.5903, 1.0620, 0.9912]]]])


torch.Size([1, 2, 3, 4])

In [42]:
# 각 head별 attention score(핵심 연산(QKᵀ))
first_head = a[0, 0, :, :]
first_res = first_head @ first_head.T
print("첫 번째 헤드:\n", first_res)

second_head = a[0, 1, :, :]
second_res = second_head @ second_head.T
print("\n두 번째 헤드:\n", second_res)

첫 번째 헤드:
 tensor([[1.3208, 1.1631, 1.2879],
        [1.1631, 2.2150, 1.8424],
        [1.2879, 1.8424, 2.0402]])

두 번째 헤드:
 tensor([[0.4391, 0.7003, 0.5903],
        [0.7003, 1.3737, 1.0620],
        [0.5903, 1.0620, 0.9912]])
