In [None]:
"""
class CausalAttention(nn.Module):
    def __init__(...)
        # 1. 쿼리(Query), 키(Key), 밸류(Value)를 만들기 위한 선형 투영 레이어 정의
        # 2. 과적합(Overfitting) 방지를 위한 드롭아웃 설정
        # 3. Causal Mask 생성 및 버퍼 등록, 대각선 위쪽 삼각형 부분만 1로 채움.
    def forward(self, x):
        # 1. Query와 Key의 내적(Dot Product)
        # 2. mask가 1인 위치를 -무한대(-inf)로 채운다.
        # 3. 스케일링(/ keys.shape[-1]**0.5)
        # 4.계산된 가중치 중 일부를 무작위로 0으로 만든다.
        # 5. 어텐션 가중치(확률)를 기반으로 Value(정보)들을 가중 합산
"""

class CausalAttention(nn.Module):
    def __init__(self, d_in, d_out, context_length, dropout, qkv_bias=False):
        #...
        super().__init__()
        # 1. 쿼리(Query), 키(Key), 밸류(Value)를 만들기 위한 선형 투영 레이어 정의
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
        
        # 2. 과적합(Overfitting) 방지를 위한 드롭아웃 설정
        self.dropout = nn.Dropout(dropout)
        
        # 3. Causal Mask 생성 및 버퍼 등록
        # 'register_buffer'를 사용하면 역전파(학습) 대상은 아니지만, 모델의 상태(state_dict)로 저장됩니다.
        # torch.triu(..., diagonal=1): 대각선(0) 위쪽 삼각형 부분만 1로 채웁니다.
        # 즉, '미래의 정보' 위치에 1을 표시하여 나중에 가릴(masking) 준비를 합니다.
        self.register_buffer(
            'mask', 
            torch.triu(torch.ones(context_length, context_length), diagonal=1)
        )
        
    def forward(self, x):
        keys = self.W_key(x)        # Shape: [b, num_tokens, d_out]
        queries = self.W_query(x)   # Shape: [b, num_tokens, d_out]
        values = self.W_value(x)    # Shape: [b, num_tokens, d_out]
        
        attn_scores = queries @ keys.transpose(1, 2) 
        # 1. Query와 Key의 내적(Dot Product)을 통해 각 토큰 간의 관련성을 구한다.
        # keys.transpose(1, 2): 행렬 곱을 위해 차원을 뒤집는다 (d_out 차원끼리 곱해짐)
        # [b, num_tokens, d_out] @ [b, d_out, num_tokens] = [b, num_tokens, num_tokens]
        
        # 2. mask가 1인 위치(미래 시점의 토큰들)를 -무한대(-inf)로 채운다.
        # 이렇게 하면 나중에 Softmax를 거칠 때 확률이 0이 되어, 미래 정보를 참조하지 못하게 된다.
        # [:num_tokens, :num_tokens]: 입력 길이가 context_length보다 짧을 때를 대비해 크기를 맞춘다.
        attn_scores.masked_fill_(
            self.mask.bool()[:num_tokens, :num_tokens], 
            -torch.inf
        ) 
        
        # 3. 스케일링(/ keys.shape[-1]**0.5): 차원이 커질수록 내적 값이 커져 기울기 소실이 오는 것을 방지
        # Softmax: 점수를 확률(0~1 사이, 합은 1)로 변환
        attn_weights = torch.softmax(
            attn_scores / keys.shape[-1]**0.5, dim=-1
        )
        
        # 4.계산된 가중치 중 일부를 무작위로 0으로 만들어 모델이 특정 토큰에만 의존하는 것을 방지
        attn_weights = self.dropout(attn_weights)
        
        # 5. 어텐션 가중치(확률)를 기반으로 Value(정보)들을 가중 합산
        # 결과적으로 "현재 토큰과 관련이 깊은 과거 토큰들의 정보"가 진하게 섞인 벡터가 된다.
        context_vec = attn_weights @ values 
        
        return context_vec

In [None]:
class MultiHeadAttentionWrapper(nn.Module):
    def __init__(self, d_in, d_out, context_length, dropout, num_heads, qkv_bias=False):
        super().__init__()
        self.heads = nn.ModuleList(
            [CausalAttention(d_in, d_out, context_length, dropout, qkv_bias) for _ in range(num_heads)]
            # Attention을 num_heads 만큼 만들고
        )
    def forward(self, x):
        return torch.cat([head(x) for head in self.heads], dim=-1)
        # 만들어놓은 head들을 concat 한다.


In [None]:
"""
class MultiHeadAttention(nn.Module): //CasualAttention과 차이점 유의하기
    def __init__(self, d_in, d_out, context_length, dropout, num_heads, qkv_bias=False):
        self.head_dim = d_out // num_heads # 출력 차원에 맞추기 위해 프로젝션 차원을 축소
        self.out_proj = nn.Linear(d_out, d_out)  # Linear layer to combine head outputs

    def forward(self, x):
        # 1. 입력 차원을 Unroll: (b, num_tokens, d_out) -> (b, num_tokens, num_heads, head_dim)
        # 2. Transpose: (b, num_tokens, num_heads, head_dim) -> (b, num_heads, num_tokens, head_dim)
        # 3. 헤드별로 Dot product
        # 4. mask가 1인 위치(미래 시점의 토큰들)를 -무한대(-inf)로 채운다.
        # 5. 스케일링 및 점수를 확률로 변환, 드롭아웃 까지
        # 6. V와 matMul
        # 7. 나눠졌던 헤드들을 다시 원래의 d_out 차원으로 합치고, 선형 투영
"""

""" Casual Attention과 차이점
    __init___
        head_dim과 num_heads의 존재 head_dim = d_out // num_heads
        head output을 combine 하기 위한 out_proj 존재
    
    __forward__
        1. 차원 Unrolling: (b, num_tokens, d_out) -> (b, num_tokens, num_heads, head_dim)
        2. 각 헤드 단위로 계산할수 있게끔 Transpose: 
            (b, num_tokens, num_heads, head_dim) -> (b, num_heads, num_tokens, head_dim)
        3. Q와 K @할 때 tranpose(2, 3) 해야 함. (Causal 에서는 transpose(1,2)
        6. V와 matMul하고 transpose(1,2) 해줘야 함.(원복)
            (b, num_heads, num_tokens, head_dim) ->  (b, num_tokens, num_heads, head_dim)
        7. num_heads와 head_dime을 self.d_out 으로 conbine# 
"""

class MultiHeadAttention(nn.Module):
    def __init__(self, d_in, d_out, context_length, dropout, num_heads, qkv_bias=False):
        suprt().__init__()
        assert (d_out % num_heads == 0), "d_out must be divisible by num_heads"
        self.d_out = d_out
        self.num_heads = num_heads
        ##############################################################################
        self.head_dim = d_out // num_heads # 출력 차원에 맞추기 위해 프로젝션 차원을 축소
        ##############################################################################
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
        ##############################################################################     
        self.out_proj = nn.Linear(d_out, d_out)  # Linear layer to combine head outputs
        ##############################################################################
        self.dropout = nn.Dropout(dropout)
        self.register_buffer(
            "mask",
            torch.triu(torch.ones(context_length, context_length),
                       diagonal=1)
        )
    def forward(self, x):
        b, num_tokens, d_in = x.shape
        
        keys = self.W_key(x) # Shape: (b, num_tokens, d_out)
        queries = self.W_query(x)
        values = self.W_value(x)

        # 1. 마지막 차원을 Unroll: (b, num_tokens, d_out) -> (b, num_tokens, num_heads, head_dim)
        # 앞의 assert (d_out % num_heads == 0) 을 해주는 이유인듯
        keys = keys.view(b, num_tokens, self.num_heads, self.head_dim) 
        values = values.view(b, num_tokens, self.num_heads, self.head_dim)
        queries = queries.view(b, num_tokens, self.num_heads, self.head_dim)
        
        # 2. Transpose: (b, num_tokens, num_heads, head_dim) -> (b, num_heads, num_tokens, head_dim)
        # 각 헤드별로 연산이 가능하도록 해준다. Causal Attention에는 없던 num_heads가 생김.
        # 이렇게 하면 (num_tokens, head_dim) 행렬이 헤드 개수만큼 독립적으로 존재하게 됨
        keys = keys.transpose(1, 2)
        queries = queries.transpose(1, 2)
        values = values.transpose(1, 2)
        
        # 3. 헤드별로 Dot product
        attn_scores = queries @ keys.transpose(2, 3)
        # (b, num_heads, num_tokens, head_dim) @ (b, num_heads, head_dim, num_tokens)
        # -> (b, num_haeds, num_tokens, num_tokens)
        
        # 4. mask가 1인 위치(미래 시점의 토큰들)를 -무한대(-inf)로 채운다.
        mask_bool = self.mask.bool()[:num_tokens, :num_tokens] # 마스크 크기 조정하고 boolean으로 변환
        attn_scores.masked_fill_(mask_bool, -torch.inf) #마스크 이용해서 attn_score 값 채워준다.
        
        # 5. 스케일링 및 점수를 확률로 변환, 드롭아웃 까지
        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
        attn_weights = self.dropout(attn_weights)
        
        # 6. V와 matMul
        context_vec = (attn_weights @ values).transpose(1, 2) 
        # (b, num_haeds, num_tokens, num_tokens) @ (b, num_heads, num_tokens, head_dim) 
        # = (b, num_heads, num_tokens, head_dim) 
        # -> (b, num_tokens, num_heads, head_dim) // 최종 (처음에 view로 변환했던 order로 맞춰 줌)
        
        # 7. 나눠졌던 헤드들을 다시 원래의 d_out 차원으로 합치고, 선형 투영
        context_vec = context_vec.contiguous().view(b, num_tokens, self.d_out)
        context_vec = self.out_proj(context_vec) # optional projection

        return context_vec
        
        