In [None]:
"""
    모델의원리이해
        -주요layer들의의미, 동작원리, 구성방법,활용방법에대해이해를하고있나
        -데이터의입력부터출력까지의Tensor 타입값의주요흐름에대해이해하고구성할수있나
        -모델에서어떤내용을학습하는지알고, 그학습에필요한작업들을알고있나
"""

In [None]:
""" 
    causalAttention이나 MultiHeadAttention에서 QKV 계산 flow가 나올거 같음 
    개인적으론 keys = keys.transpose(1, 2) 이게 나올거 같은....    
"""

# CausalAttention
        attn_scores = queries @ keys.transpose(1, 2) 
        # 1. Query와 Key의 내적(Dot Product)을 통해 각 토큰 간의 관련성을 구한다.
        # keys.transpose(1, 2): 행렬 곱을 위해 차원을 뒤집는다 (d_out 차원끼리 곱해짐)
        # [b, num_tokens, d_out] @ [b, d_out, num_tokens] = [b, num_tokens, num_tokens]
        
        # 2. mask가 1인 위치(미래 시점의 토큰들)를 -무한대(-inf)로 채운다.
        # 이렇게 하면 나중에 Softmax를 거칠 때 확률이 0이 되어, 미래 정보를 참조하지 못하게 된다.
        # [:num_tokens, :num_tokens]: 입력 길이가 context_length보다 짧을 때를 대비해 크기를 맞춘다.
        attn_scores.masked_fill_(
            self.mask.bool()[:num_tokens, :num_tokens], 
            -torch.inf
        ) 
        
        # 3. 스케일링(/ keys.shape[-1]**0.5): 차원이 커질수록 내적 값이 커져 기울기 소실이 오는 것을 방지
        # Softmax: 점수를 확률(0~1 사이, 합은 1)로 변환
        attn_weights = torch.softmax(
            attn_scores / keys.shape[-1]**0.5, dim=-1
        )
        
        # 4.계산된 가중치 중 일부를 무작위로 0으로 만들어 모델이 특정 토큰에만 의존하는 것을 방지
        attn_weights = self.dropout(attn_weights)
        
        # 5. 어텐션 가중치(확률)를 기반으로 Value(정보)들을 가중 합산
        # 결과적으로 "현재 토큰과 관련이 깊은 과거 토큰들의 정보"가 진하게 섞인 벡터가 된다.
        context_vec = attn_weights @ values 

        # MultiHeadAttention
        # 1. 마지막 차원을 Unroll: (b, num_tokens, d_out) -> (b, num_tokens, num_heads, head_dim)
        # 앞의 assert (d_out % num_heads == 0) 을 해주는 이유인듯
        keys = keys.view(b, num_tokens, self.num_heads, self.head_dim) 
        values = values.view(b, num_tokens, self.num_heads, self.head_dim)
        queries = queries.view(b, num_tokens, self.num_heads, self.head_dim)
        
        # 2. Transpose: (b, num_tokens, num_heads, head_dim) -> (b, num_heads, num_tokens, head_dim)
        # 각 헤드별로 연산이 가능하도록 해준다. Causal Attention에는 없던 num_heads가 생김.
        # 이렇게 하면 (num_tokens, head_dim) 행렬이 헤드 개수만큼 독립적으로 존재하게 됨
        keys = keys.transpose(1, 2)
        queries = queries.transpose(1, 2)
        values = values.transpose(1, 2)
        
        # 3. 헤드별로 Dot product
        attn_scores = queries @ keys.transpose(2, 3)
        # (b, num_heads, num_tokens, head_dim) @ (b, num_heads, head_dim, num_tokens)
        # -> (b, num_haeds, num_tokens, num_tokens)
        
        # 4. mask가 1인 위치(미래 시점의 토큰들)를 -무한대(-inf)로 채운다.
        mask_bool = self.mask.bool()[:num_tokens, :num_tokens] # 마스크 크기 조정하고 boolean으로 변환
        attn_scores.masked_fill_(mask_bool, -torch.inf) #마스크 이용해서 attn_score 값 채워준다.
        
        # 5. 스케일링 및 점수를 확률로 변환, 드롭아웃 까지
        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
        attn_weights = self.dropout(attn_weights)
        
        # 6. V와 matMul
        context_vec = (attn_weights @ values).transpose(1, 2) 
        # (b, num_haeds, num_tokens, num_tokens) @ (b, num_heads, num_tokens, head_dim) 
        # = (b, num_heads, num_tokens, head_dim) 
        # -> (b, num_tokens, num_heads, head_dim) // 최종 (처음에 view로 변환했던 order로 맞춰 줌)
        
        # 7. 나눠졌던 헤드들을 다시 원래의 d_out 차원으로 합치고, 선형 투영
        context_vec = context_vec.contiguous().view(b, num_tokens, self.d_out)
        context_vec = self.out_proj(context_vec)

In [None]:
#####################################
""" GPT 에서 residual의 위치를 기억해둬야 할지도 """
#####################################
class TransformerBlock(nn.Module):
    """
    표준 트랜스포머 블록 (Decoder Block)
    구조: LayerNorm -> Attention -> Add(Residual) -> LayerNorm -> FeedForward -> Add(Residual)
    """
    def __init__(self, cfg):
        super().__init__()
        self.att = MultiHeadAttention(
            d_in=cfg["emb_dim"],
            d_out=cfg["emb_dim"],
            context_length=cfg["context_length"],
            num_heads=cfg["n_heads"],
            dropout=cfg["drop_rate"],
            qkv_bias=cfg["qkv_bias"])
        self.ff = FeedForward(cfg)
        self.norm1 = LayerNorm(cfg["emb_dim"])
        self.norm2 = LayerNorm(cfg["emb_dim"])
        self.drop_shortcut = nn.Dropout(cfg["drop_rate"])
    def forward(self, x):
        # region [어텐션 블록 (Residual Connection 적용)]
        shortcut = x        # <<<<<<<<<<<<<< shortcut을 미리 빼놓는것을 잊지말자.
        x = self.norm1(x) # Pre-LayerNorm 방식
        x = self.att(x)   
        x = self.drop_shortcut(x)
        ###################################################
        x = x + shortcut  # 원본 입력을 더해줌 (기울기 소실 방지) <<<<<<<<<<<<<<
        ###################################################

        shortcut = x        # <<<<<<<<<<<<<< shortcut을 미리 빼놓는것을 잊지말자.
        x = self.norm2(x)
        x = self.ff(x)
        x = self.drop_shortcut(x)
        ###################################################
        x = x + shortcut   # 원본 입력을 더해줌 (기울기 소실 방지) <<<<<<<<<<<<<<
        ###################################################
        
        return x

In [None]:
def generate_text_simple(model, idx, max_new_tokens, context_size):
    """
    간단한 텍스트 생성 루프
    현재 문맥을 넣어 다음 토큰을 예측하고, 이를 다시 문맥에 추가하여 반복함
    """
    # idx: 현재 문맥의 토큰 인덱스들 (Batch, Time)
    for _ in range(max_new_tokens):
        # 모델이 지원하는 최대 길이(context_size)를 넘지 않도록 자름
        idx_cond = idx[:, -context_size:]
       
        with torch.no_grad():  # 기울기 계산 불필요할 때, model.eval()등과 같이 쓰이고, @torch.no_grad()와 유사함.(적용 범위는 달라질 수 있음)
            logits = model(idx_cond)

        # 마지막 타임스텝의 예측값만 가져옴 (다음 단어 예측이므로)
        logits = logits[:, -1, :]    # <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
        # (batch, n_token, vocab_size) -> (batch, vocab_size)

        # vocab_size 차원에서 가장 확률(로짓값)이 높은 인덱스 선택
        idx_next = torch.argmax(logits, dim=-1, keepdim=True)  # <<<<<<<<<<<<<<<<<
        
        # 종료 조건 확인 (EOS 토큰이 나오면 중단) 엄청 중요한건 아닐듯?
        if idx_next == eos_id:
            break

        # 예측된 토큰을 현재 시퀀스 뒤에 이어 붙임
        idx = torch.cat((idx, idx_next), dim=1) ㄴ    

    return idx

In [None]:
###중요: LoRA 구현 부분
# -----------------------------------------------------------------------------
# 2. LoRA 클래스 및 함수 정의
# -----------------------------------------------------------------------------
class LoRALayer(nn.Module):
    def __init__(self, in_dim, out_dim, rank, alpha):
        """
        LoRA(Low-Rank Adaptation) 레이어 초기화
        """
        super().__init__()
        self.A = nn.Parameter(torch.empty(in_dim, rank))
        # 입력을 저차원 공간(rank)으로 투영하는 역할.
        nn.init.kaiming_uniform_(self.A, a=math.sqrt(5))
        # kaiming_uniform_ 초기화로 학습 안정성을 확보. 그래서 앞에 empty로 하는듯?
        
        self.B = nn.Parameter(torch.zeros(rank, out_dim))
        # 저차원 표현을 다시 원래 출력 차원으로 확장하는 역할.
        # 학습 초기에 원래 모델의 출력에 영향을 주지 않도록 설계.
        
        self.alpha = alpha
        self.rank = rank
    def forward(self, x):
        x = (self.alpha / self.rank) * (x @ self.A @ self.B)
        # LoRA 논문에서 제안된 안정화 기법입니다. scaling factor = self.alpha / self.rank
        return x

In [None]:
class LinearWithLoRA(nn.Module):
    """
    기존의 Linear 레이어를 감싸서 LoRA 어댑터를 추가한 클래스
    """
    def __init__(self, linear, rank, alpha):
        super().__init__()
        self.linear = linear
        self.lora = LoRALayer(
            linear.in_features, linear.out_features, rank, alpha
        )

    def forward(self, x):
        # 기존 Linear와 LoRA 출력 합산 x @ W + (self.alpha / self.rank) * (x @ A @ B) 가 되도록
        return self.linear(x) + self.lora(x)
