In [None]:
#     Attention > MultiHeadAttention > Transformer > GPT 순으로 확장해가면서 개념 파악하면 도움될 듯.

In [None]:
#####################################
# GPT 아키텍처 구성 요소
#####################################
class LayerNorm(nn.Module):  # 층 정규화 (Layer Normalization): 학습 안정성을 높임
    def __init__(self, emb_dim):
        super().__init__()
        self.eps = 1e-5
        self.scale = nn.Parameter(torch.ones(emb_dim)) # 학습 가능한 스케일 파라미터 (Gamma)
        self.shift = nn.Parameter(torch.zeros(emb_dim)) # 학습 가능한 시프트 파라미터 (Beta)
    def forward(self, x):
        mean = x.mean(dim=-1, keepdim=True)
        var = x.var(dim=-1, keepdim=True, unbiased=False)
        norm_x = (x - mean) / torch.sqrt(var + self.eps)
        return self.scale * norm_x + self.shift

class GELU(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, x):
        return 0.5 * x * (1 + torch.tanh(
            torch.sqrt(torch.tensor(2.0 / torch.pi)) *
            (x + 0.044715 * torch.pow(x, 3))
        ))
    
class FeedForward(nn.Module):
    def __init__(self, cfg):
        super().__init__()
        self.layers = nn.Sequential(
            nn.Linear(cfg["emb_dim"], 4 * cfg["emb_dim"]),
            GELU(),
            nn.Linear(4 * cfg["emb_dim"], cfg["emb_dim"]),
        )
    def forward(self, x):
        return self.layers(x)



In [None]:
#####################################
GPT 아키텍처 조립
#####################################
class TransformerBlock(nn.Module):
    """
    표준 트랜스포머 블록 (Decoder Block)
    구조: LayerNorm -> Attention -> Add(Residual) -> LayerNorm -> FeedForward -> Add(Residual)
    """
    def __init__(self, cfg):
        super().__init__()
        self.att = MultiHeadAttention(
            d_in=cfg["emb_dim"],
            d_out=cfg["emb_dim"],
            context_length=cfg["context_length"],
            num_heads=cfg["n_heads"],
            dropout=cfg["drop_rate"],
            qkv_bias=cfg["qkv_bias"])
        self.ff = FeedForward(cfg)
        self.norm1 = LayerNorm(cfg["emb_dim"])
        self.norm2 = LayerNorm(cfg["emb_dim"])
        self.drop_shortcut = nn.Dropout(cfg["drop_rate"])
    def forward(self, x):
        # region [어텐션 블록 (Residual Connection 적용)]
        shortcut = x
        x = self.norm1(x) # Pre-LayerNorm 방식
        x = self.att(x)   
        x = self.drop_shortcut(x)
        ###################################################
        x = x + shortcut  # 원본 입력을 더해줌 (기울기 소실 방지)
        ###################################################

        shortcut = x
        x = self.norm2(x)
        x = self.ff(x)
        x = self.drop_shortcut(x)
        ###################################################
        x = x + shortcut   # 원본 입력을 더해줌 (기울기 소실 방지)
        ###################################################
        
        return x


In [None]:
    """
    전체 GPT 모델 구조 정의
    Embedding -> Transformer Blocks -> Final Norm -> Output Head
    
    GPTModel
        __init__
            # 토큰 임베딩 (단어 -> 벡터) 하나의 vocab 당 emb_dim으로 표현되니까 총 크기는 vocab_size * emb_dim       
            # 위치 임베딩 (위치 정보 -> 벡터)
            # 트랜스포머 블록 쌓기 (n_layers 만큼) *를 통해 리스트 언패킹
            # 최종 정규화 및 출력 헤드
            # 각 토큰 위치마다 vocab_size 크기의 벡터가 나온다.        
        __forward__
            # 1. tok, pos 임베딩 생성   
            # 2. 토큰 임베딩과 위치 임베딩 합산
            # 3. dropout
            # 4. 트랜스포머 블록 통과
            # 5.최종 출력 계산            
    """

class GPTModel(nn.Module):
    def __init__(self, cfg):
        super().__init__()
        # 토큰 임베딩 (단어 -> 벡터) 하나의 vocab 당 emb_dim으로 표현되니까 총 크기는 vocab_size * emb_dim
        self.tok_emb = nn.Embedding(cfg["vocab_size"], cfg["emb_dim"])
        # 위치 임베딩 (위치 정보 -> 벡터)
        self.pos_emb = nn.Embedding(cfg["context_length"], cfg["emb_dim"])
        self.drop_emb = nn.Dropout(cfg["drop_rate"])

        # 트랜스포머 블록 쌓기 (n_layers 만큼)
        # *를 통해 리스트 언패킹 해준다. nn.Sequential은 리스트 입력 안받고 모듈들을 직접 나열해야 하기 때문에
        self.trf_blocks = nn.Sequential(
            *[TransformerBlock(cfg) for _ in range(cfg["n_layers"])])
       

        # 최종 정규화 및 출력 헤드
        self.final_norm = LayerNorm(cfg["emb_dim"]) # 마지막 임베딩 차원(emb_dim)에 대해 Layer Normalization을 적용
        self.out_head = nn.Linear(cfg["emb_dim"], cfg["vocab_size"], bias=False)
        # 각 토큰 위치마다 vocab_size 크기의 벡터가 나온다. 이 벡터는 다음에 올 단어 후보들에 대한 로짓(logits)을 담는다.

     def forward(self, in_idx):
        batch_size, seq_len = in_idx.shape
        
         # 1. tok, pos 임베딩 생성
        tok_embeds = self.tok_emb(in_idx)
        pos_embeds = self.pos_emb(torch.arange(seq_len, device=in_idx.device))
        
        # 2. 토큰 임베딩과 위치 임베딩 합산
        x = tok_embeds + pos_embeds 
        
        # 3. dropout
        x = self.drop_emb(x)
        
        # 4. 트랜스포머 블록 통과
        x = self.trf_blocks(x)    

        # 5.최종 출력 계산
        x = self.final_norm(x)
        logits = self.out_head(x) # 각 단어에 대한 예측 점수 (Logits)
        
        return logits
        

In [None]:
"""
model의 예측 결과를 logits = logits[:, -1, :] 로 뽑아낸다는 것을 알아야 할 듯.
"""

def generate_text_simple(model, idx, max_new_tokens, context_size):
    """
    간단한 텍스트 생성 루프
    현재 문맥을 넣어 다음 토큰을 예측하고, 이를 다시 문맥에 추가하여 반복함
    """
    # idx: 현재 문맥의 토큰 인덱스들 (Batch, Time)
    for _ in range(max_new_tokens):
        # 모델이 지원하는 최대 길이(context_size)를 넘지 않도록 자름
        idx_cond = idx[:, -context_size:]
       
        with torch.no_grad():  # 기울기 계산 불필요할 때, model.eval()등과 같이 쓰이고, @torch.no_grad()와 유사함.(적용 범위는 달라질 수 있음)
            logits = model(idx_cond)

        # 마지막 타임스텝의 예측값만 가져옴 (다음 단어 예측이므로)
        logits = logits[:, -1, :] # (batch, n_token, vocab_size) -> (batch, vocab_size)

        # vocab_size 차원에서 가장 확률(로짓값)이 높은 인덱스 선택
        idx_next = torch.argmax(logits, dim=-1, keepdim=True) 
        
        # 종료 조건 확인 (EOS 토큰이 나오면 중단) 엄청 중요한건 아닐듯?
        if idx_next == eos_id:
            break

        # 예측된 토큰을 현재 시퀀스 뒤에 이어 붙임
        idx = torch.cat((idx, idx_next), dim=1)     

    return idx