In [None]:
import torch
from previous_chapters import load_gpt2_model
# ==========================================
# 1. 데이터셋 준비 (Next Token Prediction)
# ==========================================
# 언어 모델 학습의 핵심은 "입력된 단어들을 보고, 바로 다음에 올 단어를 맞추는 것"입니다.

# inputs: 모델에게 보여줄 문제 (현재 시점의 단어들)
inputs = torch.tensor([[16833, 3626, 6100],   # 문장 1: ["every", "effort", "moves"]
                       [40,    1107, 588]])   # 문장 2: ["I",     "really", "like"]

# targets: 모델이 맞춰야 할 정답 (한 칸씩 오른쪽으로 이동된 단어들)
# 예: "every"를 보여주면 -> "effort"를 맞춰야 함
targets = torch.tensor([[3626, 6100, 345],    # 문장 1 정답: ["effort", "moves", "you"]
                        [1107, 588, 11311]])  # 문장 2 정답: ["really", "like", "chocolate"]

# ==========================================
# 2. 모델 추론 (Forward Pass)
# ==========================================
# torch.no_grad(): 평가만 할 것이므로 불필요한 기울기(Gradient) 계산 메모리를 아낌
 # 실제 GPT-2 Small (124M 파라미터) 모델 설정 및 가중치 로드
CHOOSE_MODEL = "gpt2-small (124M)"

BASE_CONFIG = {
    "vocab_size": 50257,     
    "context_length": 1024,  
    "drop_rate": 0.0,        
    "qkv_bias": True,
    "emb_dim": 768, 
    "n_layers": 12, 
    "n_heads": 12         
}

model_name = "gpt2-small-124M.pth"
model = load_gpt2_model(model_name, BASE_CONFIG)

with torch.no_grad():
    # 모델에 입력을 넣어 예측값(Logits)을 얻습니다.
    # logits shape: (배치 크기 2, 문장 길이 3, 단어장 크기 50257)
    # 의미: 2개 문장의 각 3개 위치마다, 50,257개 단어 각각에 대한 점수를 출력
    logits = model(inputs)

In [None]:
# ==========================================
# 3. 결과 해석 (확률 변환 및 확인)
# ==========================================

# 3-1. 로짓(점수) -> 확률(Probability) 변환
# 로짓은 -무한대 ~ +무한대 범위의 숫자이므로, Softmax를 써서 0~1 사이 확률로 바꿉니다.
# dim=-1: 가장 마지막 차원(단어장 50257개)에 대해 확률의 합이 1이 되게 만듦
probas = torch.softmax(logits, dim=-1)

print("확률 텐서 크기:", probas.shape) 
# 예상 출력: torch.Size([2, 3, 50257])

# 3-2. 가장 높은 확률을 가진 단어 찾기 (예측 결과)
# argmax: 확률이 가장 높은 인덱스(단어 ID)를 반환

token_ids = torch.argmax(probas, dim=-1, keepdim=True)
print("모델이 예측한 토큰 ID:\n", token_ids)

"""
확률 텐서 크기: torch.Size([2, 3, 50257])
모델이 예측한 토큰 ID:
 tensor([[[ 13],
         [  1],
         [319]],

        [[ 13],
         [588],
         [262]]])
"""

In [None]:
# ==========================================
# 5. PyTorch 함수로 손실(Loss) 계산하기 (권장 방식)
# ==========================================

print("-" * 30)
print("로짓 크기 (변경 전):", logits.shape)   # (2, 3, 50257)
print("타깃 크기 (변경 전):", targets.shape)  # (2, 3)

# 5-1. 평탄화 (Flattening)
# CrossEntropyLoss 함수는 입력을 (N, Class) 형태로 받기를 선호합니다.
# 즉, "어떤 문장의 몇 번째 단어인지"는 중요하지 않고, "총 몇 문제를 풀었나"로 형태를 바꿉니다.

# (배치 2 * 길이 3, 단어장 50257) -> (6, 50257) : 총 6개의 단어 예측 문제로 변환
logits_flat = logits.flatten(0, 1)

# (배치 2 * 길이 3) -> (6) : 정답지도 일렬로 6개 나열
targets_flat = targets.flatten()

print("펼친 로짓:", logits_flat.shape)   # torch.Size([6, 50257])
print("펼친 타깃:", targets_flat.shape)  # torch.Size([6])

# 5-2. Cross Entropy Loss 계산
# 주의: nn.functional.cross_entropy는 입력으로 '확률(probas)'이 아니라 '로짓(logits)'을 받습니다.
# 함수 내부적으로 Softmax -> Log -> NLLLoss 과정을 모두 수행하기 때문입니다.
loss = torch.nn.functional.cross_entropy(logits_flat, targets_flat) 

print("함수로 계산한 손실값(Loss):", loss) 
# 이 값은 위에서 수동으로 계산한 'neg_avg_log_probas'와 거의 같아야 합니다.

"""
------------------------------
로짓 크기 (변경 전): torch.Size([2, 3, 50257])
타깃 크기 (변경 전): torch.Size([2, 3])
펼친 로짓: torch.Size([6, 50257])
펼친 타깃: torch.Size([6])
함수로 계산한 손실값(Loss): tensor(7.0675)
"""