# 05. BERT & GPT 기본 구조 뜯어보기
### 과목: NLP Transfer Learning
---
**학습 목표**
1. **BERT**(Encoder)가 문장을 숫자로 바꾸는 과정을 확인한다. (`last_hidden_state`)
2. **GPT**(Decoder)가 문장을 생성하는 과정을 확인한다. (`generate`)

### 1. BERT: 문장을 이해하는 모델 (Encoder)
BERT는 문장을 입력받아 **모든 토큰의 의미를 포함한 벡터**로 변환합니다.

In [None]:
from transformers import BertTokenizer, BertModel

# 1. 사전학습된 BERT 토크나이저와 모델을 불러옵니다.
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 2. 입력 문장 준비
text = "Natural language processing is fascinating."

# 3. 토큰화 및 텐서 변환 (return_tensors="pt": 파이토치 텐서로 반환)
inputs = tokenizer(text, return_tensors="pt")

print("입력 토큰 ID:", inputs['input_ids'])

In [None]:
# 4. 모델 통과 (Forward Pass)
# **inputs: dictionary의 키-값을 풀어서 인자로 전달
outputs = model(**inputs)

# 5. 결과 확인
# last_hidden_state: 마지막 레이어의 출력 벡터 (문맥 정보가 담김)
# 크기(Shape): (Batch_size, Sequence_len, Hidden_dim)
print("출력 벡터 크기:", outputs.last_hidden_state.shape)
print("첫 번째 토큰([CLS])의 벡터:", outputs.last_hidden_state[0, 0, :5]) # 앞부분 5개만 출력

### 2. GPT: 문장을 생성하는 모델 (Decoder)
GPT는 앞 단어들을 보고 **다음에 올 단어를 예측**하며 문장을 만들어갑니다.

In [None]:
from transformers import GPT2Tokenizer, GPT2LMHeadModel

# 1. GPT-2 로드
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2LMHeadModel.from_pretrained('gpt2')

# 2. 시작 문장(Prompt) 입력
input_text = "Artificial Intelligence is"
inputs = tokenizer(input_text, return_tensors="pt")

print("입력 토큰:", inputs['input_ids'])

In [None]:
# 3. 문장 생성 (Generate)
outputs = model.generate(
    inputs['input_ids'],      # 입력 토큰
    max_length=20,            # 최대 길이 (입력 포함)
    num_return_sequences=1,   # 생성할 문장 개수
    pad_token_id=tokenizer.eos_token_id # 패딩 토큰 설정 (GPT는 기본 패딩 토큰이 없어서 EOS로 설정)
)

print("생성된 토큰 ID:", outputs)

In [None]:
# 4. 디코딩 (숫자 -> 글자)
# skip_special_tokens=True: 특수 토큰 제거
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("\n--- 생성 결과 ---")
print(generated_text)