# Autoregressive (자동회귀) 문장 생성

간단한 자동 회귀적인 텍스트 생성을 위한 코드 예제입니다. 여기서는 OpenAI의 GPT-2 모델을 사용하는데, GPT-3은 API를 통해서만 직접 사용할 수 있기 때문입니다. 그럼에도 GPT-2는 GPT-3와 매우 유사한 구조를 가지고 있으므로, 동일한 접근 방식을 사용합니다.

In [1]:
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# 모델 및 토크나이저 초기화
# 토크나이저: 텍스트를 모델이 이해할 수 있는 숫자(토큰)로 변환하는 역할
# GPT-2는 BPE(Byte Pair Encoding) 방식을 사용하여 효율적인 토큰화 수행
tokenizer = GPT2Tokenizer.from_pretrained("gpt2-medium")
model = GPT2LMHeadModel.from_pretrained("gpt2-medium")

# 문장 시작 부분
input_text = "Once upon a time"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
print(f"원본 텍스트: {input_text}")
print(f"토큰화된 결과: {input_ids}")
print(f"토큰 개수: {input_ids.shape[1]}")
input_ids

원본 텍스트: Once upon a time
토큰화된 결과: tensor([[7454, 2402,  257,  640]])
토큰 개수: 4


tensor([[7454, 2402,  257,  640]])

In [2]:
# 문장 생성
# generate 메서드의 주요 파라미터들:
# - max_length: 생성할 최대 토큰 수
# - num_return_sequences: 생성할 문장의 개수
# - pad_token_id: 패딩 토큰 ID (문장 끝을 나타냄)
# - temperature: 생성 다양성 조절 (높을수록 더 창의적, 낮을수록 더 일관적)
# - do_sample: True면 확률적 샘플링, False면 greedy decoding

# GPT-2의 경우 pad_token이 없으므로 eos_token을 pad_token으로 설정
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# attention_mask를 명시적으로 설정하여 경고 메시지 방지
attention_mask = torch.ones_like(input_ids)

output = model.generate(
    input_ids, 
    attention_mask=attention_mask,
    max_length=50, 
    num_return_sequences=1, 
    pad_token_id=tokenizer.pad_token_id,
    temperature=0.7,
    do_sample=True
)
output

tensor([[ 7454,  2402,   257,   640,    11,   612,   547,  1115,  5621,   286,
         11858,    13,  1318,   547,   262, 11858,   286,  1657,    11,  2046,
            11,   290,  1660,    13,  1318,   547,   262, 11858,   286,  2344,
           290,  4534,    13,  1318,   547,   262, 11858,   286,  4534,   290,
          6766,    13,   843,   612,   547,   262, 11858,   286,  2046,   290]])

In [3]:
# 생성된 문장 출력
for i, generated_text in enumerate(output):
    decoded_text = tokenizer.decode(generated_text, skip_special_tokens=True)
    print(f"Generated text {i + 1}: {decoded_text}")
    
# 토큰별로 분석해보기
print(f"\n토큰별 분석:")
for i, token_id in enumerate(generated_text):
    if i > 10:
        break
    token = tokenizer.decode([token_id], skip_special_tokens=True)
    print(f"토큰 {i}: {token_id} -> '{token}'")

Generated text 1: Once upon a time, there were three sets of gods. There were the gods of light, fire, and water. There were the gods of wind and earth. There were the gods of earth and sky. And there were the gods of fire and

토큰별 분석:
토큰 0: 7454 -> 'Once'
토큰 1: 2402 -> ' upon'
토큰 2: 257 -> ' a'
토큰 3: 640 -> ' time'
토큰 4: 11 -> ','
토큰 5: 612 -> ' there'
토큰 6: 547 -> ' were'
토큰 7: 1115 -> ' three'
토큰 8: 5621 -> ' sets'
토큰 9: 286 -> ' of'
토큰 10: 11858 -> ' gods'


GPT-2는 자체적으로 autoregressive 모델입니다. "Autoregressive"란, 이전에 생성된 토큰들을 기반으로 다음 토큰을 생성하는 모델을 의미합니다.

위의 코드에서 `model.generate` 메서드는 이미 autoregressive한 방식으로 문장을 생성합니다. 그러나 이를 명시적으로 보여주기 위해 각 단계에서 토큰을 하나씩 생성하는 autoregressive한 코드를 아래에 작성하겠습니다:

## 다양한 프롬프트로 실험해보기

다음 셀에서 다양한 프롬프트로 텍스트 생성을 시도해볼 수 있습니다:

In [4]:
# 다양한 프롬프트로 텍스트 생성 실험
prompts = [
    "The future of artificial intelligence",
    "In a world where technology",
    "The secret to happiness is",
    "Once upon a time in a distant galaxy",
    "The most important thing in life"
]

print("=== 다양한 프롬프트로 텍스트 생성 실험 ===\n")

for i, prompt in enumerate(prompts, 1):
    print(f"{i}. 프롬프트: '{prompt}'")
    
    # 프롬프트를 토큰화
    input_ids = tokenizer.encode(prompt, return_tensors="pt")
    
    # attention_mask 설정
    attention_mask = torch.ones_like(input_ids)
    
    # 텍스트 생성
    output = model.generate(
        input_ids, 
        attention_mask=attention_mask,
        max_length=30, 
        num_return_sequences=1, 
        pad_token_id=tokenizer.pad_token_id,
        temperature=0.8,
        do_sample=True
    )
    
    # 결과 출력
    generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
    print(f"   생성된 텍스트: {generated_text}")
    print()

=== 다양한 프롬프트로 텍스트 생성 실험 ===

1. 프롬프트: 'The future of artificial intelligence'
   생성된 텍스트: The future of artificial intelligence is looking bright, but it's still far from perfect. And we're at the beginning of what could be a very long

2. 프롬프트: 'In a world where technology'
   생성된 텍스트: In a world where technology has advanced by leaps and bounds, the last thing you should be doing when you're trying to get better at something is trying

3. 프롬프트: 'The secret to happiness is'
   생성된 텍스트: The secret to happiness is living in a world that's filled with people like you. We're talking people from all walks of life, from rich to

4. 프롬프트: 'Once upon a time in a distant galaxy'
   생성된 텍스트: Once upon a time in a distant galaxy, your parents were murdered by the evil empire of the Unforgiven. You are now the sole survivor and

5. 프롬프트: 'The most important thing in life'
   생성된 텍스트: The most important thing in life is to learn to enjoy yourself, whether it's at work, at home, or anywhere else."


In [5]:
# Autoregressive한 방식으로 문장 생성
# 각 단계에서 이전 토큰들을 기반으로 다음 토큰을 예측하는 과정을 시각화

max_length = 20  # 길이를 줄여서 출력을 간단하게
input_ids_concat = input_ids.clone()

print("=== Autoregressive 생성 과정 ===\n")
print(f"시작 프롬프트: '{tokenizer.decode(input_ids[0], skip_special_tokens=True)}'\n")

step = 0
while input_ids_concat.shape[1] < max_length:
    step += 1
    
    # 다음 토큰 예측
    predictions = model(input_ids_concat)
    logits = predictions.logits
    predicted_token = torch.argmax(logits[0, -1]).item()
    
    # 생성된 토큰을 입력 토큰 뒤에 추가
    input_ids_concat = torch.cat([input_ids_concat, torch.tensor([[predicted_token]])], dim=1)
    
    # 현재까지 생성된 텍스트 출력
    current_text = tokenizer.decode(input_ids_concat[0], skip_special_tokens=True)
    new_token = tokenizer.decode(predicted_token, skip_special_tokens=True)
    
    print(f"Step {step}: 새 토큰 '{new_token}' 추가")
    print(f"         현재 텍스트: '{current_text}'\n")
    
    # 너무 길어지면 중단
    if step > 15:
        break

print("생성 완료!")

=== Autoregressive 생성 과정 ===

시작 프롬프트: 'The most important thing in life'

Step 1: 새 토큰 ' is' 추가
         현재 텍스트: 'The most important thing in life is'

Step 2: 새 토큰 ' to' 추가
         현재 텍스트: 'The most important thing in life is to'

Step 3: 새 토큰 ' be' 추가
         현재 텍스트: 'The most important thing in life is to be'

Step 4: 새 토큰 ' happy' 추가
         현재 텍스트: 'The most important thing in life is to be happy'

Step 5: 새 토큰 '.' 추가
         현재 텍스트: 'The most important thing in life is to be happy.'

Step 6: 새 토큰 '
' 추가
         현재 텍스트: 'The most important thing in life is to be happy.
'

Step 7: 새 토큰 '
' 추가
         현재 텍스트: 'The most important thing in life is to be happy.

'

Step 8: 새 토큰 'I' 추가
         현재 텍스트: 'The most important thing in life is to be happy.

I'

Step 9: 새 토큰 ''m' 추가
         현재 텍스트: 'The most important thing in life is to be happy.

I'm'

Step 10: 새 토큰 ' not' 추가
         현재 텍스트: 'The most important thing in life is to be happy.

I'm not'

Step 11: 새 토큰 ' saying' 추가
   

In [6]:
# 최종 생성된 문장 출력
decoded_text = tokenizer.decode(input_ids_concat[0], skip_special_tokens=True)
print(f"최종 생성된 텍스트: {decoded_text}")

최종 생성된 텍스트: The most important thing in life is to be happy.

I'm not saying that happiness is
