# GPT-2를 이용한 문장 생성

환경 구성 및 모듈 임포트

In [None]:
import torch
from transformers import GPT2LMHeadModel, PreTrainedTokenizerFast

In [None]:
# 1. 한국어 GPT-2 모델 및 토크나이저 로드
model_name = 'skt/kogpt2-base-v2'
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = PreTrainedTokenizerFast.from_pretrained(model_name)

# 2. 모델을 GPU로 이동 (가능할 경우)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

In [None]:
# 3. 문장 생성 함수 정의
def generate_text(prompt, max_length=50):
    # 입력 문장을 토큰화하고 텐서로 변환
    input_ids = tokenizer.encode(prompt, return_tensors='pt').to(device)

    # 모델을 통해 텍스트 생성
    output = model.generate(
        input_ids,
        max_length=max_length,
        do_sample=True,  # 샘플링 방식으로 생성
        top_k=50,        # 상위 50개 단어만 고려
        top_p=0.95,      # 누적 확률이 95%인 단어들만 고려
        repetition_penalty=2.0,  # 반복을 줄이기 위한 패널티
        no_repeat_ngram_size=3,  # 같은 n-그램 반복 방지
        pad_token_id=tokenizer.pad_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bos_token_id=tokenizer.bos_token_id
    )

    # 생성된 텍스트를 디코딩하여 반환
    generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
    return generated_text

In [None]:
# 4. 샘플 문장 생성
prompt = "인공지능은"
generated_text = generate_text(prompt, max_length=100)

print(f"입력 문장: {prompt}")
print(f"생성된 문장: {generated_text}")