# Autoregressive (자동회귀) 문장 생성 - HyperClova 모델

HyperClova 모델을 사용한 자동 회귀적인 텍스트 생성 예제입니다.
HyperClova는 네이버에서 개발한 한국어 특화 대화형 언어모델로,
채팅 템플릿을 사용하여 자연스러운 대화형 텍스트를 생성합니다.

In [5]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
import os

# HyperCLOVAX 모델에 문제가 있어서 안정적인 대안 모델 사용
# SKT에서 개발한 한국어 GPT-2 모델로 변경
print("HyperCLOVAX 모델에 토크나이저 문제가 있어서 대안 모델을 사용합니다.")
print("SKT KoGPT-2 모델로 전환합니다...\n")

# 안정적인 한국어 모델 사용
model_name = "skt/kogpt2-base-v2"

# 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(model_name)
print(f"토크나이저 로드 성공: {model_name}")

# 패딩 토큰 설정 (KoGPT-2는 기본적으로 패딩 토큰이 없음)
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
    print("패딩 토큰을 EOS 토큰으로 설정했습니다.")

# 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map=None,
    low_cpu_mem_usage=False
)
print(f"모델 로드 성공: {model_name}")

# GPU 사용 가능하면 GPU로 이동
if torch.cuda.is_available():
    model = model.to("cuda")
    print("모델을 GPU로 이동했습니다.")
else:
    print("CPU를 사용합니다.")

# 문장 시작 부분 (한국어로 변경)
input_text = "옛날 옛적에"
print(f"원본 텍스트: {input_text}")

# 토크나이저 정보 확인
print(f"토크나이저 vocab 크기: {tokenizer.vocab_size}")
print(f"특수 토큰들: {tokenizer.special_tokens_map}")

# 간단한 토큰화 테스트
input_ids = tokenizer.encode(input_text, return_tensors="pt")
print(f"토큰화된 결과: {input_ids}")
print(f"토큰 개수: {input_ids.shape[1]}")
input_ids

HyperCLOVAX 모델에 토크나이저 문제가 있어서 대안 모델을 사용합니다.
SKT KoGPT-2 모델로 전환합니다...



config.json: 0.00B [00:00, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


tokenizer.json: 0.00B [00:00, ?B/s]

토크나이저 로드 성공: skt/kogpt2-base-v2
패딩 토큰을 EOS 토큰으로 설정했습니다.


pytorch_model.bin:   0%|          | 0.00/513M [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()


모델 로드 성공: skt/kogpt2-base-v2
CPU를 사용합니다.
원본 텍스트: 옛날 옛적에
토크나이저 vocab 크기: 51200
특수 토큰들: {'bos_token': '<|endoftext|>', 'eos_token': '<|endoftext|>', 'unk_token': '<|endoftext|>', 'pad_token': '<|endoftext|>'}
토큰화된 결과: tensor([[12346, 10256, 16871]])
토큰 개수: 3


tensor([[12346, 10256, 16871]])

In [6]:
# 대안: 다른 한국어 모델 사용 (HyperCLOVAX에 문제가 있을 경우)
# 이 셀은 HyperCLOVAX 모델에 문제가 있을 때만 실행하세요

# 대안 1: 한국어 지원 GPT-2 모델
# model_name_alt = "skt/kogpt2-base-v2"

# 대안 2: 한국어 BERT 기반 모델 (생성용으로는 제한적)
# model_name_alt = "klue/bert-base"

# 대안 3: 다국어 지원 모델
# model_name_alt = "microsoft/DialoGPT-medium"

print("대안 모델 옵션들:")
print("1. skt/kogpt2-base-v2 - SKT에서 개발한 한국어 GPT-2")
print("2. microsoft/DialoGPT-medium - 다국어 대화형 모델")
print("3. facebook/blenderbot-400M-distill - 대화형 모델")
print("\nHyperCLOVAX 모델에 문제가 있다면 위 모델 중 하나를 사용하세요.")


대안 모델 옵션들:
1. skt/kogpt2-base-v2 - SKT에서 개발한 한국어 GPT-2
2. microsoft/DialoGPT-medium - 다국어 대화형 모델
3. facebook/blenderbot-400M-distill - 대화형 모델

HyperCLOVAX 모델에 문제가 있다면 위 모델 중 하나를 사용하세요.


In [7]:
# KoGPT-2를 사용한 한국어 텍스트 생성
# KoGPT-2는 일반적인 텍스트 생성 방식 사용 (채팅 템플릿 없음)

print("=== KoGPT-2 텍스트 생성 ===")
print(f"입력 텍스트: '{input_text}'")

# 입력 텍스트를 토큰화
input_ids = tokenizer.encode(input_text, return_tensors="pt")
print(f"토큰화된 결과: {input_ids}")
print(f"토큰 개수: {input_ids.shape[1]}")

# GPU 사용 가능하면 GPU로 이동
if torch.cuda.is_available():
    input_ids = input_ids.to("cuda")
    print("입력을 GPU로 이동했습니다.")
else:
    print("CPU를 사용합니다.")

=== KoGPT-2 텍스트 생성 ===
입력 텍스트: '옛날 옛적에'
토큰화된 결과: tensor([[12346, 10256, 16871]])
토큰 개수: 3
CPU를 사용합니다.


In [8]:
# KoGPT-2 텍스트 생성
# generate 메서드의 주요 파라미터들:
# - max_length: 생성할 최대 토큰 수
# - num_return_sequences: 생성할 시퀀스 수
# - temperature: 생성 다양성 조절 (높을수록 다양함)
# - top_p: nucleus sampling 파라미터
# - do_sample: 샘플링 사용 여부
# - pad_token_id: 패딩 토큰 ID

print("=== KoGPT-2 텍스트 생성 시작 ===")

# 텍스트 생성
output_ids = model.generate(
    input_ids,
    max_length=input_ids.shape[1] + 100,  # 원본 길이 + 100 토큰
    num_return_sequences=1,
    temperature=0.8,
    top_p=0.9,
    do_sample=True,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id,
    repetition_penalty=1.2
)

# 결과 출력
generated_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print("=== 생성된 전체 텍스트 ===")
print(generated_text)

# 원본 입력과 새로 생성된 부분 분리
input_length = input_ids.shape[1]
new_tokens = output_ids[0][input_length:]
new_text = tokenizer.decode(new_tokens, skip_special_tokens=True)
print(f"\n=== 새로 생성된 부분만 ===")
print(new_text)

=== KoGPT-2 텍스트 생성 시작 ===


The attention mask is not set and cannot be inferred from input because pad token is same as eos token.As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


=== 생성된 전체 텍스트 ===
옛날 옛적에야 우리도 우리랑 같이 놀 수 있게 되었으니까."
"어쨌든 우리한테는 정말 미안합니다."
나는 그제서야 내 어깨를 감싸 안고 고개를 끄덕였다.
그러자 갑자기 뭔가가 내 가슴에 와 닿았다.
아직 한참이 지난 후였다.
내가 아는 사이인지라 내 가슴속에는 아직도 그날의 기억들이 고스란히 남아 있었다.
하지만 이토록 오랫동안 내가 잊고 지냈던 것은 그때만 해도 내게 있어 언제나 그런 것이었다.
그날 이후로 나는 내 삶의 방식을 바꾸어놓으려고 노력

=== 새로 생성된 부분만 ===
야 우리도 우리랑 같이 놀 수 있게 되었으니까."
"어쨌든 우리한테는 정말 미안합니다."
나는 그제서야 내 어깨를 감싸 안고 고개를 끄덕였다.
그러자 갑자기 뭔가가 내 가슴에 와 닿았다.
아직 한참이 지난 후였다.
내가 아는 사이인지라 내 가슴속에는 아직도 그날의 기억들이 고스란히 남아 있었다.
하지만 이토록 오랫동안 내가 잊고 지냈던 것은 그때만 해도 내게 있어 언제나 그런 것이었다.
그날 이후로 나는 내 삶의 방식을 바꾸어놓으려고 노력


HyperClova는 자체적으로 autoregressive 모델입니다. "Autoregressive"란, 이전에 생성된 토큰들을 기반으로 다음 토큰을 생성하는 모델을 의미합니다.

위의 코드에서 `model.generate` 메서드는 이미 autoregressive한 방식으로 문장을 생성합니다. 그러나 이를 명시적으로 보여주기 위해 각 단계에서 토큰을 하나씩 생성하는 autoregressive한 코드를 아래에 작성하겠습니다:

## 다양한 한국어 프롬프트로 실험해보기

다음 셀에서 다양한 한국어 프롬프트로 텍스트 생성을 시도해볼 수 있습니다:

In [9]:
# 다양한 한국어 프롬프트로 KoGPT-2 텍스트 생성 실험
prompts = [
    "인공지능의 미래는",
    "기술이 발달한 세상에서",
    "인생에서 가장 중요한 것은"
]

print("=== 다양한 한국어 프롬프트로 KoGPT-2 텍스트 생성 실험 ===\n")

for i, prompt in enumerate(prompts, 1):
    print(f"{i}. 프롬프트: '{prompt}'")

    # 입력 텍스트를 토큰화
    input_ids = tokenizer.encode(prompt, return_tensors="pt")
    
    # GPU 사용 가능하면 GPU로 이동
    if torch.cuda.is_available():
        input_ids = input_ids.to("cuda")

    # 텍스트 생성
    output_ids = model.generate(
        input_ids,
        max_length=input_ids.shape[1] + 80,  # 원본 길이 + 80 토큰
        num_return_sequences=1,
        temperature=0.8,
        top_p=0.9,
        do_sample=True,
        pad_token_id=tokenizer.pad_token_id,
        eos_token_id=tokenizer.eos_token_id,
        repetition_penalty=1.2
    )

    # 결과 출력
    generated_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
    input_length = input_ids.shape[1]
    new_text = tokenizer.decode(output_ids[0][input_length:], skip_special_tokens=True)
    print(f"\n   생성된 텍스트: {new_text}")
    print("-" * 200)

=== 다양한 한국어 프롬프트로 KoGPT-2 텍스트 생성 실험 ===

1. 프롬프트: '인공지능의 미래는'

   생성된 텍스트: ‘알파’다.
최근 스마트폰에 적용된 알고리즘이 그 답을 알려줬다는 점에서 이 기술은 이미 기술혁신을 통한 산업발전의 기반이 되고 있다.
구글, 애플 등 세계 주요 기업들은 이미 데이터 기반 플랫폼을 제공하고 있고 삼성전자, SK하이닉스, LG전자 등도 관련 기술을 준비하고 있는 것으로 알려졌다.
그러나 아직까지는 상용화가 이뤄지지 않아 어떤 기업이 시장을
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
2. 프롬프트: '기술이 발달한 세상에서'

   생성된 텍스트: 이 두 가지 방법은 모두 다 필요하지만 그것만으로는 부족합니다.
그렇다면 어떻게 해야 합니다.
우리가 알고 있는 것이 가장 확실하고 믿을 수 있습니다.
바로 그 방법을 택해야 한다는 것입니다.
그러나 모든 사람이 이러한 원칙을 알고 있을 때 가능하지 않을까요?
아니면 우리가 알지 못하는 것을 알면서도 그것을 믿으려고 하지 말라는 법은 없을까요?
결국 우리는 어떤 방법으로든지 우리를 이해하고 설득할 수밖에 없습니다.
설득
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
3. 프롬프트: '인생에서 가장 중요한 것은'

   생성된 텍스트: 바로 자기 자신을 

In [11]:
# KoGPT-2 Autoregressive 생성 과정 분석
# 간단한 입력 텍스트로 시작
input_text = "옛날 옛적에"

# 입력 텍스트를 토큰화
input_ids = tokenizer.encode(input_text, return_tensors="pt")

print(f"원본 프롬프트: {input_text}")
print(f"토큰화 후 토큰 수: {input_ids.shape[1]}")
print(f"토큰화된 결과: {input_ids}")

if torch.cuda.is_available():
    input_ids = input_ids.to("cuda")

원본 프롬프트: 옛날 옛적에
토큰화 후 토큰 수: 3
토큰화된 결과: tensor([[12346, 10256, 16871]])


In [12]:
# KoGPT-2 Autoregressive한 방식으로 문장 생성
# 각 단계에서 이전 토큰들을 기반으로 다음 토큰을 예측하는 과정을 시각화

# 현재 입력 토큰 수 확인
current_length = input_ids.shape[1]
print(f"현재 입력 토큰 수: {current_length}")

max_length = current_length + 30  # 현재 길이에서 30개 토큰 추가 생성
input_ids_concat = input_ids.clone()

print("=== KoGPT-2 Autoregressive 생성 과정 ===\n")
print(f"시작 프롬프트: '{input_text}'\n")
print(f"목표 길이: {max_length} 토큰\n")

# 원본 입력 길이 저장 (새로 생성된 부분만 추출하기 위해)
original_length = current_length

step = 0
while input_ids_concat.shape[1] < max_length:
    step += 1

    # 다음 토큰 예측
    with torch.no_grad():
        predictions = model(input_ids_concat)
        logits = predictions.logits
        predicted_token = torch.argmax(logits[0, -1]).item()

    # 생성된 토큰을 입력 토큰 뒤에 추가 (같은 장치에 맞춤)
    new_token_tensor = torch.tensor([[predicted_token]], device=input_ids_concat.device)
    input_ids_concat = torch.cat([input_ids_concat, new_token_tensor], dim=1)

    # 새로 생성된 부분만 추출
    new_tokens = input_ids_concat[0][original_length:]
    new_text = tokenizer.decode(new_tokens, skip_special_tokens=True)
    new_token = tokenizer.decode(predicted_token, skip_special_tokens=True)
    print(f"Step {step:2d}: 새로 생성된 텍스트: '{new_text}'")

    # 너무 길어지면 중단
    if step > 30:
        break

print("\n생성 완료!")
print(f"최종 생성된 텍스트: '{tokenizer.decode(input_ids_concat[0], skip_special_tokens=True)}'")

현재 입력 토큰 수: 3
=== KoGPT-2 Autoregressive 생성 과정 ===

시작 프롬프트: '옛날 옛적에'

목표 길이: 33 토큰

Step  1: 새로 생성된 텍스트: '그'
Step  2: 새로 생성된 텍스트: '그 유명한'
Step  3: 새로 생성된 텍스트: '그 유명한 ''
Step  4: 새로 생성된 텍스트: '그 유명한 '청'
Step  5: 새로 생성된 텍스트: '그 유명한 '청자'
Step  6: 새로 생성된 텍스트: '그 유명한 '청자상감'
Step  7: 새로 생성된 텍스트: '그 유명한 '청자상감운'
Step  8: 새로 생성된 텍스트: '그 유명한 '청자상감운학문'
Step  9: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매'
Step 10: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'
Step 11: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이'
Step 12: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이 있었다.
'
Step 13: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이 있었다.
그'
Step 14: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이 있었다.
그것은'
Step 15: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이 있었다.
그것은 ''
Step 16: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이 있었다.
그것은 '청'
Step 17: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이 있었다.
그것은 '청자'
Step 18: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이 있었다.
그것은 '청자상감'
Step 19: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이 있었다.
그것은 '청자상감운'
Step 20: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이 있었다.
그것은 '청자상감운학문'
Step 21: 새로 생성된 텍스트: '그 유명한 '청자상감운학문매병'이 있었다.
그것은 