# Autoregressive (자동회귀) 문장 생성

간단한 자동 회귀적인 텍스트 생성을 위한 코드 예제입니다. 여기서는 OpenAI의 GPT-2 모델을 사용하는데, GPT-3은 API를 통해서만 직접 사용할 수 있기 때문입니다. 그럼에도 GPT-2는 GPT-3와 매우 유사한 구조를 가지고 있으므로, 동일한 접근 방식을 사용합니다.

### Colab에서 실행

GPT2LMHeadModel: GPT-2 모델의 구현체 중 하나로, 'LMHead'는 'Language Modeling Head'를 의미합니다. 이 모델은 텍스트를 생성하는 데 사용되며 'Head'는 신경망의 최종 계층을 의미하는데, 이 경우 언어 모델링 작업을 위한 계층입니다.

GPT2Tokenizer: GPT-2 모델에 텍스트를 입력하기 전에, 이 토크나이저를 사용하여 텍스트를 토큰(token)으로 분해하고, 이 토큰들을 모델이 이해할 수 있는 숫자 ID로 변환합니다. 또한, 이 ID들을 모델의 입력 형식에 맞게 패딩(padding)하거나 잘라내기(truncation)하는 작업도 수행합니다.

In [None]:
# GPT2Tokenizer.from_pretrained 함수를 사용해 사전 훈련된 "gpt2-medium" 모델의 토크나이저를 불러옵니다.
# GPT2LMHeadModel.from_pretrained 함수를 사용해 사전 훈련된 "gpt2-medium" 모델을 불러옵니다.
# "Once upon a time"이라는 문자열을 시작으로 하는 텍스트를 준비합니다.
# tokenizer.encode 함수를 사용해 입력 텍스트를 토큰 ID로 변환합니다.
# return_tensors="pt" 옵션을 사용해 결과를 파이토치 텐서 형태로 받습니다.
# 변환된 토큰 ID를 출력합니다.

In [None]:
# model.generate 함수를 사용해 문장을 생성합니다.
# input_ids: 생성의 시작점이 될 토큰 ID
# max_length: 생성할 문장의 최대 길이를 지정
# num_return_sequences: 반환할 문장 시퀀스의 수를 지정
# pad_token_id: 패딩에 사용될 토큰 ID를 지정 (여기서는 문장의 끝을 나타내는 토큰 ID를 사용)
# 생성된 문장의 토큰 ID 출력

In [None]:
# enumerate 함수를 사용해 생성된 문장들을 반복하면서 출력합니다.
    # tokenizer.decode 함수를 사용해 토큰 ID를 문자열로 디코딩합니다.
    # skip_special_tokens=True 옵션을 주어 특수 토큰들은 건너뛰고 텍스트만 반환하도록 합니다.
    # f-string을 사용해 생성된 텍스트와 함께 순번을 출력합니다.

GPT-2는 자체적으로 autoregressive 모델입니다. "Autoregressive"란, 이전에 생성된 토큰들을 기반으로 다음 토큰을 생성하는 모델을 의미합니다.

위의 코드에서 `model.generate` 메서드는 이미 autoregressive한 방식으로 문장을 생성합니다. 그러나 이를 명시적으로 보여주기 위해 각 단계에서 토큰을 하나씩 생성하는 autoregressive한 코드를 아래에 작성하겠습니다:

In [None]:
# 문장 시작 부분

input_ids를 입력으로 받아 next token의 확률 분포를 예측값으로 반환 받습니다.

In [None]:
# model 함수에 input_ids를 입력으로 넣어 모델의 예측 결과를 받습니다.
# 예측 결과 중에서 로짓(logits)을 추출합니다.
# 로짓은 모델이 각 토큰에 대해 예측한 점수로, 이 점수는 다음 토큰의 확률 분포로 변환되기 전의 값입니다.
# 로짓 값을 출력합니다. (배치 크기, 시퀀스 길이, 어휘 사전의 크기)

예측값 중 가장 큰 값의 token을 선택합니다.

In [None]:
# torch.argmax 함수를 사용하여 가장 높은 로짓 값을 가진 토큰의 인덱스를 추출합니다.
# 이 인덱스는 다음에 올 토큰의 ID를 나타냅니다.
# logits[0, -1]는 마지막 단어에 대한 로짓 값을 의미합니다.
# 예측된 토큰 ID를 출력합니다.
# tokenizer.decode 함수를 사용하여 토큰 ID를 실제 텍스트로 디코딩합니다.
# skip_special_tokens=True 옵션을 주어 특수 토큰을 제외한 순수 텍스트만 반환하도록 합니다.
# 디코딩된 텍스트를 출력합니다.

위와 같은 방식으로 마지막 단어 이어 붙이기 형식의 문장 생성을 합니다.

In [None]:
# Autoregressive한 방식으로 문장 생성
# 생성할 문장의 길이가 max_length보다 작을 동안 반복
    # 모델을 사용하여 다음 토큰 예측
    # 예측된 로짓을 가져옴
    # 로짓에서 가장 확률이 높은 토큰을 선택
    # 예측된 토큰을 기존의 입력 토큰 뒤에 추가
    # 현재까지 예측된 토큰들을 출력
# 디코딩하여 최종적으로 생성된 Text 출력