실행 위치: Google Colab

# 1. 라이브러리 확인
 - colab은 transformers, torch 등 라이브러리가 기본 설치되어 있음

In [None]:
!pip list

# 2. 모델 Download & 추론

## 방법 (1) pipeline: 간소화된 추론 수행 방법
 - pipeline은 토크나이저와 모델을 결합해 쉽게 추론할 수 있도록 지원
 - pipeline() 수행시 자동으로 허깅페이스에서 모델 다운로드
 - 주로 프로토타이핑, 간단히 테스트할 때 사용
 - gpt2-xl 모델은 허깅페이스 openai-community/gpt2-xl 모델을 의미

In [None]:
from transformers import pipeline

generator = pipeline('text-generation', model='gpt2-xl')
response = generator("Hello, I'm a language model,", max_length=100, num_return_sequences=2)
print(response)

In [None]:
generator("what is the capical of the US?", max_length=100, num_return_sequences=2)

## 방법 (2) 토크나이저와 모델 각각 다운로드
 - AutoModelForCausalLM 라이브러리: 모델 로드용
 - AutoTokenizer 라이브러리: 토크나이저 로드용

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('gpt2-xl')
model = AutoModelForCausalLM.from_pretrained('gpt2-xl').to('cuda')

text = "Replace me by any text you'd like"
encoded_input = tokenizer(text, return_tensors='pt').to('cuda')

print(encoded_input)

In [None]:
# model.generate(): 추론 수행

outputs = model.generate(
    **encoded_input,
    max_length=100,
    repetition_penalty=2.0
)
print(outputs)

# 3. 모델 추론 결과 보기

In [None]:
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=False)
print(decoded_output)