In [1]:
from time import perf_counter

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

In [2]:
model_path = "/opt/ml/outputs"

device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path).to(device)

In [4]:
input_text = "적갈색의 와인을"
input_ids = tokenizer.encode(input_text, return_tensors="pt").to(device)

# Check generation time
t = perf_counter()

output = model.generate(
    input_ids,
    max_length=64,
    repetition_penalty=2.0,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    do_sample=True,
    top_k=30,
    top_p=0.95,
)
generated_text = tokenizer.decode(output[0])

spent = perf_counter() - t

print("generated text:", *map(lambda x: x.strip() + ".", generated_text.split(".")), sep="\n")
print(f"\ntime spent: {spent:.2f} sec")

generated text:
적갈색의 와인을, 다른 한쪽은 어두운 밤하늘의 별을 바라보고 있었습니다.
내 눈에 비친 모든 것은 붉은 포도주 빛으로 반짝반짝입니다.
우리는 서로 마주보았지요.
그 때 저는 당신을 사랑했어요.
당신의 얼굴에도 미소가 번지기 시작하더니, 당신은 저의 볼에 손을 가져가 제 입술을 감싸안.

time spent: 1.26 sec
