In [3]:
from time import perf_counter

from transformers import AutoTokenizer, AutoModelForCausalLM

In [4]:
model_path = "/opt/ml/outputs"

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)

In [12]:
input_text = "빨간 헬멧을 쓴 남자가 작은 오토바이를 타고 비포장 도로에 있다."
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# Check generation time
t = perf_counter()

output = model.generate(
    input_ids,
    max_length=64,
    repetition_penalty=2.0,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    do_sample=True,
    top_k=30,
    top_p=0.95,
)
generated_text = tokenizer.decode(output[0])

spent = perf_counter() - t

print("generated text:", *map(lambda x: x.strip() + ".", generated_text.split(".")), sep="\n")
print(f"\ntime spent: {spent:.2f} sec")

generated text:
빨간 헬멧을 쓴 남자가 작은 오토바이를 타고 비포장 도로에 있다.
한여름의 태양과 함께 쏟아지는 햇빛은 그에게 쉼이 되었지만 그와 그의 몸은 그 태양의 열기에 데워질 수 없는 추위에 얼어붙어 있었다.
그는 눈 덮인 세상을 마주하기 위해 자신의 몸을 가릴 모자를.

time spent: 10.76 sec
