실행 위치: Google Colab

# 1. 라이브러리 확인
 - colab은 transformers, torch 등 라이브러리가 기본 설치되어 있음

In [None]:
!pip list

# 2. 토크나이저 다운로드

In [None]:
from transformers import AutoTokenizer

# 허깅페이스에서 tokenizer.json 파일을 다운로드하여 로드
tokenizer = AutoTokenizer.from_pretrained('gpt2-xl')

In [None]:
print(tokenizer.backend_tokenizer)

## 입력 문장과 토큰 관계 확인하기
- 입력 문장과 그에 매핑되는 토큰 확인
- 매핑 관계는 tokenizer.json 파일에 정의
- 공백은 특수문자 Ġ 에 의해 표기

In [None]:
text = "Replace me by any text you'd like"
eng_encoded_input = tokenizer(
    text,
    return_tensors='pt')
print(eng_encoded_input)

In [None]:
from pprint import pprint

text = "Replace me by any text you'd like"
eng_encoded_input = tokenizer(text, return_tensors='pt').to('cuda')
print(eng_encoded_input)
print('--------------------')

pprint(list(zip(
    eng_encoded_input['input_ids'][0],
    tokenizer.convert_ids_to_tokens(eng_encoded_input['input_ids'][0])
    )))

## 텍스트 -> 토큰 값 변환하기

In [None]:
tokenizer.convert_tokens_to_ids(['Re', 'place', 'Ġme', 'Ġby','Ġany','Ġtext','Ġyou',"'d",'Ġlike'])

## 한글의 토크나이저

In [None]:
text = "안녕하세요"
kor_encoded_input = tokenizer(text, return_tensors='pt').to('cuda')

pprint(list(zip(
    kor_encoded_input['input_ids'][0],
    tokenizer.convert_ids_to_tokens(kor_encoded_input['input_ids'][0])
    )))

# 3. 모델 로드

In [None]:
from transformers import AutoModelForCausalLM

model_name = 'gpt2-xl'
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path = model_name,
    trust_remote_code             = True,
).to('cuda')

## 출력 문장과 토큰 관계 확인하기
- 입력 토큰 데이터와 모델 모두 GPU에 위치하도록 토큰 데이터를 GPU로 이동

In [None]:
outputs = model.generate(
    **eng_encoded_input,
    repetition_penalty=1.2,
    max_length=100
)
print(outputs)


- 출력 토큰을 자연어로 바꾸기 위해 tokenizer.decode를 사용
- 출력 토큰에는 질의어도 포함되어 있음

In [None]:
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=False)
print(decoded_output)

In [None]:
pprint(list(zip(
    outputs[0],
    tokenizer.convert_ids_to_tokens(outputs[0])
    )))