### GPT, BERT 입력값 만들기

#### 구글 드라이브 연동하기

In [4]:
from google.colab import drive
drive.mount('/gdrive', force_remount=True)  

Mounted at /gdrive


#### 패키지 설치

In [3]:
!pip install ratsnlp

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting ratsnlp
  Downloading ratsnlp-1.0.52-py3-none-any.whl (42 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 KB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting flask-cors>=3.0.10
  Downloading Flask_Cors-3.0.10-py2.py3-none-any.whl (14 kB)
Collecting pytorch-lightning==1.6.1
  Downloading pytorch_lightning-1.6.1-py3-none-any.whl (582 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m582.5/582.5 KB[0m [31m19.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting flask-ngrok>=0.0.25
  Downloading flask_ngrok-0.0.25-py3-none-any.whl (3.1 kB)
Collecting Korpora>=0.2.0
  Downloading Korpora-0.2.0-py3-none-any.whl (57 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m57.8/57.8 KB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
Collecting transformers==4.10.0
  Downloading transformers-4.10.0-py3-none-any.whl (2.8 MB)
[2

#### GPT 입력값 만들기

GPT 모델 입력값을 만들려면 Byte-level Byte Pair Encoding 어휘집합 구축 결과(`vocab.json`, `merges.txt`)가 자신의 구글 드라이브 경로(`/gdrive/My Drive/nlpbook/wordpiece`)에 있어야 합니다. \
다음을 수행해 이미 만들어 놓은 BBPE 어휘집합을 포함한 GPT 토크나이저를 `tokenizer_gpt`라는 변수로 선언합니다.


- GPT 토크나이저 선언

In [5]:
from transformers import GPT2Tokenizer
tokenizer_gpt = GPT2Tokenizer.from_pretrained("/gdrive/MyDrive/nlpbook/bbpe")
tokenizer_gpt.pad_token = "[PAD]"   #비어있는 부분을 패딩 처리(채워준다), 문장의 길이가 긴 것도 있고 짧은 것도 있기 때문에.

file /gdrive/MyDrive/nlpbook/bbpe/config.json not found


- GPT 토크나이저로 토큰화하기

In [7]:
sentences = [
    "아 더빙.. 진짜 짜증나네요 목소리",
    "흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나",
    "별루 였다..",
]
tokenized_sentences = [tokenizer_gpt.tokenize(sentence) for sentence in sentences]

- 토큰화 결과 확인

In [9]:
tokenized_sentences

[['ìķĦ', 'ĠëįĶë¹Ļ', '..', 'Ġì§Ħì§ľ', 'Ġì§ľì¦ĿëĤĺ', 'ëĦ¤ìļĶ', 'Ġëª©ìĨĮë¦¬'],
 ['íĿł',
  '...',
  'íı¬ìĬ¤íĦ°',
  'ë³´ê³ł',
  'Ġì´ĪëĶ©',
  'ìĺģíĻĶ',
  'ì¤Ħ',
  '....',
  'ìĺ¤ë²Ħ',
  'ìĹ°ê¸°',
  'ì¡°ì°¨',
  'Ġê°Ģë³į',
  'ì§Ģ',
  'ĠìķĬ',
  'êµ¬ëĤĺ'],
 ['ë³Ħë£¨', 'Ġìĺ', 'Ģëĭ¤', '..']]

- GPT 모델 입력 만들기

In [10]:
sentences = [
    "아 더빙.. 진짜 짜증나네요 목소리",
    "흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나",
    "별루 였다..",
]

In [11]:
batch_inputs = tokenizer_gpt(
    sentences,
    padding='max_length',   #문장의 최대 길이에 맞춰 패딩
    max_length=12,         #문장의 토큰 기준 최대 길이
    truncation=True,      #문장 잘림 허용 옵션
)

- batch_inputs 내용 확인

In [12]:
batch_inputs.keys()

dict_keys(['input_ids', 'attention_mask'])

In [13]:
batch_inputs['input_ids']   
#토큰화 결과를 가지고 각 토큰을 인덱스로 바꾼 것
#어휘 집합(vocab.json)을 확인해 보면 각 어휘 순서대로 나열된 것을 확인할 수 있는데 이 순서가 바로 인덱스,
#각 토큰을 인덱스로 변환하는 과정을 인덱싱이라고 한다.

[[334, 2338, 263, 581, 4055, 464, 3808, 0, 0, 0, 0, 0],
 [3693, 336, 2876, 758, 2883, 356, 806, 422, 9875, 875, 2960, 7292],
 [4957, 451, 3653, 263, 0, 0, 0, 0, 0, 0, 0, 0]]

-> [PAD] 토큰은 일종의 더미 토큰으로 길이를 맞춰주는 역할을 한다.

문장의 길이(토큰 수)가 12로 맞춰짐 -> 문장의 최대 길이(max_length=12), \
이보다 짧은 문장은 [PAD] 토큰에 해당하는 인덱스 0이 붙는다. \
문장2는 원래 토큰 길이가 15였는데 12로 줄어들었다 -> 문장 질림 허용(truncation=True)

In [14]:
batch_inputs['attention_mask']   

[[1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
 [1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]]

-> 일반 토큰이 자리한곳(1), 패딩 토큰이 자리한 곳(0)을 구분해 알려주는 장치

#### BERT 입력값 만들기

- BERT 토크나이저 선언

In [16]:
from transformers import BertTokenizer
tokenizer_bert = BertTokenizer.from_pretrained(
    "/gdrive/MyDrive/nlpbook/wordpiece",
    do_lower_case=False
)

file /gdrive/MyDrive/nlpbook/wordpiece/config.json not found


- BERT 토크나이저로 토큰화하기

  배치(문장)의 크기(길이, 개수)가 3이라고 가정하고 배치의 입력값 만들기

In [17]:
sentences = [
    "아 더빙.. 진짜 짜증나네요 목소리",
    "흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나",
    "별루 였다..",
]
tokenized_sentences = [tokenizer_bert.tokenize(sentence) for sentence in sentences]

- 토큰화 결과 확인

In [18]:
tokenized_sentences

[['아', '더빙', '.', '.', '진짜', '짜증나', '##네요', '목소리'],
 ['흠',
  '.',
  '.',
  '.',
  '포스터',
  '##보고',
  '초딩',
  '##영화',
  '##줄',
  '.',
  '.',
  '.',
  '.',
  '오버',
  '##연기',
  '##조차',
  '가볍',
  '##지',
  '않',
  '##구나'],
 ['별루', '였다', '.', '.']]

- BERT 모델 입력 만들기

In [19]:
batch_inputs = tokenizer_bert(
    sentences,
    padding="max_length",
    max_length=12,
    truncation=True,
)

In [20]:
batch_inputs['input_ids']

[[2, 621, 2631, 16, 16, 1993, 3678, 1990, 3323, 3, 0, 0],
 [2, 997, 16, 16, 16, 2609, 2045, 2796, 1981, 1152, 16, 3],
 [2, 3274, 9507, 16, 16, 3, 0, 0, 0, 0, 0, 0]]

-> BERT는 문장 시작과 끝에 [CLS], [SEP]라는 2개의 토큰을 덧붙인다. 

모든 문장 앞에 2, 끝에 3이 붙은 것을 확인할 수 있다. \
이는 각각 [CLS], [SEP]라는 토큰에 대응하는 인덱스

In [21]:
batch_inputs['attention_mask']

[[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0],
 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
 [1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]]

-> 일반 토큰이 자리한곳(1), 패딩 토큰이 자리한 곳(0)을 구분해 알려주는 장치

In [22]:
batch_inputs['token_type_ids']

[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

-> BERT 모델의 특징은 세그먼트 정보를 입력해준다.(token_type_ids 입력값으로)

세그먼트에 해당하는 것으로 모두 0, \
BERT 모델은 기본적으로 문서(혹은 문장) 2개를 입력받는데, 둘은 token_type_ids로 구분한다. \
첫 번째 세그먼트(문서 혹은 문장)에 해당하는 token_type_ids는 0, 두 번째 세그먼트는 1 \

위의 실습에서는 문장을 하나씩 넣었으므로 token_type_ids가 모두 0으로 처리된다.