# 토큰화(tokenization)

- 문장을 토큰 시퀀스로 나누는 과정

- 수행 대상에 따라 문자, 단어, 서브워드 등의 방법이 있음

- 트랜스포머 모델은 토큰 시퀀스를 입력받으므로 문장에 토큰화를 수행해줘야함

- 토큰화를 수행하는 프로그램을 토크나이저라고 함
    - 한국어 형태소 분석기를 토큰화 뿐만 아니라 품사 부착까지 수행

## 단어 단위 토큰화

- 가장 쉽게 단어 단위 토큰화를 수행하는 방법은 공백으로 분리하는 것
    - 예) 어제 카페 갔었어 => [어제, 카페 , 갔었어]

- 공백으로 분리하면 별도로 토크나이저를 쓰지 않아도 된다는 장점이 있지만, 한국어 데이터는 어휘 집합의 크기가 매우 커질 수 있음
    - 갔었어 , 갔었는데요 처럼 표현이 살짝만 바뀌어도 모든 경위의 수가 어휘 집합에 포함되어야 해서임
 
- 한국어 형태소 분석기를 사용하면 어휘 집합의 크기가 커지는 것을 조금 완화할 수 있음
    - 예) 어제 카페 갔었어 => [어제, 카페, 갔었, 어]
    - 어제 카페 갔었는데요 => [어제, 카페, 갔었, 는데요]

- 어휘 집합의 크기가 지나치게 커지면 모델 학습이 어려워질 수 있음

## 문자 단위 토큰화

- 한글 위주로 표현된 데이터로 언어 모델을 만든다면
    - 한글로 표현할 수 있는 글자의 조합수는 11,172개 이므로 알파벳 과 숫자, 기호를 합쳐도 어휘 사전의 크기는 1만 5천개를 넘지 않음
 
- 해당 언어의 모든 문자를 어휘 집합에 포함하므로 미등록 토큰 문제로 부터 자유로움

- 각 문자 토큰이 의미 있는 단위가 되기 어렵다는 것이 단점
    - 예) 어제 카페 갔었어 => [어, 제 , 카, 페, 갔, 었, 어]
 
- 또한 단어 단위 토큰화에 비해 토큰 시퀀스의 길이가 상대적으로 길어짐
    - 언어 모델에 입력할 토큰 시퀀스가 길면 모델이 해당 문장을 학습하기가 어려워지고 성능이 떨어질 수 있음

## 서브워드(부분단어) 단위 토큰화

- 단어와 문자 단위 토큰화의 중간 형태
    - 어휘 집합의 크기가 지나치게 커지지 않으면서 미등록 토큰 문제를 피하고, 분석된 토큰 시퀀스가 너무 길어지지 안게 하기 위한 방법
 
- 대표적인 서브워드 단위 토큰화 기법으로 바이트 페어 인코딩이 있음 (gpt 에서 사용하는 방식)

### BPE : 바이트 페어 인코딩

- 정보 압축 알고리즘으로 제안되었지만 자연어 처리 모델에서 널리 쓰이게 된 토큰화 기법

- GPT 계열 모델은 BPE 기법으로 토큰화를 수행하며 ,BERT 모델은 BPE 와 유사한 워드피스를 토크나이저로 사용(건축학과에서 사장된 개념을 컴공에서 쓴다. 눈이 빤짝거리던 대학교수님...)

- 1994년 제안된 정보 압축 알고리즘으로 데이터에서 가장 많이 등장한 문자열을 병합해서 데이터를 압축하는 기법

- 예시

    - 데이터 : aaabdaaabac
 
    - 데이터에 등장한 글자(a, b, c, d)를 초기 사전으로 구성하며, 연속된 두 글자를 한 글자로 병합
 
        - aa 가 가장 많이 나타났으므로 이를 Z로 병합
     
        - ZabdbZabac => XdXac
     
        - BPE 수행 이전에는 데이터를 표현하기 위한 사전 크기가 4개 (a,b,c,d) 였지만 수행 이후엔 사전 크기가 7개 로 늘었지만(a,b,c,d,Z,Y,X) 데이터 길이는 11에서 5로 줄음
     
- BPE는 사전의 크기를 지나치게 늘리지 않으면서 데이터의 길이는 효율적으로 압축하는 알고리즘

- 분석 대상 언어에 대한 지식이 필요 없으며 말뭉치에서 자주 나타나는 문자열을 토큰으로 분석

#### 어휘 집합 구축

- 말뭉치의 모든 문장을 공백으로 나눠 줌
    - 사전 토큰화(pre-tokenize)
 
- 사전 토큰화 결과 예시
    
    - hug : 10
    - pug : 5
    - pun : 12
    - bun : 4
    - hugs : 5
    - 초기 어휘 집합
        - [b,g,h,n,p,s,u] : 그냥 단어 종류 다 모은거임

- 초기 어휘 집합 기준으로 2개씩(바이그램;bigram) 묶어서 빈도표 작성

- 바이그램 쌍
    - b, u : 4
    - g, s : 5
    - h, y : 15
    - p, u : 17
    - u, g : 20  => ug 를 사전에 추가(가장 많음)
    - u, n : 16
      
- [b, g, h, n, p, s, u, ug]

- 새로운 어휘 집합으로 빈도표 작성
    - h,ug : 10
    - p,ug : 5
    - pun : 12
    - bun : 4
    - h,ug,s : 5
      
- 바이그램 쌍 빈도로 나열
    - b, u : 4
    - h, ug : 15
    - p, u : 12
    - p, ug : 5
    - u, n : 16
    - ug, s : 5
      
- 이번에 가장 많이 등장한 바이그램 쌍은 u, n 으로 총 16회
    - 따라서 u와 n을 합친 un을 어휘 집합에 추가
    - [b, g, h, n, p, s, u, ug, un]
      
- BPE 어휘 집합은 사용자가 정한 크기가 될 때까지 이러한 과정을 반복해서 수행
    - 만일 어휘 집합크기를 9개로 정해 놓았다면 지금 어휘가 9개가 되었으므로 BPE 어휘 구축 절차를 마침

#### BPE 토큰화

- 어휘 집합과 병합 우선순위가 있으면 토큰화를 수행할 수 있음
    - 병합 우선순위 (먼저 사전에 들어온 애들)
        - u g
        - u n
 
- "pug bug mug" 라는 문장을 토큰화 한다면
    - 사전 토큰화 수행
        - pug, bug, mug
     
- 분리된 토큰을 가지고 각각 BPE 토큰화를 수행
    - pug를 문자 단위로 분리
        - p, u, g
     
    - 병합 우선 순위를 부여
        - p, u => 우선순위 없음
        - u, g => 1순위
    - u와 g를 합침
        - p, ug
     
    - 다시 우선순위 부여
        - p, ug => 우선순위 없음
     
    - 우선순위 없으므로 병합 종료
 
    - p 와 ug 가 각각 어휘 집합에 있는지 검사
 
        - 토큰화 최종 결과는 [p, ug]

- mug 토큰화
    - 문자 단위로 분리
        - m, u, g
    - 병합 우선순위부여하여 합침
        - m, ug

    - ug는 어휘 집합에 있지만 m은 어휘 집합에 없으므로 최종 토큰화는
        - \<UNK>, ug
            - unk 는 미등록 토큰을 의미

- pug bug mug 문장의 BPE 토큰화 결과
    - p, ug, b, ug, \<UNK>, ug

### 워드피스(wordpiece)

- 말뭉치에서 자주 등장한 문자열을 토큰으로 인식한다는 점에서 BPE 와 본질적으로 유사
    - 다만 어휘 집합을 구축할 때 문자열을 병합하는 기준이 다름
    - 병합했을때 말뭉치 우도(likelihood)를 가장 높이는 쌍을 병합
        - 병합기준 = (ab 빈도수) / (a의 빈도수 * b의 빈도수)
     
    - 즉, 워드피스에서는 병합 후보에 오른 싸을 미리 병합해보고 잃는 것과 얻는 가치 등을 판단한 후에 병합

# 어휘 집합 구축

In [5]:
from Korpora import Korpora # pip install Korpora
import os
from tokenizers import ByteLevelBPETokenizer, BertWordPieceTokenizer #  허깅페이스 같은거 할때 필요함
from transformers import GPT2Tokenizer, BertTokenizer

In [6]:
# NSMC 다운로드
nsmc = Korpora.load("nsmc", force_download = True)


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/



[nsmc] download ratings_train.txt: 14.6MB [00:00, 25.1MB/s]                                                            
[nsmc] download ratings_test.txt: 4.90MB [00:00, 22.8MB/s]                                                             


In [7]:
# 이 파일을 변수가 아닌 real 파일로 저장
def write_lines(path, lines):
    with open(path, "w", encoding = "utf-8") as f:
        for line in lines:
            f.write(f"{line}\n")

In [8]:
write_lines("./data/train.txt", nsmc.train.get_all_texts())
write_lines("./data/test.txt", nsmc.test.get_all_texts())

In [9]:
# BPE 어휘 집합 구축
bytebpe_tokenizer = ByteLevelBPETokenizer()

In [11]:
bytebpe_tokenizer.train(
    files = ["./data/train.txt", "./data/test.txt"], # 학습 말뭉치를 리스트형태로 입력
    vocab_size = 10000, # 어휘 집합 크기 조절 
    special_tokens = ["[PAD]"] # 특수 토큰 추가

)

### 10분 쉬기

In [12]:
bytebpe_tokenizer.save_model("./bpe")

['./bpe\\vocab.json', './bpe\\merges.txt']

In [13]:
# BERT 토크나이저 구축
wordpiece_tokenizer = BertWordPieceTokenizer(lowercase = False) # 소문자로 변환 안할것임


In [14]:
wordpiece_tokenizer.train(
    files = ["./data/train.txt", "./data/test.txt"],
    vocab_size = 10000
)

In [15]:
wordpiece_tokenizer.save_model("./wordpiece")

['./wordpiece\\vocab.txt']

![image.png](attachment:84f9661c-4e91-47e7-80ca-03c6f8e475ad.png)

![image.png](attachment:e89ad754-f1b1-4b4a-9195-dd15810468dd.png)

## 모델 입력 데이터 생성

In [16]:
# gpt 
tokenizer_gpt = GPT2Tokenizer.from_pretrained("bpe")
# GPT2는 문서 분류 할 수 있다

In [17]:
tokenizer_gpt.pad_token = "[PAD]"

In [23]:
sentences = [
    "우힝힝",
    "사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다",
    "막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움."
]

In [24]:
tokenized_sentences = [tokenizer_gpt.tokenize(sentence) for sentence in sentences]

In [25]:
tokenized_sentences

[['ìļ°', 'íŀ', 'Ŀ', 'íŀ', 'Ŀ'],
 ['ìĤ¬ìĿ´',
  'ëª¬',
  'íİĺ',
  'ê·¸ìĿĺ',
  'ĠìĿµ',
  'ìĤ´',
  'ìĬ¤ëŁ°',
  'ĠìĹ°ê¸°ê°Ģ',
  'Ġëıĭë³´',
  'ìĺĢëįĺ',
  'ĠìĺģíĻĶ',
  '!',
  'ìĬ¤íĮĮìĿ´',
  'ëįĶë§¨',
  'ìĹĲìĦľ',
  'ĠëĬĻ',
  'ìĸ´',
  'ë³´ìĿ´',
  'ê¸°ë§Į',
  'ĠíĸĪëįĺ',
  'Ġì»¤',
  'ìĬ¤íĭ´',
  'Ġëįĺ',
  'ìĬ¤íĬ¸',
  'ê°Ģ',
  'ĠëĦĪë¬´ëĤĺëıĦ',
  'ĠìĿ´ë»Ĳ',
  'ë³´',
  'ìĺĢëĭ¤'],
 ['ë§ī',
  'Ġê±¸',
  'ìĿĮ',
  'ë§Ī',
  'Ġë',
  'Ĺ',
  'Ģ',
  'Ġ3',
  'ìĦ¸',
  'ë¶ĢíĦ°',
  'Ġì´Īëĵ±íķĻêµĲ',
  'Ġ1',
  'íķĻëħĦ',
  'ìĥĿ',
  'ìĿ¸',
  'Ġ8',
  'ìĤ´',
  'ìļ©',
  'ìĺģíĻĶ',
  '.',
  'ãħĭãħĭãħĭ',
  '...',
  'ë³Ħ',
  'ë°ĺê°ľëıĦ',
  'ĠìķĦê¹ĮìĽĢ',
  '.']]

- GPT 모델은 바이트 기준 BPE 를 적용하기 때문에 알 수 없는 문자열로 구성되어있음

In [26]:
# 숫자로 변환~~~
batch_inputs = tokenizer_gpt(
    sentences,
    padding = "max_length", # 문장의 최대 길이에 맞춰 패딩
    max_length = 12, # 문장의 토큰 기준 최대 길이
    truncation = True # 문장 잘림 허용
)

In [27]:
batch_inputs

{'input_ids': [[403, 461, 252, 461, 252, 0, 0, 0, 0, 0, 0, 0], [4537, 5654, 2199, 7775, 5022, 1018, 3099, 1574, 2855, 3525, 302, 1], [657, 1225, 368, 395, 258, 246, 223, 946, 559, 958, 9479, 503]], 'attention_mask': [[1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

- 위 코드의 실행 결과로 2가지 입력값이 만들어짐
    - input_ids : 토큰화 결과를 가지고 각 토큰을 인덱스로 바꾼것
        - 각 어휘 순서 대로 나열된것
        - ![image.png](attachment:c426a5d8-c412-46ab-961b-e4ca62d34e85.png)
        
        - 각 토큰을 인덱스로 변환 하는 과정을 인덱싱(indexing) 이라고 함
        
        - max_length에 12를 입력했기 때문에 모든 문장의 길이가 12로 맞춰짐
        - 12보다 짧은 문장은 [PAD]에 해당하는 인덱스 0이 붙었음
        - truncation = True 옵션을 사용하면 원래 토큰 길이가 max_length 보다 길면 길이가 맞춰짐
    - attention_mask : 일반 토큰이 자리한 곳과 패딩 토큰이 자리한 곳을 구분

In [33]:
sentences2 = [
    ["우힝힝","우힝힝2"], 
    "사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다",
    "막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움."
]

In [34]:
# bert
tokenizer_bert = BertTokenizer.from_pretrained(
    "wordpiece",
    do_lower_case = False
)

In [35]:
tokenized_sentences = [tokenizer_bert.tokenize(sentence) for sentence in sentences]

In [36]:
tokenized_sentences


[['[UNK]'],
 ['사이',
  '##몬',
  '##페',
  '##그',
  '##의',
  '익',
  '##살',
  '##스런',
  '연기가',
  '돋보',
  '##였던',
  '영화',
  '!',
  '스파이더맨',
  '##에서',
  '늙',
  '##어',
  '##보이',
  '##기만',
  '했던',
  '커',
  '##스틴',
  '던',
  '##스트',
  '##가',
  '너무나도',
  '이뻐',
  '##보',
  '##였다'],
 ['막',
  '걸',
  '##음',
  '##마',
  '[UNK]',
  '3',
  '##세',
  '##부터',
  '초등학교',
  '1',
  '##학년',
  '##생',
  '##인',
  '8',
  '##살',
  '##용',
  '##영화',
  '.',
  'ㅋㅋㅋ',
  '.',
  '.',
  '.',
  '별반',
  '##개도',
  '아까움',
  '.']]

In [37]:
batch_inputs = tokenizer_bert(
    sentences,
    padding = "max_length",
    max_length = 12,
    truncation = True
)

In [38]:
batch_inputs

{'input_ids': [[2, 1, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0], [2, 3167, 1773, 1132, 1250, 1088, 712, 1392, 3326, 2342, 3153, 3], [2, 417, 126, 1224, 1264, 1, 21, 1286, 2098, 5129, 19, 3]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

![image.png](attachment:84478858-cd95-4b7a-a4f1-f6dd7af66936.png)

- 코드 실행 결과로 3개의 입력값이 만들어짐
    - input_ids : 토큰 인덱스 시퀀스
        - 각 문장 앞에 2, 끝에 3이 붙어있음
            - 각각 [CLS], [SEP] 토큰에 대응하는 인덱스
            - BERT는 문장 시작과 끝에 이 2개 토큰을 덧붙임
     
    - attention_mask : 일반 토큰이 자리한 곳과 패딩 토큰이 자리한 곳을 구분
 
    - token_type_ids : 세그먼트에 해당하는 것
        - BERT 모델은 기본적으로 문서 혹은 문장 2개를 입력받아서 , 둘은 token_type_ids 로 구분
        - 지금은 문장을 하나씩 넣었으므로 모두 0