### 0. 서브워드 분리(Subword segmentation)

* 하나의 단어는 더 작은 단위의 의미 있는 서브워드로 조합된 경우가 많기 때문에, 여러 서브워드로 분리해서 단어를 인코딩, 임베딩하겠다는 의도를 가진 전처리 작업이 가능
* 이를 통해 OOV나 희귀단어, 신조어와 같은 문제를 완화할 수 있음

------
* 주요 알고리즘으로 
    1. 바이트페어 인코딩
    2. SentencePiece : 실제 실무에서 자주 사용
    3. Huggingface의 Tokenizers : 실제 실무에서 자주 사용

### 1. 바이트 페어 인코딩(Byte Pair Encoding, BPE)

* 기본적 개념은 연속적으로 가장 많이 등장한 글자의 쌍을 찾아 하나의 글자로 병합하는 방식

In [None]:
# 예시  : 가장 많은 글자쌍 aa를 Z로 대체
test = "aaabdaaabac"
test_Z = test.replace('aa', 'Z')
test_Z  # Z=aa

In [None]:
# 예시  : 다음으로 많은 'ab'쌍을 'Y'로 치환
test_Y = test_Z.replace('ab', 'Y')
test_Y  # Y=ab

* 예시에서는 더이상 병합할 바이트 쌍이 없기 때문에 BPE 알고리즘은 종료하게 됨

### 2. 자연어처리에서 BPE(Byte Pair Encoding)
* 글자 단위(character)에서 점차적으로 단어 집합을 만들어 내는 Bottom up 방식으로 접근
------
* 먼저, 훈련데이터에 있는 단어들을 모든 글자 또는 유니코드 단위로 단어집합을 만들고, 가장 많이 등장하는 유니그램을 하나의 유니그램으로 통합함

* BPE의 특징은 알고리즘의 동작을 몇회 반복할 것인지 사용자가 정한다는 점임

* BPE를 사용할 경우, 기존에는 사전에 정의되지 않았던 단어들도 포함시킬 수 있다는 점이 강점임!

![%EA%B7%B8%EB%A6%BC.png](attachment:%EA%B7%B8%EB%A6%BC.png)

In [1]:
import re, collections
from IPython.display import display, Markdown, Latex

In [2]:
# BPE를 몇회 수행할 것인지 정함
num_merges = 10

# 사전 정의
dictionary = {'l o w </w>' : 5,
         'l o w e r </w>' : 2,
         'n e w e s t </w>':6,
         'w i d e s t </w>':3
         }

In [3]:
dictionary

{'l o w </w>': 5,
 'l o w e r </w>': 2,
 'n e w e s t </w>': 6,
 'w i d e s t </w>': 3}

In [4]:
def get_stats(dictionary):
    pairs = collections.defaultdict(int)
    for word, freq in dictionary.items():
        symbols = word.split()  # 각 단어들을 분리
        for i in range(len(symbols) - 1):
            pairs[symbols[i], symbols[i+1]] += freq
    print('현재 pair들의 빈도수 :', dict(pairs))
    return pairs

In [5]:
def merge_dictionary(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    # \s 공백기호, \S는 \s를 제외한 모든 문자 
    # ? 없거나 최대 한개만
    # (?<!) 부정 뒤쪽 일치(Negative Lookbehind)
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out

In [6]:
bpe_codes = {}
bpe_codes_reverse = {}

for i in range(num_merges):
    display(Markdown("### Iteration {}".format(i + 1)))
    pairs = get_stats(dictionary)
    best = max(pairs, key=pairs.get)
    dictionary = merge_dictionary(best, dictionary)

    bpe_codes[best] = i
    bpe_codes_reverse[best[0] + best[1]] = best

    print("new merge: {}".format(best))
    print("dictionary: {}".format(dictionary))

### Iteration 1

현재 pair들의 빈도수 : {('l', 'o'): 7, ('o', 'w'): 7, ('w', '</w>'): 5, ('w', 'e'): 8, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('e', 's'): 9, ('s', 't'): 9, ('t', '</w>'): 9, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'e'): 3}
new merge: ('e', 's')
dictionary: {'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w es t </w>': 6, 'w i d es t </w>': 3}


### Iteration 2

현재 pair들의 빈도수 : {('l', 'o'): 7, ('o', 'w'): 7, ('w', '</w>'): 5, ('w', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('w', 'es'): 6, ('es', 't'): 9, ('t', '</w>'): 9, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'es'): 3}
new merge: ('es', 't')
dictionary: {'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est </w>': 6, 'w i d est </w>': 3}


### Iteration 3

현재 pair들의 빈도수 : {('l', 'o'): 7, ('o', 'w'): 7, ('w', '</w>'): 5, ('w', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('w', 'est'): 6, ('est', '</w>'): 9, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est'): 3}
new merge: ('est', '</w>')
dictionary: {'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est</w>': 6, 'w i d est</w>': 3}


### Iteration 4

현재 pair들의 빈도수 : {('l', 'o'): 7, ('o', 'w'): 7, ('w', '</w>'): 5, ('w', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('w', 'est</w>'): 6, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3}
new merge: ('l', 'o')
dictionary: {'lo w </w>': 5, 'lo w e r </w>': 2, 'n e w est</w>': 6, 'w i d est</w>': 3}


### Iteration 5

현재 pair들의 빈도수 : {('lo', 'w'): 7, ('w', '</w>'): 5, ('w', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('w', 'est</w>'): 6, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3}
new merge: ('lo', 'w')
dictionary: {'low </w>': 5, 'low e r </w>': 2, 'n e w est</w>': 6, 'w i d est</w>': 3}


### Iteration 6

현재 pair들의 빈도수 : {('low', '</w>'): 5, ('low', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('w', 'est</w>'): 6, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3}
new merge: ('n', 'e')
dictionary: {'low </w>': 5, 'low e r </w>': 2, 'ne w est</w>': 6, 'w i d est</w>': 3}


### Iteration 7

현재 pair들의 빈도수 : {('low', '</w>'): 5, ('low', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('ne', 'w'): 6, ('w', 'est</w>'): 6, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3}
new merge: ('ne', 'w')
dictionary: {'low </w>': 5, 'low e r </w>': 2, 'new est</w>': 6, 'w i d est</w>': 3}


### Iteration 8

현재 pair들의 빈도수 : {('low', '</w>'): 5, ('low', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('new', 'est</w>'): 6, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3}
new merge: ('new', 'est</w>')
dictionary: {'low </w>': 5, 'low e r </w>': 2, 'newest</w>': 6, 'w i d est</w>': 3}


### Iteration 9

현재 pair들의 빈도수 : {('low', '</w>'): 5, ('low', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3}
new merge: ('low', '</w>')
dictionary: {'low</w>': 5, 'low e r </w>': 2, 'newest</w>': 6, 'w i d est</w>': 3}


### Iteration 10

현재 pair들의 빈도수 : {('low', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3}
new merge: ('w', 'i')
dictionary: {'low</w>': 5, 'low e r </w>': 2, 'newest</w>': 6, 'wi d est</w>': 3}


In [7]:
print(bpe_codes)  # merge 기록

{('e', 's'): 0, ('es', 't'): 1, ('est', '</w>'): 2, ('l', 'o'): 3, ('lo', 'w'): 4, ('n', 'e'): 5, ('ne', 'w'): 6, ('new', 'est</w>'): 7, ('low', '</w>'): 8, ('w', 'i'): 9}


이 기록은 새로운 단어가 등장하였을때, 현재 가지고 있는 서브워드 단어 집합에 의거하여 분리하는 일에 참고할 수 있음

### 4) OOV에 대처하기

In [14]:
def get_pairs(word):
    """
        Return set of symbol pairs in a word.
        Word is represented as a tuple of symbols (symbols being variable-length strings).
    """
    pairs = set()
    prev_char = word[0]
    for char in word[1:]:
        pairs.add((prev_char, char))  # 첫번째 글자와 다음에 오는 글자 하나씩 페어로 구성
        prev_char = char  # 두번째로 오는 글자를 첫번째 글자로 대체
    return pairs

def encode(orig):
    """
        Encode word based on list of BPE merge operations, which are applied consecutively
    """
    word = tuple(orig) + ('</w>',)
    display(Markdown("__word split into characters:__ <tt>{}</tt>".format(word)))
    
    pairs = get_pairs(word)
    
    if not pairs:
        return orig
    
    iteration = 0
    while True:
        iteration += 1
        display(Markdown("__Iteration {}:__".format(iteration)))
        
        print("biagrams in the word: {}".format(pairs))
        bigram = min(pairs, key=lambda pair: bpe_codes.get(pair, float('inf')))
        print("candidate for merging: {}".format(bigram))
        
        if bigram not in bpe_codes:
            display(Markdown("__Candidate not in BPE merges, algorithm stops.__"))
            break
        first, second = bigram
        new_word = []
        i = 0
        while i < len(word):
            try:
                j = word.index(first, i)
                new_word.extend(word[i:j])
                i = j
            except:
                new_word.extend(word[i:])
                break
                
            if (word[i] == first) and (i < len(word)-1) and (word[i+1] == second):
                new_word.append(first+second)
                i += 2
            else:
                new_word.append(word[i])
                i += 1
        new_word = tuple(new_word)
        word = new_word
        print("word after merging: {}".format(word))
        if len(word) == 1:
            break
        else:
            pairs = get_pairs(word)
            
    # 특별 토큰인 </w>는 출력하지 않음
    if word[-1] == '</w>':
        word = word[:-1]
    elif word[-1].endswith('</w>'):  # 그냥 붙어 있을 경우에는 삭제
        word = word[:-1] + (word[-1].replace('</w>', ''),)
    return word

In [15]:
# 단어 'loki'가 들어오면 BPE 알고리즘 해당단어를 분리할 경우
encode("loki")

__word split into characters:__ <tt>('l', 'o', 'k', 'i', '</w>')</tt>

__Iteration 1:__

biagrams in the word: {('l', 'o'), ('k', 'i'), ('o', 'k'), ('i', '</w>')}
candidate for merging: ('l', 'o')
word after merging: ('lo', 'k', 'i', '</w>')


__Iteration 2:__

biagrams in the word: {('k', 'i'), ('lo', 'k'), ('i', '</w>')}
candidate for merging: ('k', 'i')


__Candidate not in BPE merges, algorithm stops.__

('lo', 'k', 'i')

'lo'는 bpe_code에 존재하기 때문에 합쳐지고, 'ki'는 없기 때문에 그대로 분리됨

In [16]:
encode('lowest')

__word split into characters:__ <tt>('l', 'o', 'w', 'e', 's', 't', '</w>')</tt>

__Iteration 1:__

biagrams in the word: {('l', 'o'), ('w', 'e'), ('s', 't'), ('t', '</w>'), ('o', 'w'), ('e', 's')}
candidate for merging: ('e', 's')
word after merging: ('l', 'o', 'w', 'es', 't', '</w>')


__Iteration 2:__

biagrams in the word: {('l', 'o'), ('es', 't'), ('w', 'es'), ('t', '</w>'), ('o', 'w')}
candidate for merging: ('es', 't')
word after merging: ('l', 'o', 'w', 'est', '</w>')


__Iteration 3:__

biagrams in the word: {('l', 'o'), ('o', 'w'), ('w', 'est'), ('est', '</w>')}
candidate for merging: ('est', '</w>')
word after merging: ('l', 'o', 'w', 'est</w>')


__Iteration 4:__

biagrams in the word: {('l', 'o'), ('o', 'w'), ('w', 'est</w>')}
candidate for merging: ('l', 'o')
word after merging: ('lo', 'w', 'est</w>')


__Iteration 5:__

biagrams in the word: {('w', 'est</w>'), ('lo', 'w')}
candidate for merging: ('lo', 'w')
word after merging: ('low', 'est</w>')


__Iteration 6:__

biagrams in the word: {('low', 'est</w>')}
candidate for merging: ('low', 'est</w>')


__Candidate not in BPE merges, algorithm stops.__

('low', 'est')

In [17]:
encode('lowing')

__word split into characters:__ <tt>('l', 'o', 'w', 'i', 'n', 'g', '</w>')</tt>

__Iteration 1:__

biagrams in the word: {('l', 'o'), ('w', 'i'), ('n', 'g'), ('o', 'w'), ('i', 'n'), ('g', '</w>')}
candidate for merging: ('l', 'o')
word after merging: ('lo', 'w', 'i', 'n', 'g', '</w>')


__Iteration 2:__

biagrams in the word: {('w', 'i'), ('lo', 'w'), ('n', 'g'), ('i', 'n'), ('g', '</w>')}
candidate for merging: ('lo', 'w')
word after merging: ('low', 'i', 'n', 'g', '</w>')


__Iteration 3:__

biagrams in the word: {('n', 'g'), ('i', 'n'), ('low', 'i'), ('g', '</w>')}
candidate for merging: ('n', 'g')


__Candidate not in BPE merges, algorithm stops.__

('low', 'i', 'n', 'g')

In [18]:
encode('highing')

__word split into characters:__ <tt>('h', 'i', 'g', 'h', 'i', 'n', 'g', '</w>')</tt>

__Iteration 1:__

biagrams in the word: {('h', 'i'), ('n', 'g'), ('i', 'n'), ('i', 'g'), ('g', 'h'), ('g', '</w>')}
candidate for merging: ('h', 'i')


__Candidate not in BPE merges, algorithm stops.__

('h', 'i', 'g', 'h', 'i', 'n', 'g')

### 3. WordPiece Tokenizer

논문 : https://static.googleusercontent.com/media/research.google.com/ko//pubs/archive/37842.pdf

* BPE 변형 알고리즘
* BPE가 빈도수에 기반하여 가장 많이 등장한 쌍을 병합하는 것과는 달리, WordPiece Tokenizer는 병합되었을때 코퍼스의 우도(Likelihood)를 가장 높이는 쌍을 병합함
------

* 예시
    * 수행하기 이전의 문장: Jet makers feud over seat width with big orders at stake
    * WordPiece Tokenizer를 수행한 결과(wordpieces): _J et _makers _fe ud _over _seat _width _with _big _orders _at _stake
    
    * 여기에서 _(언더바)는 문장 복원을 위한 장치
    
    
### 4. Unigram Language Model Tokenizer
* 유니그램 언어 모델 토크나이저는 각각의 서브워드들에 대해 손실(loss)를 계산함
* 서브단어의 손실이란, 해당 서브워드가 단어집합에서 제거되었을 경우, 코퍼스의 우도가 감소하는 정도를 말함
* 이렇게 측정된 서브워드들을 손실의 정도로 정렬하여 최악의 영향을 주는 10-20% 토큰을 제거함
* 이를 원하는 단어 집합의 크기에 도달할때까지 반복