# 단어 분리(Subword Segmentation)
- 내부 단어 분리(Subword Segmentation)는 기계가 아직 배운 적이 없는 단어더라도 대처할 수 있도록 도와주는 기법
- 단어 분리를 통해 OOV 문제를 해결하는 방법<br>
(1) BPE(Byte Pair Encoding)<br>
(2) WPM(Word Piece Model)

<b>1. BPE(Byte Pair Encoding) Algorithm</b>
- 1994년에 제안된 데이터 압축 알고리즘
- 후에 자연어 처리의 단어 분리 알고리즘으로 응용

<b>aaabdaaabac</b><br>
Z=aa (치환)<br>
<b>ZabdZabac</b><br>
Y=ab (치환)<br>
<b>ZYdZYac</b><br>
X=ZY (치환)<br>
<b>XdXac (종료)</b>

<b>2. BPE(Byte Pair Encoding) Algorithm 적용</b>

<b>1.다음과 같은 딕셔너리가 있다.<br></b>
#dictionary<br>
l o w : 5,  l o w e r : 2,  n e w e s t : 6,  w i d e s t : 3<br>

<b>2.딕셔너리를 참고로 한 초기 단어 집합(vocabulary)<br></b>
#vocabulary : 초기 구성은 글자 단위로 분리된 상태<br>
l, o, w, e, r, n, w, s, t, i, d<br>

<b>3.1회 - 딕셔너리를 참고로 하였을 때 빈도수가 9로 가장 높은 (e, s)의 쌍을 es로 통합<br></b>
#dictionary update!<br>
l o w : 5,<br>
l o w e r : 2,<br>
n e w es t : 6,<br>
w i d es t : 3<br>

#vocabulary update!<br>
l, o, w, e, r, n, w, s, t, i, d, es<br>
-> es가 vocabulary 마지막에 추가<br>

<b>4.2회 - 빈도수가 9로 가장 높은 (es, t)의 쌍을 est로 통합<br></b>
#dictionary update!<br>
l o w : 5,<br>
l o w e r : 2,<br>
n e w est : 6,<br>
w i d est : 3<br>

#vocabulary update!<br>
l, o, w, e, r, n, w, s, t, i, d, es, est<br>

<b>5.3회 - 빈도수가 7로 가장 높은 (l, o)의 쌍을 lo로 통합</b>
#dictionary update!<br>
lo w : 5,<br>
lo w e r : 2,<br>
n e w est : 6,<br>
w i d est : 3<br>

#vocabulary update!<br>
l, o, w, e, r, n, w, s, t, i, d, es, est, lo<br>

<b>6.여러번 반복하였을 때 얻은 딕셔너리와 단어 집합</b><br>
#dictionary update!<br>
low : 5,<br>
low e r : 2,<br>
newest : 6,<br>
widest : 3<br>

#vocabulary update!<br>
l, o, w, e, r, n, w, s, t, i, d, es, est, lo, low, ne, new, newest, wi, wid, widest<br>

<b>우선 'lowest'를 전부 글자 단위로 분할합니다.<br>
    즉, 'l, o, w, e, s, t'가 됩니다. <br>
    그리고 기계는 위의 단어 집합을 참고로 하여 'low'와 'est'를 찾아냅니다. <br>
    즉, 'lowest'를 기계는 'low'와 'est' 두 단어로 인코딩</b>

In [4]:
import re, collections

def get_stats(vocab):
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols) - 1):
            pairs[symbols[i], symbols[i+1]] += freq
    return pairs

def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\s)' + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out

vocab = {'l o w </w>' : 5,
        'l o w e r </w>' : 2,
        'n e w e s t </w>' : 6,
        'w i d e s t </w>' : 3
        }

num_merges = 10

for i in range(num_merges):
    pairs = get_stats(vocab)
    best = max(pairs, key = pairs.get)
    vocab = merge_vocab(best, vocab)
    print(best)

('e', 's')
('e', 's')
('e', 's')
('e', 's')
('e', 's')
('e', 's')
('e', 's')
('e', 's')
('e', 's')
('e', 's')


<b>2. WPM(Word Piece Model Algorithm</b>
- 1994년에 제안된 데이터 압축 알고리즘
- 후에 자연어 처리의 단어 분리 알고리즘으로 응용