# BPM (Byte Pair Encoding)

In [2]:
from collections import defaultdict

In [28]:
# BPE (Byte Pair Encoding)

data = {
    "low":5,
    "lowest":2,
    "newer":6,
    "wider":3
}


for k, v in data.items():
    tokens = list(k) # => 낱자로 쪼갠다.
    print(tokens + ["</w>"])# </w>는 단어의 끝임을 알려주는 임의의 태그.
    break # 우선 1개만 보자

['l', 'o', 'w', '</w>']


In [97]:
# BPE (Byte Pair Encoding)

data = {
    "low":5,
    "lowest":2,
    "newer":6,
    "wider":3
}

n = 2
pair = defaultdict(int)
for k, v in data.items():
    tokens = list(k) + ["</w>"]
    for i in range(len(tokens) - (n-1)): # 아래 설명 참조 / n-gram 개념
        pair[tuple(tokens[i:i+n])] += v

In [98]:
pair

defaultdict(int,
            {('l', 'o'): 7,
             ('o', 'w'): 7,
             ('w', '</w>'): 5,
             ('w', 'e'): 8,
             ('e', 's'): 2,
             ('s', 't'): 2,
             ('t', '</w>'): 2,
             ('n', 'e'): 6,
             ('e', 'w'): 6,
             ('e', 'r'): 9,
             ('r', '</w>'): 9,
             ('w', 'i'): 3,
             ('i', 'd'): 3,
             ('d', 'e'): 3})

In [101]:
# 가장 빈도가 높은 token 쌍이다.

max(pair, key=pair.get)

('e', 'r')

In [107]:
# 빈도가 높은 token 쌍을 합쳐준다.

"".join(max(pair, key=pair.get))

'er'

In [10]:
import re

In [108]:
# tokenizing이 편하도록 data를 수정함.
data = {
    "l o w </w>":5,
    "l o w e s t </w>":2,
    "n e w e r </w>":6,
    "w i d e r </w>":3
}

n = 2 # 모든 이웃 음절쌍 찾기(bigram) => 빈도 누적
pair = defaultdict(int)
for k, v in data.items():
    tokens = k.split()
    for i in range(len(tokens) - (n-1)):
        pair[tuple(tokens[i:i+n])] += v

# 찾은 쌍 중에 빈도가 가장 높은 한 쌍(패턴)
maxKey = max(pair, key=pair.get)

newData = dict() # 원본 데이터에서 패턴이 일치하면 합치기
for k, v in data.items():
    newK = re.sub(" ".join(maxKey), "".join(maxKey), k)
    newData[newK] = v

In [109]:
# 가장 빈도가 높은 er 사이의 공백이 없어졌다.

newData

{'l o w </w>': 5,
 'l o w e s t </w>': 2,
 'n e w er </w>': 6,
 'w i d er </w>': 3}

In [116]:
data = {
    "l o w </w>":5,
    "l o w e s t </w>":2,
    "n e w e r </w>":6,
    "w i d e r </w>":3
}

# 여러번 반복
for _ in range(4):
    n = 2 # 모든 이웃 음절쌍 찾기(bigram) => 빈도 누적
    pair = defaultdict(int)
    for k, v in data.items():
        tokens = k.split()
        for i in range(len(tokens) - (n-1)):
            pair[tuple(tokens[i:i+n])] += v

    # 찾은 쌍 중에 빈도가 가장 높은 한 쌍(패턴)
    maxKey = max(pair, key=pair.get)

    newData = dict() # 원본 데이터에서 패턴이 일치하면 합치기
    for k, v in data.items():
        newK = re.sub(" ".join(maxKey), "".join(maxKey), k)
        newData[newK] = v
    
    data = newData

In [117]:
data

{'low </w>': 5, 'low e s t </w>': 2, 'n e w er</w>': 6, 'w i d er</w>': 3}

In [118]:
# 가장 마지막에 붙은 쌍은 ('lo', 'w')이구나.

pair

defaultdict(int,
            {('lo', 'w'): 7,
             ('w', '</w>'): 5,
             ('w', 'e'): 2,
             ('e', 's'): 2,
             ('s', 't'): 2,
             ('t', '</w>'): 2,
             ('n', 'e'): 6,
             ('e', 'w'): 6,
             ('w', 'er</w>'): 6,
             ('w', 'i'): 3,
             ('i', 'd'): 3,
             ('d', 'er</w>'): 3})

## 제한 걸기

> 너무 많이 반복시키면 모든 단어가 다 붙어버리는 문제가 생긴다.
>
> 언어마다 적절한 반복횟수가 다르다.

In [45]:
data = {
    "l o w </w>":5,
    "l o w e s t </w>":2,
    "n e w e r </w>":6,
    "w i d e r </w>":3
}

# 제한 거는 기준점
threshold = max(data.values())

# 여러번 반복
for _ in range(15):
    n = 2 # 모든 이웃 음절쌍 찾기(bigram) => 빈도 누적
    pair = defaultdict(int)
    for k, v in data.items():
        tokens = k.split()
        for i in range(len(tokens) - (n-1)):
            pair[tuple(tokens[i:i+n])] += v

    # 찾은 쌍 중에 빈도가 가장 높은 한 쌍(패턴)
    maxKey = max(pair, key=pair.get)

    newData = dict() # 원본 데이터에서 패턴이 일치하면 합치기
    for k, v in data.items():
        if pair[maxKey] > threshold: # 빈도수가 기준점 이상일때만 token을 합친다.
            newK = re.sub(" ".join(maxKey), "".join(maxKey), k)
        else:
            newK = k
        newData[newK] = v
    
    data = newData

In [46]:
data

{'low </w>': 5, 'low e s t </w>': 2, 'n e w er</w>': 6, 'w i d er</w>': 3}

In [49]:
# 의미가 있는 토큰만 남기기.
# 컴프리헨션에서 이중 표현식 사용하기. (좌에서 우 순으로 실행된다.)
# line 6 => line 5 => line 8 => line 5 순으로 실행된다. (이해를 돕기 위해서 line을 나눔)

[token 
 for _ in data.keys()
 for token in _.split() 
 if len(_) > 2 and token != "</w>"]

['low', 'low', 'e', 's', 't', 'n', 'e', 'w', 'er</w>', 'w', 'i', 'd', 'er</w>']

## 함수형 프로그래밍 방식으로 BPE

In [51]:
str2split = lambda s: " ".join(list(s) + ["</w>"])
str2split("국민의")

'국 민 의 </w>'

In [54]:
def findPair(data, n=2):
    pair = defaultdict(int)
    for k, v in data.items():
        tokens = k.split()
        for i in range(len(tokens) - (n-1)):
            pair[tuple(tokens[i:i+n])] += v
    return pair

In [55]:
def mergePair(data, maxKey, maxValue, threshold):
    newData = dict()
    for k, v in data.items():
        if maxValue > threshold:
            newK = re.sub(" ".join(maxKey), 
                          "".join(maxKey), k)
        else:
            newK = k
        newData[newK] = v
    return newData

In [61]:
data = {
    str2split("low") : 5,
    str2split("lowest") : 2,
    str2split("newer") : 6,
    str2split("wider") : 3
}

threshold = max(data.values())

for _ in range(100):
    pair = findPair(data)
    maxKey = max(pair, key=pair.get)
    maxValue = pair[maxKey]
    data = mergePair(data, maxKey, maxValue, threshold)
    
# token 2개 이상 합쳐진 것들만 확인하기
for _ in data.keys():
    for token in _.split():
        if len(token) > 2 and token != "</w>":
            print(token)

low
low
er</w>
er</w>


# 한글로 해보자

In [63]:
# stemming

data = {
    str2split("국민의") : 5,
    str2split("국민을") : 2,
    str2split("국민에게") : 6,
    str2split("국민은") : 3
}

threshold = max(data.values())

for _ in range(100):
    pair = findPair(data)
    maxKey = max(pair, key=pair.get)
    maxValue = pair[maxKey]
    data = mergePair(data, maxKey, maxValue, threshold)
    
for _ in data.keys():
    for token in _.split():
        if len(token) > 1 and token != "</w>": # 한글은 음절이 중요하므로 1음절 단위로 바꿈
            print(token)

국민
국민
국민
국민


# 한글 corpus로 실습

In [66]:
from konlpy.corpus import kolaw

corpus = kolaw.open(kolaw.fileids()[0]).read()

In [80]:
from nltk.tokenize import word_tokenize

tokens = defaultdict(int)
for _ in word_tokenize(corpus):
    tokens[_] += 1

In [68]:
data = {str2split(k):v for k, v in tokens.items()}
threshold = max(data.values())

for _ in range(100):
    pair = findPair(data)
    maxKey = max(pair, key=pair.get)
    maxValue = pair[maxKey]
    data = mergePair(data, maxKey, maxValue, threshold)
    
for _ in data.keys():
    for token in _.split():
        if len(token) > 1 and token != "</w>": 
            print(token)

.</w>
.</w>
.</w>
.</w>
는</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
는</w>
.</w>
.</w>
.</w>
는</w>
의</w>
.</w>
.</w>
는</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
는</w>
.</w>
.</w>
.</w>
는</w>
는</w>
.</w>
.</w>
.</w>
.</w>
.</w>
는</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
는</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
의</w>
.</w>
.</w

.</w>
의</w>
는</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
는</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
의</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
는</w>
.</w>
.</w>
의</w>
는</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
는</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
는</w>
.</w>
의</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
.</w>
의</w>
.</w>
.</w>
.</w>


> 한글에서는 잘 안되네... 전부 <\/w>와 합쳐졌구나.
> 
> corpus의 양이 부족해서 그럴 수 있다.
>
> threshold를 낮추면 될 수도 있겠다.

In [81]:
data = {str2split(k):v for k, v in tokens.items()}
# threshold = max(data.values())
threshold = sum(data.values())/len(data) # 평균

for _ in range(100):
    pair = findPair(data)
    maxKey = max(pair, key=pair.get)
    maxValue = pair[maxKey]
    data = mergePair(data, maxKey, maxValue, threshold)
    
tokens_ = list()
for _ in data.keys():
    for token in _.split():
        if len(token) > 1 and token != "</w>" and \
        not token.endswith("</w>"):
            tokens_.append(token)

In [82]:
len(set(tokens_)), len(data), set(tokens_)

(31,
 1617,
 {'경제',
  '국가',
  '국무',
  '국무총',
  '국민',
  '국회',
  '노력',
  '대통',
  '대통령',
  '대한',
  '법관',
  '법률',
  '보장',
  '보호',
  '선거',
  '아니',
  '위원',
  '임기',
  '임명',
  '재적',
  '재판',
  '정당',
  '제1',
  '제2',
  '제3',
  '제4',
  '조직',
  '하여',
  '행정',
  '헌법',
  '헌법재판'})

> BPE 결과 token수는 1617개로 줄어들었고, 유의미하게 합쳐진 token은 31개이다.

---

# 정치 기사 crawling 한 corpus로 실습

In [91]:
import os

tokens = defaultdict(int)
basedir = "practice/8일차_실습_project/헤드라인/"

for file in [_ for _ in os.listdir(basedir)
            if _.startswith("정치-")]:
    with open(basedir+file, encoding="utf-8") as fp:
        corpus = fp.read()
        
    for _ in word_tokenize(corpus):
        tokens[_] += 1

In [93]:
data = {str2split(k):v for k, v in tokens.items()}
# threshold = max(data.values())
threshold = sum(data.values())/len(data) # 평균

for _ in range(100):
    pair = findPair(data)
    maxKey = max(pair, key=pair.get)
    maxValue = pair[maxKey]
    data = mergePair(data, maxKey, maxValue, threshold)
    
tokens_ = list()
for _ in data.keys():
    for token in _.split():
        if len(token) > 1 and token != "</w>" and \
        not token.endswith("</w>"): 
            tokens_.append(token)

In [94]:
len(set(tokens_)), len(data), set(tokens_)

(32,
 4138,
 {'.co',
  '.co.k',
  '.k',
  '17',
  '20',
  '201',
  '2017',
  '9.',
  'al',
  'as',
  'flas',
  're',
  'ti',
  'un',
  '다.',
  '대통',
  '대통령',
  '대표',
  '법무',
  '보훈',
  '삭발',
  '서울',
  '연합',
  '우회',
  '의원',
  '이라',
  '자유',
  '장관',
  '콘텐츠',
  '한국',
  '했다.',
  '혁신'})

> BPE 결과 token수는 4138개로 줄어들었고, 유의미하게 합쳐진 token은 32개이다.

---

# WPM (Word Piece Model)

In [None]:
# 수업을 아직 안 한듯하다.