<a href="https://colab.research.google.com/github/jinseriouspark/embedding_for_all/blob/main/%5Bw1%5D_tokenizers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenizers
1. SentencePiece
2. BPE from scratch (Sentencepiece paper : [link](https://https://aclanthology.org/P16-1162/))
3. Morphem BPE

## 1. SentencePiece


- 참고자료 : https://devocean.sk.com/blog/techBoardDetail.do?ID=164570&boardType=techBlog
-https://process-mining.tistory.com/191

In [None]:
!pip install sentencepiece
!pip install datasets
!pip install transformers

Collecting datasets
  Downloading datasets-2.18.0-py3-none-any.whl (510 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m510.5/510.5 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m13.9 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloading xxhash-3.4.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m20.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting multiprocess (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl (134 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m12.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: xxhash, dill, multiprocess, datasets
Successfully installed datase

### Training & inference & save & upload

- corpus를 subword단위로 쪼갠 다음, 빈도수를 계산해 높은 빈도로 함께 등장한 subword를 병합해 학습할 거에요.
- 적절한 subword 를 파악하기 위해서는 사전에 정리된 corpus도 필요해요.
- 이미 만들어져있는 nsmc를 사용하려고 합니다. (허깅페이스 데이터셋에서도 다운받을 수 있어요)
  - 링크1 : https://github.com/e9t/nsmc
  - 링크2 : https://huggingface.co/datasets/nsmc

In [None]:
from tqdm import tqdm
from datasets import load_dataset
import os

data_dir = './data'
dataset = load_dataset('nsmc')
os.makedirs(data_dir, exist_ok = True)
for split_key in dataset.keys():
  doc_path = f'{data_dir}/{split_key}.txt'
  with open(doc_path, 'w') as f:
    for doc in dataset[split_key]['document']:
      f.write(doc + '\n')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading data:   0%|          | 0.00/11.1M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/3.71M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/150000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/50000 [00:00<?, ? examples/s]

In [None]:
def load_data(file_path):
  with open(file_path, 'r', encoding = 'utf-8') as f:
    data = f.readlines()
  return [d.strip() for d in data]

korean_train = load_data('/content/data/train.txt')
korean_train[:10]

korean_test = load_data('/content/data/test.txt')
korean_test[:10]

['굳 ㅋ',
 'GDNTOPCLASSINTHECLUB',
 '뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아',
 '지루하지는 않은데 완전 막장임... 돈주고 보기에는....',
 '3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??',
 '음악이 주가 된, 최고의 음악영화',
 '진정한 쓰레기',
 '마치 미국애니에서 튀어나온듯한 창의력없는 로봇디자인부터가,고개를 젖게한다',
 '갈수록 개판되가는 중국영화 유치하고 내용없음 폼잡다 끝남 말도안되는 무기에 유치한cg남무 아 그립다 동사서독같은 영화가 이건 3류아류작이다',
 '이별의 아픔뒤에 찾아오는 새로운 인연의 기쁨 But, 모든 사람이 그렇지는 않네..']

In [None]:
# BBPE를 Sentencepiece 라이브러리를 활용해 학습해보기
import sentencepiece as spm
from pathlib import Path

data_dir = './data'
path = [str(x) for x in Path(data_dir).glob('*.txt')]

In [None]:
corpus = ','.join(path)

In [None]:
prefix = 'sp-nsmc-test'
vocab_size = 31900 - 7
# vocab_size 는 10_000 ~ 52_000 사이이며 모델에 따라 다르다고 합니다.
# subwords token 31_900개
# special token 7개 제외
# additional_special_tokens (T5용 <extra_id_XX> 토큰) 100개
# -> 총 32_000개

In [None]:
spm.SentencePieceTrainer.train(
     f' --input={corpus} --model_prefix={prefix}' +
     f' --vocab_size={vocab_size + 7}' + #  최종 데이터셋 갯수
      ' --model_type=bpe' + # 어떤 토크나이저를 사요할 것인지 설정 : unigram, bpe, char, word
      ' --max_sentence_length=999_999' +
      ' --pad_id=0 --pad_piece=<pad>' +
      ' --unk_id=1 --unk_piece=<unk>' +
      ' --bos_id=2 --bos_piece=<s>' +
      ' --eos_id=3 --eos_piece=</s>' +
      ' --user_defined_symbols=<sep>,<cls>,<mask>' +
      ' --byte_fallback=True'
)


KeyboardInterrupt: 

In [None]:
# 학습 완료 시 .model 과 .vocab 파일을 얻을 수 있음

In [None]:
# 사용방법1 :
model_name = 'sp-nsmc-test'
sp = spm.SentencePieceProcessor(model_file=f'{model_name}.model')
text ='같은 배우여도 독립영화냐 상업영화냐에 따라 생김새가 조금씩 다르게 보여'
print(sp.encode_as_pieces(text))
print(sp.encode_as_ids(text))

In [None]:
# 사용방법2 : T5Tokenizer 로 매핑한 허깅페이스에 업로드 및 다운로드로 활용

# 1. t5로 매핑
from transformers import T5Tokenizer
model_name = 'sp-nsmc-test'
tokenizer = T5Tokenizer(vocab_file = f'{model_name}.model')
tokenizer.save_pretrained(model_name)

In [None]:
from huggingface_hub import notebook_login
notebook_login()

In [None]:
# 2. 허깅페이스에 업로드
hf_spacename = 'seriouspark' # 허깅페이스 아이디 입력해주세요
hf_model_name = f'{hf_spacename}/{model_name}'
tokenizer.push_to_hub(hf_model_name)

# 3. 토크나이저 다운로드
from transformers import AutoTokenizer
hf_tokenizer = AutoTokenizer.from_pretrained(hf_model_name)

In [None]:
# 위와 같이 매핑한 다음 쉽게 결과물을 확인할 수 있어요
text ='같은 배우여도 독립영화냐 상업영화냐에 따라 생김새가 조금씩 다르게 보여'
display(tokenizer.tokenize(text))
display(tokenizer(text)['input_ids'])

In [None]:
# 위와 같이 매핑한 다음 쉽게 결과물을 확인할 수 있어요
text ='같은 배우여도 독립영화냐 상업영화냐에 따라 생김새가 조금씩 다르게 보여'
display(hf_tokenizer.tokenize(text))
display(hf_tokenizer(text)['input_ids'])

##2. BPE from Scratch
- 하지만 구현은 byte 가 아니라 char 기준입니다

1. 빈도 계산
2. 모든 단어를 글자 단위로 분리
3. 병합

In [None]:
import re
from collections import defaultdict



### 1. 빈도 계산
: 문장 내 아래 단어 발생 빈도를 집계

  문장 : 나는 **계란밥**을 먹는다. **계란밥**! 얼마나 맛있던가. 나는 **계란밥**이 세상에서 제일좋다. 물론 **간장밥** 러버도 있겠지. 예를 들어 내 동생은 **간장밥** 하나만 있으면 1주일을 버틸 수 있다. 어떻게 하면 **간장밥** 그 단일 메뉴가 아침을 해결할 수 있을까. 말이 안된다. 중학생 때 먹은 **간장밥**, 그게 내 마지막 **간장밥**이다.

  나는 내동생과 서로를 이해하지 못했다. 어느날 부모님이 계란과 간장을 섞어 **간장계란밥**을 만들었다. 노란색의 밥에 검정 소스가 있는, 이상한 그 메뉴의 이름을 묻자 부모님은 웃으며 내게 말했다. '**간장계란밥**'

  **볶음밥**이야? 라고 물어봤지만 부모님은 고개를 저었다. 아니 **볶음밥**이라니? 이건 기름에 볶지 않았어. **볶음밥**의 기본은 볶음인걸? 이건 간장과 계란이 합쳐진 비빔밥이야.


    < dictionary>
    : 훈련데이터에 있는 단어와 등장 빈도수
    - '계란밥': 3
    - '간장밥' : 5
    - '간장계란밥' : 2
    - '볶음밥' : 3

      <vocabulary>
    - 계란밥
    - 간장밥
    - 간장계란밥
    - 볶음밥


###2. 분리:  모든 단어를 글자 단위로 나눔(char)


    < dictionary>
    -  계 란 밥 : 3
        - 간 장 밥 : 5
        - 간 장 계 란 밥 : 2
        - 볶 음 밥 : 3
      
      < vocab>
    - 계, 란, 밥, 간, 장, 볶, 음


### 3. 병합
: 몇 번 merge 해서 하나의 유니그램으로 통합할 것인가?
num_merges = 10 -> 총 10회 반복한다


  1회 : 빈도수가 5 + 2= 7 인 (간, 장) 의 쌍을 간장 으로 통합

    - 계 란 밥 : 3
    - 간장 밥: 5
    - 간장 계 란 밥 : 2
    - 볶 음 밥 : 3

  2회 : 빈도수가 2 + 3 = 5로 가장 높은 (계, 란) 을 계란 으로 통합, (간장, 밥) 을 간장밥 으로 통합

    - 계란 밥: 3
    - 간장밥: 5
    - 간장 계란 밥 : 2
    - 볶 음 밥 : 3

  3회 : 빈도수가 3 + 2 = 5로 가장 높은 (계란, 밥) 을 계란밥으로 통합

    - 계란밥 : 3
    - 간장밥 : 5
    - 간장 계란밥 : 2
    - 볶 음 밥 : 3

  ... 반복




: 3번 반복하였을 때 결과
    
    < dictionary>
    - 계란밥 : 3
    - 간장밥 : 5
    - 간장 계란밥 : 2
    - 볶 음 밥 : 3

    < vocab>
    - 계, 란, 밥, 간, 장, 볶, 음, 계란밥, 간장밥, 간장


만약, 계란간장볶음밥이 등장한다면?
  - 계란 간장 볶 음 밥 으로 분리 되며, 이 모든 것은 단어 집합에 있는 단어이기 때문에 OOV가 아니게 됩니다!




In [None]:
import re, collections

# Character pair encoding
def get_word_freq(corpus):
  word_freq = collections.defaultdict(int)
  for sentence in corpus:
    for word in sentence.split():
      word_space = ' '.join([w for w in word if len(word)>1])
      word_freq[word_space] += 1
  return word_freq

def get_stats(vocab):
  pairs = collections.defaultdict(int)
  for word, freq in vocab.items():
    symbols = word.split()
    for i in range(len(symbols)-1):
      pairs[symbols[i], symbols[i+1]] += freq
  return pairs

def merge_vocab(pair, v_in):
  v_out = {}
  bigram = re.escape(' '.join(pair))
  p = re.compile(f'(?<!\S)' + bigram + r'(?!\S)')
  for word in v_in:
    w_out = p.sub(''.join(pair), word)
    v_out[w_out] = v_in[word]
  return v_out

In [None]:
# 위의 예시에 따른 결과값을 확인하기 위해 띄어쓰기를 부자연스럽게 적용하였습니다.
corpus = [
    '나는 계란밥 을 먹는다',
    '계란밥 ! 얼마나 맛있던가.',
    '나는 계란밥 이 세상에서 제일좋다.',
    '물론 간장밥 러버도 있겠지.',
    '예를 들어 내 동생은 간장밥 하나만 있으면 1주일을 버틸 수 있다.',
    '어떻게 하면 간장밥 그 단일 메뉴가 아침을 해결할 수 있을까.',
    '말이 안된다. 중학생 때 먹은 간장밥 , 그게 내 마지막 간장밥 이다.',
    '나는 내동생과 서로를 이해하지 못했다.',
    '어느날 부모님이 계란과 간장을 섞어 간장계란밥 을 만들었다.',
    '노란색의 밥에 검정 소스가 있는, 이상한 그 메뉴의 이름을 묻자 부모님은 웃으며 내게 말했다.',
    '간장계란밥',
    '볶음밥 이야? 라고 물어봤지만 부모님은 고개를 저었다.',
    '아니 볶음밥 이라니? 이건 기름에 볶지 않았어.',
    '볶음밥 의 기본은 볶음인걸? 이건 간장과 계란이 합쳐진 비빔밥이야.'
      ]




In [None]:
bpe_vocab_history = {}
vocab = get_word_freq(corpus)
num_merges = 10
for i in range(num_merges):
  pairs = get_stats(vocab)
  best = max(pairs, key=pairs.get)
  vocab = merge_vocab(best, vocab)
  bpe_vocab_history[best] = i

In [None]:
# merge history
bpe_vocab_history

In [None]:
class BPE_tokenizer:
  def __init__(self, num_merges):
    self.num_merges = num_merges
    self.vocab = None
    self.byte_pairs = None
    self.token_vocab = None
    self.bpe_vocab_history = {}

  # BPE알고리즘 학습
  def train(self, corpus):
    self.vocab = get_word_freq(corpus)
    for i in range(self.num_merges):
      self.byte_pairs = get_stats(self.vocab)
      best = max(self.byte_pairs, key=self.byte_pairs.get)
      self.vocab = merge_vocab(best, self.vocab)
      self.bpe_vocab_history[best] = i

    self.token_vocab = set() # 완료 시 만든 vocab 을 추가해줌
    for word in self.vocab.keys():
      self.token_vocab.update(word.split())

  def tokenize(self, text):
    tokens = text.split()
    tokenized_text = []
    for token in tokens:
      if token in self.token_vocab:
        tokenized_text.append(token)
      else:
        tokenized_text.extend(self.byte_tokenize(token))
    return tokenized_text

  # 텍스트 토큰화
  def byte_tokenize(self, token):
    tokens = []
    while len(token) > 0:
      found = False
      for i in range(len(token), 0, -1):
        subword = token[:i]
        #print(subword)
        if subword in self.token_vocab:
          tokens.append(subword)
          token = token[i:]
          found = True
          break
      if not found :
        tokens.append(token[0])
        token = token[1:]
    return tokens

In [None]:
# num_merges 는 목표 vocab_size 와 token 품질에 따라 adaptive 하게 적용할 수 있습니다.
# SentencePiece 의 경우 vocab_size = 8000
bpe_tokenizer = BPE_tokenizer(num_merges = 50)
bpe_tokenizer.train(corpus)
print('Token Vocabulary:', bpe_tokenizer.token_vocab)

In [None]:
text ='동생은 볶음밥 2개랑 탕수육을 먹는다'
print('origin text', text)
print('tokenized text', bpe_tokenizer.tokenize(text))

In [None]:
# 위의 네이버 영화 리뷰 코퍼스를 활용해 토크나이저 생성
# num_merges 50진행 시, 음절 수준의 토큰이 많이 등장하여, 병합횟수를 늘려 한번 더 수행해보았어요. 더 많이 병합을 해야 할 것 같아요
bpe_tokenizer_nsmc = BPE_tokenizer(num_merges = 2000)
bpe_tokenizer_nsmc.train(korean_train)
print('vocab counts:',len(bpe_tokenizer_nsmc.token_vocab))
print('vocab:', bpe_tokenizer_nsmc.token_vocab)

In [None]:
# sentencepice 결과물:
# ['▁같은', '▁배우', '여도', '▁독립영화', '냐', '▁상업', '영화냐', '에', '▁따라', '▁생김', '새가', '▁조금씩', '▁다르게', '▁보여']

text ='같은 배우여도 독립영화냐 상업영화냐에 따라 생김새가 조금씩 다르게 보여'
print('origin text', text)
print('tokenized text', bpe_tokenizer_nsmc.tokenize(text))

In [None]:
import re
import collections

def get_byte_freq(corpus):
    byte_freq = collections.defaultdict(int)
    for sentence in corpus:
        for byte in sentence.encode('utf-8'):  # 문자열을 바이트로 인코딩하여 처리
            byte_freq[byte] += 1
    return byte_freq

def get_stats(byte_vocab):
    pairs = collections.defaultdict(int)
    for byte, freq in byte_vocab.items():
        symbols = [int(byte)]
        for i in range(len(symbols)-1):
            pairs[(symbols[i], symbols[i+1])] += freq
    return pairs

def merge_vocab(pair, v_in):
    v_out = {}
    bigram = pair
    p = re.compile(re.escape(' '.join([chr(b) for b in bigram])))
    for byte in v_in:
        w_out = p.sub(''.join([chr(b) for b in bigram]), byte)
        v_out[w_out] = v_in[byte]
    return v_out

def byte_pair_encoding(corpus, num_merges):
    byte_freq = get_byte_freq(corpus)
    for i in range(num_merges):
        byte_stats = get_stats(byte_freq)
        if not byte_stats:
            break
        best_pair = max(byte_stats, key=byte_stats.get)
        byte_freq = merge_vocab(best_pair, byte_freq)
    return byte_freq

# Example usage

num_merges = 10
corpus
byte_freq = byte_pair_encoding(corpus, num_merges)
print(byte_freq)


#3.  형태소 기반 BPE from scatch
- 논문 내 <MorWP-MD> 개념을 차용해 간단하게 구현해보고자 합니다.
- 참고자료 : https://github.com/taeheejeon22/MorphSubDecomp-Korean/blob/main/Tutorial.md


## 프로세스

1. 데이터 수집 - nsmc
2. 전처리
3. Wordpiece Model Training - vocab_size 64k 적용
4. BERT 학습




In [None]:
# # 데이터 수집 : SentencePiece 를 위한 코드와 동일합니다.
# from datasets import load_dataset
# import os

# data_dir = './data'
# dataset = load_dataset('nsmc')
# os.makedirs(data_dir, exist_ok = True)
# for split_key in dataset.keys():
#   doc_path = f'{data_dir}/{split_key}.txt'
#   with open(doc_path, 'w') as f:
#     for doc in dataset[split_key]['document']:
#       f.write(doc + '\n')

In [None]:
# 전처리
def preprocess(sent_lst):
    # https://github.com/ratsgo/embedding/blob/master/preprocess/dump.py 참조
    p_email =  re.compile("(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)", re.UNICODE)
    p_url = re.compile("(ftp|http|https)?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", re.UNICODE)
    p_wiki_char = re.compile("(\\*$|:$|^파일:.+|^;)", re.UNICODE)
    p_wiki_space =  re.compile("(\\s|゙|゚|　)+", re.UNICODE)
    p_tag = re.compile("^<.+>?", re.UNICODE)

    sent_lst = [re.sub(p_email, " ", sentence) for sentence in sent_lst]
    sent_lst = [re.sub(p_url, " ", sentence) for sentence in sent_lst]
    sent_lst = [re.sub(p_wiki_char, " ", sentence) for sentence in sent_lst]
    sent_lst = [re.sub(p_wiki_space, " ", sentence) for sentence in sent_lst]
    sent_lst = [re.sub(p_tag, " ", sentence) for sentence in sent_lst]

    # our
    p_paren_str = re.compile("\(.+?\)") # 괄호 문자열("(xxx)") 삭제용
    sent_lst = [re.sub(p_paren_str, "", sent) for sent in sent_lst] # 사람(인간)은 짐승(동물)이다 > 사람은 짐승이다

    # kortok
    # p_kakao = re.compile(r"[^가-힣\x20-\x7F]*") # 타 언어 문자, 특수 기호 제거
    p_kakao = re.compile(r"[^ㄱ-ㅎㅏ-ㅣ가-힣\x20-\x7F]*")  # 타 언어 문자, 특수 기호 제거    # 자모 낱글자 살리기
    sent_lst = [re.sub(p_kakao, "", sent) for sent in sent_lst]

    # our
    p_multiple_spaces = re.compile("\s+")   # 무의미한 공백
    sent_lst = [re.sub(p_multiple_spaces, " ", sent) for sent in sent_lst]  # 무의미한 공백을 스페이스(" ")로 치환

    # our
    sent_lst = [sent for sent in sent_lst if not re.search(r"^\s+$", sent)]    # 빈 문장 제거
    sent_lst = [sent.strip() for sent in sent_lst if sent != ""]    # 빈 문장 제거

    # our
    sent_lst = [sent for sent in sent_lst if not (sent.endswith(".") and len(sent.split(" ")) <= 3) ]   # 퇴임 이후.    어린 시절.  생애 후반.  등등의 짧은 라인 없애기

    return sent_lst


In [None]:
def preprocessing_all(data, file_path):
  all_texts = ""
  for ix in tqdm(range(len(data))):
    split_text = data[ix]
    preprocessed_text = preprocess(split_text)
    concat_text = '\n'.join(preprocessed_text)

    if concat_text != "":
      all_texts += (concat_text + '\n\n')

  os.makedirs('morph_token/data', exist_ok = True)
  with open(f'morph_token/data/{file_path}.txt', 'w') as f:
    f.write(all_texts)

In [None]:
preprocessing_all(korean_train, 'preprocessed_train')
#preprocessing_all(korean_test, 'preprocessed_test')

In [None]:
python scripts/mecab_tokenization.py --token_type=morpheme --corpus_path=./corpus/preprocessed/namuwiki_20200302_preprocessed.txt --tokenizer_type=mecab_fixed --decomposition_type=decomposed_lexical --nfd --threads 32


python scripts/mecab_tokenization.py --token_type=morpheme --corpus_path=./corpus/preprocessed/namuwiki_20200302_preprocessed.txt --tokenizer_type=mecab_fixed --decomposition_type=decomposed_lexical --nfd --threads 32


In [None]:
!pip install konlpy

Collecting eunjeon
  Downloading eunjeon-0.4.0.tar.gz (34.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m34.7/34.7 MB[0m [31m27.0 MB/s[0m eta [36m0:00:00[0m
[?25h  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mpython setup.py egg_info[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m See above for output.
  
  [1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.
  Preparing metadata (setup.py) ... [?25l[?25herror
[1;31merror[0m: [1mmetadata-generation-failed[0m

[31m×[0m Encountered error while generating package metadata.
[31m╰─>[0m See above for output.

[1;35mnote[0m: This is an issue with the package mentioned above, not pip.
[1;36mhint[0m: See above for details.


In [None]:
from konlpy.tag import Kkma
from collections import defaultdict

In [None]:
# def get_byte_pairs(self, word_freq):
#     byte_pairs = defaultdict(int)
#     for word, freq in word_freq.items():
#         symbols = word.split()
#         for i in range(len(symbols) - 1):
#             byte_pairs[symbols[i], symbols[i + 1]] += freq
#     return byte_pairs

# def merge_byte_pairs(self, byte_pairs, word_freq):
#     new_word_freq = defaultdict(int)
#     for word in word_freq:
#         new_word = word.replace(' '.join(pair), ''.join(pair))
#         new_word_freq[new_word] = word_freq[word]
#     return new_word_freq

In [None]:
# 초성 리스트. 00 ~ 18
CHOSUNG_LIST = ['ㄱ', 'ㄲ', 'ㄴ', 'ㄷ', 'ㄸ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅃ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']
# 중성 리스트. 00 ~ 20
JUNGSUNG_LIST = ['ㅏ', 'ㅐ', 'ㅑ', 'ㅒ', 'ㅓ', 'ㅔ', 'ㅕ', 'ㅖ', 'ㅗ', 'ㅘ', 'ㅙ', 'ㅚ', 'ㅛ', 'ㅜ', 'ㅝ', 'ㅞ', 'ㅟ', 'ㅠ', 'ㅡ', 'ㅢ', 'ㅣ']
# 종성 리스트. 00 ~ 27 + 1(1개 없음)
JONGSUNG_LIST = [' ', 'ㄱ', 'ㄲ', 'ㄳ', 'ㄴ', 'ㄵ', 'ㄶ', 'ㄷ', 'ㄹ', 'ㄺ', 'ㄻ', 'ㄼ', 'ㄽ', 'ㄾ', 'ㄿ', 'ㅀ', 'ㅁ', 'ㅂ', 'ㅄ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']


In [None]:
def korean_jamo_spliter(text):
  def is_hangeul(char):
    korean_p = re.compile('[ㄱ-ㅎ가-힣]+')
    return len(re.findall(korean_p, char)) > 0

  r_list = []
  for char in text:
    if is_hangeul(char) :
      cho = (ord(char) - ord('가')) // 588
      jung = ((ord(char) - ord('가')) - (588 * cho)) // 28
      jong = (ord(char) - ord('가')) - (588 * cho) - 28 * jung

      r_list.append([CHOSUNG_LIST[cho], JUNGSUNG_LIST[jung], JONGSUNG_LIST[jong]])
    else:
      r_list.append([char])
  return r_list

In [None]:
text = '나 라면 해물라면을 먹겠어'
text_list = []
kkma= Kkma()
parsed_text = kkma.pos(text)
for i in parsed_text:
  if i[1] in (['VV','NNG','EP']):

    result_ = korean_jamo_spliter(i[0])
    text_list.append(result_)
  else:
    text_list.append(i[1])

In [None]:
text_list

[[['ㄴ', 'ㅏ', ' ']],
 'ECS',
 'VCP',
 'ECD',
 [['ㅎ', 'ㅐ', ' '], ['ㅁ', 'ㅜ', 'ㄹ']],
 [['ㄹ', 'ㅏ', ' '], ['ㅁ', 'ㅕ', 'ㄴ']],
 'JKO',
 [['ㅁ', 'ㅓ', 'ㄱ']],
 'EPT',
 'EFN']

In [None]:
sum(text_list, [])

TypeError: can only concatenate list (not "str") to list

In [None]:
class KoreanBPETokenizer:
    def __init__(self, num_merges=10):
        self.num_merges = num_merges
        self.tokenizer = Okt() # 토크나이저를 포함해서 불러오는 부분
        self.word_freq = None
        self.byte_pairs = None
        self.token_vocab = None

    def train(self, corpus):
        self.word_freq = defaultdict(int)
        for sentence in corpus: # 문장을 형태소 변경하여 단어로 만들고 빈도 집계
            tokens = self.tokenizer.morphs(sentence)
            for token in tokens:
                self.word_freq[token] += 1

        for i in range(self.num_merges):
            self.byte_pairs = self.get_byte_pairs(self.word_freq)
            self.word_freq = self.merge_byte_pairs(self.byte_pairs, self.word_freq)

        self.token_vocab = set(self.word_freq.keys())

    def tokenize(self, text):
        tokens = self.tokenizer.morphs(text)
        tokenized_text = []
        for token in tokens:
            if token in self.token_vocab:
                tokenized_text.append(token)
            else:
                tokenized_text.extend(self.byte_tokenize(token))
        return tokenized_text

    def byte_tokenize(self, token):
        tokens = []
        while len(token) > 0:
            found = False
            for i in range(len(token), 0, -1):
                subword = token[:i]
                if subword in self.token_vocab:
                    tokens.append(subword)
                    token = token[i:]
                    found = True
                    break
            if not found:
                tokens.append(token[0])
                token = token[1:]
        return tokens

In [None]:

# 토크나이저 학습
corpus = korean_train[:10]
tokenizer = KoreanBPETokenizer(num_merges=10)
tokenizer.train(corpus)



In [None]:
# 문장 토크나이징
sentence ='같은 배우여도 독립영화냐 상업영화냐에 따라 생김새가 조금씩 다르게 보여'
tokens = tokenizer.tokenize(sentence)
print(tokens)