# Warming Up - KoNLPy Tokeninzer 비교

---

자연어의 "토큰" 분리를 위한 KoNLPy 에 대해서 확인하고, 적당한 Tokenizer 를 고르기 위해서 준비 했습니다.

---
참고 자료
- [KoNLPy: 파이썬 한국어 NLP](https://konlpy-ko.readthedocs.io/ko/v0.4.3/)
- [Tokenizer 비교 실험(형태소분석, WordPiece](https://i-am-wendy.tistory.com/27)

In [1]:
raw = '주꾸미 오징어 문어 요런거 느므느므 좋아하는데 혼자 사는 싱글족이라 주꾸미 땡겨도 막상 근처에 갈데가 없고,\
       볶음류가 은근 2인분 이상 주문해야되는곳도 많아서ㅠㅠ 요즘 한끼 먹기 좋게 포장된 주꾸미를 열심히 섭렵 중에 있답니닷! ^^ \
       한끼용이지만 마치 두끼인것처럼 든든하게 먹기 위해서 좋아하는거 맘껏 다 준비해서 만들었어요ㅎㅎㅎ\
       1. 중국식 넓적 당면 불려 두고 2. 함께 주문한 왕통통 새우도 넣고 \
       3. 볶음류에 깻잎 또 필수 중에 필수죠ㅋㅋ 4. 거기다가 매운고추 더 뿌려서 \
       5. 고소함 띠드 한장 싸악 올려서 먹음 채고!!! 채고!!! 오늘 받자마자 저녁으로 만들어 먹어보니 \
       홍대주꾸미가 다른 주꾸미 보다 좋았던게 익는 순간 쪼그라 들면서 반토막나는데가 진짜 너무 많았거든요? ㅠㅠ \
       실망 실망 대실망ㅠㅠ 근데 여긴 사이즈가 변함없이 통통하니 쫄깃쫄깃 씹는 재미,식감을 즐기기도 너무 좋더라구요. >.< \
       딱 좋아요! 맘에 들었어요! 쟁여두고 사먹을 아이템으로 등극했어요~*^^*'

# 1. Okt (Open Korean Text)

In [2]:
from konlpy.tag import Okt
okt = Okt()

print("sentence: \n", raw)
okt.pos(
            raw, 
            norm=True,   # normalize 그랰ㅋㅋ -> 그래ㅋㅋ
            stem=True    # stemming 바뀌나->바뀌다
            )

sentence: 
 주꾸미 오징어 문어 요런거 느므느므 좋아하는데 혼자 사는 싱글족이라 주꾸미 땡겨도 막상 근처에 갈데가 없고,       볶음류가 은근 2인분 이상 주문해야되는곳도 많아서ㅠㅠ 요즘 한끼 먹기 좋게 포장된 주꾸미를 열심히 섭렵 중에 있답니닷! ^^        한끼용이지만 마치 두끼인것처럼 든든하게 먹기 위해서 좋아하는거 맘껏 다 준비해서 만들었어요ㅎㅎㅎ       1. 중국식 넓적 당면 불려 두고 2. 함께 주문한 왕통통 새우도 넣고        3. 볶음류에 깻잎 또 필수 중에 필수죠ㅋㅋ 4. 거기다가 매운고추 더 뿌려서        5. 고소함 띠드 한장 싸악 올려서 먹음 채고!!! 채고!!! 오늘 받자마자 저녁으로 만들어 먹어보니        홍대주꾸미가 다른 주꾸미 보다 좋았던게 익는 순간 쪼그라 들면서 반토막나는데가 진짜 너무 많았거든요? ㅠㅠ        실망 실망 대실망ㅠㅠ 근데 여긴 사이즈가 변함없이 통통하니 쫄깃쫄깃 씹는 재미,식감을 즐기기도 너무 좋더라구요. >.<        딱 좋아요! 맘에 들었어요! 쟁여두고 사먹을 아이템으로 등극했어요~*^^*


[('주꾸미', 'Noun'),
 ('오징어', 'Noun'),
 ('문어', 'Noun'),
 ('요런', 'Modifier'),
 ('거', 'Noun'),
 ('느므느므', 'Noun'),
 ('좋아하다', 'Adjective'),
 ('혼자', 'Noun'),
 ('살다', 'Verb'),
 ('싱글', 'Noun'),
 ('족', 'Noun'),
 ('이라', 'Josa'),
 ('주꾸미', 'Noun'),
 ('땡기다', 'Verb'),
 ('막상', 'Noun'),
 ('근처', 'Noun'),
 ('에', 'Josa'),
 ('갈다', 'Verb'),
 ('없다', 'Adjective'),
 (',', 'Punctuation'),
 ('볶음', 'Noun'),
 ('류', 'Noun'),
 ('가', 'Josa'),
 ('은근', 'Noun'),
 ('2', 'Number'),
 ('인분', 'Noun'),
 ('이상', 'Noun'),
 ('주문', 'Noun'),
 ('하다', 'Verb'),
 ('되다', 'Verb'),
 ('곳도', 'Noun'),
 ('많다', 'Adjective'),
 ('ㅠㅠ', 'KoreanParticle'),
 ('요즘', 'Noun'),
 ('한', 'Determiner'),
 ('끼', 'Noun'),
 ('먹기', 'Noun'),
 ('좋다', 'Adjective'),
 ('포장', 'Noun'),
 ('되다', 'Verb'),
 ('주꾸미', 'Noun'),
 ('를', 'Josa'),
 ('열심히', 'Adverb'),
 ('섭렵', 'Noun'),
 ('중', 'Noun'),
 ('에', 'Josa'),
 ('있다', 'Adjective'),
 ('닷', 'Noun'),
 ('!', 'Punctuation'),
 ('^^', 'Punctuation'),
 ('한', 'Determiner'),
 ('끼', 'Noun'),
 ('용이', 'Noun'),
 ('지만', 'Josa'),
 ('마치', 'Nou

In [3]:
stop_words = ['느므느므','요런']
def tokenizer(raw, pos=["Noun","Adjective"], stopword=stop_words):
    return [
        word for word, tag in okt.pos(
            raw, 
            norm=True,   # normalize 그랰ㅋㅋ -> 그래ㅋㅋ
            stem=True    # stemming 바뀌나->바뀌다
            )
            if len(word) > 1 and tag in pos and word not in stopword
        ]


tokenizer(raw)

['주꾸미',
 '오징어',
 '문어',
 '좋아하다',
 '혼자',
 '싱글',
 '주꾸미',
 '막상',
 '근처',
 '없다',
 '볶음',
 '은근',
 '인분',
 '이상',
 '주문',
 '곳도',
 '많다',
 '요즘',
 '먹기',
 '좋다',
 '포장',
 '주꾸미',
 '섭렵',
 '있다',
 '용이',
 '마치',
 '든든하다',
 '먹기',
 '위해',
 '좋아하다',
 '맘껏',
 '준비',
 '중국',
 '넓다',
 '당면',
 '주문',
 '통통',
 '볶음',
 '깻잎',
 '필수',
 '필수',
 '거기',
 '다가',
 '맵다',
 '고추',
 '고소하다',
 '띠드',
 '한장',
 '먹음',
 '오늘',
 '저녁',
 '홍대',
 '주꾸미',
 '다른',
 '주꾸미',
 '좋다',
 '순간',
 '쪼그',
 '반토막',
 '진짜',
 '많다',
 '실망',
 '실망',
 '실망',
 '사이즈',
 '변하다',
 '통통하다',
 '쫄깃쫄깃',
 '재미',
 '식감',
 '기도',
 '좋다',
 '좋다',
 '쟁여두',
 '아이템']

# 2. Mecab 

In [4]:
from konlpy.tag import Mecab
mecab = Mecab()
mecab.pos(raw)

[('주꾸미', 'NNG'),
 ('오징어', 'NNG'),
 ('문어', 'NNG'),
 ('요런', 'MM'),
 ('거', 'NNB'),
 ('느', 'NP'),
 ('므느므', 'UNKNOWN'),
 ('좋', 'VA'),
 ('아', 'EC'),
 ('하', 'VV'),
 ('는데', 'EC'),
 ('혼자', 'MAG'),
 ('사', 'VV'),
 ('는', 'ETM'),
 ('싱글', 'NNG'),
 ('족', 'NNG'),
 ('이', 'VCP'),
 ('라', 'EC'),
 ('주꾸미', 'NNG'),
 ('땡겨', 'VV+EC'),
 ('도', 'JX'),
 ('막상', 'MAG'),
 ('근처', 'NNG'),
 ('에', 'JKB'),
 ('갈', 'VV+ETM'),
 ('데', 'NNB'),
 ('가', 'JKS'),
 ('없', 'VA'),
 ('고', 'EC'),
 (',', 'SC'),
 ('볶음', 'NNG'),
 ('류', 'XSN'),
 ('가', 'JKS'),
 ('은근', 'NNG'),
 ('2', 'SN'),
 ('인분', 'NNG'),
 ('이상', 'NNG'),
 ('주문', 'NNG'),
 ('해야', 'XSV+EC'),
 ('되', 'VV'),
 ('는', 'ETM'),
 ('곳', 'NNG'),
 ('도', 'JX'),
 ('많', 'VA'),
 ('아서', 'EC'),
 ('ㅠㅠ', 'UNKNOWN'),
 ('요즘', 'NNG'),
 ('한', 'MM'),
 ('끼', 'NNBC'),
 ('먹', 'VV'),
 ('기', 'ETN'),
 ('좋', 'VA'),
 ('게', 'EC'),
 ('포장', 'NNG'),
 ('된', 'XSV+ETM'),
 ('주꾸미', 'NNG'),
 ('를', 'JKO'),
 ('열심히', 'MAG'),
 ('섭렵', 'NNG'),
 ('중', 'NNB'),
 ('에', 'JKB'),
 ('있', 'VA'),
 ('답', 'XSA'),
 ('니', 'EC'),
 ('닷', 'NNG

# 3. hannanum

In [5]:
from konlpy.tag import Hannanum 
hannanum = Hannanum()

print("sentence: \n", raw)
hannanum.pos(
            raw, flatten=True
            )

sentence: 
 주꾸미 오징어 문어 요런거 느므느므 좋아하는데 혼자 사는 싱글족이라 주꾸미 땡겨도 막상 근처에 갈데가 없고,       볶음류가 은근 2인분 이상 주문해야되는곳도 많아서ㅠㅠ 요즘 한끼 먹기 좋게 포장된 주꾸미를 열심히 섭렵 중에 있답니닷! ^^        한끼용이지만 마치 두끼인것처럼 든든하게 먹기 위해서 좋아하는거 맘껏 다 준비해서 만들었어요ㅎㅎㅎ       1. 중국식 넓적 당면 불려 두고 2. 함께 주문한 왕통통 새우도 넣고        3. 볶음류에 깻잎 또 필수 중에 필수죠ㅋㅋ 4. 거기다가 매운고추 더 뿌려서        5. 고소함 띠드 한장 싸악 올려서 먹음 채고!!! 채고!!! 오늘 받자마자 저녁으로 만들어 먹어보니        홍대주꾸미가 다른 주꾸미 보다 좋았던게 익는 순간 쪼그라 들면서 반토막나는데가 진짜 너무 많았거든요? ㅠㅠ        실망 실망 대실망ㅠㅠ 근데 여긴 사이즈가 변함없이 통통하니 쫄깃쫄깃 씹는 재미,식감을 즐기기도 너무 좋더라구요. >.<        딱 좋아요! 맘에 들었어요! 쟁여두고 사먹을 아이템으로 등극했어요~*^^*


[('주꾸미', 'N'),
 ('오징어', 'N'),
 ('문어', 'N'),
 ('요런거', 'N'),
 ('느므느므', 'N'),
 ('좋', 'P'),
 ('아', 'E'),
 ('하', 'P'),
 ('ㄴ데', 'E'),
 ('혼자', 'M'),
 ('사', 'P'),
 ('는', 'E'),
 ('싱글족', 'N'),
 ('이', 'J'),
 ('라', 'E'),
 ('주꾸미', 'N'),
 ('땡겨', 'N'),
 ('도', 'J'),
 ('막상', 'M'),
 ('근처', 'N'),
 ('에', 'J'),
 ('가', 'P'),
 ('ㄹ', 'E'),
 ('데', 'N'),
 ('가', 'J'),
 ('없', 'P'),
 ('고', 'E'),
 (',', 'S'),
 ('볶음류', 'N'),
 ('가', 'J'),
 ('은근', 'N'),
 ('2', 'N'),
 ('이', 'J'),
 ('ㄴ', 'E'),
 ('분', 'N'),
 ('이상', 'N'),
 ('주문해야되는곳', 'N'),
 ('도', 'J'),
 ('많아서ㅠㅠ', 'N'),
 ('요즘', 'M'),
 ('한끼', 'N'),
 ('먹', 'P'),
 ('기', 'E'),
 ('좋', 'P'),
 ('게', 'E'),
 ('포장', 'N'),
 ('되', 'X'),
 ('ㄴ', 'E'),
 ('주꾸미', 'N'),
 ('를', 'J'),
 ('열심히', 'M'),
 ('섭렵', 'N'),
 ('중', 'N'),
 ('에', 'J'),
 ('있답니닷', 'N'),
 ('!', 'S'),
 ('^^', 'S'),
 ('한끼용이지', 'N'),
 ('만', 'J'),
 ('마치', 'M'),
 ('두끼', 'N'),
 ('이', 'J'),
 ('ㄴ', 'E'),
 ('것', 'N'),
 ('처럼', 'J'),
 ('든든', 'N'),
 ('하', 'X'),
 ('게', 'E'),
 ('먹', 'P'),
 ('기', 'E'),
 ('위하', 'P'),
 ('어서', 'E'),
 ('좋아하는거'

# 4. Kkma

In [6]:
from konlpy.tag import Kkma
kkma = Kkma()

print("sentence: \n", raw)
hannanum.pos(
            raw, flatten=True
            )

sentence: 
 주꾸미 오징어 문어 요런거 느므느므 좋아하는데 혼자 사는 싱글족이라 주꾸미 땡겨도 막상 근처에 갈데가 없고,       볶음류가 은근 2인분 이상 주문해야되는곳도 많아서ㅠㅠ 요즘 한끼 먹기 좋게 포장된 주꾸미를 열심히 섭렵 중에 있답니닷! ^^        한끼용이지만 마치 두끼인것처럼 든든하게 먹기 위해서 좋아하는거 맘껏 다 준비해서 만들었어요ㅎㅎㅎ       1. 중국식 넓적 당면 불려 두고 2. 함께 주문한 왕통통 새우도 넣고        3. 볶음류에 깻잎 또 필수 중에 필수죠ㅋㅋ 4. 거기다가 매운고추 더 뿌려서        5. 고소함 띠드 한장 싸악 올려서 먹음 채고!!! 채고!!! 오늘 받자마자 저녁으로 만들어 먹어보니        홍대주꾸미가 다른 주꾸미 보다 좋았던게 익는 순간 쪼그라 들면서 반토막나는데가 진짜 너무 많았거든요? ㅠㅠ        실망 실망 대실망ㅠㅠ 근데 여긴 사이즈가 변함없이 통통하니 쫄깃쫄깃 씹는 재미,식감을 즐기기도 너무 좋더라구요. >.<        딱 좋아요! 맘에 들었어요! 쟁여두고 사먹을 아이템으로 등극했어요~*^^*


[('주꾸미', 'N'),
 ('오징어', 'N'),
 ('문어', 'N'),
 ('요런거', 'N'),
 ('느므느므', 'N'),
 ('좋', 'P'),
 ('아', 'E'),
 ('하', 'P'),
 ('ㄴ데', 'E'),
 ('혼자', 'M'),
 ('사', 'P'),
 ('는', 'E'),
 ('싱글족', 'N'),
 ('이', 'J'),
 ('라', 'E'),
 ('주꾸미', 'N'),
 ('땡겨', 'N'),
 ('도', 'J'),
 ('막상', 'M'),
 ('근처', 'N'),
 ('에', 'J'),
 ('가', 'P'),
 ('ㄹ', 'E'),
 ('데', 'N'),
 ('가', 'J'),
 ('없', 'P'),
 ('고', 'E'),
 (',', 'S'),
 ('볶음류', 'N'),
 ('가', 'J'),
 ('은근', 'N'),
 ('2', 'N'),
 ('이', 'J'),
 ('ㄴ', 'E'),
 ('분', 'N'),
 ('이상', 'N'),
 ('주문해야되는곳', 'N'),
 ('도', 'J'),
 ('많아서ㅠㅠ', 'N'),
 ('요즘', 'M'),
 ('한끼', 'N'),
 ('먹', 'P'),
 ('기', 'E'),
 ('좋', 'P'),
 ('게', 'E'),
 ('포장', 'N'),
 ('되', 'X'),
 ('ㄴ', 'E'),
 ('주꾸미', 'N'),
 ('를', 'J'),
 ('열심히', 'M'),
 ('섭렵', 'N'),
 ('중', 'N'),
 ('에', 'J'),
 ('있답니닷', 'N'),
 ('!', 'S'),
 ('^^', 'S'),
 ('한끼용이지', 'N'),
 ('만', 'J'),
 ('마치', 'M'),
 ('두끼', 'N'),
 ('이', 'J'),
 ('ㄴ', 'E'),
 ('것', 'N'),
 ('처럼', 'J'),
 ('든든', 'N'),
 ('하', 'X'),
 ('게', 'E'),
 ('먹', 'P'),
 ('기', 'E'),
 ('위하', 'P'),
 ('어서', 'E'),
 ('좋아하는거'

# 5. Komoran

In [7]:
from konlpy.tag import Komoran
komoran = Komoran()

print("sentence: \n", raw)
hannanum.pos(
            raw, flatten=True
            )

sentence: 
 주꾸미 오징어 문어 요런거 느므느므 좋아하는데 혼자 사는 싱글족이라 주꾸미 땡겨도 막상 근처에 갈데가 없고,       볶음류가 은근 2인분 이상 주문해야되는곳도 많아서ㅠㅠ 요즘 한끼 먹기 좋게 포장된 주꾸미를 열심히 섭렵 중에 있답니닷! ^^        한끼용이지만 마치 두끼인것처럼 든든하게 먹기 위해서 좋아하는거 맘껏 다 준비해서 만들었어요ㅎㅎㅎ       1. 중국식 넓적 당면 불려 두고 2. 함께 주문한 왕통통 새우도 넣고        3. 볶음류에 깻잎 또 필수 중에 필수죠ㅋㅋ 4. 거기다가 매운고추 더 뿌려서        5. 고소함 띠드 한장 싸악 올려서 먹음 채고!!! 채고!!! 오늘 받자마자 저녁으로 만들어 먹어보니        홍대주꾸미가 다른 주꾸미 보다 좋았던게 익는 순간 쪼그라 들면서 반토막나는데가 진짜 너무 많았거든요? ㅠㅠ        실망 실망 대실망ㅠㅠ 근데 여긴 사이즈가 변함없이 통통하니 쫄깃쫄깃 씹는 재미,식감을 즐기기도 너무 좋더라구요. >.<        딱 좋아요! 맘에 들었어요! 쟁여두고 사먹을 아이템으로 등극했어요~*^^*


[('주꾸미', 'N'),
 ('오징어', 'N'),
 ('문어', 'N'),
 ('요런거', 'N'),
 ('느므느므', 'N'),
 ('좋', 'P'),
 ('아', 'E'),
 ('하', 'P'),
 ('ㄴ데', 'E'),
 ('혼자', 'M'),
 ('사', 'P'),
 ('는', 'E'),
 ('싱글족', 'N'),
 ('이', 'J'),
 ('라', 'E'),
 ('주꾸미', 'N'),
 ('땡겨', 'N'),
 ('도', 'J'),
 ('막상', 'M'),
 ('근처', 'N'),
 ('에', 'J'),
 ('가', 'P'),
 ('ㄹ', 'E'),
 ('데', 'N'),
 ('가', 'J'),
 ('없', 'P'),
 ('고', 'E'),
 (',', 'S'),
 ('볶음류', 'N'),
 ('가', 'J'),
 ('은근', 'N'),
 ('2', 'N'),
 ('이', 'J'),
 ('ㄴ', 'E'),
 ('분', 'N'),
 ('이상', 'N'),
 ('주문해야되는곳', 'N'),
 ('도', 'J'),
 ('많아서ㅠㅠ', 'N'),
 ('요즘', 'M'),
 ('한끼', 'N'),
 ('먹', 'P'),
 ('기', 'E'),
 ('좋', 'P'),
 ('게', 'E'),
 ('포장', 'N'),
 ('되', 'X'),
 ('ㄴ', 'E'),
 ('주꾸미', 'N'),
 ('를', 'J'),
 ('열심히', 'M'),
 ('섭렵', 'N'),
 ('중', 'N'),
 ('에', 'J'),
 ('있답니닷', 'N'),
 ('!', 'S'),
 ('^^', 'S'),
 ('한끼용이지', 'N'),
 ('만', 'J'),
 ('마치', 'M'),
 ('두끼', 'N'),
 ('이', 'J'),
 ('ㄴ', 'E'),
 ('것', 'N'),
 ('처럼', 'J'),
 ('든든', 'N'),
 ('하', 'X'),
 ('게', 'E'),
 ('먹', 'P'),
 ('기', 'E'),
 ('위하', 'P'),
 ('어서', 'E'),
 ('좋아하는거'