## 토큰화 (Tokenize)
- 문장을 의미있는 최소 단위로 나누는 것
- 최소 단위 => 단어, 글자, 문장


### (1) 자모 단위 토큰화
- 한글 문장을 한글 자모 단위로 나누어 토큰화
- pip install jamo or conda install jamo

In [2]:
import jamo

msg ='좋은 날'

result1 = jamo.h2j(msg)
result1

'좋은 날'

In [3]:
result2 = jamo.j2hcj(result1)
result2

'ㅈㅗㅎㅇㅡㄴ ㄴㅏㄹ'

In [4]:
import konlpy

nlp = konlpy.tag.Komoran()
nlp.morphs(msg)

['좋은 날']

In [5]:
def tokenize(text):
    # 한글 자모 분리
    text = jamo.h2j(text)

    # 한글 자모 단어 분리
    words = text.split(' ')

    # 한글 자모 단어 토큰화
    tokens = []
    for word in words:
        # 한글 자모 단어 토큰화
        tokens.extend(list(word))

    return tokens

text = "안녕하세요. 반갑습니다. 여보세요."
tokens = tokenize(text)
print(tokens)
nlp.morphs(text)


['ᄋ', 'ᅡ', 'ᆫ', 'ᄂ', 'ᅧ', 'ᆼ', 'ᄒ', 'ᅡ', 'ᄉ', 'ᅦ', 'ᄋ', 'ᅭ', '.', 'ᄇ', 'ᅡ', 'ᆫ', 'ᄀ', 'ᅡ', 'ᆸ', 'ᄉ', 'ᅳ', 'ᆸ', 'ᄂ', 'ᅵ', 'ᄃ', 'ᅡ', '.', 'ᄋ', 'ᅧ', 'ᄇ', 'ᅩ', 'ᄉ', 'ᅦ', 'ᄋ', 'ᅭ', '.']


['안녕하세요', '.', '반갑습니다', '.', '여보세요', '.']

### (2) 다양한 한국어 형태소 분석기



In [6]:
### KoNlpy의 Okt 형태소 분석기
from konlpy.tag import Okt
import konlpy.tag as tag
okt = Okt()

text = "오늘 저녁에 실증랩에서 PC 성능 테스트를 진행할 예정입니다. 존나맛있다"

for okt in [tag.Okt(), tag.Kkma(), tag.Mecab(), tag.Komoran()]:
    print(okt.__class__.__name__)
    print(f"명사 : {okt.nouns(text)}")
    print(f"형태소 : {okt.morphs(text)}")
    print(f"품사 : {okt.pos(text)}")


Okt
명사 : ['오늘', '저녁', '실증', '랩', '성능', '테스트', '진행', '예정', '존나']
형태소 : ['오늘', '저녁', '에', '실증', '랩', '에서', 'PC', '성능', '테스트', '를', '진행', '할', '예정', '입니다', '.', '존나', '맛있다']
품사 : [('오늘', 'Noun'), ('저녁', 'Noun'), ('에', 'Josa'), ('실증', 'Noun'), ('랩', 'Noun'), ('에서', 'Josa'), ('PC', 'Alpha'), ('성능', 'Noun'), ('테스트', 'Noun'), ('를', 'Josa'), ('진행', 'Noun'), ('할', 'Verb'), ('예정', 'Noun'), ('입니다', 'Adjective'), ('.', 'Punctuation'), ('존나', 'Noun'), ('맛있다', 'Adjective')]
Kkma
명사 : ['오늘', '저녁', '실증', '실증랩', '랩', '성능', '테스트', '진행', '예정']
형태소 : ['오늘', '저녁', '에', '실증', '랩', '에서', 'PC', '성능', '테스트', '를', '진행', '하', 'ㄹ', '예정', '이', 'ㅂ니다', '.', '존나', '맛있', '다']
품사 : [('오늘', 'NNG'), ('저녁', 'NNG'), ('에', 'JKM'), ('실증', 'NNG'), ('랩', 'NNG'), ('에서', 'JKM'), ('PC', 'OL'), ('성능', 'NNG'), ('테스트', 'NNG'), ('를', 'JKO'), ('진행', 'NNG'), ('하', 'XSV'), ('ㄹ', 'ETD'), ('예정', 'NNG'), ('이', 'VCP'), ('ㅂ니다', 'EFN'), ('.', 'SF'), ('존나', 'MAG'), ('맛있', 'VA'), ('다', 'EFN')]
Mecab
명사 : ['저녁', '실증', '랩', '성능', '테스트', '예정']
형태소

#### nltk
- 한글 미지원

In [7]:
from nltk import tokenize

text = "Happy New tokens = tokenize.word_tokenize(text)"
tokenize.word_tokenize(text)


['Happy', 'New', 'tokens', '=', 'tokenize.word_tokenize', '(', 'text', ')']

In [8]:
punctokenize = tokenize.WordPunctTokenizer()
punctokenize.tokenize(text)

['Happy',
 'New',
 'tokens',
 '=',
 'tokenize',
 '.',
 'word_tokenize',
 '(',
 'text',
 ')']

In [9]:
## 파이선 string 모듈에서 제공하는 구두점
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'