### 토큰화(Tokenize)
- 문장을 의미있는 최소 단위로 나누는 것
- 최소단위 => 단어, 글자, 문장

[1] 자모 단위 토큰화 : 자음과 모음으로 토큰화
- 추가 라이브러리 설치 : pip install jamo

In [8]:
# 모듈 로딩
import jamo

# 완성형 단어
msg = '좋은 날'

# 완성형 단어 => 조합형으로 변환
result1 = jamo.h2j(msg)
print(result1)

# 조합형 단어 => 자모 형태로 변환
result2 = jamo.j2hcj(result1)
print(result2)

좋은 날
ㅈㅗㅎㅇㅡㄴ ㄴㅏㄹ


[2] 다양한 한국어 형태소 분석기

In [14]:
# KoNlpy의 형태소 분석시
from konlpy.tag import Okt

# 인스턴스 생성
okt = Okt()

# 분석 문장
msg = '오늘 저녁에 실증랩에서 PC 성능 테스트를 진행할 예정입니다.'

# 명사, 형태소, 문장, 품사 분석
print(f'[명사] {okt.nouns(msg)}') 
print(f'[형태소] {okt.morphs(msg)}')
print(f'[구문] {okt.phrases(msg)}')  # 핟 단어를 묶어서 의미를 가지는 덩어리를 반환
print(f'[품사] {okt.pos(msg)}')

[명사] ['오늘', '저녁', '실증', '랩', '성능', '테스트', '진행', '예정']
[형태소] ['오늘', '저녁', '에', '실증', '랩', '에서', 'PC', '성능', '테스트', '를', '진행', '할', '예정', '입니다', '.']
[구문] ['오늘', '오늘 저녁', '실증랩', 'PC', 'PC 성능', 'PC 성능 테스트', '진행', '진행할 예정', '저녁', '실증', '성능', '테스트', '예정']
[품사] [('오늘', 'Noun'), ('저녁', 'Noun'), ('에', 'Josa'), ('실증', 'Noun'), ('랩', 'Noun'), ('에서', 'Josa'), ('PC', 'Alpha'), ('성능', 'Noun'), ('테스트', 'Noun'), ('를', 'Josa'), ('진행', 'Noun'), ('할', 'Verb'), ('예정', 'Noun'), ('입니다', 'Adjective'), ('.', 'Punctuation')]


In [15]:
# KoNlpy의 형태소 분석시
from konlpy.tag import Kkma

# 인스턴스 생성
kkma = Kkma()

# 분석 문장
msg = '오늘 저녁에 실증랩에서 PC 성능 테스트를 진행할 예정입니다.'

# 명사, 형태소, 문장, 품사 분석
print(f'[명사] {kkma.nouns(msg)}') 
print(f'[형태소] {kkma.morphs(msg)}')
print(f'[품사] {kkma.pos(msg)}') # 진행할 -> 진행, 하, ㄹ  / 입니다 -> 이, ㅂ니다

[명사] ['오늘', '저녁', '실증', '실증랩', '랩', '성능', '테스트', '진행', '예정']
[형태소] ['오늘', '저녁', '에', '실증', '랩', '에서', 'PC', '성능', '테스트', '를', '진행', '하', 'ㄹ', '예정', '이', 'ㅂ니다', '.']
[품사] [('오늘', 'NNG'), ('저녁', 'NNG'), ('에', 'JKM'), ('실증', 'NNG'), ('랩', 'NNG'), ('에서', 'JKM'), ('PC', 'OL'), ('성능', 'NNG'), ('테스트', 'NNG'), ('를', 'JKO'), ('진행', 'NNG'), ('하', 'XSV'), ('ㄹ', 'ETD'), ('예정', 'NNG'), ('이', 'VCP'), ('ㅂ니다', 'EFN'), ('.', 'SF')]


In [16]:
# KoNlpy의 형태소 분석시
from konlpy.tag import Hannanum

# 인스턴스 생성
han = Hannanum()

# 분석 문장
msg = '오늘 저녁에 실증랩에서 PC 성능 테스트를 진행할 예정입니다.'

# 명사, 형태소, 문장, 품사 분석
print(f'[명사] {han.nouns(msg)}') 
print(f'[형태소] {han.morphs(msg)}')
print(f'[품사] {han.pos(msg)}') # 진행할 -> 진행, 하, ㄹ  / 입니다 -> 이, ㅂ니다

[명사] ['오늘', '저녁', '실증랩', '성능', '테스트', '진행', '예정']
[형태소] ['오늘', '저녁', '에', '실증랩', '에서', 'PC', '성능', '테스트', '를', '진행', '하', 'ㄹ', '예정', '이', 'ㅂ니다', '.']
[품사] [('오늘', 'N'), ('저녁', 'N'), ('에', 'J'), ('실증랩', 'N'), ('에서', 'J'), ('PC', 'F'), ('성능', 'N'), ('테스트', 'N'), ('를', 'J'), ('진행', 'N'), ('하', 'X'), ('ㄹ', 'E'), ('예정', 'N'), ('이', 'J'), ('ㅂ니다', 'E'), ('.', 'S')]


In [17]:
# KoNlpy의 형태소 분석시
from konlpy.tag import Komoran

# 인스턴스 생성
kom = Komoran()

# 분석 문장
msg = '오늘 저녁에 실증랩에서 PC 성능 테스트를 진행할 예정입니다.'

# 명사, 형태소, 문장, 품사 분석
print(f'[명사] {kom.nouns(msg)}') 
print(f'[형태소] {kom.morphs(msg)}')
print(f'[품사] {kom.pos(msg)}') 

[명사] ['오늘', '저녁', '실증', '랩', '성능', '테스트', '진행', '예정']
[형태소] ['오늘', '저녁', '에', '실증', '랩', '에서', 'PC', '성능', '테스트', '를', '진행', '하', 'ㄹ', '예정', '이', 'ㅂ니다', '.']
[품사] [('오늘', 'NNG'), ('저녁', 'NNG'), ('에', 'JKB'), ('실증', 'NNG'), ('랩', 'NNG'), ('에서', 'JKB'), ('PC', 'SL'), ('성능', 'NNP'), ('테스트', 'NNP'), ('를', 'JKO'), ('진행', 'NNG'), ('하', 'XSV'), ('ㄹ', 'ETM'), ('예정', 'NNG'), ('이', 'VCP'), ('ㅂ니다', 'EF'), ('.', 'SF')]


NLTK<hr>
- 한글 미지원

In [21]:
# 형태소 분석
from nltk import tokenize

msg = 'Happy New Year! Merry Christmas!'

# 단어 단위 형태소
result1 = tokenize.word_tokenize(msg)

# 문장 단위 형태소
result2 = tokenize.sent_tokenize(msg)

print(f'[단어 단위 형태소] {result1}')
print(f'[문장 단위 형태소] {result2}')

[단어 단위 형태소] ['Happy', 'New', 'Year', '!', 'Merry', 'Christmas', '!']
[문장 단위 형태소] ['Happy New Year!', 'Merry Christmas!']


In [23]:
# \n을 없애주는 tokenizer
punctokenizer = tokenize.WordPunctTokenizer()

punctokenizer.tokenize(msg)

['Happy', 'New', 'Year', '!', 'Merry', 'Christmas', '!']

In [26]:
# 파이썬 string 모듈에서 제공하는 구두점
# '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~' -> 바로 제거 가능 -> 문자열이라서 + 추가 가능
import string

punctuation = string.punctuation + "추가하고 싶은 구두점"