## 5. 토큰화

In [1]:
# 단어 토큰화
review = "어떤 인사가 괜찮을까? 천번쯤 상상해봤어"
tokenized = review.split()
print(tokenized)

['어떤', '인사가', '괜찮을까?', '천번쯤', '상상해봤어']


In [2]:
# 글자 토큰화
review = "어떤 인사가 괜찮을까? 천번쯤 상상해봤어"
tokenized = list(review)
print(tokenized)

['어', '떤', ' ', '인', '사', '가', ' ', '괜', '찮', '을', '까', '?', ' ', '천', '번', '쯤', ' ', '상', '상', '해', '봤', '어']


In [3]:
# 자모 라이브러리를 통한 토큰화
from jamo import h2j, j2hcj

review = "어떤 인사가 괜찮을까? 천번쯤 상상해봤어"
decomposed = j2hcj(h2j(review))
tokenized = list(decomposed)
print(tokenized)

['ㅇ', 'ㅓ', 'ㄸ', 'ㅓ', 'ㄴ', ' ', 'ㅇ', 'ㅣ', 'ㄴ', 'ㅅ', 'ㅏ', 'ㄱ', 'ㅏ', ' ', 'ㄱ', 'ㅙ', 'ㄴ', 'ㅊ', 'ㅏ', 'ㄶ', 'ㅇ', 'ㅡ', 'ㄹ', 'ㄲ', 'ㅏ', '?', ' ', 'ㅊ', 'ㅓ', 'ㄴ', 'ㅂ', 'ㅓ', 'ㄴ', 'ㅉ', 'ㅡ', 'ㅁ', ' ', 'ㅅ', 'ㅏ', 'ㅇ', 'ㅅ', 'ㅏ', 'ㅇ', 'ㅎ', 'ㅐ', 'ㅂ', 'ㅘ', 'ㅆ', 'ㅇ', 'ㅓ']


### 형태소 토큰화
KoNLPy : 한국어 자연어 처리를 위하 라이브러리
자바 기반이므로, JDK가 설치되어있어야함
Okt, 꼬꼬마, 코모란, 한나눔, 메캅 등의 형태소 분석기를 지원

여기선 SNS 텍스트 데이터 기반으로 개발된 'OKt'와 
국립국어원에서 배포한 세종말뭉치로 개발된 '꼬꼬마'를 사용해볼 예정

In [4]:
#okt 사용
from konlpy.tag import Okt

kkma = Okt()

sentence = "무엇이든 상상할 수 있는 사람은 무엇이든 만들어 낼 수 있다."

nouns = kkma.nouns(sentence)
phrase = kkma.phrases(sentence)
morphs = kkma.morphs(sentence)
pos = kkma.pos(sentence)

print("명사 추출 :", nouns)
print("구 추출 :", phrase)
print("형태소 추출 :", morphs)
print("명사 추출 :", pos)

명사 추출 : ['무엇', '상상', '수', '사람', '무엇', '낼', '수']
구 추출 : ['무엇', '상상', '상상할 수', '상상할 수 있는 사람', '사람']
형태소 추출 : ['무엇', '이든', '상상', '할', '수', '있는', '사람', '은', '무엇', '이든', '만들어', '낼', '수', '있다', '.']
명사 추출 : [('무엇', 'Noun'), ('이든', 'Josa'), ('상상', 'Noun'), ('할', 'Verb'), ('수', 'Noun'), ('있는', 'Adjective'), ('사람', 'Noun'), ('은', 'Josa'), ('무엇', 'Noun'), ('이든', 'Josa'), ('만들어', 'Verb'), ('낼', 'Noun'), ('수', 'Noun'), ('있다', 'Adjective'), ('.', 'Punctuation')]


In [7]:
# 꼬꼬마 사용
from konlpy.tag import Kkma

kkma = Kkma()

sentence = "무엇이든 상상할 수 있는 사람은 무엇이든 만들어 낼 수 있다."

nouns = kkma.nouns(sentence)
sentences = kkma.sentences(sentence)
morphs = kkma.morphs(sentence)
pos = kkma.pos(sentence)

print("명사 추출 :", nouns)
print("문장 추출 :", sentences)
print("형태소 추출 :", morphs)
print("명사 추출 :", pos)

명사 추출 : ['무엇', '상상', '수', '사람', '무엇']
문장 추출 : ['무엇이든 상상할 수 있는 사람은 무엇이든 만들어 낼 수 있다.']
형태소 추출 : ['무엇', '이', '든', '상상', '하', 'ㄹ', '수', '있', '는', '사람', '은', '무엇', '이', '든', '만들', '어', '내', 'ㄹ', '수', '있', '다', '.']
명사 추출 : [('무엇', 'NNG'), ('이', 'VCP'), ('든', 'ECE'), ('상상', 'NNG'), ('하', 'XSV'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VV'), ('는', 'ETD'), ('사람', 'NNG'), ('은', 'JX'), ('무엇', 'NP'), ('이', 'VCP'), ('든', 'ECE'), ('만들', 'VV'), ('어', 'ECD'), ('내', 'VXV'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VV'), ('다', 'EFN'), ('.', 'SF')]


### NLTK
Natrual Language TookKit, 자연어 처리를위한 라이브러리

토큰화 및 품사태깅을 위해 'Punct'(통계기반)와 'averaged perceptron tagger'(퍼셉트론 기반)를 사용함

In [9]:
# 모델 다운로드
import nltk

nltk.download("punkt")
nltk.download("averaged_perceptron_tagger")

[nltk_data] Downloading package punkt to /Users/hyun-uk/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/hyun-uk/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [10]:
# punct 모델을 기준으로 토큰화
from nltk import tokenize

sentence = "thoes who can imagine anything, can create the impossible"

word_token = tokenize.word_tokenize(sentence)
sentence_token = tokenize.sent_tokenize(sentence)

print(word_token)
print(sentence_token)

['thoes', 'who', 'can', 'imagine', 'anything', ',', 'can', 'create', 'the', 'impossible']
['thoes who can imagine anything, can create the impossible']


In [11]:
# average perceptron tagger를 통한 품사태깅
from nltk import tag
from nltk import tokenize

sentence = "thoes who can imagine anything, can create the impossible"
word_token = tokenize.word_tokenize(sentence)
pos = tag.pos_tag(word_token)

print(pos)

[('thoes', 'NNS'), ('who', 'WP'), ('can', 'MD'), ('imagine', 'VB'), ('anything', 'NN'), (',', ','), ('can', 'MD'), ('create', 'VB'), ('the', 'DT'), ('impossible', 'JJ')]


### spaCy
Cython을 기반으로 빠르고 정확한 머신러닝 자연어처리 라이브러리

In [13]:
# spacy를 활용한 품사 태깅 예시
import spacy

nlp = spacy.load("en_core_web_sm")
sentence = "thoes who can imagine anything, can create the impossible"
doc = nlp(sentence)

for token in doc:
    print(f"[{token.pos_:5} - {token.tag_:3}] : {token.text}")

[NOUN  - NNS] : thoes
[PRON  - WP ] : who
[AUX   - MD ] : can
[VERB  - VB ] : imagine
[PRON  - NN ] : anything
[PUNCT - ,  ] : ,
[AUX   - MD ] : can
[VERB  - VB ] : create
[DET   - DT ] : the
[ADJ   - JJ ] : impossible


## 하위 단어 토큰화
현대 자연어 처리에 있어, 길이가 긴 단어를 나눠서 처리하는 것. 속도가 빨라지고 OOV문제나 신조어, 고유어 문제 완화 가능

대표적인 모델
- 바이트 페어 인코딩
- 워드피스
- 유니그램
