In [None]:
!pip install jamo konlpy

Collecting jamo
  Downloading jamo-0.4.1-py3-none-any.whl (9.5 kB)
Installing collected packages: jamo
Successfully installed jamo-0.4.1


# 단어 및 글자 토큰화

## 단어 토큰화(Word Tokenization)

In [None]:
review = " 현실과 구분 불가능한 cg. 시각적 즐거음은 최고! 더불어 ost는 더더욱 최고!!"
tokenized = review.split()
print(tokenized)

['현실과', '구분', '불가능한', 'cg.', '시각적', '즐거음은', '최고!', '더불어', 'ost는', '더더욱', '최고!!']


- 공백(Whitespace)를 기준으로 나눈다.
- 말뭉치내 마침표가 없는 다른 'cg'라는 토큰이 있다면, 'cg.'와 'cg'는 서로 다른 토큰으로 나뉜다.
- 'cg'라는 토큰이 단어 사전 내에 있더라도 'cg.', 'cg는', 'cg도' 등은 OOV가 된다. 이처럼 단어 토큰화는 한국어 접사, 문장 부포, 오타 혹은 띄어쓰기 오류 등에 취약한다.

## 글자 토큰화(Character Tokenization)

In [None]:
review = "현실과 구분 불가능한 cg. 시각적 즐거음은 최고! 더불어 ost는 더더욱 최고!!"
tokenized = list(review)
print(tokenized)

['현', '실', '과', ' ', '구', '분', ' ', '불', '가', '능', '한', ' ', 'c', 'g', '.', ' ', '시', '각', '적', ' ', '즐', '거', '음', '은', ' ', '최', '고', '!', ' ', '더', '불', '어', ' ', 'o', 's', 't', '는', ' ', '더', '더', '욱', ' ', '최', '고', '!', '!']


## 자소 단위 토큰화

In [None]:
from jamo import h2j, j2hcj

# 완성형 : 조합된 글자 자체에 값을 부여해 인코딩하는 방식
# 조합형 : 글자를 자모 단위로 나눠 인코딩한 뒤 이를 조합해 한글을 표현

# h2j : 완성형 : 입력된 한글을 조합형 한글로 변환
# j2hcj : 조합형 한글 문자열을 자소 단위로 나눠 반환하는 함수

review = "현실과 구분 불가능한 cg. 시각적 즐거음은 최고! 더불어 ost는 더더욱 최고!!"
decomposed = j2hcj(h2j(review))
tokenized = list(decomposed)
print(tokenized)

['ㅎ', 'ㅕ', 'ㄴ', 'ㅅ', 'ㅣ', 'ㄹ', 'ㄱ', 'ㅘ', ' ', 'ㄱ', 'ㅜ', 'ㅂ', 'ㅜ', 'ㄴ', ' ', 'ㅂ', 'ㅜ', 'ㄹ', 'ㄱ', 'ㅏ', 'ㄴ', 'ㅡ', 'ㅇ', 'ㅎ', 'ㅏ', 'ㄴ', ' ', 'c', 'g', '.', ' ', 'ㅅ', 'ㅣ', 'ㄱ', 'ㅏ', 'ㄱ', 'ㅈ', 'ㅓ', 'ㄱ', ' ', 'ㅈ', 'ㅡ', 'ㄹ', 'ㄱ', 'ㅓ', 'ㅇ', 'ㅡ', 'ㅁ', 'ㅇ', 'ㅡ', 'ㄴ', ' ', 'ㅊ', 'ㅚ', 'ㄱ', 'ㅗ', '!', ' ', 'ㄷ', 'ㅓ', 'ㅂ', 'ㅜ', 'ㄹ', 'ㅇ', 'ㅓ', ' ', 'o', 's', 't', 'ㄴ', 'ㅡ', 'ㄴ', ' ', 'ㄷ', 'ㅓ', 'ㄷ', 'ㅓ', 'ㅇ', 'ㅜ', 'ㄱ', ' ', 'ㅊ', 'ㅚ', 'ㄱ', 'ㅗ', '!', '!']


# 형태소 토큰화

## Okt 토큰화

Open Korean text : sns 텍스트 데이터를 기반으로 개발됨

In [None]:
from konlpy.tag import Okt

okt = Okt()

sentence = "무엇이든 상상할 수 있는 사람은 무엇이든 만들어 낼 수 있다."

nouns = okt.nouns(sentence)
phrases = okt.phrases(sentence)
morphs = okt.morphs(sentence)
pos = okt.pos(sentence)

print("명사 추출 :", nouns)
print("구 추출 :", phrases)
print("형태소 추출 :", morphs)
print("품사 태깅 :", pos)

명사 추출 : ['무엇', '상상', '수', '사람', '무엇', '낼', '수']
구 추출 : ['무엇', '상상', '상상할 수', '상상할 수 있는 사람', '사람']
형태소 추출 : ['무엇', '이든', '상상', '할', '수', '있는', '사람', '은', '무엇', '이든', '만들어', '낼', '수', '있다', '.']
품사 태깅 : [('무엇', 'Noun'), ('이든', 'Josa'), ('상상', 'Noun'), ('할', 'Verb'), ('수', 'Noun'), ('있는', 'Adjective'), ('사람', 'Noun'), ('은', 'Josa'), ('무엇', 'Noun'), ('이든', 'Josa'), ('만들어', 'Verb'), ('낼', 'Noun'), ('수', 'Noun'), ('있다', 'Adjective'), ('.', 'Punctuation')]


## 꼬꼬마 토큰화

국립국어원에서 배포한 세종 말뭉치를 기반으로 학습됨

In [None]:
from konlpy.tag import Kkma

kkma = Kkma()

sentence = "무엇이든 상상할 수 있는 사람은 무엇이든 만들어 낼 수 있다."

nouns = kkma.nouns(sentence)
sentences = kkma.sentences(sentence)
morphs = kkma.morphs(sentence)
pos = kkma.pos(sentence)

print("명사 추출 :", nouns)
print("문장 추출 :", sentences)
print("형태소 추출 :", morphs)
print("품사 태깅 :", pos)

명사 추출 : ['무엇', '상상', '수', '사람', '무엇']
문장 추출 : ['무엇이든 상상할 수 있는 사람은 무엇이든 만들어 낼 수 있다.']
형태소 추출 : ['무엇', '이', '든', '상상', '하', 'ㄹ', '수', '있', '는', '사람', '은', '무엇', '이', '든', '만들', '어', '내', 'ㄹ', '수', '있', '다', '.']
품사 태깅 : [('무엇', 'NNG'), ('이', 'VCP'), ('든', 'ECE'), ('상상', 'NNG'), ('하', 'XSV'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VV'), ('는', 'ETD'), ('사람', 'NNG'), ('은', 'JX'), ('무엇', 'NP'), ('이', 'VCP'), ('든', 'ECE'), ('만들', 'VV'), ('어', 'ECD'), ('내', 'VXV'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VV'), ('다', 'EFN'), ('.', 'SF')]


## NLTK

토큰화, 형태소 분석, 구문 분석, 개체명 인식, 감성 분석 등과 같은 기능을 제공

NLTK를 활용해 토큰화나 품사 태깅 작업을 하기 위해서는 해당 작업을 수행할 수 있는 패키지나 모델을 다운로드해야한다.  
여기서는 Punkt 모델과 Averaged Perceptron Tagger 모델을 활용

In [None]:
import nltk

nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

## 영문 토큰화

In [None]:
from nltk import tokenize

sentence = "Those who can imagine anything, can create the impossible."

word_tokens = tokenize.word_tokenize(sentence)
sent_tokens = tokenize.sent_tokenize(sentence)

print(word_tokens)
print(sent_tokens)

['Those', 'who', 'can', 'imagine', 'anything', ',', 'can', 'create', 'the', 'impossible', '.']
['Those who can imagine anything, can create the impossible.']


## 영문 품사 태깅

In [None]:
from nltk import tag, tokenize

sentence = "Those who can imagine anything, can create the impossible."

word_tokens = tokenize.word_tokenize(sentence)
pos_tags = tag.pos_tag(word_tokens)

print(pos_tags)

[('Those', 'DT'), ('who', 'WP'), ('can', 'MD'), ('imagine', 'VB'), ('anything', 'NN'), (',', ','), ('can', 'MD'), ('create', 'VB'), ('the', 'DT'), ('impossible', 'JJ'), ('.', '.')]


## spaCy 품사 태깅

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")

sentence = "Those who can imagine anything, can create the impossible."
doc = nlp(sentence)

for token in doc:
    print(f"[{token.pos_:5} - {token.tag_:3}] : {token.text}")

[PRON  - DT ] : Those
[PRON  - WP ] : who
[AUX   - MD ] : can
[VERB  - VB ] : imagine
[PRON  - NN ] : anything
[PUNCT - ,  ] : ,
[AUX   - MD ] : can
[VERB  - VB ] : create
[DET   - DT ] : the
[ADJ   - JJ ] : impossible
[PUNCT - .  ] : .


In [None]:
doc[0].vector

array([-0.8486347 ,  1.2700524 , -1.1639701 ,  1.1595925 ,  1.4136884 ,
       -0.19614898,  0.9234905 ,  0.4656181 , -1.0459173 ,  0.11757521,
        0.8527639 ,  0.04633076, -1.1558002 ,  0.9284301 , -0.7888708 ,
       -1.5080042 , -1.313452  ,  0.84806657, -1.1665629 ,  0.3201223 ,
       -0.9707377 ,  0.62648225,  0.6703317 , -1.1460655 , -0.7319551 ,
        0.2837017 ,  1.144692  ,  2.067832  , -0.13750742,  0.13024698,
       -0.7051562 , -1.896528  ,  0.17930242, -1.046402  , -0.07028227,
        0.22457415,  1.1773777 ,  0.92348135,  1.360117  ,  1.6645081 ,
        0.34043953,  0.7469084 , -1.9169496 , -0.00400883, -0.78598726,
        1.3460159 , -0.53799343,  1.4254917 , -0.5480755 , -0.7898176 ,
       -0.72548103, -0.17522047,  1.0688438 , -0.68190444,  1.0573025 ,
       -0.11982081,  0.58483195,  0.8068689 , -1.2866131 ,  1.3019196 ,
        0.823109  , -0.7804225 , -0.3887528 , -0.48427325,  1.0155696 ,
       -0.16501564, -0.20351282, -1.594498  , -0.38102418, -0.08

In [None]:
doc[0].vector_norm

9.433557