## 02. 형태소 토큰화 

텍스트를 형태소 단위로 나누는 토큰화 방법으로 언의 문법과 구조를 고려해 단어를 분리하고 이를 의미있는 단위로 분류하는 작업

형태소 토큰화는 한국어와 같이 교착어인 언어에서 중요하게 작용한다

한국어는 어근에 다양한 접사와 조사가 조합되어 하나의 낱말을 이루므로 각 형태소를 적절히 구분해 처리해야 한다

이러한 형태소 분석을 통해 문장 내 각 형태소의 역할을 파악할 수 있으며, 이를 바탕으로 문장을 이해하고 처리할 수 있다


### 형태소 어휘 사전

자연어 처리에서 사용되는 단어의 집합인 어휘사전 중에서도 각 단어의 형태소 정보를 포함하는 사전을 말한다

단어가 어떤 형태소들의 조합으로 이뤄져 있는지에 대한 정보를 담고 있어 형태소 분석 작업에서 매우 중요한 역할을 한다

일반적으로 형태소 어휘 사전에는 각 형태소가 어떤 품사에 속하는 지와 해당 품사의 뜻 정보도 함께 제공된다

텍스트 데이터를 형태소 분석하여 각 형태소에 해당하는 뭄사를 태깅하는 작업을 품사 태깅이라고 한다 

이를 통해 자연어 처리 분야에서 문맥을 고려할 수 있어 더욱 정확한 분석이 가능해진다



### KoNLPy

한국어 자연어 처리를 위해 개발된 라이브러리로 명사추출, 형태소 분석, 품사 태깅 등의 기능을 제공한다

텍스트 데이터를 전처리하고 분석하기 위한 다양한 도구와 함수를 제공해 텍스트 마이닝, 감성 분석, 토픽 모델링 등 다양한 NLP 작업에서 활용된다

#### OKT

In [17]:
from konlpy.tag import Okt


okt = Okt()

sentence = "무엇이든 상상할 수 있는 사람은 무엇이든 만들어 낼 수 있다."

nouns = okt.nouns(sentence)
phrases = okt.phrases(sentence)
morphs = okt.morphs(sentence)
pos = okt.pos(sentence)

print("명사 추출 :", nouns)
print("구 추출 :", phrases)
print("형태소 추출 :", morphs)
print("품사 태깅 :", pos)


명사 추출 : ['무엇', '상상', '수', '사람', '무엇', '낼', '수']
구 추출 : ['무엇', '상상', '상상할 수', '상상할 수 있는 사람', '사람']
형태소 추출 : ['무엇', '이든', '상상', '할', '수', '있는', '사람', '은', '무엇', '이든', '만들어', '낼', '수', '있다', '.']
품사 태깅 : [('무엇', 'Noun'), ('이든', 'Josa'), ('상상', 'Noun'), ('할', 'Verb'), ('수', 'Noun'), ('있는', 'Adjective'), ('사람', 'Noun'), ('은', 'Josa'), ('무엇', 'Noun'), ('이든', 'Josa'), ('만들어', 'Verb'), ('낼', 'Noun'), ('수', 'Noun'), ('있다', 'Adjective'), ('.', 'Punctuation')]


okt 객체는 문장을 입력받아 명사, 구, 형태소, 품사 등의 정보를 추출하는 여러 가지 메서드를 제공한다

대표적으로 명사 추출, 구문 추출, 형태소 추출, 품사 태깅이다

![image.png](attachment:image.png)

In [18]:
from konlpy.tag import Kkma


kkma = Kkma()

sentence = "무엇이든 상상할 수 있는 사람은 무엇이든 만들어 낼 수 있다."

nouns = kkma.nouns(sentence)
sentences = kkma.sentences(sentence)
morphs = kkma.morphs(sentence)
pos = kkma.pos(sentence)

print("명사 추출 :", nouns)
print("문장 추출 :", sentences)
print("형태소 추출 :", morphs)
print("품사 태깅 :", pos)

명사 추출 : ['무엇', '상상', '수', '사람', '무엇']
문장 추출 : ['무엇이든 상상할 수 있는 사람은 무엇이든 만들어 낼 수 있다.']
형태소 추출 : ['무엇', '이', '든', '상상', '하', 'ㄹ', '수', '있', '는', '사람', '은', '무엇', '이', '든', '만들', '어', '내', 'ㄹ', '수', '있', '다', '.']
품사 태깅 : [('무엇', 'NNG'), ('이', 'VCP'), ('든', 'ECE'), ('상상', 'NNG'), ('하', 'XSV'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VV'), ('는', 'ETD'), ('사람', 'NNG'), ('은', 'JX'), ('무엇', 'NP'), ('이', 'VCP'), ('든', 'ECE'), ('만들', 'VV'), ('어', 'ECD'), ('내', 'VXV'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VV'), ('다', 'EFN'), ('.', 'SF')]


꼬꼬마는 명사, 문장, 형태소 , 품사를 추출할 수 있다

꼬꼬마는 구문 추출 기능은 지원하지 않지만 문장 추출 기능을 제공한다

동일한 메서드라도 형태소 분석기의 특징에 따라 다른 결과 를 제출한다

품사를 예로 들어 okt는 19개의 품사를 구분해 반환하고 꼬꼬마는 56개의 품사로 반환한다

품사의 수가 많으면 더 자세하게 분석이 가능하지만 품사 태깅에 소요되는 시간도 길어지며 더 많은 품사로 인해 성능이 저하 될수 있다

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### NLTK

자연어 처리를 위해 개발된 라이브러리로 토큰화, 형태소 분석, 구문 분석, 개체명 인식, 감성 분석 등과 같은 기능을 제공한다

주로 영어 자연어 처리를 위해 개발됐지만 네덜란드어, 프랑스어, 독일어 등과 같은 다양한 언어의 자연어 처리를 위한 데이터와 모델을 제공한다

In [25]:
from nltk import tokenize


sentence = "Those who can imagine anything, can create the impossible."

word_tokens = tokenize.word_tokenize(sentence)
sent_tokens = tokenize.sent_tokenize(sentence)

print(word_tokens)
print(sent_tokens)

['Those', 'who', 'can', 'imagine', 'anything', ',', 'can', 'create', 'the', 'impossible', '.']
['Those who can imagine anything, can create the impossible.']


영문 토큰화는 punkt 모델을 기반으로 단어나 문장을 토큰화 한다 

단어 토크나이저(word_tokenize)는 문장을 입력받아 공백을 기준으로 단어를 분리하고 구두점 등을 처리해 각각의 단어를 추출해 리스트로 반환한다

문장 토크나이저(sent_tokenize)는 문장을 입력받아 마침표, 느낌표 등의 구두점을 기준으로 문장을 분리해 리스트로 반환한다

영어는 한국어보다 토큰화하기 쉬운 구조를 가지고 있어 이와 같은 방법으로 간단하게 단어나 문장으로 토큰화를 수행할 수 있다

In [28]:
from nltk import tag
from nltk import tokenize


sentence = "Those who can imagine anything, can create the impossible."

word_tokens = tokenize.word_tokenize(sentence)
pos = tag.pos_tag(word_tokens)

print(pos)

[('hi', 'NN'), ('!', '.'), ('my', 'PRP$'), ('name', 'NN'), ('is', 'VBZ'), ('youngjunpark', 'RB'), ('!', '.')]


품사 태깅(pos_tag) 메서드는 토큰화 된 문장에서 품사 태깅을 수행한다

품사 태깅을 수행하기 위해서는  토큰화된 단어들이 들어가야 한다

총 35개 품사를 태깅할 수 있다

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### spaCy

사이썬(cython)을 기반으로 개발된 오픈 소스 라이브러리이고

NLTK와의 주요 차이점은 빠른 속도와 높은 정확도를 목표로 하는 머신러닝 기반의 자연어 처리 라이브러리이다

NLTK는 학습 목적으로 자연어 처리에 대한 다양한 알고리즘과 예제를 제공하는 반면 spaCy는 효율적인 처리 속도와 높은 정확도를 제공하는 것을 목표로 한다

그러므로 NLTK에서 사용하는 모델보다 더 크고 복잡하며 더 많은 리소스를 요구한다

spaCy는 GPU 가속을 비롯해 영어, 프랑스어, 한국어, 일본어 등 24개 이상의 언어로 사전학습된 모델을 제공한다

In [9]:
import spacy


nlp = spacy.load("en_core_web_sm")
sentence = "Those who can imagine anything, can create the impossible."
doc = nlp(sentence)

for token in doc:
    print(f"[{token.pos_:5} - {token.tag_:3}] : {token.text}")

[PRON  - DT ] : Those
[PRON  - WP ] : who
[AUX   - MD ] : can
[VERB  - VB ] : imagine
[PRON  - NN ] : anything
[PUNCT - ,  ] : ,
[AUX   - MD ] : can
[VERB  - VB ] : create
[DET   - DT ] : the
[ADJ   - JJ ] : impossible
[PUNCT - .  ] : .


spaCy는 사전학습된 모델을 기반으로 처리하기 때문에 load를 통해 설정할 수 있다

객체 지향적으로 구현되어 처리한 결과를 doc 객체에 저장한다

doc 객체는 다시 여러 token 객체로 이루어져 있으며 이 token 객체에 대한 정보를 바탕으로 다양한 자연어 처리 작업을 수행한다

token 객체에는 기본 품사 속성(pos_), 세분화 품사 속성(tag_), 원본 텍스트 데이터(text), 토큰 사이의 공백을 포함하는 텍스트 데이터(text_with_ws), 벡터(vector), 벡터 노름(vector_norm) 등의 속성이 포함되어 있다

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)