## 2-4. 품사 태깅 (Part-of-Speech Tagging)
토큰화와 정규화 과정을 거쳐 나온 각 결과를 보통은 형태소라고 하는데, 형태소는 '의미를 가진 가장 작은 말의 단위'를 의마하며 더 나누게 되면 본래의 뜻을 잃어버리게 된다. 예를 들어 '책가방'이라는 단어를 '책'과 '가방'으로 나눌 수 있고 본래의 의미를 알 수 있으나, '가방'을 '가'와 '방'으로 나눈다면 '가방'이 가진 본래의 의미는 사라진다. 따라서 '책'과 '가방'까지는 형태소로 볼 수 있으나, '가'와 '방'은 형태소라고 할 수 없다.

토큰화와 정규화 과정을 통해서 이렇게 형태소까지 분리할 것인지는 전적으로 분석을 수행하는 사람의 판단에 달려있다. 형태소까지 분리하지 않아도 좋은 결과를 얻을 수 있다면 굳이 하지 않아도 된다. 다만 텍스트 마이닝을 배울 때는 모든 과정을 정확히 이해한 후 선택할 수 있어야 한다. 영어는 각 단어와 형태소가 비교적 명확해 결과도 정확한 편이나, 한글은 동음이의어가 많고 품사 자체도 복잡하여 매우 어려운 작업에 속해 정확한 결과를 기대하기 어렵다.

### 품사의 이해
    품사는 "명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사와 같이 공통된 성질을 지닌 낱말끼리 모아 놓은 낱말의 갈래"를 말한다. -네이버 지식백과 초등국어 개념사전

위 품사에 대한 설명이 초등국어 개념사전의 내용이긴 하지만, 언어학을 전공하지 않은 보통 사람에겐 훨씬 이해하기 쉬운 설명이다. "낱말"은 '뜻을 가지고 홀로 쓰일 수 있는 말의 가장 작은 단위'라는 뜻으로, 위에서 말한 형태소와 의미상 비슷해 보인다. 그러나 낱말은 '홀로 쓰일 수 있는', 즉 자립 형식이라는 점에서 중요한 차이가 있다. 예를 들어 '맨손'은 '맨'과 '손'의 두 형태소로 이루어진 단어인데, '맨'은 자립성이 없어 독립적으로 쓰지 못하므로 낱말이 아니다. 앞서 말한 바와 같이 우리가 주어진 텍스트를 분리할 때, 낱말 혹은 형태소까지 하는 것이 좋은 지는 전적으로 최종 분석하고자 하는 내용과 성능에 달려있다.

품사 중 용언은 동사와 형용사를 함께 부르는 말이고 명사, 대명사, 수사를 묶어 체언이라고 한다. 관형사와 부사를 묶어 수신언이라고 하며, 조사를 관계언, 감탄사를 독립언이라고 부른다. 품사 태깅은 형태소에 대해 품사를 파악해 부착(tagging)하는 작업을 말한다. 

##### 공용 품사 태그 집합
품사 태그는 언어나 학자에 따라 다르게 정의되는 경우가 많다. 다양한 언어에서 공통되는 품사 태그를 나타낸 NLTK에서 사용되는 간소화된 태그 세트인 *공용 품사 태그 집합*이 있는데, 각 언어의 특지엥 따라 품사도 달라지기 때문에 한국어의 품사와는 차이가 있다. 따라서 공용 품사 태그 집합은 주로 영어를 비로산 외국어를 다룰 때 참고하면 되며, 이러한 공용 품사 태그 집합도 연구하는 주체에 따라 다르게 정의되므로 반드시 표준이라고 생각할 필요는 없다.

##### 펜 트리뱅크 태그 집합
NLTK는 간소화된 태그 집합 외에 *펜 트리뱅크 태그 집합(Penn Treebank Tagset)*을 재공한다. 이 태그 집합은 공용 품사 태그 집합에 비해 훨씬 세분화된 품사 분류를 사용하며, 36개의 태그들로 구성되어 있다. 굳이 품사 태그를 모두 외우거나 이해하려고 할 필요는 없으며, 필요할 때 참고하면 된다.

### NLTK를 활용한 품사 태깅
품사 태깅에 대해 이해하는 것에 비해 실제 품사 태깅을 하는 것은 훨씬 쉽다. 영어로 된 텍스트에 대해 품사 태깅을 하려는 경우에 NLTK를 쓰는 것이 가장 편하다. nltk.pos_tag()는 토큰화된 결과에 대해 품사를 태깅하여 (단어, 품사)로 구성된 튜플의 리스트로 품사 태깅 결과를 반환해준다.

In [1]:
import nltk
from nltk.tokenize import word_tokenize

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!")
print(nltk.pos_tag(tokens))

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]


NLTK는 펜 트리뱅크 태그 집합을 사용하므로 해당 집합을 참고하면 품사 약어의 의미를 알 수 있다. 품사의 약어를 잘 모를 경우에는 아래와 같이 nltk.help.upenn_tagset()을 사용해 품사 약어의 의미와 설명을 볼 수 있다.

In [2]:
nltk.help.upenn_tagset('NNP')

NNP: noun, proper, singular
    Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
    Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
    Shannon A.K.C. Meltex Liverpool ...


##### 원하는 품사의 단어들만 추출
자연어 분석을 할 때는 상황에 따라 명사만 필요하거나, 특정 품사들만 사용할 때가 있다. 이런 경우 아래와 같은 방법으로 원하는 품사들을 골라낼 수 있다.

In [3]:
my_tag_set = ['NN', 'VB', 'JJ']
my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]
print(my_words)

['everyone', 'good', 'see', 'Let', 'start', 'text', 'mining', 'class']


##### 단어에 품사 정보를 추가해 구분
동음이의어를 처리하건 품사를 이용해 단어를 더 정확히 구분하고 싶다면, 아래와 같이 단어 뒤에 품사 태그를 풑여 사용할 수 있다. 실제로 문장의 의미를 정확히 파악하려고 많이 쓰는 기법이며 BOW를 이용한 문서 분류에서 품사 정보를 추가한 경우와 그렇지 않은 경우의 성능 차이를 비교해 볼 수 있다.

In [4]:
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]
print(words_with_tag)

['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN', '!/.']


### 한글 형태소 분석과 품사 태깅
##### 형태소 분석
먼저 형태소는 우리말에서 '뜻을 가진 가장 작은 말의 단위'를 의미한다. 영어에 대한 토큰화와 마찬가지로 우리말을 토큰화하려면 혀앹소 단위로 분리하는 것이 맞다. 다만 영어에서는 형태소에 해당하는 것이 공백으로 분리된 단어와 거의 일치해서 토큰화 과정이 비교적 쉬웠으나, 우리말에서는 여러 형태소가 합쳐져 하나의 어절이 되는 경우가 많아 공백을 기준으로 분리할 수 없다는 문제가 있다.

어절을 이해하려면 음절, 형태소, 단어, 어절을 순서대로 이해할 필요가 있다. "음절"은 '하나의 종합된 음의 느낌을 주는 말소리의 단위'이다. '하늘이 참 높고 푸르다'라는 문장이 있을 때, 음절 단위로 분리하면 '하/느/리/참/놉/꼬/푸/르/다'로 9개의 음절이 된다. 문장을 한 글자씩 분리한 것과 음절은 다르다는 것에 유의해야 한다. 다음은 "형태소"로 '뜻을 가진 가장 작은 말의 단위'이므로 '하늘/이/참/높/고/푸르/다'로 분리된다. 다음 단계인 "단어"는 '홀로 쓸 수 있는 말'로 '하늘/이/참/높고/푸르다'가 된다. "어절"은 '문장을 구성하는 각각의 마디로, 띄어쓰기의 단위'다. 즉 어절 단위로 분리하면 '하늘이/참/높고/푸르다'가 된다.

토큰화를 할 때 형태소 단위로하는 이유는 결국 우리가 알고싶은 것은 문장의 의미이기 때문에, 토큰화는 의미 단위로 이루어져야 하는 것이 맞기 때문이다. 형태소 분석을 하고 난 뒤 독립적 의미가 없거나 약한 형태소는 이후 분석에서 큰 의미가 없을 수 있으므로 삭제하는 것이 일반적이다. 위 문장에서 '하늘'은 의미가 있으므로 남겨두는 것이 맞지만, '이' 같은 조사나 '고' 같은 어미는 문장 의미 파악에 별 도움이 안 될 가능성이 높으므로 삭제하는 경우가 많다.

##### 품사 태깅
한국어의 품사 체계는 당연히 영어와 차이가 있으나 공통되는 부분이 많으므로 앞서 설명한 품사에 대한 설명으로도 충분히 이해 가능할 것이다. 가장 큰 차이는 조사에서 드라나는데, 영어에는 직접적으로 조사가 없고 이와 비슷한 기능을 하는 전치사와 be동사가 있을 수 있으나 분명한 차이가 있다. 영어는 명사, 대명사, 형용사, 동사, 부사, 전치사, 접속사, 감탄사의 8품사로 구성된 반면, 우리말은 전치사와 접속사가 없고, 수사, 조사, 관형사가 들어간 9품사로 이뤄진다. 이러한 체계를 알면 도움이 되겠지만 반드시 알아야 할 지식까지는 아니다.

##### 한글 형태소 분석과 품사 태깅

In [5]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

In [6]:
tokens = word_tokenize(sentence)
print(tokens)
print(nltk.pos_tag(tokens))

['절망의', '반대가', '희망은', '아니다', '.', '어두운', '밤하늘에', '별이', '빛나듯', '희망은', '절망', '속에', '싹트는', '거지', '만약에', '우리가', '희망함이', '적다면', '그', '누가', '세상을', '비출어줄까', '.', '정희성', ',', '희망', '공부']
[('절망의', 'JJ'), ('반대가', 'NNP'), ('희망은', 'NNP'), ('아니다', 'NNP'), ('.', '.'), ('어두운', 'VB'), ('밤하늘에', 'JJ'), ('별이', 'NNP'), ('빛나듯', 'NNP'), ('희망은', 'NNP'), ('절망', 'NNP'), ('속에', 'NNP'), ('싹트는', 'NNP'), ('거지', 'NNP'), ('만약에', 'NNP'), ('우리가', 'NNP'), ('희망함이', 'NNP'), ('적다면', 'NNP'), ('그', 'NNP'), ('누가', 'NNP'), ('세상을', 'NNP'), ('비출어줄까', 'NNP'), ('.', '.'), ('정희성', 'NN'), (',', ','), ('희망', 'NNP'), ('공부', 'NNP')]


위 예시에서 볼 수 있듯이 NLTK로는 품사 태깅에 앞서 토큰화도 제대로 할 수가 없다. NLTK의 word_tokenize는 '절망의'를 하나의 토큰으로 분리했으나, '절망의'는 명사 '절망'과 조사 '의'로 분리돼야 한다. 따라서 애초에 품사 태깅이 제대로 될 수 없는 상황이다. NLTK는 품사 태깅의 결과로 '절망의' 토큰에 'JJ(형용사)'를 부착했으나 당연히 옳지 않다. 따라서 한국어를 제대로 토큰화하고 품사 태깅할 수 있는 다른 라이브러리를 써야 한다.

파이썬에서 쓸 수 있는 대표적인 형태소 분석 및 품사 태깅 라이브러리는 KoNLPy가 있다. KoNLPy는 Hannanum, Kkma, Komoran, Twitter, Wecab 이렇게 다섯 종의 형태소 분석기를 제공하며, [홈페이지](http://konlpy-ko.readthedocs.io/ko/latest)에 각 분석기 간 성능 비교를 참고할 수 있다. 이 책은 속도를 위해 주로 Twitter 클래스를 사용하지만, 추후에는 직접 사용해보고 용도에 맞는 것을 선택하는 것이 좋다. 설치 방법은 [홈페이지](https://konlpy.org/ko/latest/install/)에 OS별로 잘 설명돼있다.

##### KoNLPy의 형태소 분석 및 품사 태깅 기능 사용법
5개 형태소 분석기 클레스에서 공통으로 지원하는 세 함수에 대한 간략한 설명은 아래와 같다. 상세한 사용법은 [KoNLPy 문서](http://konlpy.org/ko/latest/api/konlpy.tag/)를 참고.
- **morphs(phrase)**: 주어진 텍스트를 형태소 단위로 분리한다. 따라서 반환 결과는 형태소의 리스트다.
- **nouns(phrase)**: 주어진 텍스트를 형태소 단위로 분리해서 명사만 반환한다. 즉, 반환 결과는 텍스트에 있는 명사의 리스트다.
- **pos(phrase)**: 주어진 텍스트를 형태소 단위로 분리하고, 각 형태소에 품사를 부착해 반환한다. 반환되는 형태는 NLTK와 동일하게 (단어, 품사)로 구성된 튜플의 리스트다. NLTK와 다른 점은, NLTK에서는 먼저 토큰화를 하고 품사 태깅을 한 것에 미해 KoNLPy는 품사 태깅 함수가 토큰화를 함께 수행한다는 점이다.

아래 예시를 보면 형태소 분석 결과 혹은 태깅 결과를 명확히 이해할 수 있다.


In [7]:
from konlpy.tag import Okt

t = Okt()

print('형태소:', t.morphs(sentence))
print()
print('명사:', t.nouns(sentence))
print()
print('품사 태깅 결과:', t.pos(sentence))

형태소: ['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비출어줄까', '.', '\n', '정희성', ',', '희망', '공부']

명사: ['절망', '반대', '희망', '어', '두운', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '우리', '희망', '함', '그', '누가', '세상', '정희성', '희망', '공부']

품사 태깅 결과: [('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('어', 'Noun'), ('두운', 'Noun'), ('밤하늘', 'Noun'), ('에', 'Josa'), ('별', 'Noun'), ('이', 'Josa'), ('빛나듯', 'Verb'), ('\n', 'Foreign'), ('희망', 'Noun'), ('은', 'Josa'), ('절망', 'Noun'), ('속', 'Noun'), ('에', 'Josa'), ('싹트는', 'Verb'), ('거지', 'Noun'), ('\n', 'Foreign'), ('만약', 'Noun'), ('에', 'Josa'), ('우리', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('함', 'Noun'), ('이', 'Josa'), ('적다면', 'Verb'), ('\n', 'Foreign'), ('그', 'Noun'), ('누가', 'Noun'), ('세상