# POS Tagger

### 1. 형태소(Morpheme)

- Smallest independent unit in any natural language<br>
- 의미를 가진 최소단위(the most basic unit of meaning)이며, 더 쪼개면 의미를 잃어버리는 단위<br>
  '길동'과 같은 단어는 '길'과 '동'으로 쪼갤 경우 본래 의미를 손실-> '길동'은 형태소<br>
- morphemes = stems(어근) + affixes(접사)<br>
- 뜻을 가진 최소단위<br>
  
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 

### 2. 형태소(Morpheme) 분석

- 형태소 분석(POS-tagging)이란 원시말뭉치를 형태소 단위로 쪼개고 각 형태소에 품사 정보를 부착하는 작업

### 3. POS Tagger

- KoNLPy 는 Python에서 한국어 텍스트의 전처리를 할 수 있도록 토크나이징 / 품사 태깅 / 명사 추출을 하는 Packages입니다.
- 트위터 형태소 분석기, 한나눔, 꼬꼬마, 코모란, 한국어-매캅 등 다양한 종류의 공개된 한국어 형태소 분석기들이 KoNLPy에 들어있습니다. <br>
  각 형태소 분석기마다 구현된 언어가 다릅니다. 특히 자바로 구현된 형태소 분석기들을 사용하기 위해서 JPype1을 먼저 설치하여야 합니다.
- <b>꼬꼬마</b>는 세종품사태그(https://goo.gl/hwS12b) 에 가장 가깝고 분석 범주 또한 가장 많습니다. 
- <b>트위터</b>는 꼬꼬마 대비 분석 범주가 다소 적은 편이지만 이모티콘이나 해쉬태그 같은 인터넷 텍스트에 특화된 범주가 추가된 점이 눈에 띕니다. 
- <b>코모란</b>은 분석 범주 개수로는 꼬꼬마와 트위터 중간에 위치하고, 개발자 분께서 지속적으로 업데이트를 해주시고 계신 점이 강점이라고 할 수 있겠습니다

- 빠른 분석이 중요할 때 : 트위터
- 정확한 품사 정보가 필요할 때 : 꼬꼬마
- 정확성, 시간 모두 중요할 때 : 코모란

<p align="center"><img src="img/029_text_ml_pos_taggers.png" alt="Drawing" style="width: 650px; height: 400px; align:center"/></p>

In [11]:
from konlpy.tag import Kkma, Twitter, Hannanum
from pprint import pprint

In [12]:
taggers = [('kkma', Kkma()), ('twitter', Twitter()), ('hannanum', Hannanum())]

- twitter가 이름이 Okt로 변경되었음을 확인 할 수 있습니다.

In [14]:
for name, tagger in taggers:
    print('tagger name = {:10}\tclass_name = {}'.format(name, tagger.__class__))

tagger name = kkma      	class_name = <class 'konlpy.tag._kkma.Kkma'>
tagger name = twitter   	class_name = <class 'konlpy.tag._okt.Okt'>
tagger name = hannanum  	class_name = <class 'konlpy.tag._hannanum.Hannanum'>


In [16]:
%%time
print('pos_tagger name = %s' % taggers[2][0])
pprint(taggers[2][1].pos('이건 테스트 문장입니다'))

pos_tagger name = hannanum
[('이', 'N'),
 ('이', 'J'),
 ('건', 'E'),
 ('테스트', 'N'),
 ('문장', 'N'),
 ('이', 'J'),
 ('ㅂ니다', 'E')]
CPU times: user 26.3 ms, sys: 98.5 ms, total: 125 ms
Wall time: 244 ms


패키지마다 품사표가 좀 다릅니다. 각 품사표를 확인하고 싶다면 [KoNLPy][konlpy_page]의 [품사 태그 비교표][tag_table]를 보셔도 좋고, 아래와 같이 각 형태소 분석기의 태그셋을 확인하셔도 좋습니다

[konlpy_page]: http://konlpy.org/ko/v0.4.4/morph/
[tag_table]: https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0

In [17]:
print('pos_tagger name = %s' % taggers[1][0])
pprint(taggers[0][1].tagset)

pos_tagger name = twitter
{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN':

In [18]:
print('pos_tagger name = %s' % taggers[2][0])
pprint(taggers[0][1].tagset)

pos_tagger name = hannanum
{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN'

In [19]:
sents = [
'마이크로소프트(MS) 윈도우7 보안 업데이트 중단이 코 앞으로 다가왔지만, 아직도 많은 PC가 윈도우7으로 구동되고 있다. 때문에 이전에 겪었던 윈도우XP 보안 업데이트 중단에 따른 보안 대란이 한 차례 더 재현될 전망이다',
'MS는 내년 2020년 1월 14일 윈도우7을 위한 보안 업데이트 지원을 중단한다. 약 300일 정도 남았다. 업데이트 지원이 중단되어도 윈도우7을 사용할 순 있지만, 이후 새로 발견된 보안 취약점으로 악성코드가 침입하는 것을 감수해야 한다.',
'원래 MS는 운영체제에서 보안 취약점이 발견되면 해당 취약점으로 악성코드가 침투하지 못하도록 관련 보안 업데이트/패치를 제공했다. 하지만 내년 1월 14일 이후로는 이들 업데이트가 더 이상 제공되지 않는다. 최신 바이러스, 악성코드, 랜섬웨어 공격에 PC가 무방비로 노출되는 셈이다.',
'윈도우7의 높은 보급율이 문제다. 국내 PC 10대 가운데 3대는 여전히 윈도우7이 깔려 있다. 보안면에서 상대적으로 안전한 최신 운영체제인 윈도우10은 10대 중 2대에 불과하다. 내년이면 국민 10명 가운데 7명이 온갖 보안위협에 직면하게 된다.',
'특히 악성코드가 PC에 침입하면 심각한 피해를 야기할 수 있는 공공기관이나 의료시설, 공장 등에 윈도우7 탑재 PC가 상당히 많다. 윈도우 라이선스나 소프트웨어 호환성 문제 등으로, 당장 윈도우7에서 벗어나지 못하는 실정이기 때문이다.',
'MS는 오는 4월부터 윈도우7 관련 보안 지원이 곧 종료된다는 공지를 사용자의 PC에 팝업 창으로 띄울 계획이다. 사용자들에게 경각심을 심어주기 위해서다. 윈도우7 보급율이 높아 내려진 결정이다.',
'윈도우7 PC는 윈도우10 PC로 업그레이드해야 한다.윈도우7 PC는 윈도우10 PC로 업그레이드해야 한다. ',
'보안 위협을 피하는 가장 확실한 방법은 역시, 운영체제를 최신 버전인 윈도우10으로 업그레이드하는 것이다. MS는 처음 윈도우10이 출시됐을 때 홍보 차원에서 무료 업그레이드 서비스를 제공한 바있다. 현재 무료 업그레이드 서비스는 종료됐고, 재개할 계획은 없다. 따라서 윈도우10을 이용하려면 MS 스토어나 온라인 마켓에서 윈도우10 정품을 구매해야 한다. 물론 소프트웨어 호환성도 이제는 적극 대응해야 할 때다.',
'MS 관계자는 "윈도우10은 최신 운영체제임에도 윈도우7보다 가볍고 빠르다. 보안성도 훨씬 우수하고 호환성 문제 등도 모두 해결되었다"며, "남은 1년 기간 동안 윈도우7 PC를 윈도우10 PC로 업그레이드해, 보안 위협으로부터 PC와 파일, 데이터, 자신 등을 지키기를 적극 권장한다"고 말했다.'
]

In [20]:
import time

tokens = []

for name, tagger in taggers:
    
    process_time = time.time()    
    tokens.append([pos for sent in sents for pos in tagger.pos(sent)])    
    process_time = time.time() - process_time # POS Tagger당 Processing Time
    
    print('tagger name = {}, {:.3} secs'.format(name, process_time))

tagger name = kkma, 8.36 secs
tagger name = twitter, 2.33 secs
tagger name = hannanum, 0.218 secs


- 아래 token분리된 내용을 보면 마이크로소프트가 '마이크로'와 '소프트'로 분리된 것을 확인 할 수 있습니다. 이는 형태소 분석기(Kkma)가 학습할때 '마이크로소프트가' 없었기 때문입니다.
- 이를 out of vocabulary problem라 하여, 알려지지 않은 단어를 제대로 인식하지 못하는 문제입니다.

In [21]:
print(tokens[0][:30], '... ', '{} tokens'.format(len(tokens[0])))

[('마이크로', 'NNG'), ('소프트', 'NNG'), ('(', 'SS'), ('MS', 'OL'), (')', 'SS'), ('윈도우', 'NNG'), ('7', 'NR'), ('보', 'NNB'), ('안', 'NNG'), ('업데이트', 'NNG'), ('중단', 'NNG'), ('이', 'JKS'), ('코', 'NNG'), ('앞', 'NNG'), ('으로', 'JKM'), ('다가오', 'VV'), ('았', 'EPT'), ('지만', 'ECE'), (',', 'SP'), ('아직', 'MAG'), ('도', 'JX'), ('많', 'VA'), ('은', 'ETD'), ('PC', 'OL'), ('가', 'JKS'), ('윈도우', 'NNG'), ('7', 'NR'), ('으로', 'JKM'), ('구동', 'NNP'), ('되', 'XSV')] ...  635 tokens


- 각 단어의 출현 회수를 카운팅 하는 방법은 다음과 같은 방법이 있습니다.<br>
  (1) dict를 이용하는 방법<br>
  (2) defaultdict을 이용하는 방법<br>
  (3) collections.Counter를 이용하는 방법

- token 내용을 확인 합니다.<br>
- 데이터가 word, 품사(POS) 순으로 저장되어 있음을 확인할 수 있습니다.(Kkma로 POS처리된 50개 데이터만 확인 합니다.)

In [66]:
from pprint import pprint
print(tokens[0][:50])

[('마이크로', 'NNG'), ('소프트', 'NNG'), ('(', 'SS'), ('MS', 'OL'), (')', 'SS'), ('윈도우', 'NNG'), ('7', 'NR'), ('보', 'NNB'), ('안', 'NNG'), ('업데이트', 'NNG'), ('중단', 'NNG'), ('이', 'JKS'), ('코', 'NNG'), ('앞', 'NNG'), ('으로', 'JKM'), ('다가오', 'VV'), ('았', 'EPT'), ('지만', 'ECE'), (',', 'SP'), ('아직', 'MAG'), ('도', 'JX'), ('많', 'VA'), ('은', 'ETD'), ('PC', 'OL'), ('가', 'JKS'), ('윈도우', 'NNG'), ('7', 'NR'), ('으로', 'JKM'), ('구동', 'NNP'), ('되', 'XSV'), ('고', 'ECE'), ('있', 'VXV'), ('다', 'EFN'), ('.', 'SF'), ('때문', 'NNB'), ('에', 'JKM'), ('이전', 'NNG'), ('에', 'JKM'), ('겪', 'VV'), ('었', 'EPT'), ('더', 'EPT'), ('ㄴ', 'ETD'), ('윈도우', 'NNG'), ('XP', 'OL'), ('보안', 'NNG'), ('업데이트', 'NNG'), ('중단', 'NNG'), ('에', 'JKM'), ('따르', 'VV'), ('ㄴ', 'ETD')]


- counter는 dict이므로 keys(), values, items()를 가집니다. <br>
- 이 때 items()의 return은 [(key, value), (key, value), ...] 형태<br>
- 정렬 대상 (key, value)를 x로 볼 때, x의 1번째 값 x[1]을 기준으로 정렬하라는 의미이며, 순서는 1, 2, 3, ..의 오름차순이 아닌 역순으로 하라는 의미

In [57]:
from collections import Counter
from pprint import pprint

# Kkma Tokenizer
counter = Counter(tokens[0]) 
# word = (word, POS), freq = frequency
counter = {word:freq for word, freq in counter.items() if (freq>=4) and (word[1][:2] == 'NN')} 

# frequency를 가지고 sorting를 하게 됩니다.
pprint(sorted(counter.items(), key=lambda x:x[1], reverse=True))

[(('윈도우', 'NNG'), 20),
 (('보안', 'NNG'), 9),
 (('업데이트', 'NNG'), 6),
 (('업그레이드', 'NNG'), 6),
 (('윈도', 'NNG'), 5),
 (('우', 'NNG'), 5),
 (('중단', 'NNG'), 4),
 (('악성', 'NNG'), 4),
 (('코드', 'NNG'), 4),
 (('운영', 'NNG'), 4),
 (('체제', 'NNG'), 4),
 (('최신', 'NNG'), 4),
 (('대', 'NNM'), 4)]


- 전체 POS Tagger를 통해서 POS 분석을 한 결과를 출력합니다.

In [67]:
for (name, _), _tokens in zip(taggers, tokens):
    print('\n\nPart of speech tagger: {}'.format(name))
    counter = Counter(_tokens)
    counter = {word:freq for word, freq in counter.items() if (freq >= 4) and (word[1][:1] == 'N')} # 4회 이상 출현 단어중, POS가 N으로 시작하는
    pprint(sorted(counter.items(), key=lambda x:x[1], reverse=True))



Part of speech tagger: kkma
[(('윈도우', 'NNG'), 20),
 (('7', 'NR'), 15),
 (('10', 'NR'), 12),
 (('보안', 'NNG'), 9),
 (('업데이트', 'NNG'), 6),
 (('업그레이드', 'NNG'), 6),
 (('윈도', 'NNG'), 5),
 (('우', 'NNG'), 5),
 (('중단', 'NNG'), 4),
 (('악성', 'NNG'), 4),
 (('코드', 'NNG'), 4),
 (('운영', 'NNG'), 4),
 (('체제', 'NNG'), 4),
 (('최신', 'NNG'), 4),
 (('대', 'NNM'), 4)]


Part of speech tagger: twitter
[(('윈도우', 'Noun'), 25),
 (('7', 'Number'), 15),
 (('보안', 'Noun'), 12),
 (('10', 'Number'), 12),
 (('업데이트', 'Noun'), 6),
 (('업그레이드', 'Noun'), 6),
 (('중단', 'Noun'), 4),
 (('악성코드', 'Noun'), 4),
 (('운영체제', 'Noun'), 4),
 (('최신', 'Noun'), 4),
 (('등', 'Noun'), 4)]


Part of speech tagger: hannanum
[(('윈도우7', 'N'), 14),
 (('보안', 'N'), 10),
 (('윈도우10', 'N'), 8),
 (('업데이트', 'N'), 5),
 (('중단', 'N'), 4),
 (('악성코드', 'N'), 4),
 (('운영체제', 'N'), 4),
 (('최신', 'N'), 4),
 (('등', 'N'), 4)]


- 모든 데이터에 적합한 한국어 형태소 분석기는 '아직'까지는 없습니다. 그리고 한국어로 기술되었다고 하더라도, 차용한 글자만 한글일 뿐, 한국어는 아닌 언어들도 많이 있습니다. 특히 도메인 특수 용어들의 처리는 POS처리에 있어서 어려운 영역에 속합니다.
- 주어진 시간 안에 작업이 끝날 수 있는지와 주어진 데이터에 대한 형태소 분석기의 경향, 정성적 품질을 확인하고 사용하여야 합니다.


### 4. 기타 POS Tagger

- 최근에는 딥러닝을 이용하여 품사태깅을 하는 시도들이 있습니다. 얼마전 Kakao의 Khaiii("Kakao Hangul Analyzer III")같은 사례들이 있습니다.
&nbsp;https://github.com/kakao/khaiii