## Konlpy
- konlpy.tag : 품사 태깅을 하기 위한 옵션. 모두 문구를 입력받아 태깅된 형태소를 출력하는 동일한 입출력 구조를 가짐
    - Mecab() : Windows에서는 지원하지 않음
    - Okt : Open-source Korean Tokenizer written in Scala
- konlpy.utils.pprint : 유니코드 Pretty printer
<br><br>
**Ref.**
[형태소 분석 및 품사 태깅](https://konlpy.org/ko/v0.6.0/morph/)
[tag Package](https://konlpy.org/ko/v0.6.0/api/konlpy.tag/)
[utils Module](https://konlpy-ko.readthedocs.io/ko/v0.4.3/api/konlpy/#module-konlpy.utils)


In [1]:
import konlpy

from konlpy.tag import Kkma, Komoran, Hannanum, Okt
from konlpy.utils import pprint

In [2]:
sentence = '해당 패키지는 한국어 문장에 대해 토크나이징을 실시하여 품사에 대한 형태소를 출력합니다.'
kkma, komoran, hannanum = Kkma(), Komoran(), Hannanum()
analyzers = [kkma, komoran, hannanum]

for analyzer in analyzers:
    print(str(analyzer))
    print(analyzer.morphs(sentence))
    print(analyzer.pos(sentence))
    print(analyzer.tagset)

<konlpy.tag._kkma.Kkma object at 0x0000021207F8FA30>
['해당', '패키지', '는', '한국어', '문장', '에', '대하', '어', '토크', '나이', '징', '을', '실시', '하', '여', '품사', '에', '대하', 'ㄴ', '형태소', '를', '출력', '하', 'ㅂ니다', '.']
[('해당', 'NNG'), ('패키지', 'NNG'), ('는', 'JX'), ('한국어', 'NNG'), ('문장', 'NNG'), ('에', 'JKM'), ('대하', 'VV'), ('어', 'ECS'), ('토크', 'NNG'), ('나이', 'NNG'), ('징', 'NNG'), ('을', 'JKO'), ('실시', 'NNG'), ('하', 'XSV'), ('여', 'ECS'), ('품사', 'NNG'), ('에', 'JKM'), ('대하', 'VV'), ('ㄴ', 'ETD'), ('형태소', 'NNG'), ('를', 'JKO'), ('출력', 'NNG'), ('하', 'XSV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
{'EC': '연결 어미', 'ECD': '의존적 연결 어미', 'ECE': '대등 연결 어미', 'ECS': '보조적 연결 어미', 'EF': '종결 어미', 'EFA': '청유형 종결 어미', 'EFI': '감탄형 종결 어미', 'EFN': '평서형 종결 어미', 'EFO': '명령형 종결 어미', 'EFQ': '의문형 종결 어미', 'EFR': '존칭형 종결 어미', 'EP': '선어말 어미', 'EPH': '존칭 선어말 어미', 'EPP': '공손 선어말 어미', 'EPT': '시제 선어말 어미', 'ET': '전성 어미', 'ETD': '관형형 전성 어미', 'ETN': '명사형 전성 어미', 'IC': '감탄사', 'JC': '접속 조사', 'JK': '조사', 'JKC': '보격 조사', 'JKG': '관형격 조사', 'JKI': '호격 조사', 'JKM': '부사

## Library and Data

In [3]:
import numpy as np
import pandas as pd
import matplotlib as plt
%matplotlib inline

import tensorflow as tf

from konlpy.tag import Okt

In [4]:
DATA_PATH = '../../data/'
data = pd.read_csv(DATA_PATH + 'ChatbotData.csv', encoding='utf-8')
data.head()

Unnamed: 0,Q,A,label
0,12시 땡!,하루가 또 가네요.,0
1,1지망 학교 떨어졌어,위로해 드립니다.,0
2,3박4일 놀러가고 싶다,여행은 언제나 좋죠.,0
3,3박4일 정도 놀러가고 싶다,여행은 언제나 좋죠.,0
4,PPL 심하네,눈살이 찌푸려지죠.,0


In [19]:
# Tokenize Sentences and convert to '형태소'
okt = Okt()

q = list(data['Q'])
for i in range(5):
    s = q[i]
    print(s)
    print(okt.pos(s.replace(' ','')))
    print(okt.pos(s))

12시 땡!
[('12시', 'Number'), ('땡', 'Foreign'), ('!', 'Punctuation')]
[('12시', 'Number'), ('땡', 'Noun'), ('!', 'Punctuation')]
1지망 학교 떨어졌어
[('1', 'Number'), ('지망', 'Noun'), ('학교', 'Noun'), ('떨어졌어', 'Verb')]
[('1', 'Number'), ('지망', 'Noun'), ('학교', 'Noun'), ('떨어졌어', 'Verb')]
3박4일 놀러가고 싶다
[('3', 'Number'), ('박', 'Noun'), ('4일', 'Number'), ('놀러가고싶다', 'Foreign')]
[('3', 'Number'), ('박', 'Noun'), ('4일', 'Number'), ('놀러', 'Verb'), ('가고', 'Verb'), ('싶다', 'Verb')]
3박4일 정도 놀러가고 싶다
[('3', 'Number'), ('박', 'Noun'), ('4일', 'Number'), ('정도놀러가고싶다', 'Foreign')]
[('3', 'Number'), ('박', 'Noun'), ('4일', 'Number'), ('정도', 'Noun'), ('놀러', 'Verb'), ('가고', 'Verb'), ('싶다', 'Verb')]
PPL 심하네
[('PPL', 'Alpha'), ('심하네', 'Adjective')]
[('PPL', 'Alpha'), ('심하네', 'Adjective')]


#### Analysis
- '4일'을 '4'와 '일'로 구분해야 하는데 하나의 형태소로 인식
- replace() 함수를 사용해서 문장을 하나로 통합할 경우, 형태소 분리의 미흡함을 보임
    - '놀러 가고 싶다'와 '놀러가고싶다'로 입력할 때의 결과에서 차이가 발생

In [20]:
a = list(data['A'])
for i in range(5):
    s = a[i]
    print(s)
    print(okt.pos(s.replace(' ','')))
    print(okt.pos(s))

하루가 또 가네요.
[('하루', 'Noun'), ('가', 'Josa'), ('또', 'Noun'), ('가네요', 'Verb'), ('.', 'Punctuation')]
[('하루', 'Noun'), ('가', 'Josa'), ('또', 'Noun'), ('가네요', 'Verb'), ('.', 'Punctuation')]
위로해 드립니다.
[('위로', 'Noun'), ('해드립니다', 'Verb'), ('.', 'Punctuation')]
[('위로', 'Noun'), ('해', 'Verb'), ('드립니다', 'Verb'), ('.', 'Punctuation')]
여행은 언제나 좋죠.
[('여행', 'Noun'), ('은', 'Josa'), ('언제나', 'Adverb'), ('좋죠', 'Adjective'), ('.', 'Punctuation')]
[('여행', 'Noun'), ('은', 'Josa'), ('언제나', 'Adverb'), ('좋죠', 'Adjective'), ('.', 'Punctuation')]
여행은 언제나 좋죠.
[('여행', 'Noun'), ('은', 'Josa'), ('언제나', 'Adverb'), ('좋죠', 'Adjective'), ('.', 'Punctuation')]
[('여행', 'Noun'), ('은', 'Josa'), ('언제나', 'Adverb'), ('좋죠', 'Adjective'), ('.', 'Punctuation')]
눈살이 찌푸려지죠.
[('눈살', 'Noun'), ('이', 'Josa'), ('찌푸려지죠', 'Verb'), ('.', 'Punctuation')]
[('눈살', 'Noun'), ('이', 'Josa'), ('찌푸려지죠', 'Verb'), ('.', 'Punctuation')]
