# 형태소분석 + 품사태깅


## 1. KoNLPy 패키지 다운로드

In [1]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.8MB/s 
Collecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 9.0MB/s 
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/98/88/f817ef1af6f794e8f11313dcd1549de833f4599abcec82746ab5ed086686/JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448kB)
[K     |████████████████████████████████| 450kB 37.6MB/s 
[?25hCollecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Installing collected p

## 2. konlpy 관련 패키지 import

In [2]:
from konlpy.tag import Okt
from konlpy.tag import Kkma
from konlpy.tag import Hannanum
from konlpy.tag import Komoran
from konlpy.tag import Twitter
from konlpy.tag import Mecab

## 3. 객체 생성


In [3]:
kkma = Kkma()
okt = Okt()
komoran = Komoran()
hannanum = Hannanum()
twitter = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


## 4. 문장 분리(Kkma only)


In [4]:
# konlpy 중 Kkma는 문장 분리가 가능(다른 라이브러리는 불가)
print("kkma 문장 분리: ", kkma.sentences("네 안녕하세요 반갑습니다."))


kkma 문장 분리:  ['네 안녕하세요', '반갑습니다.']


## 5. 형태소 분석

In [5]:
in_str = u"세종대왕님은 글을 만드셨습니다."

# konlpy의 라이브러리 형태소 분석 비교
print("okt 형태소 분석: ", okt.morphs(in_str))
print("kkma 형태소 분석: ", kkma.morphs(in_str))
print("hannanum 형태소 분석: ", hannanum.morphs(in_str))
print("komoran 형태소 분석: ", komoran.morphs(in_str))
print("twitter 형태소 분석: ", twitter.morphs(in_str))

okt 형태소 분석:  ['세종대왕', '님', '은', '글', '을', '만드셨습니다', '.']
kkma 형태소 분석:  ['세종', '대왕', '님', '은', '글', '을', '만들', '시', '었', '습니다', '.']
hannanum 형태소 분석:  ['세종대왕님', '은', '글', '을', '만들', '셨습니다', '.']
komoran 형태소 분석:  ['세종대왕', '님', '은', '글', '을', '만들', '시', '었', '습니다', '.']
twitter 형태소 분석:  ['세종대왕', '님', '은', '글', '을', '만드셨습니다', '.']


## 6. 품사 태깅
- 품사 태깅 표
    http://kkma.snu.ac.kr/documents/?doc=postag

In [6]:
in_str = u"세종대왕님은 글을 만드셨습니다."

# konlpy의 라이브러리 품사태깅 비교
print("okt 품사태깅: ", okt.pos(in_str))
print("kkma 품사태깅: ", kkma.pos(in_str))
print("hannanum 품사태깅: ", hannanum.pos(in_str))
print("komoran 품사태깅: ", komoran.pos(in_str))
print("twitter 품사태깅: ", twitter.pos(in_str))

okt 품사태깅:  [('세종대왕', 'Noun'), ('님', 'Suffix'), ('은', 'Josa'), ('글', 'Noun'), ('을', 'Josa'), ('만드셨습니다', 'Verb'), ('.', 'Punctuation')]
kkma 품사태깅:  [('세종', 'NNG'), ('대왕', 'NNG'), ('님', 'XSN'), ('은', 'JX'), ('글', 'NNG'), ('을', 'JKO'), ('만들', 'VV'), ('시', 'EPH'), ('었', 'EPT'), ('습니다', 'EFN'), ('.', 'SF')]
hannanum 품사태깅:  [('세종대왕님', 'N'), ('은', 'J'), ('글', 'N'), ('을', 'J'), ('만들', 'P'), ('셨습니다', 'E'), ('.', 'S')]
komoran 품사태깅:  [('세종대왕', 'NNP'), ('님', 'XSN'), ('은', 'JX'), ('글', 'NNG'), ('을', 'JKO'), ('만들', 'VV'), ('시', 'EP'), ('었', 'EP'), ('습니다', 'EF'), ('.', 'SF')]
twitter 품사태깅:  [('세종대왕', 'Noun'), ('님', 'Suffix'), ('은', 'Josa'), ('글', 'Noun'), ('을', 'Josa'), ('만드셨습니다', 'Verb'), ('.', 'Punctuation')]
