### 품사 분석

* 품사 분석은 Part-Of-Speech의 앞 글자를 따 흔히 POS 태깅이라고 함
* 한국어 품사 분석을 위해서는 KoNLPy 패키지를 사용함
    * 이 패키지 안에서 Kkma, Komoran, Hannanum, Twitter, Mecab 클래스를 이용하여 품사 분석을 수행할 수 있음
    * pip install konlpy

In [3]:
import os
java_home = os.environ.get('JAVA_HOME', None)
if not java_home:
    java_path = 'C:/Program Files/Java/jdk-14.0.1/bin'
    os.environ['JAVA_HOME'] = java_path
else:
    print(java_home)

C:/Program Files/Java/jdk-14.0.1/bin


In [6]:
from konlpy.tag import Hannanum

hannanum = Hannanum()

# 형태소 단위로 끊기 (morphs)
print(hannanum.morphs("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

['친척들', '이', '모이', 'ㄴ', '이번', '추석', '차례상', '에서는', '단연', "'", '집값', "'", '이', '화제', '에', '오르', '아다', '.']


In [7]:
# 명사 단위로 끊기 (nouns)
print(hannanum.nouns("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

['친척들', '이번', '추석', '차례상', '집값', '화제']


In [8]:
# 형태소별 품사 태깅 (pos)
print(hannanum.pos("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다.", ntags=9))
print(hannanum.pos("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다.", ntags=22))

[('친척들', 'N'), ('이', 'J'), ('모이', 'P'), ('ㄴ', 'E'), ('이번', 'N'), ('추석', 'N'), ('차례상', 'N'), ('에서는', 'J'), ('단연', 'M'), ("'", 'S'), ('집값', 'N'), ("'", 'S'), ('이', 'J'), ('화제', 'N'), ('에', 'J'), ('오르', 'P'), ('아다', 'E'), ('.', 'S')]
[('친척들', 'NC'), ('이', 'JC'), ('모이', 'PV'), ('ㄴ', 'ET'), ('이', 'NN'), ('번', 'NB'), ('추석', 'NC'), ('차례상', 'NC'), ('에서', 'JC'), ('는', 'JX'), ('단연', 'MA'), ("'", 'SR'), ('집값', 'NC'), ("'", 'SR'), ('이', 'JC'), ('화제', 'NC'), ('에', 'JC'), ('오르', 'PV'), ('아', 'EP'), ('다', 'EF'), ('.', 'SF')]


In [14]:
from konlpy.tag import Kkma

kkma = Kkma()

print(kkma.morphs("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

['친척', '들', '이', '모이', 'ㄴ', '이번', '추석', '차례', '상', '에서', '는', '단연', "'", '집', '값', "'", '이', '화제', '에', '오르', '았', '다', '.']


In [15]:
print(kkma.nouns("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

['친척', '이번', '추석', '차례', '차례상', '상', '집', '집값', '값', '화제']


In [16]:
print(kkma.pos("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

[('친척', 'NNG'), ('들', 'XSN'), ('이', 'JKS'), ('모이', 'VV'), ('ㄴ', 'ETD'), ('이번', 'NNG'), ('추석', 'NNG'), ('차례', 'NNG'), ('상', 'NNG'), ('에서', 'JKM'), ('는', 'JX'), ('단연', 'MAG'), ("'", 'SS'), ('집', 'NNG'), ('값', 'NNG'), ("'", 'SS'), ('이', 'MDT'), ('화제', 'NNG'), ('에', 'JKM'), ('오르', 'VV'), ('았', 'EPT'), ('다', 'EFN'), ('.', 'SF')]


In [9]:
from konlpy.tag import Twitter

twitter = Twitter()

print(twitter.morphs("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['친척', '들', '이', '모인', '이번', '추석', '차례상', '에서는', '단연', "'", '집값', "'", '이', '화제', '에', '올랐다', '.']


In [10]:
print(twitter.nouns("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

['친척', '이번', '추석', '차례상', '단연', '집값', '이', '화제']


In [11]:
print(twitter.pos("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

[('친척', 'Noun'), ('들', 'Suffix'), ('이', 'Josa'), ('모인', 'Verb'), ('이번', 'Noun'), ('추석', 'Noun'), ('차례상', 'Noun'), ('에서는', 'Josa'), ('단연', 'Noun'), ("'", 'Punctuation'), ('집값', 'Noun'), ("'", 'Punctuation'), ('이', 'Noun'), ('화제', 'Noun'), ('에', 'Josa'), ('올랐다', 'Verb'), ('.', 'Punctuation')]


In [12]:
print(twitter.phrases("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

['친척들', '이번', '이번 추석', '이번 추석 차례상', '단연', '집값', '이 화제', '추석', '차례상', '화제']


In [13]:
from nltk import pos_tag

tokens = "The little yellow dog barked at the Persian cat.".split()
tags_en = pos_tag(tokens)
print(tags_en)

[('The', 'DT'), ('little', 'JJ'), ('yellow', 'JJ'), ('dog', 'NN'), ('barked', 'VBD'), ('at', 'IN'), ('the', 'DT'), ('Persian', 'NNP'), ('cat.', 'NN')]
