In [24]:
!pip install konlpy



In [25]:
!pip install soynlp==0.0.4



In [26]:
sentence = '빅데이터 시대가 도래함에 따라 방대한 데이터로부터 새로운 가치를 창출하는 데이터 사이언티스트가 4차 산업혁명 시대의 최고 유망 직종으로 급부상하고 있습니다.'

In [27]:
from konlpy.tag import *

# Kkm, Komoran, Okt 패키지를 사용한 POS tagging
kkma = Kkma()
komoran = Komoran()
okt = Okt()

In [28]:
kkm_result = kkma.pos(sentence)
komoran_result = komoran.pos(sentence)
okt_result = okt.pos(sentence)

In [29]:
print("Kkm 결과")
print(kkm_result)

Kkm 결과
[('빅', 'NNG'), ('데이터', 'NNG'), ('시대', 'NNG'), ('가', 'JKS'), ('도래', 'NNG'), ('하', 'XSV'), ('ㅁ', 'ETN'), ('에', 'JKM'), ('따르', 'VV'), ('아', 'ECS'), ('방대', 'XR'), ('하', 'XSA'), ('ㄴ', 'ETD'), ('데이터', 'NNG'), ('로', 'JKM'), ('부터', 'JX'), ('새', 'NNG'), ('롭', 'XSA'), ('ㄴ', 'ETD'), ('가치', 'NNG'), ('를', 'JKO'), ('창출', 'NNG'), ('하', 'XSV'), ('는', 'ETD'), ('데이터', 'NNG'), ('사이', 'NNG'), ('언', 'NNG'), ('티스트', 'UN'), ('가', 'JKS'), ('4', 'NR'), ('차', 'NNM'), ('산업', 'NNG'), ('혁명', 'NNG'), ('시대', 'NNG'), ('의', 'JKG'), ('최고', 'NNG'), ('유망', 'NNG'), ('직종', 'NNG'), ('으로', 'JKM'), ('급부상', 'NNG'), ('하', 'XSV'), ('고', 'ECE'), ('있', 'VXV'), ('습니다', 'EFN'), ('.', 'SF')]


In [30]:
print("Komoran 결과")
print(komoran_result)

Komoran 결과
[('빅', 'NNG'), ('데이터', 'NNG'), ('시대', 'NNG'), ('가', 'JKS'), ('도래', 'NNG'), ('하', 'XSV'), ('ㅁ', 'ETN'), ('에', 'JKB'), ('따르', 'VV'), ('아', 'EC'), ('방대', 'XR'), ('하', 'XSA'), ('ㄴ', 'ETM'), ('데이터', 'NNG'), ('로부터', 'JKB'), ('새롭', 'VA'), ('ㄴ', 'ETM'), ('가치', 'NNG'), ('를', 'JKO'), ('창출', 'NNG'), ('하', 'XSV'), ('는', 'ETM'), ('데이터', 'NNG'), ('사이언티스트', 'NNG'), ('가', 'JKS'), ('4', 'SN'), ('차', 'NNB'), ('산업', 'NNG'), ('혁명', 'NNP'), ('시대', 'NNG'), ('의', 'JKG'), ('최고', 'NNG'), ('유망', 'NNP'), ('직종', 'NNP'), ('으로', 'JKB'), ('급부상', 'NNG'), ('하', 'XSV'), ('고', 'EC'), ('있', 'VX'), ('습니다', 'EF'), ('.', 'SF')]


In [31]:
print("Okt 결과")
print(okt_result)

Okt 결과
[('빅데이터', 'Noun'), ('시대', 'Noun'), ('가', 'Josa'), ('도래', 'Noun'), ('함', 'Noun'), ('에', 'Josa'), ('따라', 'Verb'), ('방대한', 'Adjective'), ('데이터', 'Noun'), ('로부터', 'Noun'), ('새로운', 'Adjective'), ('가치', 'Noun'), ('를', 'Josa'), ('창', 'Noun'), ('출하', 'Noun'), ('는', 'Josa'), ('데이터', 'Noun'), ('사이', 'Modifier'), ('언', 'Modifier'), ('티스', 'Noun'), ('트', 'Noun'), ('가', 'Josa'), ('4', 'Number'), ('차', 'Noun'), ('산업혁명', 'Noun'), ('시대', 'Noun'), ('의', 'Josa'), ('최고', 'Noun'), ('유망', 'Noun'), ('직종', 'Noun'), ('으로', 'Josa'), ('급부', 'Noun'), ('상', 'Suffix'), ('하고', 'Josa'), ('있습니다', 'Adjective'), ('.', 'Punctuation')]


In [32]:
from soynlp.pos.tagset import tagset
from pprint import pprint
pprint(tagset) # tagger 에서 이용하는 단어의 품사 종류

{'Adjective': '형용사',
 'Adverb': '부사',
 'Determiner': '관형사',
 'Exclamation': '감탄사',
 'Josa': '조사',
 'Noun': '명사',
 'Numeral': '수사',
 'Pronoun': '대명사',
 'Symbol': '기호',
 'Verb': '동사'}


In [33]:
# generator 는 사전 기반으로 작동하기 때문에 dictionary를 먼저 선언
pos_dict = {
    'Noun': {'빅데이터', '시대', '도래함', '데이터', '가치', '사이언티스트', '산업혁명', '직종', '차'},
    'Josa': {'가', '에', '로부터', '를', '의', '으로'},
    'Verb': {'따라', '창출하는', '급부상하고', '있습니다'},
    'Adjective': {'방대한', '새로운', '최고'},
    'Numeral': {'4'}
}

In [34]:
from soynlp.postagger import Dictionary
from soynlp.postagger import LRTemplateMatcher
from soynlp.postagger import LREvaluator
from soynlp.postagger import SimpleTagger
from soynlp.postagger import UnknowLRPostprocessor

dictionary = Dictionary(pos_dict) # 사전 정의된 Dictionary 를 생성
generator = LRTemplateMatcher(dictionary) # 주어진 문장에서 단어열 후보를 생성하는 generator
evaluator = LREvaluator() # 여러 개의 단어열 후보 중에서 가장 적절한 후보를 선택하는 evaluator
postprocessor = UnknowLRPostprocessor() # 처리하지 못한 단어들에 대한 후처리 기능을 담당할 postprocessor
tagger = SimpleTagger(generator, evaluator, postprocessor) # Tagger 선언

soynlp_result = tagger.tag(sentence) # pos tagging 수행

In [35]:
print("SoyNLP 결과")
print(soynlp_result)

SoyNLP 결과
[('빅데이터', 'Noun'), ('시대', 'Noun'), ('가', 'Josa'), ('도래함', 'Noun'), ('에', 'Josa'), ('따라', 'Verb'), ('방대한', 'Adjective'), ('데이터', 'Noun'), ('로부터', 'Josa'), ('새로운', 'Adjective'), ('가치', 'Noun'), ('를', 'Josa'), ('창출하는', 'Verb'), ('데이터', 'Noun'), ('사이언티스트', 'Noun'), ('가', 'Josa'), ('산업혁명', 'Noun'), ('시대', 'Noun'), ('의', 'Josa'), ('최고', 'Adjective'), ('직종', 'Noun'), ('으로', 'Josa'), ('급부상하고', 'Verb'), ('있습니다', 'Verb'), ('.', None)]
