# 한국어 파싱 예제

In [2]:
import konlpy
import nltk

# POS tag a sentence
sentence = u'철수가 학교에 갑니다.'
words = konlpy.tag.Twitter().pos(sentence)

# Define a chunk grammar, or chunking rules, then chunk
# 묶어서 분석해야 하는 것을 정의한다.
grammar = """
NP: {<N.*>*<Suffix>?}   # Noun phrase # 명사
VP: {<V.*>*}            # Verb phrase # 동사
AP: {<A.*>*}            # Adjective phrase # 형용사
"""
parser = nltk.RegexpParser(grammar)
chunks = parser.parse(words)
print("# Print whole tree")
print(chunks.pprint())

# 명사와 명사구를 출력

# 문서에서의 키워드 추출이라던가, 문서 내에 존재하는 단어들의 상관 관계 등 (신조어나 제품명만 추출하고 싶을때 보통)를 분석할 때 사용
# 동사는 이벤트에 대한 정보를 담고 있고, 명사는 객체의 정보를 담고 있기 때문이다.
print("\n# Print noun phrases only")
for subtree in chunks.subtrees():
    if subtree.label()=='NP':
        print(' '.join((e[0] for e in list(subtree))))
        print(subtree.pprint())

# Display the chunk tree
chunks.draw()

# Print whole tree
(S
  (NP 철수/Noun)
  가/Josa
  (NP 학교/Noun)
  에/Josa
  (VP 갑니다/Verb)
  ./Punctuation)
None

# Print noun phrases only
철수
(NP 철수/Noun)
None
학교
(NP 학교/Noun)
None


# 한국어 형태소 분석 예제

In [1]:
from konlpy.tag import Hannanum

hannanum = Hannanum()

hannanum.morphs  # 형태소 분석

print("=> 형태소 분리")
print(hannanum.morphs(u'K9전차가 전방에 포를 발사하였습니다.'))

print("=> 형태소 분리 + 형태소 태그 부착")
print(hannanum.pos(u'코로나19 바이러스 확산이 진정 국면으로 접어들고 있습니다.'))

print("=> 명사만 추출")
print(hannanum.nouns(u'코로나19 바이러스 확산이 진정 국면으로 접어들고 있습니다.'))

=> 형태소 분리
['K9전차', '가', '전방', '에', '포', '를', '발사', '하', '었습니다', '.']
=> 형태소 분리 + 형태소 태그 부착
[('코로나19', 'N'), ('바이러스', 'N'), ('확산', 'N'), ('이', 'J'), ('진정', 'N'), ('국면', 'N'), ('으로', 'J'), ('접어들', 'P'), ('고', 'E'), ('있', 'P'), ('습니다', 'E'), ('.', 'S')]
=> 명사만 추출
['코로나19', '바이러스', '확산', '진정', '국면']
