# KoNLPy 한국어 처리 패키지¶
KoNLPy(코엔엘파이라고 읽는다)는 한국어 정보처리를 위한 파이썬 패키지이다.

# KoNLPy 설치
- Jpype 다운로드 : https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype

- Jpype를 각자 파이썬 버전에 맞게(저의 경우에는 3.8버전) 다운로드 받아주세요!

' JPype1-1.2.0-cp38-cp38-win_amd64.whl '

- pip install JPype1-1.2.0-cp38-cp38-win_amd64.whl

- pip install konlpy

In [None]:
import warnings
warnings.simplefilter("ignore")

import konlpy
konlpy.__version__

# 한국어 말뭉치¶
- KoNLPy에서는 대한민국 헌법 말뭉치인 kolaw와 국회법안 말뭉치인 kobill을 제공한다. 
- 각 말뭉치가 포함하는 파일의 이름은 fields 메서드로 알 수 있고 open 메서드로 해당 파일의 텍스트를 읽어들인다.

In [None]:
from konlpy.corpus import kolaw
kolaw.fileids()

In [None]:
c = kolaw.open('constitution.txt').read()
print(c[:40])

In [None]:
from konlpy.corpus import kobill
kobill.fileids()

In [None]:
d = kobill.open('1809890.txt').read()
print(d[:40])

# 형태소 분석¶
- KoNLPy는 다음과 같은 다양한 형태소 분석, 태깅 라이브러리를 파이썬에서 쉽게 사용할 수 있도록 모아놓았다.

- Hannanum: 한나눔. KAIST Semantic Web Research Center 개발.
    -http://semanticweb.kaist.ac.kr/hannanum/

- Kkma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.
    - http://kkma.snu.ac.kr/

- Komoran: 코모란. Shineware에서 개발.
    - https://github.com/shin285/KOMORAN

- Open Korean Text: 오픈 소스 한국어 분석기. 과거 트위터 형태소 분석기.
    - https://github.com/open-korean-text/open-korean-text

- 여기에서는 한나눔, 꼬꼬마, 오픈코리안텍스트 형태소만 예제로 포함하였다.

In [None]:
from konlpy.tag import *

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()

- 이 클래스들은 다음과 같은 메서드를 공통적으로 제공한다.
    - nouns : 명사 추출
    - morphs : 형태소 추출
    - pos : 품사 부착

# 명사 추출¶
- 문자열에서 명사만 추출하려면 noun 명령을 사용한다.

In [None]:
hannanum.nouns(c[:40])

In [None]:
kkma.nouns(c[:40])

In [None]:
# komoran은 빈줄이 있으면 에러가 남
komoran.nouns("\n".join([s for s in c[:40].split("\n") if s]))

In [None]:
okt.nouns(c[:40])

# 형태소 추출¶
명사 뿐 아니라 모든 품사의 형태소를 알아내려면 morphs라는 명령을 사용한다.

In [None]:
hannanum.morphs(c[:40])

In [None]:
kkma.morphs(c[:40])

In [None]:
# komoran은 빈줄이 있으면 에러가 남
komoran.morphs("\n".join([s for s in c[:40].split("\n") if s]))

In [None]:
okt.morphs(c[:40])

# 품사 부착¶
pos 명령을 사용하면 품사 부착을 한다.

- 한국어 품사 태그세트로는 “21세기 세종계획 품사 태그세트”를 비롯하여 다양한 품사 태그세트가 있다. 
- 형태소 분석기마다 사용하는 품사 태그가 다르므로 각 형태소 분석기에 대한 문서를 참조한다.

In [None]:
hannanum.pos(c[:40])

In [None]:
kkma.pos(c[:40])

In [None]:
# komoran은 빈줄이 있으면 에러가 남
komoran.pos("\n".join([s for s in c[:40].split("\n") if s]))

In [None]:
okt.pos(c[:40])

부착되는 품사 태그의 기호와 의미는 tagset 속성으로 확인할 수 있다.

In [None]:
okt.tagset

In [None]:
import pandas as pd
tagsets = pd.DataFrame()
N = 67
tagsets["Hannanum-기호"] = list(hannanum.tagset.keys()) + list("*" * (N - len(hannanum.tagset)))
tagsets["Hannanum-품사"] = list(hannanum.tagset.values()) + list("*" * (N - len(hannanum.tagset)))
tagsets["Kkma-기호"] = list(kkma.tagset.keys()) + list("*" * (N - len(kkma.tagset)))
tagsets["Kkma-품사"] = list(kkma.tagset.values()) + list("*" * (N - len(kkma.tagset)))
tagsets["Komoran-기호"] = list(komoran.tagset.keys()) + list("*" * (N - len(komoran.tagset)))
tagsets["Komoran-품사"] = list(komoran.tagset.values()) + list("*" * (N - len(komoran.tagset)))
tagsets["OKT-기호"] = list(okt.tagset.keys()) + list("*" * (N - len(okt.tagset)))
tagsets["OKT-품사"] = list(okt.tagset.values()) + list("*" * (N - len(okt.tagset)))
tagsets

- koNLPy의 형태소 분석기와 NLTK의 Text 클래스를 결합하여 NLTK 기능을 사용할 수도 있다.

In [None]:
from nltk import Text
import matplotlib.pyplot as plt
import matplotlib
from matplotlib import font_manager, rc
font_path = "c:/Windows/fonts/malgun.ttf"
font_name = font_manager.FontProperties(fname = font_path).get_name()
matplotlib.rc('font', family=font_name)

kolaw = Text(okt.nouns(c), name="kolaw")
kolaw.plot(30)
plt.show()

In [None]:
from wordcloud import WordCloud

# 자신의 컴퓨터 환경에 맞는 한글 폰트 경로를 설정
font_path = 'C:/Windows/Fonts/HMKMRHD.TTF'

wc = WordCloud(width = 1000, height = 600, background_color="white", font_path=font_path)
plt.imshow(wc.generate_from_frequencies(kolaw.vocab()))
plt.axis("off")
plt.show()