In [None]:
!pip install konlpy

In [None]:
import warnings
warnings.simplefilter("ignore")

import konlpy
konlpy.__version__

In [None]:
from konlpy.corpus import kolaw
kolaw.fileids()

In [None]:
c = kolaw.open('constitution.txt').read()
print(c[:40])

In [None]:
from konlpy.corpus import kobill
kobill.fileids()

In [None]:
d = kobill.open('1809890.txt').read()
print(d[:40])

## 형태소 분석
KoNLPy 라이브러리

### Hannanum: 한나눔. 
KAIST Semantic Web Research Center 개발.

http://semanticweb.kaist.ac.kr/hannanum/

### Kkma: 꼬꼬마. 
서울대학교 IDS(Intelligent Data Systems) 연구실 개발.

http://kkma.snu.ac.kr/

<!-- ### Komoran: 코모란. 
Shineware에서 개발.

https://github.com/shin285/KOMORAN

### Mecab: 메카브. 
일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정.

https://bitbucket.org/eunjeon/mecab-ko -->

### Open Korean Text: 오픈 소스 한국어 분석기. 
과거 트위터 형태소 분석기.

https://github.com/open-korean-text/open-korean-text

In [None]:
from konlpy.tag import *

hannanum = Hannanum()
kkma = Kkma()
okt = Okt()

In [None]:
hannanum.nouns(c[:40])

In [None]:
kkma.nouns(c[:40])

In [None]:
okt.nouns(c[:40])

## 형태소 추출
명사 뿐 아니라 모든 품사의 형태소를 알아내려면 morphs라는 명령을 사용한다.

In [None]:
hannanum.morphs(c[:40])

In [None]:
kkma.morphs(c[:40])

In [None]:
okt.morphs(c[:40])

## 품사 부착
pos 명령을 사용.

한국어 품사 태그 세트: 21세기 세종계획 품사 태그세트
- 형태소 분석기마다 사용하는 품사 태그가 다르다. 
- 각 형태소 분석기에 대한 문서를 참조해야 한다.

In [None]:
hannanum.pos(c[:40])

In [None]:
hannanum.tagset

In [None]:
kkma.pos(c[:40])

In [None]:
kkma.tagset

In [None]:
import pandas as pd

In [None]:
tagsets = pd.DataFrame()
N = 67
tagsets["Hannanum-기호"] = list(hannanum.tagset.keys()) + list("*" * (N - len(hannanum.tagset)))
tagsets["Hannanum-품사"] = list(hannanum.tagset.values()) + list("*" * (N - len(hannanum.tagset)))
tagsets["Kkma-기호"] = list(kkma.tagset.keys()) + list("*" * (N - len(kkma.tagset)))
tagsets["Kkma-품사"] = list(kkma.tagset.values()) + list("*" * (N - len(kkma.tagset)))
tagsets

In [None]:
%matplotlib inline  

import matplotlib as mpl 
import matplotlib.pyplot as plt 
import matplotlib.font_manager as fm  

!apt-get update -qq
!apt-get install fonts-nanum* -qq

path = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf' 
font_name = fm.FontProperties(fname=path, size=10).get_name()
print(font_name)
plt.rc('font', family=font_name)

fm._rebuild()
mpl.rcParams['axes.unicode_minus'] = False

In [None]:
from nltk import Text

kolaw = Text(hannanum.nouns(c), name="kolaw")
kolaw.plot(30)
plt.show()

In [None]:
from nltk import Text

kolaw = Text(kkma.nouns(c), name="kolaw")
kolaw.plot(30)
plt.show()

In [None]:
from nltk import Text

kolaw = Text(okt.nouns(c), name="kolaw")
kolaw.plot(30)
plt.show()

In [None]:
from wordcloud import WordCloud

font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'

wc = WordCloud(width = 1000, height = 600, background_color="white", font_path=font_path)
plt.imshow(wc.generate_from_frequencies(kolaw.vocab()))
plt.axis("off")
plt.show()