형태소 분석(morphological Analysis)  

형태소 분석은 자연 언어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업이다.  
영문 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본이기 때문에 크게 어렵지 않으나 아시아 계열 언어 분석에는 많은 노력이 필요하다.  
대표적으로 문법 규칙에 의한 방법과 확률적 언어 모델을 사용하는 방법이 있는데 최근에 확률적 언어 모델을 사용한 형태소 분석이 많아서 정밀도가 높아졌다.  
즉, 두가지 품사 사전과 문법 사전을 기반으로 대조하면서 형태소를 분석한다.  

한국어 형태소 분석 라이브러리 => KoNLPy => pip install konlpy => java 1.7 이상의 버전이 미리 설치되어 있어야 한다.  
KoNLPy에는 대한민국 헌법 말뭉치 kolaw와 국회 법안 말뭉치인 kobill을 제공한다.  

In [None]:
# pip install konlpy
from konlpy.corpus import kolaw, kobill
# 각 말뭉치가 포함하고 있는 텍스트 파일 이름은 fileids() 메소드로 확인할 수 있다.
print(kolaw.fileids())
print(kobill.fileids())

In [None]:
# 말뭉치 파일을 읽어들이려면 말뭉치에 포함된 텍스트 파일을 open() 메소드로 열고 read() 메소드로 읽는다.
corpus1 = kolaw.open('constitution.txt').read()
print(corpus1[:40])

In [None]:
corpus2 = kobill.open('1809890.txt').read()
print(corpus2[:40])

KoNLPy는 다음과 같은 다양한 형태소 분석, 태깅 라이브러리를 파이썬에서 쉽게 사용할 수 있도록 모아놓았다.  
Hannanum: 한나눔. KAIST Semantic Web Research Center 개발.  
http://semanticweb.kaist.ac.kr/hannanum/  
Kkma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.  
http://kkma.snu.ac.kr/  
Komoran: 코모란. Shineware에서 개발.  
https://github.com/shin285/KOMORAN  
Mecab: 메카브. 일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정.  
https://bitbucket.org/eunjeon/mecab-ko  
Open Korean Text: 오픈 소스 한국어 분석기. 과거 트위터 형태소 분석기.  
https://github.com/open-korean-text/open-korean-text  

In [None]:
# https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype에 접속해서 사용하는 python의 JPype를 다운받는다.
# 강사 컴퓨터에는 python 3.6.x 버전이 설치되어서 JPype1‑1.2.0‑cp36‑cp36m‑win_amd64.whl를 다운받았다.
# 파일이 다운로드된 폴더로 이동해서 커맨드 창을 실행한다.
# pip install JPype1-1.2.0-cp36-cp36m-win_amd64.whl를 실행해서 설치한다.
# permission 어쩌고 저쩌고 에러가 발생되면 아래와 같이 실행해서 설치한다.
# python -m pip install --user JPype1-1.2.0-cp36-cp36m-win_amd64.whl

In [None]:
from konlpy.tag import *

In [None]:
hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
# mecab = Mecab() # 윈도우에서 지원하지 않는다.

# 이 클래스들은 다음과 같은 메소드를 공통으로 지원한다.
# nouns: 명사 추출
# morphs: 형태소 추출
# pos: 품사 부착

명사 추출

In [None]:
hannanum.nouns(corpus1[:40])

In [None]:
kkma.nouns(corpus1[:40])

In [None]:
komoran.nouns(corpus1[:40])

In [None]:
okt.nouns(corpus1[:40])

In [None]:
kkma.morphs(corpus1[:40])

In [None]:
okt.morphs(corpus1[:40])

품사 부착  

형태소 분석기마다 사용하는 품사 태그가 다르므로 각 형태소 분석기에 대한 문서를 참조한다.  
부착되는 품사 태그와 기호의 의미는 target 속성으로 확인할 수 있다.  

In [None]:
hannanum.pos(corpus1[:40])

In [None]:
hannanum.tagset

In [None]:
kkma.pos(corpus1[:40])

In [None]:
kkma.tagset

In [None]:
komoran.pos(corpus1[:40])

In [None]:
komoran.tagset

In [None]:
okt.pos(corpus1[:40])

In [None]:
okt.tagset

In [None]:
txt = '아버지가방에들어가신다'
okt.pos(txt)

In [None]:
okt.pos('이것도되나욬ㅋㅋㅋㅋㅋ')

In [None]:
# norm=True: 품사 태깅(기본값은 False)
okt.pos('이것도되나욬ㅋㅋㅋㅋㅋ', norm=True)

In [None]:
# stem=True: 원형 글자로 바꿔준다. (기본값은 False)
okt.pos('이것도되나욬ㅋㅋㅋㅋㅋ', stem=True)

In [None]:
okt.morphs(txt)

In [None]:
okt.nouns(txt)