형태소 분석(morphological Analysis)

형태소 분석은 자연 언어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업이다.  
영문 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본이기 때문에 크게 어렵지 않으나 아시아 계열 언어 분석에는 많은 노력이 필요하다.  
대표적으로 문법 규칙에 의한 방법과 확률적 언어 모델을 사용하는 방법이 있는데 최근에 확률적 언어 모델을 사용한 행태소 분석이 많아서 정밀도가 높아졌다.  
어쨌거나, 두 가지 품사 사전과 문법 사전을 기반으로 대조하면서 형태소를 분석한다.

한국어 형태소 분석 라이브러리 => KoNLPy => pip install konlpy => java1.7 이상의 버전이 미리 설치되어 있어야 한다.  
KoNLPy에는 대한민국 헌법 말뭉치 kolaw와 국회 법안 말뭉치인 kobill을 제공한다.

In [2]:
# pip install konlpy
from konlpy.corpus import kolaw, kobill
# 각 말뭉치가 포함하고 있는 텍스트 파일 이름은 fileids() 메소드로 확인할 수 있다.
print(kolaw.fileids())
print(kobill.fileids())

['constitution.txt']
['1809890.txt', '1809891.txt', '1809892.txt', '1809893.txt', '1809894.txt', '1809895.txt', '1809896.txt', '1809897.txt', '1809898.txt', '1809899.txt']


In [6]:
# 말뭉치 파일을 읽어들이려면 말뭉치에 포함된 텍스트 파일을 open() 메소드로 열고 read() 메소드로 읽는다.
corpus = kolaw.open('constitution.txt').read()
print(corpus[:40])

대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로


In [22]:
corpus = kobill.open('1809890.txt').read()
print(corpus[:40])

지방공무원법 일부개정법률안

(정의화의원 대표발의 )

 의 안
 번 호


KoNLPy는 다음과 같은 다양한 형태소 분석, 태깅 라이브러리를 파이썬에서 쉽게 사용할 수 있도록 모아놓았다.  
한나눔  
꼬꼬마  
코모란  
메카브  
오픈 소스 한국어 분석기

Hannanum: 한나눔. KAIST Semantic Web Research Center 개발.  
http://semanticweb.kaist.ac.kr/hannanum/  
Kkma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.  
http://kkma.snu.ac.kr/  
Komoran: 코모란. Shineware에서 개발.  
https://github.com/shin285/KOMORAN  
Mecab: 메카브. 일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정.  
https://bitbucket.org/eunjeon/mecab-ko  
Open Korean Text: 오픈 소스 한국어 분석기. 과거 트위터 형태소 분석기.  
https://github.com/open-korean-text/open-korean-text  

In [15]:
from konlpy.tag import *

In [17]:
hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
# mecab = Macab() # Mac 전용이라 윈도우에서 지원하지 않는다.

# 이 클래스들은 다음과 같은 메소드를 공통으로 지원한다.
# nouns: 명사 추출
# morphs: 형태소 추출
# pod: 품사 부착

명사 추출

In [23]:
hannanum.nouns(corpus[:40])

['지방공무원법', '일부개정법률안', '정의화의원', '대표발', '의', '번']

In [24]:
kkma.nouns(corpus[:40])

['지방',
 '지방공무원법',
 '공무원',
 '법',
 '일부',
 '일부개정법률안',
 '개정',
 '법률안',
 '정의',
 '정의화의원',
 '화',
 '의원',
 '대표',
 '대표발의',
 '발의',
 '의',
 '안',
 '호']

In [25]:
okt.nouns(corpus[:40])

['지방공무원법', '일부', '개정', '법률', '안', '정의화', '의원', '대표', '발의', '의', '안', '번', '호']

In [26]:
hannanum.morphs(corpus[:40])

['지방공무원법', '일부개정법률안', '(', '정의화의원', '대표발', '의', ')', '의', '안', '번', '호']

In [27]:
kkma.morphs(corpus[:40])

['지방',
 '공무원',
 '법',
 '일부',
 '개정',
 '법률안',
 '(',
 '정의',
 '화',
 '의원',
 '대표',
 '발의',
 ')',
 '의',
 '안',
 '벌',
 'ㄴ',
 '호']

In [28]:
okt.morphs(corpus[:40])

['지방공무원법',
 '일부',
 '개정',
 '법률',
 '안',
 '\n\n',
 '(',
 '정의화',
 '의원',
 '대표',
 '발의',
 ')',
 '\n\n ',
 '의',
 '안',
 '\n ',
 '번',
 '호']

품사 부착

형태소 분석기마다 사용하는 품사 태그가 다르므로 각 형태소 분석기에 대한 문서를 참조한다.  
부착되는 품사 태그와 기호의 의미는 tagset 속성으로 확인할 수 있다.

In [29]:
hannanum.pos(corpus[:40])

[('지방공무원법', 'N'),
 ('일부개정법률안', 'N'),
 ('(', 'S'),
 ('정의화의원', 'N'),
 ('대표발', 'N'),
 ('의', 'J'),
 (')', 'S'),
 ('의', 'N'),
 ('안', 'M'),
 ('번', 'N'),
 ('호', 'I')]

In [30]:
hannanum.tagset

{'E': '어미',
 'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ET': '전성 어미',
 'F': '외국어',
 'I': '독립언',
 'II': '감탄사',
 'J': '관계언',
 'JC': '격조사',
 'JP': '서술격 조사',
 'JX': '보조사',
 'M': '수식언',
 'MA': '부사',
 'MM': '관형사',
 'N': '체언',
 'NB': '의존명사',
 'NC': '보통명사',
 'NN': '수사',
 'NP': '대명사',
 'NQ': '고유명사',
 'P': '용언',
 'PA': '형용사',
 'PV': '동사',
 'PX': '보조 용언',
 'S': '기호',
 'X': '접사',
 'XP': '접두사',
 'XS': '접미사'}

In [31]:
kkma.pos(corpus[:40])

[('지방', 'NNG'),
 ('공무원', 'NNG'),
 ('법', 'NNG'),
 ('일부', 'NNG'),
 ('개정', 'NNG'),
 ('법률안', 'NNG'),
 ('(', 'SS'),
 ('정의', 'NNG'),
 ('화', 'NNG'),
 ('의원', 'NNG'),
 ('대표', 'NNG'),
 ('발의', 'NNG'),
 (')', 'SS'),
 ('의', 'NNG'),
 ('안', 'NNG'),
 ('벌', 'VV'),
 ('ㄴ', 'ETD'),
 ('호', 'NNG')]