형태소 분석(morphological Analysis)은 자연 언어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업이다.  
영어 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본이기 때문에 크게 어렵지 않으나 아시아 계열의 언어 분석에는 나름 노력이 필요하다.  
대표적으로 문법 규칙에 의한 방법과 확률적 언어 모델을 사용하는 방법이 있는데 최근에는 확률적 언어 모델을 사용한 형태소 분석이 만하서 정밀도가 높아졌다.  
어쨌거나 두 가지 품사 사전과 문법 사전을 기반을 대조하면서 형태소를 분석한다.

한국어 형태소 분석 라이브러리 => KoNLPy => pip install kolipy => java 1.7이상의 버전이 미리 설치되어 있어야 한다.  
KoNLPy에서는 대한민국 헌법 말뭉치 kolaw와 국회 법안 말뭉치인 kobill을 제공한다.

In [5]:
from konlpy.corpus import kolaw, kobill
# 각 말뭉치가 포함하고있는 파일 이름은 fileids() 함수로 확인할 수 있다.
print(kolaw.fileids())
print(kobill.fileids())

['constitution.txt']
['1809890.txt', '1809891.txt', '1809892.txt', '1809893.txt', '1809894.txt', '1809895.txt', '1809896.txt', '1809897.txt', '1809898.txt', '1809899.txt']


In [7]:
# 말뭉치 파일을 읽어들이려면 말뭉치에 포함된 텍스트 파일을 open() 함수로 열고 read() 함수로 읽는다.
c = kolaw.open('constitution.txt').read()
print(c[:40])

대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로


In [8]:
d = kobill.open('1809890.txt').read()
print(d[:40])

지방공무원법 일부개정법률안

(정의화의원 대표발의 )

 의 안
 번 호


형태소 분석  
KoNLPy는 다음과 같은 다양한 형태소 분석, 태깅 라이브러리를 파이썬에서 쉽게 사용할 수 있도록 모아놓았다.  
Hannanum: 한나눔. KAIST Semantic Web Research Center 개발.  
http://semanticweb.kaist.ac.kr/hannanum/  
Kkma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.  
http://kkma.snu.ac.kr/  
Komoran: 코모란. Shineware에서 개발.  
https://github.com/shin285/KOMORAN  
Mecab: 메카브. 일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정.  
https://bitbucket.org/eunjeon/mecab-ko  
Open Korean Text: 오픈 소스 한국어 분석기. 과거 트위터 형태소 분석기.  
https://github.com/open-korean-text/open-korean-text

다운그레이드: pip install "jpype1<1"  
윈도우에서 하는 경우 pip install konlpy 바로하지 마시고  
&nbsp;&nbsp;1. java_home 환경변수 설정하고  
&nbsp;&nbsp;2. JPype 검색해서 파이썬버전과 윈도우 32/64bit 에 맞는 버전 설치  
&nbsp;&nbsp;3. pip install konlpy  

https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 접속 버전에 맞는 JPype 다운로드  
JPype1-1.2.0-cp36-cp36m-win_amd64.whl 파일이 위치한 폴더에서 cmd 창을 띄우고 아래의 문장을 실행한다.  
python -m pip install --user JPype1-1.2.0-cp36-cp36m-win_amd64.whl  

In [16]:
from konlpy.tag import *

In [18]:
hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
# mecab = Mecab() # 윈도우에서 지원하지 않는다.

# 이 클래스들은 다음과 같은 함수를 공통적으로 제공한다.
# nouns: 명사 추출
# morphs: 형태소 추출
# pos: 품사 부착

명사 추출

In [24]:
hannanum.nouns(c[:40])

['대한민국헌법', '유구', '역사', '전통', '빛', '우리', '대한국민', '3·1운동']

In [20]:
kkma.nouns(c[:40])

['대한',
 '대한민국',
 '대한민국헌법',
 '민국',
 '헌법',
 '유구',
 '역사',
 '전통',
 '우리',
 '국민',
 '3',
 '1',
 '1운동',
 '운동']

In [21]:
komoran.nouns(c[:40])
# komoran에서 빈 줄 때문에 에러가 발생되면 아래의 식으로 실행한다.
# komoran.nouns('\n'.join([s for s in c[:40].split('\n') if s]))

['대한민국', '헌법', '역사', '전통', '국민', '운동']

In [23]:
okt.nouns(c[:40])

['대한민국', '헌법', '유구', '역사', '전통', '우리', '국민', '운동']

형태소 추출

In [25]:
hannanum.morphs(c[:40])

['대한민국헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛',
 '나는',
 '우리',
 '대한국민',
 '은',
 '3·1운동',
 '으로']

In [26]:
kkma.morphs(c[:40])

['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로']

In [28]:
komoran.morphs(c[:40])

['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로']

In [29]:
okt.morphs(c[:40])

['대한민국',
 '헌법',
 '\n\n',
 '유구',
 '한',
 '역사',
 '와',
 '전통',
 '에',
 '빛나는',
 '우리',
 '대',
 '한',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로']

품사 부착  
형태소 분석기마다 사용하는 품사 태그가 다르므로 각 형태소 분석기에 대한 문서를 참조한다.

In [31]:
hannanum.pos(c[:40])

[('대한민국헌법', 'N'),
 ('유구', 'N'),
 ('하', 'X'),
 ('ㄴ', 'E'),
 ('역사', 'N'),
 ('와', 'J'),
 ('전통', 'N'),
 ('에', 'J'),
 ('빛', 'N'),
 ('나는', 'J'),
 ('우리', 'N'),
 ('대한국민', 'N'),
 ('은', 'J'),
 ('3·1운동', 'N'),
 ('으로', 'J')]

In [32]:
kkma.pos(c[:40])

[('대한민국', 'NNG'),
 ('헌법', 'NNG'),
 ('유구', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('역사', 'NNG'),
 ('와', 'JC'),
 ('전통', 'NNG'),
 ('에', 'JKM'),
 ('빛나', 'VV'),
 ('는', 'ETD'),
 ('우리', 'NNM'),
 ('대하', 'VV'),
 ('ㄴ', 'ETD'),
 ('국민', 'NNG'),
 ('은', 'JX'),
 ('3', 'NR'),
 ('·', 'SP'),
 ('1', 'NR'),
 ('운동', 'NNG'),
 ('으로', 'JKM')]

In [33]:
komoran.pos(c[:40])

[('대한민국', 'NNP'),
 ('헌법', 'NNP'),
 ('유구', 'XR'),
 ('하', 'XSA'),
 ('ㄴ', 'ETM'),
 ('역사', 'NNG'),
 ('와', 'JC'),
 ('전통', 'NNG'),
 ('에', 'JKB'),
 ('빛나', 'VV'),
 ('는', 'ETM'),
 ('우리', 'NP'),
 ('대하', 'VV'),
 ('ㄴ', 'ETM'),
 ('국민', 'NNP'),
 ('은', 'JX'),
 ('3', 'SN'),
 ('·', 'SP'),
 ('1', 'SN'),
 ('운동', 'NNP'),
 ('으로', 'JKB')]

In [34]:
okt.pos(c[:40])

[('대한민국', 'Noun'),
 ('헌법', 'Noun'),
 ('\n\n', 'Foreign'),
 ('유구', 'Noun'),
 ('한', 'Josa'),
 ('역사', 'Noun'),
 ('와', 'Josa'),
 ('전통', 'Noun'),
 ('에', 'Josa'),
 ('빛나는', 'Verb'),
 ('우리', 'Noun'),
 ('대', 'Modifier'),
 ('한', 'Modifier'),
 ('국민', 'Noun'),
 ('은', 'Josa'),
 ('3', 'Number'),
 ('·', 'Punctuation'),
 ('1', 'Number'),
 ('운동', 'Noun'),
 ('으로', 'Josa')]

부착되는 품사 태그의 기호와 의미는 tagset 속성으로 확인할 수 있다.

In [35]:
hannanum.tagset

{'E': '어미',
 'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ET': '전성 어미',
 'F': '외국어',
 'I': '독립언',
 'II': '감탄사',
 'J': '관계언',
 'JC': '격조사',
 'JP': '서술격 조사',
 'JX': '보조사',
 'M': '수식언',
 'MA': '부사',
 'MM': '관형사',
 'N': '체언',
 'NB': '의존명사',
 'NC': '보통명사',
 'NN': '수사',
 'NP': '대명사',
 'NQ': '고유명사',
 'P': '용언',
 'PA': '형용사',
 'PV': '동사',
 'PX': '보조 용언',
 'S': '기호',
 'X': '접사',
 'XP': '접두사',
 'XS': '접미사'}

In [36]:
kkma.tagset

{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN': "부정 지정사, 형용사 '아니다'",
 'VC

In [37]:
komoran.tagset

{'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ETM': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JKB': '부사격 조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JKV': '호격 조사',
 'JX': '보조사',
 'MAG': '일반 부사',
 'MAJ': '접속 부사',
 'MM': '관형사',
 'NA': '분석불능범주',
 'NF': '명사추정범주',
 'NNB': '의존 명사',
 'NNG': '일반 명사',
 'NNP': '고유 명사',
 'NP': '대명사',
 'NR': '수사',
 'NV': '용언추정범주',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SH': '한자',
 'SL': '외국어',
 'SN': '숫자',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'VA': '형용사',
 'VCN': '부정 지정사',
 'VCP': '긍정 지정사',
 'VV': '동사',
 'VX': '보조 용언',
 'XPN': '체언 접두사',
 'XR': '어근',
 'XSA': '형용사 파생 접미사',
 'XSN': '명사파생 접미사',
 'XSV': '동사 파생 접미사'}

In [38]:
okt.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

In [39]:
from konlpy.tag import Okt
okt = Okt()

In [49]:
txt = '아버지가방에들어가신다.'
okt.pos(txt)

[('아버지', 'Noun'),
 ('가방', 'Noun'),
 ('에', 'Josa'),
 ('들어가신다', 'Verb'),
 ('.', 'Punctuation')]

In [41]:
okt.pos('이것도되나욬ㅋㅋㅋㅋ')

[('이', 'Determiner'),
 ('것', 'Noun'),
 ('도', 'Josa'),
 ('되나', 'Verb'),
 ('욬', 'Noun'),
 ('ㅋㅋㅋㅋ', 'KoreanParticle')]

In [42]:
# norm=True: 품사 태깅(기본값은 False)
okt.pos('이것도되나욬ㅋㅋㅋㅋ', norm=True)

[('이', 'Determiner'),
 ('것', 'Noun'),
 ('도', 'Josa'),
 ('되나요', 'Verb'),
 ('ㅋㅋㅋ', 'KoreanParticle')]

In [43]:
# stem=True: 원형 글자로 바꿔준다.(기본값은 False)
okt.pos('이것도되나욬ㅋㅋㅋㅋ', stem=True)

[('이', 'Determiner'),
 ('것', 'Noun'),
 ('도', 'Josa'),
 ('되다', 'Verb'),
 ('욬', 'Noun'),
 ('ㅋㅋㅋㅋ', 'KoreanParticle')]

In [44]:
# 텍스트를 형태소 단위로 나눈다.
okt.morphs(txt)

['아버지', '가방', '에', '들어가신다', '.']

In [50]:
# 텍스트에서 명사만 추출한다.
okt.nouns(txt)

['아버지', '가방']