형태소 분석(morphological analysis)

형태소 분석은 자연 언어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업이다.  
영문 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본이기 때문에 크게 어렵지 않으나 아시아 계열 언어 분석에는 많은 노력이 필요하다.  
대표적으로 문법 규칙에 의한 확률적 언어 모델을 사용하는 방법이 있는데 최근에 확률적 언어 모델을 사용한 형태소 분석이 많아서 정밀도가 높아졌다.  
어쨌거나 두 가지 품사 사전과 문법 사전을 기반으로 대조하면서 형태소 분석을 한다.

한국어 형태소 분석 라이브러리 => konlpy => pip install konlpy => java 1.7 이상이 버전이 미리 설치되어 있어야 한다.  
konlpy에는 대한민국 헌법 말뭉치(corpus) kolaw와 국회 법안 말뭉치 kobill을 제공한다.

konlpy 라이브러리가 설치되지 않을 경우 아래와 같은 방법을 사용해서 설치한다.  
pip install "jpype1<1"를 실행해서 다운 그레이드 후 pip install konlpy를 실행해서 설치한다.

In [1]:
from konlpy.corpus import kolaw, kobill

In [4]:
# 각 말뭉치가 저장된 텍스트 파일 이름은 fileids() 메소드로 확인할 수 있다.
print(kolaw.fileids())
print(kobill.fileids())

['constitution.txt']
['1809890.txt', '1809891.txt', '1809892.txt', '1809893.txt', '1809894.txt', '1809895.txt', '1809896.txt', '1809897.txt', '1809898.txt', '1809899.txt']


In [7]:
# 말뭉치가 저장된 텍스트 파일을 읽어들이려면 말뭉치가 저장된 텍스트 파일을 open() 메소드로 열고 
# read() 메소드로 읽는다.
kolaw_corpus = kolaw.open('constitution.txt').read()
print(kolaw_corpus[:40])

대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로


In [8]:
kobill_corpus = kobill.open('1809890.txt').read()
print(kobill_corpus[:40])

지방공무원법 일부개정법률안

(정의화의원 대표발의 )

 의 안
 번 호


konlpy에는 다음과 같은 형태소 분석, 태깅 라이브러리를 파이썬에서 쉽게 사용할 수 있도록 모아놓았다.

Hannanum: 한나눔. KAIST Semantic Web Research Center 개발.  
http://semanticweb.kaist.ac.kr/hannanum/  
Kkma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.  
http://kkma.snu.ac.kr/  
Komoran: 코모란. Shineware에서 개발.  
https://github.com/shin285/KOMORAN  
Mecab: 메카브. 일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정.  
https://bitbucket.org/eunjeon/mecab-ko  
Open Korean Text: 오픈 소스 한국어 분석기. 과거 트위터 형태소 분석기.  
https://github.com/open-korean-text/open-korean-text

In [9]:
# 사용하려는 형태소 분석기를 import 한다.
from konlpy.tag import *

In [15]:
hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
# mecab = Mecab() # 윈도우에서 지원하지 않는다.

# 형태소 분석 클래스들은 다음과 같은 메소드를 공통으로 지원한다.
# nouns(): 명사 추출
# morphs(): 형태소 추출
# pos(): 품사 추출

명사 추출

In [20]:
hannanum.nouns(kolaw_corpus[:40])

['대한민국헌법', '유구', '역사', '전통', '빛', '우리', '대한국민', '3·1운동']

In [17]:
kkma.nouns(kolaw_corpus[:40])

['대한',
 '대한민국',
 '대한민국헌법',
 '민국',
 '헌법',
 '유구',
 '역사',
 '전통',
 '우리',
 '국민',
 '3',
 '1',
 '1운동',
 '운동']

In [18]:
komoran.nouns(kolaw_corpus[:40])

['대한민국', '헌법', '역사', '전통', '국민', '운동']

In [19]:
okt.nouns(kolaw_corpus[:40])

['대한민국', '헌법', '유구', '역사', '전통', '우리', '국민', '운동']

형태소 추출

In [21]:
hannanum.morphs(kolaw_corpus[:40])

['대한민국헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛',
 '나는',
 '우리',
 '대한국민',
 '은',
 '3·1운동',
 '으로']

In [22]:
kkma.morphs(kolaw_corpus[:40])

['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로']

In [23]:
komoran.morphs(kolaw_corpus[:40])

['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로']

In [24]:
okt.morphs(kolaw_corpus[:40])

['대한민국',
 '헌법',
 '\n\n',
 '유구',
 '한',
 '역사',
 '와',
 '전통',
 '에',
 '빛나는',
 '우리',
 '대',
 '한',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로']

품사 부착

형태소 분석기마다 사용하는 품사 태그가 다르므로 각 형태소 분석기에 대한 문서를 참조한다.  
부착되는 품사 태그와 기호의 의미는 tagset 속성으로 확인할 수 있다.

In [25]:
hannanum.pos(kolaw_corpus[:40])

[('대한민국헌법', 'N'),
 ('유구', 'N'),
 ('하', 'X'),
 ('ㄴ', 'E'),
 ('역사', 'N'),
 ('와', 'J'),
 ('전통', 'N'),
 ('에', 'J'),
 ('빛', 'N'),
 ('나는', 'J'),
 ('우리', 'N'),
 ('대한국민', 'N'),
 ('은', 'J'),
 ('3·1운동', 'N'),
 ('으로', 'J')]

In [26]:
hannanum.tagset

{'E': '어미',
 'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ET': '전성 어미',
 'F': '외국어',
 'I': '독립언',
 'II': '감탄사',
 'J': '관계언',
 'JC': '격조사',
 'JP': '서술격 조사',
 'JX': '보조사',
 'M': '수식언',
 'MA': '부사',
 'MM': '관형사',
 'N': '체언',
 'NB': '의존명사',
 'NC': '보통명사',
 'NN': '수사',
 'NP': '대명사',
 'NQ': '고유명사',
 'P': '용언',
 'PA': '형용사',
 'PV': '동사',
 'PX': '보조 용언',
 'S': '기호',
 'X': '접사',
 'XP': '접두사',
 'XS': '접미사'}

In [27]:
kkma.pos(kolaw_corpus[:40])

[('대한민국', 'NNG'),
 ('헌법', 'NNG'),
 ('유구', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('역사', 'NNG'),
 ('와', 'JC'),
 ('전통', 'NNG'),
 ('에', 'JKM'),
 ('빛나', 'VV'),
 ('는', 'ETD'),
 ('우리', 'NNM'),
 ('대하', 'VV'),
 ('ㄴ', 'ETD'),
 ('국민', 'NNG'),
 ('은', 'JX'),
 ('3', 'NR'),
 ('·', 'SP'),
 ('1', 'NR'),
 ('운동', 'NNG'),
 ('으로', 'JKM')]

In [28]:
kkma.tagset

{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN': "부정 지정사, 형용사 '아니다'",
 'VC

In [29]:
komoran.pos(kolaw_corpus[:40])

[('대한민국', 'NNP'),
 ('헌법', 'NNP'),
 ('유구', 'XR'),
 ('하', 'XSA'),
 ('ㄴ', 'ETM'),
 ('역사', 'NNG'),
 ('와', 'JC'),
 ('전통', 'NNG'),
 ('에', 'JKB'),
 ('빛나', 'VV'),
 ('는', 'ETM'),
 ('우리', 'NP'),
 ('대하', 'VV'),
 ('ㄴ', 'ETM'),
 ('국민', 'NNP'),
 ('은', 'JX'),
 ('3', 'SN'),
 ('·', 'SP'),
 ('1', 'SN'),
 ('운동', 'NNP'),
 ('으로', 'JKB')]

In [30]:
komoran.tagset

{'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ETM': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JKB': '부사격 조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JKV': '호격 조사',
 'JX': '보조사',
 'MAG': '일반 부사',
 'MAJ': '접속 부사',
 'MM': '관형사',
 'NA': '분석불능범주',
 'NF': '명사추정범주',
 'NNB': '의존 명사',
 'NNG': '일반 명사',
 'NNP': '고유 명사',
 'NP': '대명사',
 'NR': '수사',
 'NV': '용언추정범주',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SH': '한자',
 'SL': '외국어',
 'SN': '숫자',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'VA': '형용사',
 'VCN': '부정 지정사',
 'VCP': '긍정 지정사',
 'VV': '동사',
 'VX': '보조 용언',
 'XPN': '체언 접두사',
 'XR': '어근',
 'XSA': '형용사 파생 접미사',
 'XSN': '명사파생 접미사',
 'XSV': '동사 파생 접미사'}

In [31]:
okt.pos(kolaw_corpus[:40])

[('대한민국', 'Noun'),
 ('헌법', 'Noun'),
 ('\n\n', 'Foreign'),
 ('유구', 'Noun'),
 ('한', 'Josa'),
 ('역사', 'Noun'),
 ('와', 'Josa'),
 ('전통', 'Noun'),
 ('에', 'Josa'),
 ('빛나는', 'Verb'),
 ('우리', 'Noun'),
 ('대', 'Modifier'),
 ('한', 'Modifier'),
 ('국민', 'Noun'),
 ('은', 'Josa'),
 ('3', 'Number'),
 ('·', 'Punctuation'),
 ('1', 'Number'),
 ('운동', 'Noun'),
 ('으로', 'Josa')]

In [32]:
okt.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

In [50]:
text = '아버지가 방에 들어가신다.'

In [51]:
print(hannanum.nouns(text))
print(kkma.nouns(text))
print(komoran.nouns(text))
print(okt.nouns(text))

['아버지', '방']
['아버지', '방']
['아버지', '방']
['아버지', '방']


In [52]:
print(hannanum.morphs(text))
print(kkma.morphs(text))
print(komoran.morphs(text))
print(okt.morphs(text))

['아버지', '가', '방', '에', '들', '어', '가', '시ㄴ다', '.']
['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다', '.']
['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다', '.']
['아버지', '가', '방', '에', '들어가신다', '.']


In [53]:
print(hannanum.pos(text))
print(kkma.pos(text))
print(komoran.pos(text))
print(okt.pos(text))

[('아버지', 'N'), ('가', 'J'), ('방', 'N'), ('에', 'J'), ('들', 'P'), ('어', 'E'), ('가', 'P'), ('시ㄴ다', 'E'), ('.', 'S')]
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN'), ('.', 'SF')]
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('시', 'EP'), ('ㄴ다', 'EF'), ('.', 'SF')]
[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb'), ('.', 'Punctuation')]


In [56]:
text = '이것도되나욬ㅋㅋㅋㅋㅋㅋ'

In [57]:
print(hannanum.nouns(text))
print(kkma.nouns(text))
print(komoran.nouns(text))
print(okt.nouns(text))

['이것도되나욬ㅋㅋㅋㅋㅋ', 'ㅋ']
['이것', '욬']
[]
['것', '욬']


In [58]:
print(hannanum.morphs(text))
print(kkma.morphs(text))
print(komoran.morphs(text))
print(okt.morphs(text))

['이것도되나욬ㅋㅋㅋㅋㅋ', 'ㅋ']
['이것', '도', '되', '나', '욬', 'ㅋㅋㅋㅋㅋㅋ']
['이것도되나욬ㅋㅋㅋㅋㅋㅋ']
['이', '것', '도', '되나', '욬', 'ㅋㅋㅋㅋㅋㅋ']


In [60]:
print(hannanum.pos(text, ))
print(kkma.pos(text))
print(komoran.pos(text))
print(okt.pos(text))

[('이것도되나욬ㅋㅋㅋㅋㅋ', 'N'), ('ㅋ', 'N')]
[('이것', 'NP'), ('도', 'JX'), ('되', 'VV'), ('나', 'ECE'), ('욬', 'UN'), ('ㅋㅋㅋㅋㅋㅋ', 'EMO')]
[('이것도되나욬ㅋㅋㅋㅋㅋㅋ', 'NA')]
[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나', 'Verb'), ('욬', 'Noun'), ('ㅋㅋㅋㅋㅋㅋ', 'KoreanParticle')]


In [62]:
print(okt.pos(text, norm=False)) # 기본값
print(okt.pos(text, norm=True)) # 품사태깅

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나', 'Verb'), ('욬', 'Noun'), ('ㅋㅋㅋㅋㅋㅋ', 'KoreanParticle')]
[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나요', 'Verb'), ('ㅋㅋㅋ', 'KoreanParticle')]


In [65]:
print(okt.pos(text, stem=False)) # 기본값
print(okt.pos(text, stem=True)) # 원형 글자로 바궈준다.

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나', 'Verb'), ('욬', 'Noun'), ('ㅋㅋㅋㅋㅋㅋ', 'KoreanParticle')]
[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되다', 'Verb'), ('욬', 'Noun'), ('ㅋㅋㅋㅋㅋㅋ', 'KoreanParticle')]
