In [1]:
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from konlpy.tag import Hannanum

# mac
# from konlpy.tag import Mecab

# 윈도우
import MeCab

# 트위터 형태소 분석기와 이름이 같음
from konlpy.tag import Okt


# 형태소 분석을 위한 객체 생성
kkma = Kkma()
komoran = Komoran()
hannanum = Hannanum()
# 윈도우에서 Mecab 생성
mecab = MeCab.Tagger()

# 맥에서 Mecab 생성
# mecab = MeCab()

okt = Okt()

## 문장 분석 품질 비교
### 띄어쓰기가 제대로 되어 있지 않은 문장

In [12]:
text = "아버지가방에들어가신다"

In [13]:
# 꼬꼬마 형태소 분석 결과

# POS = Part-Of-Speech : 품사

kkma.pos(text)

[('아버지', 'NNG'),
 ('가방', 'NNG'),
 ('에', 'JKM'),
 ('들어가', 'VV'),
 ('시', 'EPH'),
 ('ㄴ다', 'EFN')]

In [15]:
# 명사 부분만 추출

kkma.morphs(text)

['아버지', '가방', '에', '들어가', '시', 'ㄴ다']

In [16]:
# 코모란 형태소 분석 결과
komoran.pos(text)

[('아버지', 'NNG'),
 ('가방', 'NNP'),
 ('에', 'JKB'),
 ('들어가', 'VV'),
 ('시', 'EP'),
 ('ㄴ다', 'EC')]

In [17]:
komoran.morphs(text)

['아버지', '가방', '에', '들어가', '시', 'ㄴ다']

In [18]:
hannanum.pos(text)

[('아버지가방에들어가', 'N'), ('이', 'J'), ('시ㄴ다', 'E')]

In [19]:
hannanum.morphs(text)

['아버지가방에들어가', '이', '시ㄴ다']

In [6]:
print(mecab.parse(text))  

아버지	NNG,*,F,아버지,*,*,*,*
가	JKS,*,F,가,*,*,*,*
방	NNG,장소,T,방,*,*,*,*
에	JKB,*,F,에,*,*,*,*
들어가	VV,*,F,들어가,*,*,*,*
신다	EP+EC,*,F,신다,Inflect,EP,EC,시/EP/*+ㄴ다/EC/*
EOS



- 원래 출력은 이렇게 해주는 형태임,  그런데, pos(), morph()를 쓰면서 보기좋게 만들어 주는것
- 윈도우에서 pos() 에러남

In [7]:
# 위 출력을 다른 형태소 분석기의 pos() 형태로 똑같이 보여주고 싶다면?

# 출력문이 어떤 타입인지 확인
print(type(mecab.parse(text)))

<class 'str'>


In [8]:
mecab.parse(text).splitlines()

['아버지\tNNG,*,F,아버지,*,*,*,*',
 '가\tJKS,*,F,가,*,*,*,*',
 '방\tNNG,장소,T,방,*,*,*,*',
 '에\tJKB,*,F,에,*,*,*,*',
 '들어가\tVV,*,F,들어가,*,*,*,*',
 '신다\tEP+EC,*,F,신다,Inflect,EP,EC,시/EP/*+ㄴ다/EC/*',
 'EOS']

In [24]:
import re

def mecab_pos(text):
    pos = []
    
    # 우리가 원하는 TOKEN\tPOS 의 형태를 추출하는 정규 표현식
    pattern = re.compile(".*\t[A-Z]+")
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정
    pos = [tuple(pattern.match(token).group(0).split("\t")) 
                   for token in mecab.parse(text).splitlines()[:-1]]
    
    return pos

In [25]:
mecab_pos(text)

[('아버지', 'NNG'),
 ('가', 'JKS'),
 ('방', 'NNG'),
 ('에', 'JKB'),
 ('들어가', 'VV'),
 ('신다', 'EP')]

In [37]:
# mecab_morphs 도 작성
def mecab_morphs(text):
    morphs = []
    
    # 우리가 원하는 TOKEN\tPOS 의 형태를 추출하는 정규 표현식
    pattern = re.compile(".*\t[A-Z]+")
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정
    temp = [tuple(pattern.match(token).group(0).split("\t")) 
                   for token in mecab.parse(text).splitlines()[:-1]]
    
    # 추출한 토큰 중에 문자열만 선택
    for token in temp:
        morphs.append(token[0])  
    
    
    return morphs

In [38]:
def mecab_nouns(text):
    nouns = []
    
    # 우리가 원하는 TOKEN\tPOS 의 형태를 추출하는 정규 표현식
    pattern = re.compile(".*\t[A-Z]+")
    
    
    temp = [tuple(pattern.match(token).group(0).split("\t")) 
                   for token in mecab.parse(text).splitlines()[:-1]]
    
    for token in temp:
        if token[1] == "NNG" or token[1]=="NNP" or token[1]=="NNB" or token[1]=="NNBC" or token[1]=="NP" or token[1]=="NR":
            nouns.append(token[0]) 
    return nouns

In [49]:
okt.pos(text) # 명사, 부사, 형용사 이렇게 간단한 형식으로만 형태소 분석

[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]

### 오탈자 때문에 불완전한 문장

In [22]:
text2 = "ㄱㅐㄴㅏ리가 피어있는 동산에 누워있고싶ㄷㅏ"

In [26]:
# 꼬꼬마 형태소 결과 출력하기

print("꼬꼬마 : %s\n" % kkma.pos(text2))
print("코모란 : %s\n" % komoran.pos(text2))
print("한나눔 : %s\n" % hannanum.pos(text2))
print("mecab : %s\n" % mecab_pos(text2))
print("okt : %s\n" % okt.pos(text2))

꼬꼬마 : [('ㄱㅐㄴㅏ리', 'UN'), ('가', 'JKS'), ('피', 'VV'), ('어', 'ECD'), ('있', 'VXV'), ('는', 'ETD'), ('동산', 'NNG'), ('에', 'JKM'), ('눕', 'VV'), ('어', 'ECS'), ('있', 'VV'), ('고', 'ECE'), ('싶ㄷㅏ', 'UN')]

코모란 : [('개나리', 'NNP'), ('가', 'JKS'), ('피', 'VV'), ('어', 'EC'), ('있', 'VX'), ('는', 'ETM'), ('동산', 'NNP'), ('에', 'JKB'), ('눕', 'VV'), ('어', 'EC'), ('있', 'VX'), ('고', 'EC'), ('싶', 'VX'), ('다', 'EC')]

한나눔 : [('ㄱㅐㄴㅏ리', 'N'), ('가', 'J'), ('피', 'P'), ('어', 'E'), ('있', 'P'), ('는', 'E'), ('동산', 'N'), ('에', 'J'), ('누워있고싶ㄷㅏ', 'N')]

mecab : [('ㄱ', 'NNG'), ('ㅐㄴㅏ리가', 'UNKNOWN'), ('피', 'VV'), ('어', 'EC'), ('있', 'VX'), ('는', 'ETM'), ('동산', 'NNG'), ('에', 'JKB'), ('누워', 'VV'), ('있', 'VX'), ('고', 'EC'), ('싶', 'VX'), ('ㄷ', 'NNG'), ('ㅏ', 'UNKNOWN')]

okt : [('ㄱㅐㄴㅏ', 'KoreanParticle'), ('리가', 'Noun'), ('피어있는', 'Verb'), ('동산', 'Noun'), ('에', 'Josa'), ('누워있고싶', 'Verb'), ('ㄷㅏ', 'KoreanParticle')]



### 속도 비교

In [28]:
text3 = '''
2일 서울역으로 진입하던 무궁화호 열차 1량이 탈선하는 사고가 발생했다. 이날 오후 9시 25분 용산역을 출발하기 위해 회송 중이던 열차여서 승객은 타고 있지 않았다. 코레일 측은 "이번 사고로 인명피해는 없으나 경의선 전동열차의 운행구간을 일부 조정했다"고 설명했다.
한국철도공사(코레일)에 따르면 이날 오후 8시58분께 용산에서 여수엑스포역으로 출발하기 위해 회송하던 무궁화호 열차가 서울역 진입 중 맨 뒤에 달린 발전차 1량이 궤도를 이탈하는 사고가 났다. 이에 따라 이날 KTX와 일반열차는 정상운행 중이나 일부 경의선 열차 운행조정으로 지연이 발생하고 있는 것으로 알려졌다. 코레일은 사고 발생 즉시 긴급 복구반을 현장에 투입해 복구작업을 펼치고 있으며, 사고원인은 복구 이후 조사할 예정이다.
코레일 측은 "열차이용에 불편을 드린 점 깊이 사과드린다"며 "안전한 열차 운행과 복구를 위해 최선을 다하겠다"고 밝혔다.
'''

In [29]:
%%time
print(kkma.pos(text3)[:5])

[('2', 'NR'), ('일', 'NNM'), ('서울역', 'NNG'), ('으로', 'JKM'), ('진입', 'NNG')]
Wall time: 524 ms


In [30]:
%%time
print(komoran.pos(text3)[:5])

[('2', 'SN'), ('일', 'NNB'), ('서울역', 'NNP'), ('으로', 'JKB'), ('진입', 'NNG')]
Wall time: 71 ms


In [31]:
%%time
print(hannanum.pos(text3)[:5])

[('2일', 'N'), ('서울역', 'N'), ('으로', 'J'), ('진입', 'N'), ('하', 'X')]
Wall time: 156 ms


In [34]:
%%time
print(mecab_pos(text3)[:5])

[('2', 'SN'), ('일', 'NNBC'), ('서울', 'NNP'), ('역', 'NNG'), ('으로', 'JKB')]
Wall time: 184 ms


In [39]:
%%time
print(mecab_morphs(text3)[:5])

['2', '일', '서울', '역', '으로']
Wall time: 4 ms


In [40]:
%%time
print(mecab_nouns(text3)[:5])

['일', '서울', '역', '진입', '무궁화호']
Wall time: 2 ms


In [35]:
%%time
print(okt.pos(text3)[:5])

[('\n', 'Foreign'), ('2일', 'Number'), ('서울역', 'Noun'), ('으로', 'Josa'), ('진입', 'Noun')]
Wall time: 835 ms
