# konlpy 형태소 분석기 성능비교(윈도우 사용자 Version)

In [10]:
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from konlpy.tag import Hannanum
from konlpy.tag import Okt
from konlpy.tag import Mecab # 해당 코드는 윈도우에서 되지 않는다.
import MeCab # 윈도우 mecab 불러오기
import re # 정규표현식

# 형태소 분석을 위한 객체 생성.
kkma = Kkma()
komoran = Komoran()
hannanum = Hannanum()
okt = Okt()
mecab = MeCab.Tagger()

In [17]:
def mecab_nouns(text):
    nouns = []
    
    # 우리가 원하는 TOKEN\tPOS의 형태를 추출하는 정규표현식.
    pattern = re.compile('.*\t[A-Z]+')
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정.
    temp = [tuple(pattern.match(token).group(0).split('\t')) for token in mecab.parse(text).splitlines()[:-1]]
    # 추출한 token중에 POS가 명사 분류에 속하는 토큰만 선택.
    for token in temp:
        if token[1] == "NNG" or token[1] == "NNP" or token[1] == "NNB" or token[1] == "NNBC" or token[1] == "NP" or token[1] == "NR":
            nouns.append(token[0])
    
    
    return nouns

def mecab_morphs(text):
    morphs = []
    
    # 우리가 원하는 TOKEN\tPOS의 형태를 추출하는 정규표현식.
    pattern = re.compile('.*\t[A-Z]+')
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정.
    temp = [tuple(pattern.match(token).group(0).split('\t')) for token in mecab.parse(text).splitlines()[:-1]]
        
    # 추출한 token중에 문자열만 선택.
    for token in temp:
        morphs.append(token[0])
    
    return morphs

def mecab_pos(text):
    pos = []
    # 우리가 원하는 TOKEN\tPOS의 형태를 추출하는 정규표현식.
    pattern = re.compile(".*\t[A-Z]+")
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정.
    pos = [tuple(pattern.match(token).group(0).split('\t')) for token in mecab.parse(text).splitlines()[:-1]]
    
    return pos

## 문장 분석 품질 비교

> ### 1. 띄어쓰기가 제대로 되어있지 않은 문장

In [43]:
text1 = "무지개같은사장님"
text2 = "아저씨발냄새나요"
text3 = "아버지가방에들어가신다"

In [4]:
# 꼬꼬마 형태소 분석 결과
kkma.pos(text)

[('할머니', 'NNG'),
 ('가방', 'NNG'),
 ('에', 'JKM'),
 ('들어가', 'VV'),
 ('시', 'EPH'),
 ('ㄴ다', 'EFN')]

In [5]:
# 코모란 형태소 분석 결과
komoran.pos(text)

[('아버지', 'NNG'),
 ('가방', 'NNP'),
 ('에', 'JKB'),
 ('들어가', 'VV'),
 ('시', 'EP'),
 ('ㄴ다', 'EC')]

In [6]:
hannanum.pos(text)

[('아버지가방에들어가', 'N'), ('이', 'J'), ('시ㄴ다', 'E')]

In [7]:
mecab_pos(text)

[('아버지', 'NNG'),
 ('가', 'JKS'),
 ('방', 'NNG'),
 ('에', 'JKB'),
 ('들어가', 'VV'),
 ('신다', 'EP')]

In [8]:
okt.pos(text)

[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]

> ### 2. 오탈자 때문에 불완전한 문장

In [9]:
text2 = "ㄱㅐㄴㅏ리가 피어있는 동산에 누워있고싶ㄷㅏ"

In [44]:
# 꼬꼬마 형태소 결과 출력하기.

print(f'\n---------------------"{text1}"에 대한 분석------------------------\n')
print("꼬꼬마 : %s\n" % kkma.pos(text1))
print("코모란 : %s\n" % komoran.pos(text1))
print("한나눔 : %s\n" % hannanum.pos(text1))
print("Okt : %s\n" % okt.pos(text1))
print("mecab : %s\n" % mecab_pos(text1))


print(f'\n---------------------"{text2}"에 대한 분석------------------------\n')
print("꼬꼬마 : %s\n" % kkma.pos(text2))
print("코모란 : %s\n" % komoran.pos(text2))
print("한나눔 : %s\n" % hannanum.pos(text2))
print("Okt : %s\n" % okt.pos(text2))
print("mecab : %s\n" % mecab_pos(text2))


print(f'\n---------------------"{text3}"에 대한 분석------------------------\n')
print("꼬꼬마 : %s\n" % kkma.pos(text3))
print("코모란 : %s\n" % komoran.pos(text3))
print("한나눔 : %s\n" % hannanum.pos(text3))
print("Okt : %s\n" % okt.pos(text3))
print("mecab : %s\n" % mecab_pos(text3))



---------------------"무지개같은사장님"에 대한 분석------------------------

꼬꼬마 : [('무지개', 'NNG'), ('같', 'VA'), ('은', 'ETD'), ('사장님', 'NNG')]

코모란 : [('무지개', 'NNG'), ('같', 'VA'), ('은', 'ETM'), ('사장', 'NNP'), ('님', 'XSN')]

한나눔 : [('무지개같은사장님', 'N')]

Okt : [('무지개', 'Noun'), ('같은', 'Adjective'), ('사장', 'Noun'), ('님', 'Suffix')]

mecab : [('무지개', 'NNG'), ('같', 'VA'), ('은', 'ETM'), ('사장', 'NNG'), ('님', 'XSN')]


---------------------"아저씨발냄새나요"에 대한 분석------------------------

꼬꼬마 : [('아저씨', 'NNG'), ('발', 'NNG'), ('냄새', 'NNG'), ('나', 'VV'), ('아요', 'EFN')]

코모란 : [('아저씨', 'NNG'), ('발', 'NNG'), ('냄새나', 'VV'), ('요', 'EC')]

한나눔 : [('아저씨발냄새', 'N'), ('이', 'J'), ('나요', 'E')]

Okt : [('아저씨', 'Noun'), ('발', 'Noun'), ('냄새', 'Noun'), ('나', 'Josa'), ('요', 'Noun')]

mecab : [('아저씨', 'NNG'), ('발', 'NNG'), ('냄새나', 'VV'), ('요', 'EC')]


---------------------"아버지가방에들어가신다"에 대한 분석------------------------

꼬꼬마 : [('아버지', 'NNG'), ('가방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]

코모란 : [('아버지', 'NNG

> ### 3. 속도 비교

In [33]:
news = """윤태호 중앙사고수습본부 방역총괄반장은 1일 정부세종청사에서 열린 중앙재난안전대책본부 브리핑에서 전공의들의 의대정원 확대 정책 철회 요구와 관련해 "정부는 이미 어떠한 조건도 걸지 않고 교육부 정원 통보 등 의사 수 확대 정책의 추진을 중단해 둔 상태"라고 말했다.

윤 방역총괄반장은 "코로나19의 위기 극복 이후에 모든 가능성을 열어놓고 협의를 하자는 제안을 지속해서 제시한 바 있다"며 "전공의단체가 새로운 정책 대안을 제시한다면 정부도 진정성을 갖고 논의에 임할 것"이라고 했다.

그러면서 "정부의 양보와 제안에도 불구하고 의사 수 확대 철회라는 요청이 환자들의 생명과 안전을 위협하는 집단적인 진료 거부까지 강행할 만큼 중요하고 시급한 것인지 재고해 달라"고 말했다.

정부는 의대정원 확대와 관련해서는 모든 가능성을 열어두고 논의해가겠다는 입장을 '대통령 약속'이라고 언급하면서 업무 복귀를 촉구했다.

윤 방역총괄반장은 "어제 문재인 대통령도 코로나19의 위기가 해소된 이후 정부가 약속한 협의체와 국회의 협의기구 등을 통해 의료계와 충분한 협의를 추진하겠다고 말했다"며 "대통령까지 약속한 협의를 믿고 조속히 진료현장으로 돌아와 달라"고 말했다.

또 정부는 전날 지방의 한 수련병원의 업무개시명령 현장조사 과정에서 벌어진 시위와 관련해서는 의사 표현 방식의 일환으로 보고, 공무집행방해죄 적용 등을 검토하지 않겠다는 입장을 밝혔다. 현재로서는 추가 현장조사도 계획하지 않고 있다.

아울러 정부는 업무개시명령 위반으로 고발된 전공의들에 대해서는 곧바로 사법처리가 이뤄지는 것이 아니라 적법성, 고의성 등에 대한 추가 검증이 진행될 예정이라고 전했다.

또 수련병원에서 전공의 근무를 파악하는 과정에서 착오가 있었던 사례가 발견된 만큼 검증 과정을 체계화할 방침이다."""

In [34]:
%%time
print(kkma.pos(news)[:5])

[('윤', 'NNG'), ('태호', 'NNP'), ('중앙', 'NNG'), ('사고', 'NNG'), ('수습', 'NNG')]
Wall time: 412 ms


In [35]:
%%time
print(komoran.pos(news)[:5])

[('윤태호', 'NNP'), ('중앙', 'NNP'), ('사고', 'NNP'), ('수습', 'NNG'), ('본부', 'NNG')]
Wall time: 42.9 ms


In [36]:
%%time
print(hannanum.pos(news)[:5])

[('윤태호', 'N'), ('중앙사고수습본부', 'N'), ('방역총괄반장', 'N'), ('은', 'J'), ('1', 'N')]
Wall time: 57.8 ms


In [38]:
%%time
print(okt.pos(news)[:5])

[('윤태호', 'Noun'), ('중앙', 'Noun'), ('사고', 'Noun'), ('수습', 'Noun'), ('본부', 'Noun')]
Wall time: 89.7 ms


In [37]:
%%time
print(mecab_pos(news)[:5])

[('윤태호', 'NNP'), ('중앙', 'NNG'), ('사고', 'NNG'), ('수습', 'NNG'), ('본부', 'NNG')]
Wall time: 256 ms
