<a href="https://colab.research.google.com/github/DojunPark/Machine_Translation/blob/master/06_comparing_korean_morpheme_analyzer_speed.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Install morpheme analyzers (tokenizers)

- konlpy (okt, mecab, hannanum, kkma, komoran)

In [1]:
!pip install konlpy
! sudo apt-get install curl git
! bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.3MB/s 
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/8b/f7/a368401e630f0e390dd0e62c39fb928e5b23741b53c2360ee7d376660927/JPype1-1.0.2-cp36-cp36m-manylinux2010_x86_64.whl (3.8MB)
[K     |████████████████████████████████| 3.8MB 42.4MB/s 
[?25hCollecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 8.2MB/s 
[?25hCollecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Collecting tweepy>=3.7.0
  Downloa

- khaiii (from kakao)

In [2]:
!git clone https://github.com/kakao/khaiii.git
!pip install cmake
!mkdir build
!cd build && cmake /content/khaiii
!cd /content/build/ && make all
!cd /content/build/ && make resource
!cd /content/build && make install
!cd /content/build && make package_python
!pip install /content/build/package_python

Cloning into 'khaiii'...
remote: Enumerating objects: 80, done.[K
remote: Counting objects: 100% (80/80), done.[K
remote: Compressing objects: 100% (59/59), done.[K
remote: Total 957 (delta 25), reused 49 (delta 19), pack-reused 877[K
Receiving objects: 100% (957/957), 33.03 MiB | 28.79 MiB/s, done.
Resolving deltas: 100% (383/383), done.
-- [hunter] Initializing Hunter workspace (70287b1ffa810ee4e952052a9adff9b4856d0d54)
-- [hunter]   https://github.com/ruslo/hunter/archive/v0.23.34.tar.gz
-- [hunter]   -> /root/.hunter/_Base/Download/Hunter/0.23.34/70287b1
-- The C compiler identification is GNU 7.5.0
-- The CXX compiler identification is GNU 7.5.0
-- Check for working C compiler: /usr/bin/cc
-- Check for working C compiler: /usr/bin/cc -- works
-- Detecting C compiler ABI info
-- Detecting C compiler ABI info - done
-- Detecting C compile features
-- Detecting C compile features - done
-- Check for working CXX compiler: /usr/bin/c++
-- Check for working CXX compiler: /usr/bin/c+

# Test the performance (single sentence)

In [19]:
from konlpy.tag import Okt, Mecab, Kkma, Komoran, Hannanum
from khaiii import KhaiiiApi
import time

okt = Okt()
mecab = Mecab()
kkma = Kkma()
komoran = Komoran()
hannanum = Hannanum()
khaiii = KhaiiiApi()

def tokenize_khaiii(sent):
    list = []
    for word in khaiii.analyze(sent):
        for x in word.morphs:
            list.append(x.lex)
    return list

In [10]:
sent = "평소 자다가 일어나 소변을 보는 '야뇨증'이 있지 않다면 잠들기 한 시간~30분 전 물 한 잔을 마시는 것이 건강에 좋다."

# okt test
print('[okt 형태소 분석기 test]')
start = time.time()
print(okt.morphs(sent))
end = time.time()
time_okt = end - start
print(f'{time_okt:.4f} sec', end='\n\n')

# mecab test
print('[mecab 형태소 분석기 test]')
start = time.time()
print(mecab.morphs(sent))
end = time.time()
time_mecab = end - start
print(f'{time_mecab:.4f} sec', end='\n\n')

# kkma test
print('[kkma 형태소 분석기 test]')
start = time.time()
print(kkma.morphs(sent))
end = time.time()
time_kkma = end - start
print(f'{time_kkma:.4f} sec', end='\n\n')

# komoran test
print('[komoran 형태소 분석기 test]')
start = time.time()
print(komoran.morphs(sent))
end = time.time()
time_komoran = end - start
print(f'{time_komoran:.4f} sec', end='\n\n')

# hannanum test
print('[hannanum 형태소 분석기 test]')
start = time.time()
print(hannanum.morphs(sent))
end = time.time()
time_hannanum = end - start
print(f'{time_hannanum:.4f} sec', end='\n\n')

# khaiii test
print('[khaiii 형태소 분석기 test]')
start = time.time()
print(tokenize_khaiii(sent))
end = time.time()
time_khaiii = end - start
print(f'{time_khaiii:.4f} sec')

[okt 형태소 분석기 test]
['평소', '자다가', '일어나', '소변', '을', '보는', "'", '야뇨증', "'", '이', '있지', '않다면', '잠들기', '한', '시간', '~', '30분', '전', '물', '한', '잔', '을', '마시는', '것', '이', '건강', '에', '좋다', '.']
0.0215 sec

[mecab 형태소 분석기 test]
['평소', '자', '다가', '일어나', '소변', '을', '보', '는', "'", '야뇨증', "'", '이', '있', '지', '않', '다면', '잠들', '기', '한', '시간', '~', '30', '분', '전', '물', '한', '잔', '을', '마시', '는', '것', '이', '건강', '에', '좋', '다', '.']
0.0008 sec

[kkma 형태소 분석기 test]
['평소', '자', '다가', '일어', '나', '소변', '을', '보', '는', "'", '야뇨증', "'", '이', '있', '지', '않', '다면', '잠들기', '한', '시간', '~', '30', '분', '전', '물', '한', '잔', '을', '마시', '는', '것', '이', '건강', '에', '좋', '다', '.']
0.1203 sec

[komoran 형태소 분석기 test]
['평소', '자', '다가', '일어나', '아', '소변', '을', '보', '는', "'", '야뇨증', "'", '이', '있', '지', '않', '다면', '잠들', '기', '한', '시간', '~', '30', '분', '전', '물', '한', '잔', '을', '마시', '는', '것', '이', '건강', '에', '좋', '다', '.']
0.0067 sec

[hannanum 형태소 분석기 test]
['평소', '자', '아', '가', '아', '일어나', '아', '소변', '을', '보', '는', "'", '야뇨증', "'",

In [16]:
print(f'mecab speed >>> {time_mecab / time_mecab:.2f}')
print(f'khaiii speed >>> {time_khaiii / time_mecab:.2f}')
print(f'komoran speed >>> {time_komoran / time_mecab:.2f}')
print(f'okt speed >>> {time_okt / time_mecab:.2f}')
print(f'hannanum speed >>> {time_hannanum / time_mecab:.2f}')
print(f'kkma speed >>> {time_kkma / time_mecab:.2f}')

mecab speed >>> 1.00
khaiii speed >>> 3.22
komoran speed >>> 8.23
okt speed >>> 26.46
hannanum speed >>> 29.44
kkma speed >>> 147.97


# Test the performance (text)

In [20]:
text = '''
“부부는 살면서 서로 닮아간다.” 많은 사람이 고개를 끄덕이는 부부 생활에 관한 대표적 속설 가운데 하나다. 과연 실제로 그럴까?

이 속설이 속설 이상으로 그럴 듯하게 여겨진 데는 30여년 전의 한 논문이 상당한 역할을 했다는 평가를 받는다. 1987년 12월 사회심리학자 로버트 자욘스(Robert Zajonc, 1923~2008)가 이끈 미국 미시간대 심리학자들이 발표한 연구 논문이다. 지금은 고인이 된 폴란드 출신의 이 저명한 학자는 상대방과의 만남을 거듭할수록 호감을 갖게 된다는 ‘노출효과’ 이론으로 잘 알려져 있다. 당시 미시간대 연구진은 25년 전과 후의 부부 얼굴 변화를 사진으로 비교한 결과, 부부가 장기간 밀접하게 접촉하면서 외모 유사성이 커졌다는 내용의 논문 ‘배우자의 외모 수렴’을 발표했다. 예컨대 무의식적으로 상대방의 표정을 흉내내게 돼 얼굴 모습이 바뀐다는 것이다. 이 이론에 따르면 안면 근육을 습관적으로 특정한 방식으로 사용하다 보면 얼굴이 영구적으로 변할 수 있다. 연구진은 행복하다고 답변한 부부일수록 얼굴 유사성이 더 컸다고 보고했다. 하지만 이는 어디까지나 심리적 가설에 근거한 추정이었다. 외모 유사성은 실험 참가자들에게 신혼 초와 25년 후의 사진을 보여주고 평가하는 방식으로 진행했다.

최근 미국 스탠퍼드대 연구진이 이를 검증한 결과를 공개 학술지 ‘사이언티픽 리포츠’에 발표했다. 이에 따르면 부부의 외모가 서로 닮아간다는 건 근거 없는 말이다.


연구진은 다른 사람보다 부부 사이의 얼굴이 더 비슷하다는 점은 확인했다. 픽사베이


_______

외모 비슷한 사람끼리 부부 인연 맺는 경우 많아

연구진은 1987년의 연구가 표본 수가 12쌍으로 극히 적은 약점을 보완하기 위해 표본 수를 대폭 늘려 같은 실험을 다시 한 번 해보기로 했다. 당시엔 12쌍의 사진을 비교했다. 이번엔 517쌍의 부부 사진을 온라인에서 수집해 신혼 때(결혼 후 2년 이내)와 20~69년 후의 사진을 비교했다. 단 백인 이성부부의 사진만을 분석 대상으로 삼았다. 연구진은 이에 대해 비백인 부부와 동성 부부는 의미있는 분석을 할 수 있는 충분한 사진을 얻기 어려웠기 때문이라고 설명했다.

연구진은 외모 유사성 평가에서도 사람과 함께 인공지능을 동원했다. 인간 판정단은 온라인을 통해 153명을 모집했다. 인공지능은 최고 성능을 가진 것으로 평가받는 안면인식 알고리즘(VGGFace2)을 이용했다. 먼저 비교 대상을 선정한 뒤, 이 사람의 실제 배우자와 무작위로 선택한 다른 5사람을 함께 보여주고, 누구 얼굴이 가장 비슷한지 순위를 매기도록 했다.

그 결과 연구진의 예상과 달리 부부가 서로 닮아간다는 증거는 전혀 찾을 수 없었다. 인간 판정단은 오히려 부부의 얼굴이 서로 약간 더 달라졌다는 결과를 내놓았다. 물론 이는 아주 미세한 차이였다.

연구진이 이번 연구에서 얻은 수확은 따로 있었다. 외모가 비슷한 사람끼리 상대방을 부부로 선택하는 것으로 보인다는 점이다. 실제 배우자가 아닌 임의로 선택한 다른 사람의 얼굴과 비교한 결과, 이런 점이 두드러지게 나타났다고 연구진은 밝혔다.

연구진은 “우리는 비슷한 사람끼리 결혼하는 ‘동류혼’(homogamy), 즉 그중에서도 외모가 비슷한 사람끼리 결혼한다는 증거를 발견했다”며 “이런 점에서는 이전 연구와 일맥상통하는 점이 있다”고 말했다.

결론은 부부의 얼굴은 닮은 구석이 많지만 세월이 지나면서 닮아가는 것이 아니라 닮은 사람끼리 만난다는 것이다. 연구진은 “외모는 관심사, 성격, 지성, 태도, 가치관, 생활수준 같은 여러 특성을 반영하며 이것이 얼굴 닮은 부부 탄생의 바탕이 되지만, 세월이 흐르면서 수렴하지는 않는다”고 말했다.


유명세와 상관없이 모든 연구 결과는 검증받고 업데이트할 필요가 있다. 픽사베이


“유명 연구 결과라도 검증 필요” 메시지 던져

이번 연구는 학계 풍토와 관련해서도 생각해 볼 만한 메시지를 던져줬다. 같은 분야에서 높은 평가를 받아온 이전 연구 결과라도 유효성 또는 타당성 검증이 필요하다는 걸 보여줬기 때문이다. 공동연구자인 컴퓨터심리학자 마이클 코신스키는 영국 일간 ‘가디언’ 인터뷰에서 “사회과학의 주요 문제점 중 하나는 새롭고 획기적이며 기삿거리가 되는 이론을 내놔야 한다는 압박 때문에 과장되거나 제대로 검증되지 않은 개념과 이론이 넘쳐난다는 점”이라며 “학문은 절대적으로 업데이트가 필요하다”고 말했다. 그는 많은 과학자들이 다른 연구자들의 작업에 잠재해 있는 결함을 드러내 ‘평지풍파를 일으키는 걸’ 꺼린다는 점에서 ‘현장 청소’(Cleaning up the field)는 오늘날 사회과학자들이 직면한 가장 중요한 과제일지도 모른다며 연구를 주도한 젊은 과학자 핀 핀 테아-마콘(Pin Pin Tea-makorn)의 도전에 찬사를 보냈다. 현재 스탠퍼드대 전기공학부에서 박사과정을 밟고 있는 테아-마콘은 대학 웹사이트에 ‘수학과 공학을 응용해 사회심리학 질문에 답하는 것’을 자신의 관심사로 밝혔다. 두 사람은 ‘얼굴만으로 이름을 정확하게 예측할 수 있다’는 주장을 검증하는 것을 다음 연구 프로젝트로 정했다.
'''

In [21]:
# okt test
print('[okt 형태소 분석기 test]')
start = time.time()
print(okt.morphs(text))
end = time.time()
time_okt = end - start
print(f'{time_okt:.4f} sec', end='\n\n')

# mecab test
print('[mecab 형태소 분석기 test]')
start = time.time()
print(mecab.morphs(text))
end = time.time()
time_mecab = end - start
print(f'{time_mecab:.4f} sec', end='\n\n')

# kkma test
print('[kkma 형태소 분석기 test]')
start = time.time()
print(kkma.morphs(text))
end = time.time()
time_kkma = end - start
print(f'{time_kkma:.4f} sec', end='\n\n')

# komoran test
print('[komoran 형태소 분석기 test]')
start = time.time()
print(komoran.morphs(text))
end = time.time()
time_komoran = end - start
print(f'{time_komoran:.4f} sec', end='\n\n')

# hannanum test
print('[hannanum 형태소 분석기 test]')
start = time.time()
print(hannanum.morphs(text))
end = time.time()
time_hannanum = end - start
print(f'{time_hannanum:.4f} sec', end='\n\n')

# khaiii test
print('[khaiii 형태소 분석기 test]')
start = time.time()
print(tokenize_khaiii(text))
end = time.time()
time_khaiii = end - start
print(f'{time_khaiii:.4f} sec')

[okt 형태소 분석기 test]
['\n', '“', '부부', '는', '살면서', '서로', '닮아', '간다', '.', '”', '많은', '사람', '이', '고개', '를', '끄덕이는', '부부', '생활', '에', '관', '한', '대표', '적', '속', '설', '가운데', '하나', '다', '.', '과연', '실제', '로', '그럴까', '?', '\n\n', '이', '속', '설', '이', '속', '설', '이상', '으로', '그럴', '듯', '하게', '여겨진', '데', '는', '30', '여', '년', '전의', '한', '논문', '이', '상당한', '역할', '을', '했다는', '평가', '를', '받는다', '.', '1987년', '12월', '사회', '심리학자', '로버트', '자욘스', '(', 'Robert', 'Zajonc', ',', '1923~2008', ')', '가', '이끈', '미국', '미시간', '대', '심리학자', '들', '이', '발표', '한', '연구', '논문', '이다', '.', '지금', '은', '고인', '이', '된', '폴란드', '출신', '의', '이', '저명한', '학자', '는', '상대방', '과의', '만남', '을', '거듭', '할수록', '호감', '을', '갖게', '된다는', '‘', '노출', '효과', '’', '이론', '으로', '잘', '알려져', '있다', '.', '당시', '미시간', '대', '연', '구진', '은', '25년', '전과', '후의', '부부', '얼굴', '변화', '를', '사진', '으로', '비교', '한', '결과', ',', '부부', '가', '장기간', '밀접하게', '접촉', '하면서', '외모', '유사성', '이', '커졌다는', '내용', '의', '논문', '‘', '배우자', '의', '외모', '수렴', '’', '을', '발표', '했다', '.', '예컨대', '무의

In [22]:
print(f'mecab speed >>> {time_mecab / time_mecab:.2f}')
print(f'khaiii speed >>> {time_khaiii / time_mecab:.2f}')
print(f'komoran speed >>> {time_komoran / time_mecab:.2f}')
print(f'okt speed >>> {time_okt / time_mecab:.2f}')
print(f'hannanum speed >>> {time_hannanum / time_mecab:.2f}')
print(f'kkma speed >>> {time_kkma / time_mecab:.2f}')

mecab speed >>> 1.00
khaiii speed >>> 4.31
komoran speed >>> 112.29
okt speed >>> 17.58
hannanum speed >>> 199.45
kkma speed >>> 186.25


# Conclusion

- 단문에서는 mecab < khaiii < komoran < okt < hannanum < kkma 순으로 속도가 빨랐음
- 긴 텍스트에서는 macab < khaiii < komoran < okt < hannanum < kkma 순으로 속도가 빨랐음
- mecab의 분석 속도가 가장 빨랐고, 다음으로는 khaiii가 빨랐지만 3~4배 정도의 속도 차이가 났음
- komoran의 경우 단문에서는 8배의 속도 차이를 보였지만, 긴 텍스트에서는 약 112배의 속도차이를 보이면서 장문에 취약함을 알 수 있었음
- 그에 반해, okt는 단문에서 26배의 속도 차이를 보였지만, 긴 텍스트에서 17배의 속도 차이를 보임으로 비교적 장문에 강함을 확인할 수 있었음
- 장문의 텍스트에서는 mecab을 제외한 konlpy에서 사용 가능한 형태소분석기가 모두 mecab에 비해 112~199배의 성능 차이를 보임으로 실무 과제에 적용되기 어렵다고 판단됨
- 결과적으로 속도만을 판단 기준으로 볼 때, mecab이 가장 최우선순위에 있으며, 차선으로 khaiii를 사용할 수 있을 것으로 여겨짐