# 형태소 분석기: 모듈마다 성능 다르다

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
from konlpy.tag import Kkma, Komoran, Hannanum, Okt

In [3]:
kkma = Kkma()
kom = Komoran()
han = Hannanum()
okt = Okt()

In [4]:
text = '아버지가 방에 들어가신다'

In [24]:
print(kkma.morphs(text))
print(kom.morphs(text))
print(han.morphs(text))
print(okt.morphs(text))

['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다']
['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다']
['아버지', '가', '방', '에', '들', '어', '가', '시ㄴ다']
['아버지', '가', '방', '에', '들어가신다']


In [9]:
text1 = '아버지가방에들어가신다'

In [14]:
print(kkma.morphs(text1))
print(kom.morphs(text1))
print(han.morphs(text1))
print(okt.morphs(text1))

['아버지', '가방', '에', '들어가', '시', 'ㄴ다']
['아버지', '가방', '에', '들어가', '시', 'ㄴ다']
['아버지가방에들어가', '이', '시ㄴ다']
['아버지', '가방', '에', '들어가신다']


In [15]:
text2 = '개나리가 피어있는 동산에 누워있고 싶다' 

In [16]:
print(kkma.morphs(text2))
print(kom.morphs(text2))
print(han.morphs(text2))
print(okt.morphs(text2))

['개나리', '가', '피', '어', '있', '는', '동산', '에', '눕', '어', '있', '고', '싶', '다']
['개나리', '가', '피', '어', '있', '는', '동산', '에', '눕', '어', '있', '고', '싶', '다']
['개나리', '가', '피', '어', '있', '는', '동산', '에', '눕', '어', '있', '고', '싶', '다']
['개나리', '가', '피어있는', '동산', '에', '누워있고', '싶다']


In [17]:
print(kkma.nouns(text2))
print(kom.nouns(text2))
print(han.nouns(text2))
print(okt.nouns(text2))

['개나리', '동산']
['개나리', '동산']
['개나리', '동산']
['개나리', '동산']


In [19]:
# 띄어쓰기 안되어있는 경우
text2 = '개나리가피어있는동산에누워있고싶다' 

In [20]:
print(kkma.morphs(text2))
print(kom.morphs(text2))
print(han.morphs(text2))
print(okt.morphs(text2))

['개나리', '가', '피', '어', '있', '는', '동산', '에', '눕', '어', '있', '고', '싶', '다']
['개나리', '가', '피', '어', '있', '는', '동산', '에', '눕', '어', '있', '고', '싶', '다']
['개나리가피어있는동산에누워있고싶다']
['개나리', '가', '피어있는', '동산', '에', '누워있고싶다']


In [21]:
# 오타있는 경우
text2 = 'ㄱㅐㄴㅏㄹㅣ가피어있는동산에누워있고싶다' 

In [22]:
print(kkma.morphs(text2))
print(kom.morphs(text2)) # 오타를 잘 잡음
print(han.morphs(text2))
print(okt.morphs(text2))

['ㄱ', 'ㅐ', 'ㄴ', 'ㅏ', 'ㄹ', 'ㅣ', '가피', '어', '어', '있', '는', '동산', '에', '눕', '어', '있', '고', '싶', '다']
['개나리', '가', '피', '어', '있', '는', '동산', '에', '눕', '어', '있', '고', '싶', '다']
['ㄱㅐㄴㅏㄹㅣ가피어있는동산에누워있고싶다']
['ㄱㅐㄴㅏㄹㅣ', '가', '피어있는', '동산', '에', '누워있고싶다']


In [25]:
text= """
최근 국내 증시에 상장한 종목들이 잇달아 상장폐지 위험에 처하면서 해당 기업에 투자한 투자자들의 불안도 커지고 있다. 지난 1일 한국거래소는 지난해 12월 결산법인 사업보고서를 심사한 결과, 국내 상장사 42곳(유가증권시장 4곳·코스닥시장 38곳)에 비적정 감사의견(부적정·거절)에 따른 상장폐지 사유가 발생했다고 공시했다.
코스피 시장에서 상장폐지 절차를 밟게 된 곳은 하이골드3호, 쌍용자동차, 선도전기, 하이트론씨스템즈 등 4개사다. 이 가운데 선박투자회사 하이골드3호는 지난 3월 3일 감사의견 ‘부적정’을 받은 후 기한 내 이의신청서 제출을 하지 않아 오는 11일 최종 상장 폐지된다. 나머지 3개사의 상장폐지 여부는 아직 확정되지 않았다.
코스닥 시장에서는 38개사가 상장폐지 절차를 밟는다. 이 가운데 3년 연속 비적정 감사의견을 받은 한프, 현진소재, 세영디앤씨, 에스에이치엔엘, 아리온, 한국코퍼레이션 등 6개사는 이미 거래소 기업심사위원회에서 상장폐지가 결정됐다. 그 외 32개사는 이의신청에 따른 개선기간 부여, 기심위 심사 등을 거쳐 상장폐지 여부가 가려진다.
상장폐지란 코스피와 코스닥 등 국내 증시에서 자사 주식을 거래하지 못하고, 장외시장으로 밀려난다는 의미다. 상장사엔 ‘사형선고’나 다름없다. 장외시장은 오가는 자금 자체가 적고, 코스피나 코스닥보다 불안정한 기업이 모여 있다는 인식이 커 주식 거래가 상대적으로 원활하지 않다. 또 상장폐지 됐다는 건 기업 재무상태가 부실하거나 횡령과 배임 등 불미스러운 사건에 얽혔다는 뜻이므로 기업 신뢰도 및 주가 추락을 부르기도 한다.
상장폐지가 됐다고 해서 투자자가 보유한 주식이 0원이 되는 건 아니다. 통상 상장폐지가 결정되면 7일간 정리매매 기간을 준다. 이 기간엔 가격제한폭(상한가·하한가)과 무관하게 주가가 움직이기 때문에 주가 급락 사례가 많이 발생한다. 일례로 기심위로부터 상장폐지 결정을 받은 코스닥 상장사 한프 주가는 정리매매 첫날인 지난달 28일 전 거래일 대비 82.48% 내린 198원에 거래를 마쳤다.
일각에선 ‘기업 회생 기대감’을 품은 ‘역투자’가 나오기도 하지만, 국내 증시 역사상 상장폐지 된 기업이 재상장한 사례는 극히 드물다. 소주 브랜드 ‘참이슬’로 알려진 하이트진로가 대표적인데, 2003년 1월 부도로 상장폐지된 지 5년 9개월 만인 지난 2008년 10월 재상장에 성공했다. 이외 현대리바트가 6년, 만도가 10년 등 재상장까지 큰 시간을 소요했다. 주주들 입장에선 마냥 기다리기 어려운 시간이라, 재상장을 기대하는 것보단 상장폐지 가능성이 있는 기업을 피해서 투자하는 게 바람직할 수 있다.
주식을 직접 사기보단 펀드 등을 통해 상장폐지 기업에 간접 투자한 경우는 어떨까. 이 경우 투자자 피해는 크지 않을 전망이다. 상장폐지 종목의 보유 비중이 절대적인 수준이 아니라면, 여러 종목을 담는 펀드 특성상 운용사들의 편입 비중 변경 등으로 수익률 하락에 대응할 수 있어서다.
통상 특정 기업이 상장폐지 절차에 돌입할 경우 주요 은행과 증권사 등 판매사는 해당 종목을 담은 펀드에 대한 신규 자금 설정을 막는다. 그러면 자산운용사들도 그 종목에 대한 상각(회계상 손실 처리)을 통해 보유 비중을 낮추는 식으로 선제적 대응에 나선다. 이 경우 상장폐지 시 펀드 수익률 급락에 따른 투자자 손실을 줄일 수 있다.
실제로 지난 1~2월 주요 운용사들은 횡령 사태로 거래가 정지된 오스템임플란트 가치를 재평가하면서 상각 처리에 나선 바 있다. 대표적으로 타임폴리오자산운용은 자사 펀드가 담고 있는 오스템임플란트 가치를 거래정지 직전 종가 14만2700원에서 8만6658원으로 하향 조정했다. 이에 따라 위드타임펀드 등 대표 펀드 내 오스템임플란트 비중은 1% 미만으로 떨어졌다. 타임폴리오자산운용 관계자는“거래 정지 상태가 오래 이어질 수 있다고 판단해 미리 반영한 것”이라고 설명했다.
"""

In [26]:
%%time
kkma.pos(text)

Wall time: 697 ms


[('최근', 'NNG'),
 ('국내', 'NNG'),
 ('증시', 'NNG'),
 ('에', 'JKM'),
 ('상장', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('종목', 'NNG'),
 ('들', 'XSN'),
 ('이', 'JKS'),
 ('잇달', 'VV'),
 ('아', 'ECD'),
 ('상장', 'NNG'),
 ('폐지', 'NNG'),
 ('위험', 'NNG'),
 ('에', 'JKM'),
 ('처하', 'VV'),
 ('면서', 'ECE'),
 ('해당', 'NNG'),
 ('기업', 'NNG'),
 ('에', 'JKM'),
 ('투자', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('투자자', 'NNG'),
 ('들', 'XSN'),
 ('의', 'JKG'),
 ('불안', 'NNG'),
 ('도', 'JX'),
 ('커지', 'VV'),
 ('고', 'ECE'),
 ('있', 'VXV'),
 ('다', 'EFN'),
 ('.', 'SF'),
 ('지나', 'VV'),
 ('ㄴ', 'ETD'),
 ('1', 'NR'),
 ('일', 'NNM'),
 ('한국', 'NNP'),
 ('거래소', 'NNG'),
 ('는', 'JX'),
 ('지난해', 'NNG'),
 ('12', 'NR'),
 ('월', 'NNM'),
 ('결산', 'NNG'),
 ('법인', 'NNG'),
 ('사업', 'NNG'),
 ('보고서', 'NNG'),
 ('를', 'JKO'),
 ('심사', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('결과', 'NNG'),
 (',', 'SP'),
 ('국내', 'NNG'),
 ('상장사', 'NNG'),
 ('42', 'NR'),
 ('곳', 'NNG'),
 ('(', 'SS'),
 ('유', 'NNG'),
 ('가', 'JKS'),
 ('증권', 'NNG'),
 ('시장', 'NNG'),
 ('4', 'NR'),
 ('곳', 'NNG'),


In [27]:
%%time
kom.pos(text)

Wall time: 45.9 ms


[('최근', 'NNG'),
 ('국내', 'NNG'),
 ('증시', 'NNG'),
 ('에', 'JKB'),
 ('상장', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETM'),
 ('종목', 'NNG'),
 ('들', 'XSN'),
 ('이', 'JKS'),
 ('잇달', 'VV'),
 ('아', 'EC'),
 ('상장폐지', 'NNP'),
 ('위험', 'NNG'),
 ('에', 'JKB'),
 ('처하', 'VV'),
 ('면서', 'EC'),
 ('해당', 'NNG'),
 ('기업', 'NNG'),
 ('에', 'JKB'),
 ('투자', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETM'),
 ('투자자', 'NNG'),
 ('들', 'XSN'),
 ('의', 'JKG'),
 ('불안도', 'NNP'),
 ('커지', 'VV'),
 ('고', 'EC'),
 ('있', 'VX'),
 ('다', 'EF'),
 ('.', 'SF'),
 ('지나', 'VV'),
 ('ㄴ', 'ETM'),
 ('1', 'SN'),
 ('일', 'NNB'),
 ('한국거래소', 'NNP'),
 ('는', 'JX'),
 ('지난해', 'NNG'),
 ('12월', 'NNP'),
 ('결산', 'NNG'),
 ('법인', 'NNP'),
 ('사업', 'NNG'),
 ('보고서', 'NNG'),
 ('를', 'JKO'),
 ('심사', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETM'),
 ('결과', 'NNG'),
 (',', 'SP'),
 ('국내', 'NNG'),
 ('상', 'NNG'),
 ('장사', 'NNP'),
 ('42', 'SN'),
 ('곳', 'NNG'),
 ('(', 'SS'),
 ('유가증권', 'NNP'),
 ('시장', 'NNP'),
 ('4', 'SN'),
 ('곳', 'NNG'),
 ('·', 'SP'),
 ('코스닥', 'NNP'),
 ('시장', 'NNP'),
 ('38', 'SN'),
 ('곳', 'NNG

In [28]:
%%time
han.pos(text)

Wall time: 296 ms


[('최근', 'M'),
 ('국내', 'N'),
 ('증시', 'N'),
 ('에', 'J'),
 ('상장한', 'N'),
 ('종목들', 'N'),
 ('이', 'J'),
 ('잇달', 'P'),
 ('아', 'E'),
 ('상장폐지', 'N'),
 ('위험', 'N'),
 ('에', 'J'),
 ('처하', 'P'),
 ('면서', 'E'),
 ('해당', 'N'),
 ('기업', 'N'),
 ('에', 'J'),
 ('투자', 'N'),
 ('하', 'X'),
 ('ㄴ', 'E'),
 ('투자자들', 'N'),
 ('의', 'J'),
 ('불안', 'N'),
 ('도', 'J'),
 ('크', 'P'),
 ('어', 'E'),
 ('지', 'P'),
 ('고', 'E'),
 ('있', 'P'),
 ('다', 'E'),
 ('.', 'S'),
 ('지나', 'P'),
 ('ㄴ', 'E'),
 ('1일', 'N'),
 ('한국거래소', 'N'),
 ('는', 'J'),
 ('지난해', 'N'),
 ('12월', 'N'),
 ('결산법인', 'N'),
 ('사업보고서', 'N'),
 ('를', 'J'),
 ('심사한', 'N'),
 ('결과', 'N'),
 (',', 'S'),
 ('국내', 'N'),
 ('상장사', 'N'),
 ('42곳(유가증권시장', 'N'),
 ('4곳·코스닥시장', 'N'),
 ('38곳', 'N'),
 (')', 'S'),
 ('에', 'J'),
 ('비적정', 'N'),
 ('감사의견(부적정·거절)', 'N'),
 ('에', 'J'),
 ('따르', 'P'),
 ('ㄴ', 'E'),
 ('상장폐지', 'N'),
 ('사유', 'N'),
 ('가', 'J'),
 ('발생', 'N'),
 ('하', 'X'),
 ('었다', 'E'),
 ('고', 'J'),
 ('공시', 'N'),
 ('하', 'X'),
 ('었다', 'E'),
 ('.', 'S'),
 ('코스피', 'N'),
 ('시장', 'N'),
 ('에서', 'J'),
 (

In [29]:
%%time
okt.pos(text)

Wall time: 128 ms


[('\n', 'Foreign'),
 ('최근', 'Noun'),
 ('국내', 'Noun'),
 ('증시', 'Noun'),
 ('에', 'Josa'),
 ('상장', 'Noun'),
 ('한', 'Josa'),
 ('종목', 'Noun'),
 ('들', 'Suffix'),
 ('이', 'Josa'),
 ('잇', 'Verb'),
 ('달', 'Noun'),
 ('아', 'Josa'),
 ('상장폐지', 'Noun'),
 ('위험', 'Noun'),
 ('에', 'Josa'),
 ('처', 'Noun'),
 ('하면서', 'Verb'),
 ('해당', 'Noun'),
 ('기업', 'Noun'),
 ('에', 'Josa'),
 ('투자', 'Noun'),
 ('한', 'Josa'),
 ('투자자', 'Noun'),
 ('들', 'Suffix'),
 ('의', 'Josa'),
 ('불안도', 'Noun'),
 ('커지고', 'Verb'),
 ('있다', 'Adjective'),
 ('.', 'Punctuation'),
 ('지난', 'Noun'),
 ('1일', 'Number'),
 ('한국', 'Noun'),
 ('거래소', 'Noun'),
 ('는', 'Josa'),
 ('지난해', 'Noun'),
 ('12월', 'Number'),
 ('결산', 'Noun'),
 ('법인', 'Noun'),
 ('사업', 'Noun'),
 ('보고서', 'Noun'),
 ('를', 'Josa'),
 ('심사', 'Noun'),
 ('한', 'Josa'),
 ('결과', 'Noun'),
 (',', 'Punctuation'),
 ('국내', 'Noun'),
 ('상', 'Noun'),
 ('장사', 'Noun'),
 ('42', 'Number'),
 ('곳', 'Noun'),
 ('(', 'Punctuation'),
 ('유가', 'Noun'),
 ('증권', 'Noun'),
 ('시장', 'Noun'),
 ('4', 'Number'),
 ('곳', 'Noun'),
 ('

In [None]:
# Mecab