# Mecab Tokenizer

In [1]:
import logging
from ekorpkit import eKonf

logging.basicConfig(level=logging.WARNING)
print(eKonf.__version__)

0.1.31+16.g2b3b245.dirty


## Instantiating a mecab class

In [2]:
config_group='preprocessor/tokenizer=mecab'
cfg = eKonf.compose(config_group=config_group)
mecab = eKonf.instantiate(cfg)

In [3]:
text = 'IMF가 推定한 우리나라의 GDP갭률은 今年에도 소폭의 마이너스(−)를 持續하고 있다.'
tokens = mecab.tokenize(text)
print(tokens)
print(mecab(text))

['IMF/SL', '가/JKS', '/SP', '推定/NNG', '한/XSA+ETM', '/SP', '우리나라/NNG', '의/JKG', '/SP', 'GDP/SL', '갭/NNG', '률/XSN', '은/JX', '/SP', '今年/NNG', '에/JKB', '도/JX', '/SP', '소폭/NNG', '의/JKG', '/SP', '마이너스/NNG', '(/SSO', '−)/SY', '를/JKO', '/SP', '持續/NNG', '하/XSV', '고/EC', '/SP', '있/VX', '다/EF', './SF']
['IMF/SL', '가/JKS', '/SP', '推定/NNG', '한/XSA+ETM', '/SP', '우리나라/NNG', '의/JKG', '/SP', 'GDP/SL', '갭/NNG', '률/XSN', '은/JX', '/SP', '今年/NNG', '에/JKB', '도/JX', '/SP', '소폭/NNG', '의/JKG', '/SP', '마이너스/NNG', '(/SSO', '−)/SY', '를/JKO', '/SP', '持續/NNG', '하/XSV', '고/EC', '/SP', '있/VX', '다/EF', './SF']


In [4]:
config_group='preprocessor/normalizer=formal_ko'
cfg_norm = eKonf.compose(config_group=config_group)
norm = eKonf.instantiate(cfg_norm)

In [5]:
norm(text)

'IMF가 추정한 우리나라의 GDP갭률은 금년에도 소폭의 마이너스(-)를 지속하고 있다.'

In [6]:
config_group='preprocessor/tokenizer=mecab'
cfg = eKonf.compose(config_group=config_group)
mecab = eKonf.instantiate(cfg, normalize=norm)
tokens = mecab.tokenize(text)
print(tokens)

['IMF/SL', '가/JKS', '/SP', '추정/NNG', '한/XSA+ETM', '/SP', '우리나라/NNG', '의/JKG', '/SP', 'GDP/SL', '갭/NNG', '률/XSN', '은/JX', '/SP', '금년/NNG', '에/JKB', '도/JX', '/SP', '소폭/NNG', '의/JKG', '/SP', '마이너스/NNG', '(/SSO', '-)/SY', '를/JKO', '/SP', '지속/NNG', '하/XSV', '고/EC', '/SP', '있/VX', '다/EF', './SF']


In [8]:
config_group='preprocessor/tokenizer=mecab'
cfg = eKonf.compose(config_group=config_group)
cfg.normalize = cfg_norm
mecab = eKonf.instantiate(cfg)
tokens = mecab.tokenize(text)
print(tokens)

['IMF/SL', '가/JKS', '/SP', '추정/NNG', '한/XSA+ETM', '/SP', '우리나라/NNG', '의/JKG', '/SP', 'GDP/SL', '갭/NNG', '률/XSN', '은/JX', '/SP', '금년/NNG', '에/JKB', '도/JX', '/SP', '소폭/NNG', '의/JKG', '/SP', '마이너스/NNG', '(/SSO', '-)/SY', '를/JKO', '/SP', '지속/NNG', '하/XSV', '고/EC', '/SP', '있/VX', '다/EF', './SF']


In [9]:
print(mecab.nouns(text))

['IMF', '추정', '우리나라', 'GDP', '갭', '률', '금년', '소폭', '마이너스', '지속']


In [10]:
print(mecab.morphs(text))

['IMF', '가', '추정', '한', '우리나라', '의', 'GDP', '갭', '률', '은', '금년', '에', '도', '소폭', '의', '마이너스', '를', '지속', '하', '고', '있', '다']


In [11]:
text = '금통위는 통화신용정책과 한국은행의 운영에 관한 의결권을 행사한다.'
print(mecab.tokenize(text))

['금/MAJ', '통/MAG', '위/NNG', '는/JX', '/SP', '통화/NNG', '신용/NNG', '정책/NNG', '과/JC', '/SP', '한국은행/NNP', '의/JKG', '/SP', '운영/NNG', '에/JKB', '/SP', '관한/VV+ETM', '/SP', '의결/NNG', '권/XSN', '을/JKO', '/SP', '행사/NNG', '한다/XSV+EF', './SF']


In [12]:
config_group='preprocessor/tokenizer=mecab_econ'
cfg = eKonf.compose(config_group=config_group)
mecab = eKonf.instantiate(cfg)
tokens = mecab.tokenize(text)
print(tokens)

['금통위/NNP', '는/JX', '/SP', '통화/NNG', '신용/NNG', '정책/NNG', '과/JC', '/SP', '한국은행/NNP', '의/JKG', '/SP', '운영/NNG', '에/JKB', '/SP', '관한/VV+ETM', '/SP', '의결권/NNP', '을/JKO', '/SP', '행사/NNG', '한다/XSV+EF', './SF']
