# Compose an ekorpkit config

In [1]:
%%capture
%pip install ekorpkit[tokenize]

In [2]:
# import ekorpkit.ekonf as eKonf
from ekorpkit import eKonf
from pprint import pprint

## Instantiating a tokenizer/normalizer

In [3]:
config_group='preprocessor/tokenizer=mecab'
cfg = eKonf.compose(config_group=config_group)
pprint(cfg)
mecab = eKonf.instantiate(cfg)

{'_target_': 'ekorpkit.preprocessors.tokenizer.MecabTokenizer',
 'extract': {'no_space_for_non_nouns': False,
             'noun_postags': ['NNG', 'NNP', 'XSN', 'SL', 'XR', 'NNB', 'NR'],
             'stop_postags': ['SP'],
             'stopwords': None,
             'stopwords_path': None},
 'mecab': {'backend': 'mecab-python3', 'userdic_path': None, 'verbose': False},
 'normalize': None,
 'tokenize': {'concat_surface_and_pos': True,
              'flatten': True,
              'include_whitespace_token': True,
              'lowercase': False,
              'punct_postags': ['SF', 'SP', 'SSO', 'SSC', 'SY'],
              'tokenize_each_word': False,
              'userdic_path': None,
              'wordpieces_prefix': '##'},
 'tokenize_article': {'return_typ': 'str', 'sentence_separator': '\\n'},
 'verbose': False}


[ekorpkit]: Initializing mecab...


In [4]:
text = 'IMF가 推定한 우리나라의 GDP갭률은 今年에도 소폭의 마이너스(−)를 持續하고 있다.'
tokens = mecab.tokenize(text)
print(tokens)

['IMF/SL', '가/JKS', ' /SP', '推定/NNG', '한/XSA+ETM', ' /SP', '우리나라/NNG', '의/JKG', ' /SP', 'GDP/SL', '갭/NNG', '률/XSN', '은/JX', ' /SP', '今年/NNG', '에/JKB', '도/JX', ' /SP', '소폭/NNG', '의/JKG', ' /SP', '마이너스/NNG', '(/SSO', '−)/SY', '를/JKO', ' /SP', '持續/NNG', '하/XSV', '고/EC', ' /SP', '있/VX', '다/EF', './SF']


In [5]:
config_group='preprocessor/normalizer=formal_ko'
cfg_norm = eKonf.compose(config_group=config_group)
pprint(cfg_norm)
norm = eKonf.instantiate(cfg_norm)

{'_target_': 'ekorpkit.preprocessors.normalizer.Normalizer',
 'ftfy': {'decode_inconsistent_utf8': True,
          'fix_c1_controls': True,
          'fix_character_width': True,
          'fix_encoding': True,
          'fix_latin_ligatures': True,
          'fix_line_breaks': True,
          'fix_surrogates': True,
          'max_decode_length': 1000000,
          'normalization': 'NFKC',
          'remove_control_chars': True,
          'remove_terminal_escapes': True,
          'replace_lossy_sequences': True,
          'restore_byte_a0': True,
          'uncurl_quotes': True,
          'unescape_html': True},
 'hanja2hangle': True,
 'num_repeats': 2,
 'spaces': {'collapse_whitespaces': True,
            'fix_whitespaces': True,
            'num_spaces_for_tab': 4,
            'replace_tabs': True,
            'strip': True},
 'special_characters': {'fix_ellipsis': True,
                        'fix_emoticons': False,
                        'fix_hyphens': True,
                   

In [6]:
norm(text)

'IMF가 추정한 우리나라의 GDP갭률은 금년에도 소폭의 마이너스(-)를 지속하고 있다.'

In [7]:
config_group='preprocessor/tokenizer=mecab'
cfg = eKonf.compose(config_group=config_group)
mecab = eKonf.instantiate(cfg, normalize=norm)
tokens = mecab.tokenize(text)
print(tokens)

[ekorpkit]: Initializing mecab...


['IMF/SL', '가/JKS', ' /SP', '추정/NNG', '한/XSA+ETM', ' /SP', '우리나라/NNG', '의/JKG', ' /SP', 'GDP/SL', '갭/NNG', '률/XSN', '은/JX', ' /SP', '금년/NNG', '에/JKB', '도/JX', ' /SP', '소폭/NNG', '의/JKG', ' /SP', '마이너스/NNG', '(/SSO', '-)/SY', '를/JKO', ' /SP', '지속/NNG', '하/XSV', '고/EC', ' /SP', '있/VX', '다/EF', './SF']


In [8]:
config_group='preprocessor/tokenizer=mecab'
cfg = eKonf.compose(config_group=config_group)
cfg['normalize'] = cfg_norm
mecab = eKonf.instantiate(cfg)
tokens = mecab.tokenize(text)
print(tokens)

[ekorpkit]: Initializing mecab...


['IMF/SL', '가/JKS', ' /SP', '추정/NNG', '한/XSA+ETM', ' /SP', '우리나라/NNG', '의/JKG', ' /SP', 'GDP/SL', '갭/NNG', '률/XSN', '은/JX', ' /SP', '금년/NNG', '에/JKB', '도/JX', ' /SP', '소폭/NNG', '의/JKG', ' /SP', '마이너스/NNG', '(/SSO', '-)/SY', '를/JKO', ' /SP', '지속/NNG', '하/XSV', '고/EC', ' /SP', '있/VX', '다/EF', './SF']


In [9]:
print(mecab.nouns(text))

['IMF', '추정', '우리나라', 'GDP', '갭', '률', '금년', '소폭', '마이너스', '지속']


In [10]:
print(mecab.morphs(text))

['IMF', '가', '추정', '한', '우리나라', '의', 'GDP', '갭', '률', '은', '금년', '에', '도', '소폭', '의', '마이너스', '(', '-)', '를', '지속', '하', '고', '있', '다', '.']


In [11]:
config_group='preprocessor/tokenizer=pynori'
cfg = eKonf.compose(config_group=config_group)
nori = eKonf.instantiate(cfg)
tokens = nori.tokenize(text)
print(tokens)

[ekorpkit]: Initializing Pynori...


['imf/SL', '가/JKS', ' /SP', '推定/NNG', '한/XSV+ETM', ' /SP', '우리나라/NNG', '의/JKG', ' /SP', 'gdp/SL', '갭/NNG', '률/XSN', '은/JX', ' /SP', '今年/NNG', '에/JKB', '도/JX', ' /SP', '소폭/NNG', '의/JKG', ' /SP', '마이너스/NNG', '(/SSO', '−/SY', ')/SSC', '를/JKO', ' /SP', '持續/NNG', '하/XSA', '고/EC', ' /SP', '있/VX', '다/EF', './SF']


In [12]:
%%capture
%pip install transformers

In [13]:
config_group='preprocessor/tokenizer=bwp'
cfg = eKonf.compose(config_group=config_group)
cfg['normalize'] = cfg_norm
cfg['bwp']['pretrained_model_name_or_path'] = 'bert-base-multilingual-cased'
bwp = eKonf.instantiate(cfg)
tokens = bwp.tokenize(text)
print(tokens)

[ekorpkit]: Initializing BertWordPieceTokenizer...


['IM', '##F', '##가', '추', '##정한', '우', '##리', '##나라', '##의', '[UNK]', '금', '##년에', '##도', '소', '##폭', '##의', '마', '##이', '##너', '##스', '(', '-', ')', '를', '지', '##속', '##하고', '있다', '.']


In [14]:
config_group='preprocessor/tokenizer=bwp'
cfg = eKonf.compose(config_group=config_group)
cfg['normalize'] = cfg_norm
cfg['bwp']['pretrained_model_name_or_path'] = 'entelecheia/ekonbert-base'
bwp = eKonf.instantiate(cfg)
tokens = bwp.tokenize(text)
print(tokens)

[ekorpkit]: Initializing BertWordPieceTokenizer...


['IMF', '##가', '추정', '##한', '우리나라', '##의', 'GDP', '##갭', '##률', '##은', '금년', '##에도', '소폭', '##의', '마이너스', '(', '-', ')', '를', '지속', '##하고', '있', '##다', '.']


## Instantiating a segmenter

In [15]:
config_group='preprocessor/segmenter=pysbd'
cfg_seg = eKonf.compose(config_group=config_group)
seg = eKonf.instantiate(cfg_seg)

In [16]:
text = "For strains harboring the pYV plasmid and Yop-encoding plasmids, bacteria were grown with aeration at 26 °C overnight in broth supplemented with 2.5 mm CaCl2 and 100 μg/ml ampicillin and then subcultured and grown at 26 °C until A600 of 0.2. At this point, the cultures were shifted to 37 °C and aerated for 1 h. A multiplicity of infection of 50:1 was used for YPIII(p-) incubations, and a multiplicity of infection of 25:1 was used for other derivatives. For the pYopE-expressing plasmid, 0.1 mm isopropyl-β-d-thiogalactopyranoside was supplemented during infection to induce YopE expression."
seg(text)

['For strains harboring the pYV plasmid and Yop-encoding plasmids, bacteria were grown with aeration at 26 °C overnight in broth supplemented with 2.5 mm CaCl2 and 100 μg/ml ampicillin and then subcultured and grown at 26 °C until A600 of 0.2. ',
 'At this point, the cultures were shifted to 37 °C and aerated for 1 h. ',
 'A multiplicity of infection of 50:1 was used for YPIII(p-) incubations, and a multiplicity of infection of 25:1 was used for other derivatives. ',
 'For the pYopE-expressing plasmid, 0.1 mm isopropyl-β-d-thiogalactopyranoside was supplemented during infection to induce YopE expression.']

In [17]:
config_group='preprocessor/segmenter=kss'
cfg_seg = eKonf.compose(config_group=config_group)
seg = eKonf.instantiate(cfg_seg)

In [18]:
text = "일본기상청과 태평양지진해일경보센터는 3월 11일 오후 2시 49분경에 일본 동해안을 비롯하여 대만, 알래스카, 하와이, 괌, 캘리포니아, 칠레 등 태평양 연안 50여 국가에 지진해일 주의보와 경보를 발령하였다. 다행히도 우리나라는 지진발생위치로부터 1,000km 이상 떨어진데다 일본 열도가 가로막아 지진해일이 도달하지 않았다. 지진해일은 일본 소마항에 7.3m, 카마이시항에 4.1m, 미야코항에 4m 등 일본 동해안 전역에서 관측되었다. 지진해일이 원해로 전파되면서 대만(19시 40분)에서 소규모 지진해일과 하와이 섬에서 1.4m(23시 9분)의 지진해일이 관측되었다. 다음날인 3월 12일 새벽 1시 57분경에는 진앙지로부터 약 7,500km 떨어진 캘리포니아 크레센트시티에서 2.2m의 지진해일이 관측되었다."
seg(text)

['일본기상청과 태평양지진해일경보센터는 3월 11일 오후 2시 49분경에 일본 동해안을 비롯하여 대만, 알래스카, 하와이, 괌, 캘리포니아, 칠레 등 태평양 연안 50여 국가에 지진해일 주의보와 경보를 발령하였다.',
 '다행히도 우리나라는 지진발생위치로부터 1,000km 이상 떨어진데다 일본 열도가 가로막아 지진해일이 도달하지 않았다.',
 '지진해일은 일본 소마항에 7.3m, 카마이시항에 4.1m, 미야코항에 4m 등 일본 동해안 전역에서 관측되었다.',
 '지진해일이 원해로 전파되면서 대만(19시 40분)에서 소규모 지진해일과 하와이 섬에서 1.4m(23시 9분)의 지진해일이 관측되었다.',
 '다음날인 3월 12일 새벽 1시 57분경에는 진앙지로부터 약 7,500km 떨어진 캘리포니아 크레센트시티에서 2.2m의 지진해일이 관측되었다.']