# N-Gram model for lexicon features

In [1]:
import logging
from ekorpkit import eKonf

logging.basicConfig(level=logging.INFO)
print(eKonf.__version__)

0.1.31+19.gdb9b114.dirty


## Load a ngram model with lexicon scores

In [2]:
ngram_cfg = eKonf.compose(config_group="model/ngram=mpko_lex")
ngram_cfg.verbose = True
ngram_cfg.autoload = True
ngram = eKonf.instantiate(ngram_cfg)

INFO:ekorpkit.ekonf:Config is not instantiatable, returning config
INFO:ekorpkit.models.ngram.base:instantiating ekorpkit.preprocessors.tokenizer.SimpleTokenizer...
INFO:ekorpkit.preprocessors.tokenizer:instantiating ekorpkit.preprocessors.stopwords.Stopwords...
INFO:ekorpkit.ekonf:Calling load_candidates
INFO:ekorpkit.io.file:Loading data from /workspace/projects/ekorpkit/ekorpkit/resources/lexicons/mpko/mp_polarity_lexicon_lex.parquet
INFO:ekorpkit.io.file: >> elapsed time to load data: 0:00:00.031804
INFO:ekorpkit.models.ngram.base:loaded 23956 candidates


In [3]:
print(f"Number of candidates: {len(ngram.candidates)}")

Number of candidates: 23956


In [4]:
ngram.export_ngrams(threshold=0.9, apply_postag_rules=True)

[(('투기/NNG', '억제/NNG'),
  score(word='투기/NNG;억제/NNG', label=1, polarity=0.9984224740344032, ratio=76.89998054169148, count=238, intensity=76.89998054169148, pos_score=842.336810100104, neg_score=10.95366740233997)),
 (('금리/NNG', '상승/NNG'),
  score(word='금리/NNG;상승/NNG', label=1, polarity=0.9976489029338528, ratio=74.78067419154141, count=142807, intensity=74.78067419154141, pos_score=852.2582592674567, neg_score=11.396771538653194)),
 (('채권/NNG', '가격/NNG', '하락/NNG'),
  score(word='채권/NNG;가격/NNG;하락/NNG', label=1, polarity=0.9965068843156996, ratio=71.85459337496019, count=2415, intensity=71.85459337496019, pos_score=830.1285320910899, neg_score=11.552894437231236)),
 (('인플레이션/NNG', '압력/NNG'),
  score(word='인플레이션/NNG;압력/NNG', label=1, polarity=0.9962771197986816, ratio=71.29298491650549, count=14010, intensity=71.29298491650549, pos_score=851.9671447928356, neg_score=11.950224075911729)),
 (('물가/NNG', '상승/NNG'),
  score(word='물가/NNG;상승/NNG', label=1, polarity=0.9892951767944276, ratio=57.

In [5]:
sentence = "일부/NNG 위원/NNG 은/JX 인플레이션/NNG 팬/NNG 차트/NNG Inflation/SL Fan/SL Chart/SL 에서/JKB 와/JKB 같이/MAG 주요/NNG 경제/NNG 변수/NNG 의/JKG 전망/NNG 치/XSN 에/JKB 내재/NNG 한/XSA+ETM 상방/NNG 위험/NNG 과/JC 하방/NNG 위험/NNG 의/JKG 확률/NNG 을/JKO 파악/NNG 하/XSV 는/ETM 것/NNB 이/JKS 정책/NNG 판단/NNG 에/JKB 크/VA 게/EC 도움/NNG 이/JKS 된다고/VV+EC 언급/NNG 하/XSV 고/EC 유럽/NNP 중앙은행/NNG 이나/JC 영란/NNG 은행/NNG 등/NNB 에서/JKB 활용/NNG 되/XSV 고/EC 있/VX 는/ETM 베/NNG 이지언/NNP 전망/NNG 기법/NNG Bayesian/SL Forecasting/SL Approach/SL 을/JKO 한국은행/NNP 의/JKG 기존/NNG 경제/NNG 전망/NNG 모형/NNG 에/JKB 반영/NNG 해/XSV+EC 볼/VX+ETM 필요/NNG 가/JKS 있/VV 을/ETM 것/NNB 으로/JKB 여겨진다는/VV+EC+VX+ETM 견해/NNG 를/JKO 나타내/VV 었/EP 음/ETN"
tokens = ngram.tokenize(sentence)
print(tokens)

['일부/NNG', '위원/NNG', '인플레이션/NNG', '팬/NNG', '차트/NNG', '같이/MAG', '주요/NNG', '경제/NNG', '변수/NNG', '전망/NNG', '치/XSN', '내재/NNG', '한/XSA', '상방/NNG', '위험/NNG', '하방/NNG', '위험/NNG', '확률/NNG', '파악/NNG', '하/XSV', '것/NNB', '정책/NNG', '판단/NNG', '크/VA', '도움/NNG', '언급/NNG', '하/XSV', '유럽/NNP', '중앙은행/NNG', '영란/NNG', '은행/NNG', '등/NNB', '활용/NNG', '되/XSV', '베/NNG', '이지언/NNP', '전망/NNG', '기법/NNG', '한국은행/NNP', '기존/NNG', '경제/NNG', '전망/NNG', '모형/NNG', '반영/NNG', '해/XSV', '필요/NNG', '것/NNB', '견해/NNG']


In [6]:
tokens = ngram.ngramize_sentence(sentence)
print(tokens)

['일부/NNG', '위원/NNG', '인플레이션/NNG', '팬/NNG', '차트/NNG', '같이/MAG', '주요/NNG', '경제/NNG', '변수/NNG', '전망/NNG', '치/XSN', '내재/NNG', '한/XSA', '상방/NNG;위험/NNG;하방/NNG', '위험/NNG', '확률/NNG', '파악/NNG', '하/XSV', '것/NNB', '정책/NNG;크/VA', '판단/NNG', '도움/NNG', '언급/NNG', '하/XSV', '유럽/NNP', '중앙은행/NNG', '영란/NNG', '은행/NNG', '등/NNB', '활용/NNG', '되/XSV', '베/NNG', '이지언/NNP', '전망/NNG', '기법/NNG', '한국은행/NNP', '기존/NNG', '경제/NNG', '전망/NNG', '모형/NNG', '반영/NNG', '해/XSV', '필요/NNG', '것/NNB', '견해/NNG']


In [7]:
cfg = eKonf.compose(config_group="pipeline")
cfg.data.data_dir = "../data/bok"
cfg.data.data_file = "bok_minutes_tokens.parquet"
cfg._pipeline_ = []
cfg.num_workers = 100
cfg.verbose = True
df = eKonf.instantiate(cfg)
df.tail()

INFO:ekorpkit.ekonf:Executing function functools.partial(<function load_dataframe at 0x7f281ae2bf70>) with parms {'filepath': '../data/bok/bok_minutes_tokens.parquet', 'columns': None, 'verbose': True}
INFO:ekorpkit.io.file:Loading data from ../data/bok/bok_minutes_tokens.parquet
INFO:ekorpkit.io.file: >> elapsed time to load data: 0:00:00.136084
INFO:ekorpkit.ekonf:Skipping execute of functools.partial(<function concat_dataframes at 0x7f281ae2bee0>)


Unnamed: 0,id,text,sent_id
162,162,앞/NNG 으로/JKB 코로나/NNG 19/SN 충격/NNG 에서/JKB 점차/MA...,337
162,162,또한/MAJ 글로벌/NNG 공급/NNG 망/NNG 재편/NNG 기후/NNG 변화/N...,338
162,162,향후/NNG 경제/NNG 회복세/NNG 와/JC 물가/NNG 의/JKG 흐름/NNG...,339
162,162,,340
162,162,Government/SL s/SL View/SL,341


In [8]:
ngram._ngram.max_window = 7
ngram._ngram.max_skip = 3
_ngrams = ngram.find_ngrams(
    df.text[:100], ignore_scores=False, strip_pos=False, use_surfaces_to_score=True
)

100%|██████████| 100/100 [00:08<00:00, 11.70it/s]
INFO:ekorpkit.models.ngram.base:found 176 ngrams


In [9]:
_ngrams

{'하락/NNG': {'count': 6},
 '저조/NNG': {'count': 3},
 '회복/NNG;속도/NNG;지연/NNG': {'count': 1},
 '가격/NNG;하락/NNG;가격/NNG;하락/NNG': {'count': 1},
 '투자/NNG;크/VA': {'count': 2},
 '경제/NNG;성장/NNG;률/XSN;전망/NNG;높/VA': {'count': 1},
 '마이너스/NNG;갭/NNG;축소/NNG': {'count': 1},
 '소비자/NNG;물가/NNG;생산자/NNG;물가/NNG;상승/NNG': {'count': 1},
 '수요/NNG;측면/NNG;물가/NNG;상승/NNG;압력/NNG': {'count': 3},
 '우려/NNG': {'count': 5},
 '성장/NNG;경기/NNG;회복/NNG': {'count': 1},
 '농축/NNG;수산물/NNG;가격/NNG;급등/NNG': {'count': 1},
 '절상/NNG;효과/NNG': {'count': 2},
 '절상/NNG;제한/NNG': {'count': 1},
 '농축/NNG;수산물/NNG;가격/NNG;상승/NNG': {'count': 1},
 '낙관/NNG': {'count': 1},
 '유가/NNG;상승/NNG': {'count': 1},
 '소비자/NNG;물가/NNG;상승/NNG': {'count': 2},
 '높/VA;압력/NNG': {'count': 1},
 '회복/NNG;기대/NNG;높/VA': {'count': 1},
 '긍정/NNG': {'count': 2},
 '부진/NNG;경기/NNG;회복/NNG': {'count': 1},
 '플러스/NNG': {'count': 2},
 '경제/NNG;성장/NNG;률/XSN;상승/NNG': {'count': 1},
 '성장/NNG;높/VA': {'count': 1},
 '수요/NNG;측면/NNG;물가/NNG;상승/NNG': {'count': 1},
 '마이너스/NNG': {'count': 3},
 '구조/NNG;악화/N

In [10]:
_features = ngram.find_features(df.text[:100])

100%|██████████| 100/100 [00:08<00:00, 11.85it/s]
INFO:ekorpkit.models.ngram.base:found 176 ngrams


In [11]:
_features

{'하락/NNG': {'label': -1,
  'polarity': -0.9974931628848912,
  'intensity': 72.9138425756711,
  'pos_score': 11.736812558265145,
  'neg_score': 855.7761032135043,
  'count': 6},
 '저조/NNG': {'label': 1,
  'polarity': 0.0177873650568067,
  'intensity': 1.1370480237635,
  'pos_score': 14.42350403167657,
  'neg_score': 12.685043841803978,
  'count': 3},
 '회복/NNG;속도/NNG;지연/NNG': {'label': -1,
  'polarity': -0.0259320419588431,
  'intensity': 1.1544610444820782,
  'pos_score': 11.368343078020722,
  'neg_score': 13.124309223882406,
  'count': 1},
 '가격/NNG;하락/NNG;가격/NNG;하락/NNG': {'label': -1,
  'polarity': -0.0650300227408409,
  'intensity': 1.2420569355055942,
  'pos_score': 14.656862699929338,
  'neg_score': 18.204657969200483,
  'count': 1},
 '투자/NNG;크/VA': {'count': 2},
 '경제/NNG;성장/NNG;률/XSN;전망/NNG;높/VA': {'count': 1},
 '마이너스/NNG;갭/NNG;축소/NNG': {'count': 1},
 '소비자/NNG;물가/NNG;생산자/NNG;물가/NNG;상승/NNG': {'label': 1,
  'polarity': 0.0674847647587996,
  'intensity': 1.2478407287062587,
  'pos_scor