In [1]:
import json
import pandas as pd
import math

from simple_postagger.analyzer import load_model, analyze


In [2]:
model_path = "data/NIKL_MP(v1.1)/hmm_model.pkl"
model = load_model(model_path)

In [3]:
init_probs, trans_probs, emit_probs, tag_set = model

In [4]:
analyze("아버지가 방에 들어가신다", model, method="beam")

[('아버지', 'NNG'),
 ('가', 'JKS'),
 ('방', 'NNG'),
 ('에', 'JKB'),
 ('들어가', 'VV'),
 ('신', 'NA'),
 ('다', 'MAG')]

In [5]:
analyze("아버지가 방에 들어가신다", model, method="viterbi")

[('아버지', 'NNG'),
 ('가', 'JKS'),
 ('방', 'NNG'),
 ('에', 'JKB'),
 ('들어가', 'VV'),
 ('신', 'NA'),
 ('다', 'MAG')]

In [6]:
analyze("나이키 운동화", model, method="beam")

[('나', 'NP'), ('이', 'JKS'), ('키', 'NNG'), ('운동화', 'NNG')]

In [7]:
analyze("나이키 운동화", model, method="viterbi")

[('나이키', 'NNP'), ('운동화', 'NNG')]

In [8]:
analyze("나는 오늘 저녁에 치킨을 먹었다", model, method="beam", debug=True)

[lattice 후보]
0: ['나', '나는']
1: ['는']
2: ['오', '오늘']
3: ['늘']
4: ['저', '저녁']
5: ['<UNK>']
6: ['에']
7: ['치', '치킨']
8: ['킨']
9: ['을']
10: ['먹', '먹었']
11: ['었']
12: ['다']
13: []
[Beam Search 최적 경로]
morphs: ['나', '는', '오늘', '저녁', '에', '치킨', '을', '먹', '었', '다']
tags: ['NP', 'JX', 'MAG', 'NNG', 'JKB', 'NNG', 'JKO', 'VV', 'EP', 'EF']
log_score (normalized): -19.993895280557517


[('나', 'NP'),
 ('는', 'JX'),
 ('오늘', 'MAG'),
 ('저녁', 'NNG'),
 ('에', 'JKB'),
 ('치킨', 'NNG'),
 ('을', 'JKO'),
 ('먹', 'VV'),
 ('었', 'EP'),
 ('다', 'EF')]

In [9]:
analyze("나는 오늘 저녁에 치킨을 먹었다", model, method="viterbi", debug=True)

[lattice 후보]
0: ['나', '나는']
1: ['는']
2: ['오', '오늘']
3: ['늘']
4: ['저', '저녁']
5: ['<UNK>']
6: ['에']
7: ['치', '치킨']
8: ['킨']
9: ['을']
10: ['먹', '먹었']
11: ['었']
12: ['다']
[Viterbi 최적 경로]
morphs: ['나', '는', '오늘', '저녁', '에', '치킨', '을', '먹', '었', '다']
tags: ['NP', 'JX', 'MAG', 'NNG', 'JKB', 'NNG', 'JKO', 'VV', 'EP', 'EF']
log_score (normalized): -20.562016972655037


[('나', 'NP'),
 ('는', 'JX'),
 ('오늘', 'MAG'),
 ('저녁', 'NNG'),
 ('에', 'JKB'),
 ('치킨', 'NNG'),
 ('을', 'JKO'),
 ('먹', 'VV'),
 ('었', 'EP'),
 ('다', 'EF')]

In [10]:
analyze("오류 보고는 실행환경 에러메세지와 함께 설명을 최대한 상세히", model, method="beam")

[('오류', 'NNG'),
 ('보', 'VV'),
 ('고', 'EC'),
 ('는', 'JX'),
 ('실행', 'NNG'),
 ('환경', 'NNG'),
 ('에러', 'NNG'),
 ('메세지', 'NNG'),
 ('와', 'JKB'),
 ('함께', 'MAG'),
 ('설명', 'NNG'),
 ('을', 'JKO'),
 ('최대한', 'MAG'),
 ('상세히', 'MAG')]

In [11]:
analyze("오류 보고는 실행환경 에러메세지와 함께 설명을 최대한 상세히", model, method="viterbi")

[('오류', 'NNG'),
 ('보고', 'JKB'),
 ('는', 'JX'),
 ('실행', 'NNG'),
 ('환경', 'NNG'),
 ('에러', 'NNG'),
 ('메세지', 'NNG'),
 ('와', 'JKB'),
 ('함께', 'MAG'),
 ('설명', 'NNG'),
 ('을', 'JKO'),
 ('최대한', 'MAG'),
 ('상세히', 'MAG')]

In [12]:
analyze("아무리 채소로 만든 음식이라도 조리 방법에 따라 몸에 해로울 수 있다.", model, method="beam")

[('아무리', 'MAG'),
 ('채소', 'NNG'),
 ('로', 'JKB'),
 ('만', 'JX'),
 ('든', 'JX'),
 ('음식', 'NNG'),
 ('이라도', 'JX'),
 ('조리', 'NNG'),
 ('방법', 'NNG'),
 ('에', 'JKB'),
 ('따라', 'JX'),
 ('몸', 'NNG'),
 ('에', 'JKB'),
 ('해', 'NNG'),
 ('로', 'JKB'),
 ('울', 'NP'),
 ('수', 'NNB'),
 ('있', 'VA'),
 ('다', 'EF'),
 ('.', 'SF')]

In [13]:
analyze("아무리 채소로 만든 음식이라도 조리 방법에 따라 몸에 해로울 수 있다.", model, method="viterbi")

[('아무리', 'MAG'),
 ('채소', 'NNG'),
 ('로', 'JKB'),
 ('만', 'JX'),
 ('든', 'JX'),
 ('음식', 'NNG'),
 ('이라도', 'JX'),
 ('조리', 'NNG'),
 ('방법', 'NNG'),
 ('에', 'JKB'),
 ('따라', 'JX'),
 ('몸', 'NNG'),
 ('에', 'JKB'),
 ('해', 'NNG'),
 ('로', 'JKB'),
 ('울', 'NP'),
 ('수', 'NNB'),
 ('있', 'VA'),
 ('다', 'EF'),
 ('.', 'SF')]

In [14]:
long_text = "가공 과정에서 영양소가 파괴되고, 과잉 섭취 위험이 크다는 것도 문제다. 채소 속 영양을 섭취할 목적으로 채소 칩을 먹으면 기대하는 효과를 보기 어려울 가능성이 크다. 높은 온도에서 튀기면 채소에 풍부했던 비타민, 식이섬유, 철분, 칼륨 등의 성분이 파괴된다. 안토시아닌 같은 항산화 성분이 풍부한 비트로 만든 ‘비트 칩’에서 항산화 효과를, 비타민A가 많은 당근으로 만든 ‘당근 칩’에서 눈 건강 개선 효과를 기대할 수 없다는 것이다. 또한, 식이섬유가 풍부해 적은 양으로도 큰 포만감을 느낄 수 있는 생 채소와 달리 채소 칩은 포만감이 쉽게 느껴지지 않아 과잉 섭취해 체중 증가로 이어질 위험이 있다."

In [15]:
analyze(long_text, model, method="beam")

[('가공', 'NNG'),
 ('과정', 'NNG'),
 ('에서', 'JKB'),
 ('영양소', 'NNG'),
 ('가', 'JKS'),
 ('파괴', 'NNG'),
 ('되', 'XSV'),
 ('고', 'EC'),
 (',', 'SP'),
 ('과잉', 'NNG'),
 ('섭취', 'NNG'),
 ('위험', 'NNG'),
 ('이', 'JKS'),
 ('크', 'VA'),
 ('다는', 'ETM'),
 ('것', 'NNB'),
 ('도', 'JX'),
 ('문제', 'NNG'),
 ('다', 'JX'),
 ('.', 'SF'),
 ('채소', 'NNG'),
 ('속', 'NNG'),
 ('영양', 'NNG'),
 ('을', 'JKO'),
 ('섭취', 'NNG'),
 ('할', 'NA'),
 ('목적', 'NNG'),
 ('으로', 'JKB'),
 ('채소', 'NNG'),
 ('칩', 'NNG'),
 ('을', 'JKO'),
 ('먹', 'VV'),
 ('으면', 'EC'),
 ('기대', 'NNG'),
 ('하', 'XSV'),
 ('는', 'ETM'),
 ('효과', 'NNG'),
 ('를', 'JKO'),
 ('보', 'VV'),
 ('기', 'ETN'),
 ('어려', 'NA'),
 ('울', 'NA'),
 ('가능', 'NNG'),
 ('성', 'XSN'),
 ('이', 'JKS'),
 ('크', 'VA'),
 ('다', 'EF'),
 ('.', 'SF'),
 ('높', 'VA'),
 ('은', 'ETM'),
 ('온도', 'NNG'),
 ('에서', 'JKB'),
 ('튀기', 'VV'),
 ('면', 'EC'),
 ('채소', 'NNG'),
 ('에', 'JKB'),
 ('풍', 'NNG'),
 ('부', 'XSN'),
 ('했', 'NA'),
 ('던', 'ETM'),
 ('비타민', 'NNG'),
 (',', 'SP'),
 ('식이', 'NNG'),
 ('섬유', 'NNG'),
 (',', 'SP'),
 ('철', 'NNG'),
 

In [16]:
analyze(long_text, model, method="viterbi")

[('가공', 'NNG'),
 ('과정', 'NNG'),
 ('에서', 'JKB'),
 ('영양소', 'NNG'),
 ('가', 'JKS'),
 ('파괴', 'NNG'),
 ('되', 'XSV'),
 ('고', 'EC'),
 (',', 'SP'),
 ('과잉', 'NNG'),
 ('섭취', 'NNG'),
 ('위험', 'NNG'),
 ('이', 'JKS'),
 ('크', 'VA'),
 ('다는', 'ETM'),
 ('것', 'NNB'),
 ('도', 'JX'),
 ('문제', 'NNG'),
 ('다', 'JX'),
 ('.', 'SF'),
 ('채소', 'NNG'),
 ('속', 'NNG'),
 ('영양', 'NNG'),
 ('을', 'JKO'),
 ('섭취', 'NNG'),
 ('할', 'NA'),
 ('목적', 'NNG'),
 ('으로', 'JKB'),
 ('채소', 'NNG'),
 ('칩', 'NNG'),
 ('을', 'JKO'),
 ('먹', 'VV'),
 ('으면', 'EC'),
 ('기대', 'NNG'),
 ('하', 'XSV'),
 ('는', 'ETM'),
 ('효과', 'NNG'),
 ('를', 'JKO'),
 ('보', 'VV'),
 ('기', 'ETN'),
 ('어려', 'NA'),
 ('울', 'NA'),
 ('가능', 'NNG'),
 ('성', 'XSN'),
 ('이', 'JKS'),
 ('크', 'VA'),
 ('다', 'EF'),
 ('.', 'SF'),
 ('높', 'VA'),
 ('은', 'ETM'),
 ('온도', 'NNG'),
 ('에서', 'JKB'),
 ('튀기', 'VV'),
 ('면', 'EC'),
 ('채소', 'NNG'),
 ('에', 'JKB'),
 ('풍', 'NNG'),
 ('부', 'NA'),
 ('했', 'NA'),
 ('던', 'ETM'),
 ('비타민', 'NNG'),
 (',', 'SP'),
 ('식이', 'NNG'),
 ('섬유', 'NNG'),
 (',', 'SP'),
 ('철', 'NNG'),
 (