In [1]:
from keybert import KeyBERT

  from .autonotebook import tqdm as notebook_tqdm


In [6]:
doc = """
    Supervised learning is the machine learning task of learning a function that
    maps an input to an output based on example input-output pairs. It infers a
    function from labeled training data consisting of a set of training examples.
    In supervised learning, each example is a pair consisting of an input object
    (typically a vector) and a desired output value (also called the supervisory signal).
    A supervised learning algorithm analyzes the training data and produces an inferred function,
    which can be used for mapping new examples. An optimal scenario will allow for the
    algorithm to correctly determine the class labels for unseen instances. This requires
    the learning algorithm to generalize from the training data to unseen situations in a
    'reasonable' way (see inductive bias).
"""
kw_model = KeyBERT()
keywords = kw_model.extract_keywords(doc)

In [7]:
keywords

[('supervised', 0.6676),
 ('labeled', 0.4896),
 ('learning', 0.4813),
 ('training', 0.4134),
 ('labels', 0.3947)]

In [8]:
doc = '''(제주=연합뉴스) 박지호 기자 = 설 연휴 마지막 날인 24일 오전 폭설과 강풍이 몰아쳐 항공편이 전편 결항한 가운데 제주공항 출발층 안내판이 결항을 알리고 있다. 2023.1.24 jihopark@yna.co.kr

(서울=연합뉴스) 김윤구 기자 = 제주 등지에서 한파 속에 강풍이 불고 폭설이 내리면서 제주공항이 올스톱되고 여객선 운항도 대거 통제됐다.

중앙재난안전대책본부(중대본)는 24일 오후 6시 기준 백령~인천, 포항~울산, 군산~어청도 등 여객선 86개 항로 113척의 운항이 풍랑에 의해 통제됐다고 밝혔다.

제주도는 바닷길과 하늘길이 모두 끊겼다.

제주지방항공청에 따르면 강풍특보와 급변풍특보가 발효 중인 제주공항에서는 이날 국내선 466편(출발 233, 도착 233)과 국제선 10편(출발 5, 도착 5) 등 총 476편이 모두 결항했다.

대설로 인해 내장산, 다도해, 무등산 등 전국 6개 국립공원 140개 탐방로가 통제됐다.

전북, 전남, 제주 등 도로 12곳도 통제 상태다.

서울, 경기 등지에서 계량기 동파는 68건 발생했다.

전국에 한파 특보가 발효 중인 가운데 25일까지 평년보다 10~15도 낮은 추운 날씨가 이어질 전망이다. 25일 오후부터 기온이 올라 26일에는 평년 기온을 회복할 것으로 보인다.

대설 특보는 전라서해안 중심으로 발효 중이며 25일 낮까지 3~10cm의 추가 강설이 전망된다. 또한 25일 늦은 밤부터 26일까지 수도권 등 중부지방을 중심으로 눈이 내릴 것으로 예상된다.'''
keywords = kw_model.extract_keywords(doc)
keywords

[('제주지방항공청에', 0.5084),
 ('중앙재난안전대책본부', 0.4523),
 ('제주공항에서는', 0.4294),
 ('강풍특보와', 0.4234),
 ('급변풍특보가', 0.4132)]

In [10]:
from eunjeon import Mecab
tagger = Mecab()
pos = tagger.pos(doc)
pos

[('(', 'SSO'),
 ('제주', 'NNP'),
 ('=', 'SY'),
 ('연합뉴스', 'NNP'),
 (')', 'SSC'),
 ('박지호', 'NNP'),
 ('기자', 'NNG'),
 ('=', 'SY'),
 ('설', 'NNG'),
 ('연휴', 'NNG'),
 ('마지막', 'NNG'),
 ('날', 'NNG'),
 ('인', 'VCP+ETM'),
 ('24', 'SN'),
 ('일', 'NNBC'),
 ('오전', 'NNG'),
 ('폭설', 'NNG'),
 ('과', 'JC'),
 ('강풍', 'NNG'),
 ('이', 'JKS'),
 ('몰아쳐', 'VV+EC'),
 ('항공편', 'NNG'),
 ('이', 'JKS'),
 ('전편', 'NNG'),
 ('결항', 'NNG'),
 ('한', 'XSA+ETM'),
 ('가운데', 'NNG'),
 ('제주', 'NNP'),
 ('공항', 'NNG'),
 ('출발', 'NNG'),
 ('층', 'XSN'),
 ('안내판', 'NNG'),
 ('이', 'JKS'),
 ('결항', 'NNG'),
 ('을', 'JKO'),
 ('알리', 'VV'),
 ('고', 'EC'),
 ('있', 'VX'),
 ('다', 'EF'),
 ('.', 'SF'),
 ('2023', 'SN'),
 ('.', 'SY'),
 ('1', 'SN'),
 ('.', 'SY'),
 ('24', 'SN'),
 ('jihopark', 'SL'),
 ('@', 'SY'),
 ('yna', 'SL'),
 ('.', 'SY'),
 ('co', 'SL'),
 ('.', 'SY'),
 ('kr', 'SL'),
 ('(', 'SSO'),
 ('서울', 'NNP'),
 ('=', 'SY'),
 ('연합뉴스', 'NNP'),
 (')', 'SSC'),
 ('김윤구', 'NNP'),
 ('기자', 'NNG'),
 ('=', 'SY'),
 ('제주', 'NNP'),
 ('등지', 'NNB'),
 ('에서', 'JKB'),
 ('한파', 'NNG'

In [20]:
contents = []
for p in pos:
    contents.append(p[0])
doc_new = ' '.join(contents)
keywords = kw_model.extract_keywords(doc_new)
keywords


[('항공편', 0.3346),
 ('공청', 0.2988),
 ('지방항', 0.271),
 ('여객선', 0.2617),
 ('어청도', 0.2582)]

In [6]:
doc = '나 심심하고 배고프다. 버트로 가야 할까 지피티로 가야 할까'
kw_model = KeyBERT()
tagger = Mecab()
pos = tagger.pos(doc)
contents = []
for p in pos:
    contents.append(p[0])
doc_new = ' '.join(contents)
keywords = kw_model.extract_keywords(doc_new)
keywords

[('배고프', 0.5852),
 ('버트', 0.5602),
 ('심심', 0.523),
 ('피티', 0.4439),
 ('가야', 0.3371)]