# Keybert
- blog
    - [[NLP] Kiwi 설치와 keyBert 한글 키워드 추출](https://chaeeunsong.tistory.com/27)
    - [Keybert와 kiwi형태소분석기를 사용하여 키워드추출 하기](https://hmkim312.github.io/posts/Keybert%EC%99%80_kiwi%ED%98%95%ED%83%9C%EC%86%8C%EB%B6%84%EC%84%9D%EA%B8%B0%EB%A5%BC_%EC%82%AC%EC%9A%A9%ED%95%98%EC%97%AC_%ED%82%A4%EC%9B%8C%EB%93%9C%EC%B6%94%EC%B6%9C_%ED%95%98%EA%B8%B0/)

## 설치
- pip install keybert
- pip install kiwipiepy
- pip install transformers

In [None]:
from keybert import KeyBERT
from kiwipiepy import Kiwi
from transformers import BertModel

model = BertModel.from_pretrained('skt/kobert-base-v1')
kw_model = KeyBERT(model)

text = """서울 지진 대피소에 대한 데이터 분석을 위해서는 어떤 종류의 데이터가 필요할까요? 예를 들어, 서울시의 지진 대피소 위치, 수용 가능 인원, 대피소 내부 시설물, 대피소 이용 현황 등의 정보가 필요할 것입니다. 지진 대피소 위치 분석 예시: 지진 대피소 위치는 서울시 공공데이터 포털에서 제공하는 "서울시 지진대피소 안내" 데이터를 사용할 수 있습니다. 이 데이터셋에는 지진 대피소 명칭, 위치(주소), 좌표, 수용 인원, 관리 기관 등의 항목이 포함되어 있습니다. 이를 바탕으로 대피소 위치를 지도에 시각화하여 지진 발생 시 대피소가 필요한 지역을 파악할 수 있습니다. 대피소 이용 현황 분석 예시: 대피소 이용 현황은 서울시에서 제공하는 "서울시 재난정보 실시간 수집 및 제공 서비스" 데이터를 사용할 수 있습니다. 이 데이터셋에는 대피소 이용 현황(대피소 이용 가능 여부, 이용 중인 인원 수), 지진 발생 시 대피소 이용 현황 등의 정보가 포함되어 있습니다. 이를 바탕으로 대피소 이용 현황을 분석하여 인원이 많은 대피소를 파악하거나, 대피소 이용 가능 여부 등을 파악할 수 있습니다."""

### 기본활용

In [29]:
keywords = kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 1), stop_words=None, top_n=10)
keywords

Downloading (…)lve/main/config.json: 100%|██████████| 535/535 [00:00<00:00, 82.3kB/s]
Downloading pytorch_model.bin: 100%|██████████| 369M/369M [00:37<00:00, 9.97MB/s] 
Downloading (…)0fe39/.gitattributes: 100%|██████████| 968/968 [00:00<00:00, 156kB/s]
Downloading (…)_Pooling/config.json: 100%|██████████| 190/190 [00:00<00:00, 115kB/s]
Downloading (…)83e900fe39/README.md: 100%|██████████| 3.79k/3.79k [00:00<00:00, 3.06MB/s]
Downloading (…)e900fe39/config.json: 100%|██████████| 645/645 [00:00<00:00, 549kB/s]
Downloading (…)ce_transformers.json: 100%|██████████| 122/122 [00:00<00:00, 73.8kB/s]
Downloading pytorch_model.bin: 100%|██████████| 471M/471M [00:56<00:00, 8.29MB/s] 
Downloading (…)nce_bert_config.json: 100%|██████████| 53.0/53.0 [00:00<00:00, 31.6kB/s]
Downloading (…)tencepiece.bpe.model: 100%|██████████| 5.07M/5.07M [00:00<00:00, 13.4MB/s]
Downloading (…)cial_tokens_map.json: 100%|██████████| 239/239 [00:00<00:00, 142kB/s]
Downloading tokenizer.json: 100%|██████████| 9.08M/9.0

[('지진대피소', 0.4972),
 ('지진', 0.4423),
 ('공공데이터', 0.4249),
 ('서울', 0.4239),
 ('서울시에서', 0.3922),
 ('재난정보', 0.3739),
 ('서울시', 0.3665),
 ('데이터가', 0.325),
 ('데이터를', 0.3069),
 ('데이터', 0.3057)]

In [30]:
keywords = kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 2), stop_words=None, top_n=20)
keywords

[('서울시 지진대피소', 0.6382),
 ('서울시의 지진', 0.6199),
 ('서울 지진', 0.6039),
 ('데이터셋에는 지진', 0.5942),
 ('서울시 공공데이터', 0.561),
 ('서울시 재난정보', 0.5322),
 ('지진대피소', 0.4972),
 ('지진 대피소', 0.4953),
 ('예시 지진', 0.4769),
 ('시각화하여 지진', 0.474),
 ('위치는 서울시', 0.4725),
 ('지진대피소 안내', 0.4663),
 ('공공데이터 포털에서', 0.4621),
 ('지진 발생', 0.4522),
 ('제공하는 서울시', 0.449),
 ('인원 지진', 0.4429),
 ('지진', 0.4423),
 ('것입니다 지진', 0.4345),
 ('공공데이터', 0.4249),
 ('서울', 0.4239)]

### kiwi 로 명사 추출

In [31]:
kiwi = Kiwi()
kiwi.analyze(text)

[([Token(form='서울', tag='NNP', start=0, len=2),
   Token(form='지진', tag='NNG', start=3, len=2),
   Token(form='대피소', tag='NNG', start=6, len=3),
   Token(form='에', tag='JKB', start=9, len=1),
   Token(form='대하', tag='VV', start=11, len=2),
   Token(form='ᆫ', tag='ETM', start=12, len=1),
   Token(form='데이터', tag='NNG', start=14, len=3),
   Token(form='분석', tag='NNG', start=18, len=2),
   Token(form='을', tag='JKO', start=20, len=1),
   Token(form='위하', tag='VV', start=22, len=2),
   Token(form='어서', tag='EC', start=23, len=2),
   Token(form='는', tag='JX', start=25, len=1),
   Token(form='어떤', tag='MM', start=27, len=2),
   Token(form='종류', tag='NNG', start=30, len=2),
   Token(form='의', tag='JKG', start=32, len=1),
   Token(form='데이터', tag='NNG', start=34, len=3),
   Token(form='가', tag='JKS', start=37, len=1),
   Token(form='필요', tag='NNG', start=39, len=2),
   Token(form='하', tag='XSA', start=41, len=1),
   Token(form='ᆯ까요', tag='EF', start=41, len=3),
   Token(form='?', tag='SF', star

In [33]:
kiwi = Kiwi()
result_text = ''
for sentence in kiwi.analyze(text):
    nouns = []
    for token in sentence[0]:
        if token.tag.startswith('NN'):
            nouns.append(token.form)
    if nouns:
        result_text = ' '.join(nouns)
result_text

'서울 지진 대피소 데이터 분석 종류 데이터 필요 예 서울시 지진 대피소 위치 수용 가능 인원 대피소 내부 시설물 대피소 이용 현황 등 정보 필요 것 지진 대피소 위치 분석 예시 지진 대피소 위치 서울시 공공 데이터 포털 제공 서울시 지진 대피소 안내 데이터 사용 수 데이터 지진 대피소 명칭 위치 주소 좌표 수용 인원 관리 기관 등 항목 포함 바탕 대피소 위치 지도 시각 지진 발생 시 대피소 필요 지역 파악 수 대피소 이용 현황 분석 예시 대피소 이용 현황 서울시 제공 서울시 재난 정보 실시간 수집 제공 서비스 데이터 사용 수 데이터 대피소 이용 현황 대피소 이용 가능 여부 이용 중 인원 수 지진 발생 시 대피소 이용 현황 등 정보 포함 바탕 대피소 이용 현황 분석 인원 대피소 파악 대피소 이용 가능 여부 등 파악 수'

In [34]:
kiwi = Kiwi()
nouns_list = []
for sentence in kiwi.analyze(text):
    nouns = [token.form for token in sentence[0] if token.tag.startswith('NN')]
    if nouns:
        nouns_list.extend(nouns)
result_text = ' '.join(nouns_list)
result_text

'서울 지진 대피소 데이터 분석 종류 데이터 필요 예 서울시 지진 대피소 위치 수용 가능 인원 대피소 내부 시설물 대피소 이용 현황 등 정보 필요 것 지진 대피소 위치 분석 예시 지진 대피소 위치 서울시 공공 데이터 포털 제공 서울시 지진 대피소 안내 데이터 사용 수 데이터 지진 대피소 명칭 위치 주소 좌표 수용 인원 관리 기관 등 항목 포함 바탕 대피소 위치 지도 시각 지진 발생 시 대피소 필요 지역 파악 수 대피소 이용 현황 분석 예시 대피소 이용 현황 서울시 제공 서울시 재난 정보 실시간 수집 제공 서비스 데이터 사용 수 데이터 대피소 이용 현황 대피소 이용 가능 여부 이용 중 인원 수 지진 발생 시 대피소 이용 현황 등 정보 포함 바탕 대피소 이용 현황 분석 인원 대피소 파악 대피소 이용 가능 여부 등 파악 수'

In [35]:
keywords = kw_model.extract_keywords(result_text, keyphrase_ngram_range=(1, 1), stop_words=None, top_n=20)
keywords

[('데이터', 0.4451),
 ('지진', 0.4023),
 ('서울', 0.3941),
 ('정보', 0.3515),
 ('서울시', 0.3509),
 ('지도', 0.3341),
 ('분석', 0.3061),
 ('재난', 0.245),
 ('시설물', 0.2277),
 ('지역', 0.2274),
 ('공공', 0.2011),
 ('포털', 0.1774),
 ('사용', 0.1751),
 ('이용', 0.171),
 ('위치', 0.1682),
 ('기관', 0.1638),
 ('수집', 0.1616),
 ('실시간', 0.1505),
 ('발생', 0.1442),
 ('주소', 0.1425)]

In [168]:
keywords = kw_model.extract_keywords(result_text, keyphrase_ngram_range=(1, 1), stop_words=None, top_n=30)
keywords

[('데이터', 0.4451),
 ('지진', 0.4023),
 ('서울', 0.3941),
 ('정보', 0.3515),
 ('서울시', 0.3509),
 ('지도', 0.3341),
 ('분석', 0.3061),
 ('재난', 0.245),
 ('시설물', 0.2277),
 ('지역', 0.2274),
 ('공공', 0.2011),
 ('포털', 0.1774),
 ('사용', 0.1751),
 ('이용', 0.171),
 ('위치', 0.1682),
 ('기관', 0.1638),
 ('수집', 0.1616),
 ('실시간', 0.1505),
 ('발생', 0.1442),
 ('주소', 0.1425),
 ('항목', 0.1405),
 ('대피소', 0.1387),
 ('관리', 0.1372),
 ('수용', 0.1287),
 ('서비스', 0.1249),
 ('안내', 0.1172),
 ('필요', 0.117),
 ('포함', 0.1156),
 ('시각', 0.1147),
 ('내부', 0.1106)]

In [36]:
test2="""한국 산불 데이터를 검색해보면 국립환경과학원의 "산불발생 현황" 데이터를 활용할 수 있습니다. 이 데이터는 2011년부터 2020년까지의 산불 발생 현황을 지역, 월별, 원인별, 피해규모별 등 다양한 항목으로 제공합니다. 데이터는 엑셀 파일 형식으로 제공되어 있으며, 한국환경공단 대기오염실시간조회서비스에서 제공하는 지역별 대기오염 정보와 연계하여 활용할 수 있습니다. 데이터 검색을 원하시면 국립환경과학원 홈페이지를 방문해보시면 됩니다."""

In [43]:
kiwi = Kiwi()
nouns_list = []
for sentence in kiwi.analyze(test2):
    nouns = [token.form for token in sentence[0] if token.tag.startswith('NN')]
    if nouns:
        nouns_list.extend(nouns)
result_text = ' '.join(nouns_list)
keywords = kw_model.extract_keywords(result_text, keyphrase_ngram_range=(1, 1), stop_words=None, top_n=20)
keyword_list = ' '.join([word for word, r in keywords])

keyword_list

[('한국환경공단', 0.5216),
 ('한국', 0.4415),
 ('국립환경과학원', 0.4394),
 ('데이터', 0.3231),
 ('오염', 0.295),
 ('정보', 0.2885),
 ('산불', 0.284),
 ('검색', 0.255),
 ('지역', 0.2261),
 ('홈페이지', 0.2082),
 ('활용', 0.2066),
 ('발생', 0.2039),
 ('다양', 0.1779),
 ('항목', 0.1627),
 ('파일', 0.1591),
 ('제공', 0.1506),
 ('피해', 0.141),
 ('원인', 0.1406),
 ('형식', 0.1336),
 ('대기', 0.13)]

In [44]:
keywords_text

'한국환경공단 한국 국립환경과학원 데이터 오염 정보 산불 검색 지역 홈페이지 활용 발생 다양 항목 파일 제공 피해 원인 형식 대기'