# KR-WordRank

- blog: https://chaeeunsong.tistory.com/25
- 설치: pip install krwordrank

In [8]:
text = """서울 지진 대피소에 대한 데이터 분석을 위해서는 어떤 종류의 데이터가 필요할까요? 예를 들어, 서울시의 지진 대피소 위치, 수용 가능 인원, 대피소 내부 시설물, 대피소 이용 현황 등의 정보가 필요할 것입니다. 지진 대피소 위치 분석 예시: 지진 대피소 위치는 서울시 공공데이터 포털에서 제공하는 "서울시 지진대피소 안내" 데이터를 사용할 수 있습니다. 이 데이터셋에는 지진 대피소 명칭, 위치(주소), 좌표, 수용 인원, 관리 기관 등의 항목이 포함되어 있습니다. 이를 바탕으로 대피소 위치를 지도에 시각화하여 지진 발생 시 대피소가 필요한 지역을 파악할 수 있습니다. 대피소 이용 현황 분석 예시: 대피소 이용 현황은 서울시에서 제공하는 "서울시 재난정보 실시간 수집 및 제공 서비스" 데이터를 사용할 수 있습니다. 이 데이터셋에는 대피소 이용 현황(대피소 이용 가능 여부, 이용 중인 인원 수), 지진 발생 시 대피소 이용 현황 등의 정보가 포함되어 있습니다. 이를 바탕으로 대피소 이용 현황을 분석하여 인원이 많은 대피소를 파악하거나, 대피소 이용 가능 여부 등을 파악할 수 있습니다."""

import re

def split_sentences(text):
    sentences = text.replace(". ",".")
    sentences = re.sub(r'([^\n\s\.\?!]+[^\n\.\?!]*[\.\?!])', r'\1\n', text).strip().split("\n")
    return sentences

In [9]:
sentence_list = split_sentences(text)
sentence_list

['서울 지진 대피소에 대한 데이터 분석을 위해서는 어떤 종류의 데이터가 필요할까요?',
 ' 예를 들어, 서울시의 지진 대피소 위치, 수용 가능 인원, 대피소 내부 시설물, 대피소 이용 현황 등의 정보가 필요할 것입니다.',
 ' 지진 대피소 위치 분석 예시: 지진 대피소 위치는 서울시 공공데이터 포털에서 제공하는 "서울시 지진대피소 안내" 데이터를 사용할 수 있습니다.',
 ' 이 데이터셋에는 지진 대피소 명칭, 위치(주소), 좌표, 수용 인원, 관리 기관 등의 항목이 포함되어 있습니다.',
 ' 이를 바탕으로 대피소 위치를 지도에 시각화하여 지진 발생 시 대피소가 필요한 지역을 파악할 수 있습니다.',
 ' 대피소 이용 현황 분석 예시: 대피소 이용 현황은 서울시에서 제공하는 "서울시 재난정보 실시간 수집 및 제공 서비스" 데이터를 사용할 수 있습니다.',
 ' 이 데이터셋에는 대피소 이용 현황(대피소 이용 가능 여부, 이용 중인 인원 수), 지진 발생 시 대피소 이용 현황 등의 정보가 포함되어 있습니다.',
 ' 이를 바탕으로 대피소 이용 현황을 분석하여 인원이 많은 대피소를 파악하거나, 대피소 이용 가능 여부 등을 파악할 수 있습니다.']

## keyword extraction with KR-WordRank

In [14]:
from krwordrank.sentence import summarize_with_sentences
keywords, sents = summarize_with_sentences(
                                        sentence_list, 
                                        num_keywords=100, 
                                        num_keysents=10
                                        )
keywords

{'대피소': 2.480061775539989,
 '이용': 1.7939838969206274,
 '지진': 1.515072584015925,
 '있습': 0.9170504843142294,
 '위치': 0.7749309502142687,
 '현황': 0.549216591404361,
 '데이터': 0.4937745022644567}

In [17]:
#문장 안쪼갠 버전
from krwordrank.word import summarize_with_keywords
keywords = summarize_with_keywords([text])
keywords

{'대피소': 2.542697763677561,
 '이용': 1.8442006255832877,
 '지진': 1.4718570016004837,
 '있습': 0.9303196425474177,
 '위치': 0.7895363610278668,
 '현황': 0.5586271643249942,
 '데이터': 0.5032500619050018}

In [18]:
from krwordrank.word import KRWordRank

min_count = 1   # 단어의 최소 출현 빈도수 (그래프 생성 시)
max_length = 10 # 단어의 최대 길이
wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)
beta = 0.5    # PageRank의 decaying factor beta
max_iter = 20
texts = sentence_list
keywords, rank, graph = wordrank_extractor.extract(texts, beta, max_iter)
for word, r in sorted(keywords.items(), key=lambda x:x[1], reverse=True):
        print('%8s:\t%.4f' % (word, r))

     대피소:	5.2067
      지진:	3.4876
      이용:	3.0852
      서울:	2.2115
    제공하는:	2.1615
    "서울시:	2.0838
    데이터를:	1.7720
      등의:	1.6669
     필요할:	1.6573
      분석:	1.5067
      이를:	1.4672
    포털에서:	1.4602
     좌표,:	1.4542
     명칭,:	1.4486
      인원:	1.4172
     지도에:	1.3623
      현황:	1.3579
   있습니다.:	1.3497
      어떤:	1.3427
    포함되어:	1.3379
      수용:	1.2541
      위치:	1.2489
      예를:	1.2096
     정보가:	1.1898
     실시간:	1.1753
      파악:	1.1713
      가능:	1.1386
      대한:	1.0861
     안내":	1.0349
     사용할:	1.0097
      내부:	1.0062
    위해서는:	0.9975
     지역을:	0.9897
      수집:	0.9807
      많은:	0.9166
     종류의:	0.9032
     항목이:	0.8982
      관리:	0.8899
    서비스":	0.8751
   시각화하여:	0.8628
     예시::	0.8575
   것입니다.:	0.8419
      등을:	0.8313
     들어,:	0.8281
      여부:	0.8045
      바탕:	0.8042
      기관:	0.8027
      공공:	0.7949
      재난:	0.7912
      시설:	0.7868
     수),:	0.7597
      중인:	0.6385
      발생:	0.6137


In [19]:
from krwordrank.word import KRWordRank

min_count = 1   # 단어의 최소 출현 빈도수 (그래프 생성 시)
max_length = 10 # 단어의 최대 길이
wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)
beta = 0.85    # PageRank의 decaying factor beta
max_iter = 20
texts = sentence_list
keywords, rank, graph = wordrank_extractor.extract(texts, beta, max_iter)
for word, r in sorted(keywords.items(), key=lambda x:x[1], reverse=True):
        print('%8s:\t%.4f' % (word, r))

     대피소:	8.2011
      지진:	5.3690
      이용:	4.9502
    제공하는:	2.7603
    "서울시:	2.5691
      서울:	2.5616
      데이:	2.0180
      이를:	1.9060
      현황:	1.8528
      등의:	1.8161
      분석:	1.7737
   있습니다.:	1.7242
    포함되어:	1.7137
      위치:	1.7081
     필요할:	1.6923
      인원:	1.6312
    포털에서:	1.6013
     명칭,:	1.5400
     좌표,:	1.4640
     정보가:	1.3726
      수용:	1.3679
      가능:	1.3289
     지도에:	1.3026
      어떤:	1.2865
      파악:	1.2014
      예를:	1.1648
     안내":	1.1266
     실시간:	1.0627
     사용할:	1.0193
      대한:	0.9838
      내부:	0.9258
     지역을:	0.8870
      많은:	0.8770
    바탕으로:	0.8681
      수집:	0.8507
     예시::	0.8470
     항목이:	0.8318
     종류의:	0.8200
    위해서는:	0.8200
     들어,:	0.8161
    서비스":	0.7833
      여부:	0.7480
      관리:	0.7338
   시각화하여:	0.6817
      등을:	0.6796
   것입니다.:	0.6747
      공공:	0.5867
      재난:	0.5837
      기관:	0.5767
    시설물,:	0.5674
     수),:	0.5259
      중인:	0.4385
      발생:	0.4179


## 명사로만 문장 구성

In [118]:
from konlpy.tag import Okt
import re

def split_noun_sentences(text):
    okt = Okt()
    sentences = text.replace(". ",".")
    sentences = re.sub(r'([^\n\s\.\?!]+[^\n\.\?!]*[\.\?!])', r'\1\n', sentences).strip().split("\n")
    
    result = []
    for sentence in sentences:
        if len(sentence) == 0:
            continue
        sentence_pos = okt.pos(sentence, stem=True)
        nouns = [word for word, pos in sentence_pos if pos == 'Noun']
        if len(nouns) == 1:
            continue
        result.append(' '.join(nouns) + '.')
        
    return result


In [119]:
sentence_list2 = split_noun_sentences(text)

In [120]:
sentence_list2

['서울 지진 대피소 대한 데이터 분석 위 종류 데이터 요.',
 '예 서울시 지진 대피소 위치 수용 가능 인원 대피소 내부 시설 물 대피소 이용 현황 등 정보 것.',
 '지진 대피소 위치 분석 예시 지진 대피소 위치 서울시 데이터 포털 제공 서울시 지진 대피소 안내 데이터 사용 수.',
 '이 데이터 셋 지진 대피소 명칭 위치 주소 좌표 수용 인원 관리 기관 등 항목 포함.',
 '바탕 대피소 위치 지도 시각 지진 발생 시 대피소 지역 파악 수.',
 '대피소 이용 현황 분석 예시 대피소 이용 현황 서울시 제공 서울시 재난 정보 실시간 수집 및 제공 서비스 데이터 사용 수.',
 '이 데이터 셋 대피소 이용 현황 대피소 이용 가능 여부 이용 중인 인원 수 지진 발생 시 대피소 이용 현황 등 정보 포함.',
 '바탕 대피소 이용 현황 분석 인원 대피소 파악 거나 대피소 이용 가능 여부 등 파악 수.']

In [121]:
from krwordrank.word import summarize_with_keywords
keywords = summarize_with_keywords(sentence_list2)
keywords

{'대피소': 1.6973963414238353,
 '이용': 1.2365894082366355,
 '지진': 1.1830066785290532,
 '데이': 0.9906795680773113,
 '위치': 0.8133123061030108,
 '서울': 0.793937004234468,
 '현황': 0.7869782218250642}

In [146]:
from krwordrank.word import KRWordRank

min_count = 1   # 단어의 최소 출현 빈도수 (그래프 생성 시)
max_length = 10 # 단어의 최대 길이
wordrank_extractor = KRWordRank(min_count=min_count, max_length=max_length)
beta = 0.85    # PageRank의 decaying factor beta
max_iter = 20
texts = split_noun_sentences(text)
keywords, rank, graph = wordrank_extractor.extract(texts, beta, max_iter)
for word, r in sorted(keywords.items(), key=lambda x:x[1], reverse=True):
        print('%8s:\t%.4f' % (word, r))

     대피소:	3.9079
      이용:	2.6113
      지진:	2.3556
     데이터:	2.0505
      위치:	1.6714
      정보:	1.5581
     서울시:	1.4501
      현황:	1.3216
      인원:	1.2894
      제공:	1.2875
      수.:	1.1318
      분석:	1.0403
      파악:	0.9077
      가능:	0.8762
      수집:	0.8421
      포함:	0.8065
      수용:	0.7872
      사용:	0.7857
      실시:	0.7174
      바탕:	0.7127
      예시:	0.6453
      주소:	0.5501
      관리:	0.5475
      재난:	0.5369
      대한:	0.5200
      안내:	0.5200
      기관:	0.5158
      여부:	0.5109
      포털:	0.5014
     서비스:	0.4939
      항목:	0.4915
      요.:	0.4638
      시각:	0.4444
      지역:	0.4440
      거나:	0.4425
      명칭:	0.4324
      내부:	0.4319
      지도:	0.3979
      중인:	0.3772
      것.:	0.3563
      종류:	0.3550
      발생:	0.3537
      좌표:	0.3479
      시설:	0.3119
