# KR-WordRank

- 키워드 추출 방법에는 TextRank, WordRank, BERT 등이 있으며 그 중에서 WorkRank에 한국어의 특징을 반영한 **KR-WordRank**(토크나이저를 이용하지 않으면서도 비지도학습 기반으로 한국어 단어를 추출함)에 대해 학습해보았다
- 라이브러리 제공 및 참고 : [lovit/KR-WordRank](https://github.com/lovit/KR-WordRank)

---

## 라이브러리 호출

In [1]:
from krwordrank.word import KRWordRank

## 리뷰, 평점 데이터 받아오기

In [2]:
def get_texts_scores(fname):
    with open(fname, encoding='utf-8') as f:
        docs = [doc.lower().replace('\n','').split('\t') for doc in f]
        docs = [doc for doc in docs if len(doc) == 2]

        if not docs:
            return [], []

        texts, scores = zip(*docs)
        return list(texts), list(scores)

In [3]:
# La La Land 데이터 불러오기
# 134963_norm.txt 파일은 이미 ','나 '!'등의 기호등이 제거되어 있음
fname = 'data/134963_norm.txt'
sentences, scores = get_texts_scores(fname)

with open(fname, encoding="utf-8") as f:
    for _ in range(5):
        print(next(f).strip())

시사회에서 보고왔습니다동화와 재즈뮤지컬의 만남 지루하지않고 재밌습니다	9
사랑과 꿈 그 흐름의 아름다움을 음악과 영상으로 최대한 담아놓았다 배우들 연기는 두말할것없고	10
지금껏 영화 평가 해본 적이 없는데 진짜 최고네요 색감 스토리 음악 연기 모두ㅜㅜ최고입니다	10
방금 시사회 보고 왔어요 배우들 매력이 눈을 뗄 수가 없게 만드네요 한편의 그림 같은 장면들도 많고 음악과 춤이 눈과 귀를 사로 잡았어요 한번 더 보고 싶네요	10
초반부터 끝까지 재미있게 잘보다가 결말에서 고국마 왕창먹음 힐링 받는 느낌들다가 막판에 기분 잡쳤습니다 마치 감독이 하고싶은 말은 너희들이 원하는 결말은 이거지 하지만 현실은 이거다 라고 말하고 싶었나보군요	1


참고 : 단어 추출에 영어/숫자를 포함할 예정이라면 normalize함수를 이용하여 텍스트를 normalize 해야한다

```python
with open('../data/134963_norm.txt', 'w', encoding='utf-8') as f:
    for text, score in zip(texts, scores):
        text = normalize(text, english=True, number=True)
        f.write('%s\t%s\n' % (text, str(score)))
```

## 학습
- Substring graph를 만들기 위한 변수의 값 설정
- KR-WordRank는 PageRank 와 비슷한 Graph ranking 알고리즘을 사용하여 단어를 추출함 (HITS algorithm)
- Substring graph에서 node (substrig) 랭킹을 계산하기 위하여 Graph ranking 알고리즘의 parameters(beta, max_iter 등) 가 입력되야 함

In [4]:
wordrank_extractor = KRWordRank(
    min_count = 5, # 단어의 최소 출현 빈도수 (그래프 생성 시)
    max_length = 10, # 단어의 최대 길이
    verbose = False
    )

beta = 0.85    # PageRank의 decaying factor beta (단어별로 bias 다르게 할당할 수 있음)
max_iter = 10

# Keywords : filtering 이 적용된 L parts
# rank : substring graph 의 모든 subsrting 에 대한 rank
# graph : substring graph
keywords, rank, graph = wordrank_extractor.extract(sentences, beta, max_iter)

## 키워드 출력
- Graph ranking 이 높은 노드들(substrings)이 후처리 과정을 거쳐 단어로 출력됨

In [5]:
for word, r in sorted(keywords.items(), key=lambda x:x[1], reverse=True)[:30]:
    print('%8s:\t%.4f' % (word, r))

      영화:	201.0240
      너무:	81.5370
      정말:	40.5371
      음악:	40.4345
     마지막:	38.5985
     뮤지컬:	23.1988
      최고:	21.8101
      사랑:	20.6385
      꿈을:	20.4374
      아름:	20.3247
      영상:	20.2840
     여운이:	19.4714
      진짜:	19.0643
      노래:	18.7328
      보고:	18.5672
      좋았:	17.6183
      그냥:	16.5545
     스토리:	16.2774
      좋은:	15.6410
      인생:	15.3880
      현실:	15.1927
      생각:	14.9100
      지루:	13.7795
      다시:	13.5981
      감동:	13.5832
      보는:	12.4724
      좋아:	11.9823
      재밌:	11.8935
      재미:	11.3930
      좋고:	11.3474


- 영화 리뷰하면 많이 나오는 단어 제외(여러 가지 영화를 가져와서 공통 단어를 비교해봐야함)

In [6]:
stopwords = {'많이', '마지막', '봤는데', '재밌', '한번', '별로', '정말', '하지만', '모두', '진짜', '보면', '조금', '스토리', '지루', '가장', '느낌', '최고', 'ㅎㅎ', '이런', '영화', '생각', '기대', '그냥', '아니', 'ㅠㅠ', '좋았', '그리고', '하나', '재미', '너무', '이렇게', '처음', '내용', '평점', '보고', '내가', '봤습니다', '다시', '좋아', '있는', '보는'}
keywords = {word:score for word, score in sorted(
    keywords.items(), key=lambda x:-x[1])[:30] if not (word in stopwords)}

for word, r in sorted(keywords.items(), key=lambda x:x[1], reverse=True)[:30]:
    print('%8s:\t%.4f' % (word, r))

      음악:	40.4345
     뮤지컬:	23.1988
      사랑:	20.6385
      꿈을:	20.4374
      아름:	20.3247
      영상:	20.2840
     여운이:	19.4714
      노래:	18.7328
      좋은:	15.6410
      인생:	15.3880
      현실:	15.1927
      감동:	13.5832
      좋고:	11.3474


- 여러 가지 영화 리뷰를 가져와서 공통 단어 비교하는 예시

```python
top_keywords = []
fnames = ['data/134963_norm.txt',
          'data/91031_norm.txt',
          'data/99714_norm.txt']

for fname in fnames:
    
    sentences, scores = get_texts_scores(fname)
    
    wordrank_extractor = KRWordRank(
        min_count=5, max_length=10, verbose=False)
    
    keywords, rank, graph = wordrank_extractor.extract(
        sentences, beta, max_iter)
    
    top_keywords.append(
        sorted(keywords.items(),
               key=lambda x:x[1],
               reverse=True)[:100]
    )
    
movie_names = ['라라랜드', '신세계', '엑스맨']
for k in range(100):
    
    message = '  --  '.join(
        ['%8s (%.3f)' % (top_keywords[i][k][0],top_keywords[i][k][1])
         for i in range(3)])
    
    print(message)
    
keyword_counter = {}
for keywords in top_keywords:
    words, ranks = zip(*keywords)
    for word in words:
        keyword_counter[word] = keyword_counter.get(word, 0) + 1

common_keywords = {word for word, count in keyword_counter.items() if count == 3}
str(common_keywords)
```

--------

## summarize_with_keywords
- 위의 과정을 간단하게 수행하는 함수

In [7]:
from krwordrank.word import summarize_with_keywords

keywords = summarize_with_keywords(sentences, min_count=5, max_length=10,
    beta=0.85, max_iter=10, stopwords=stopwords, verbose=True)

for word, r in sorted(keywords.items(), key=lambda x:x[1], reverse=True)[:30]:
    print('%8s:\t%.4f' % (word, r))

scan vocabs ... 
num vocabs = 13879
done = 9 Early stopped.
      음악:	40.4345
     뮤지컬:	23.1988
      사랑:	20.6385
      꿈을:	20.4374
      아름:	20.3247
      영상:	20.2840
     여운이:	19.4714
      노래:	18.7328
      좋은:	15.6410
      인생:	15.3880
      현실:	15.1927
      감동:	13.5832
      좋고:	11.3474
      계속:	11.1173
      결말:	10.5837
      연기:	10.5010
      장면:	10.3472
      하는:	10.2650
      사람:	9.5683
      남는:	9.0554
      재즈:	9.0396
     라이언:	8.9898
      연출:	8.6096
     눈물이:	8.5577
      모든:	8.4206
      올해:	8.0733
      꿈과:	7.7468
      같은:	7.7006
      배우:	7.6030
      of:	7.5947


## 결론

- 라라랜드 리뷰의 핵심 키워드 3개는 **음악, 뮤지컬, 사랑**이다.