# 핵심 키워드 추출 (Keyword Extraction)

In [None]:
# Mecab 설치
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip3 install konlpy JPype1-py3
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

In [None]:
# mecab-python의 버전 오류로 인해 아래 패키지를 설치하면 코랩에서 Mecab을 사용가능
!pip install mecab-python3

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

# 패키지 업그레이드로 인한 에러 처리를 위해 라이브러리 버전 Downgrade
!pip install 'networkx<2.7'

# 런타임 재시작 !

In [None]:
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')
plt.rcParams['axes.unicode_minus'] = False

import warnings
warnings.filterwarnings('ignore')

# 1.1 TF-IDF 활용 핵심키워드 추출

## 실습 1. sklearn 활용

In [None]:
import requests
from bs4 import BeautifulSoup

def get_news_by_url(url):
    res = requests.get(url, headers = {
        'User-Agent': 'Mozilla/5.0'
    })
    bs = BeautifulSoup(res.content, 'html.parser')

    title = bs.select_one('#title_area').text #제목
    content = bs.select_one('#contents').get_text().replace('\n', " ") #본문
    content = content.replace("// flash 오류를 우회하기 위한 함수 추가 function _flash_removeCallback() {}", "")
    return  content.strip()

docs = []
docs.append( get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=105&oid=018&aid=0004430108') )
docs.append( get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=001&aid=0011614790') )
docs.append( get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=102&oid=014&aid=0004424362') )
docs.append( get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=119&aid=0002402191') )
docs.append( get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=030&aid=0002882728') )
len(docs)

### 1) 전처리

In [None]:
from konlpy.tag import Mecab
mecab = Mecab()

preprocessed_docs = []
for doc in docs :
    # 명사와 동사만으로 문서 전처리
    preprocessed_docs.append(' '.join([token[0] for token in mecab.pos(doc) if token[1][0] in ['N', 'V']]))
preprocessed_docs[0][:100]

### 2) TF-IDF 계산

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vectorizer = CountVectorizer(max_df=0.85, max_features=10000)
word_count_vector = count_vectorizer.fit_transform(preprocessed_docs)
list(count_vectorizer.vocabulary_.keys())[:10]

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer = TfidfTransformer(smooth_idf=True, use_idf=True)
tfidf_transformer.fit(word_count_vector)

### 3) 핵심키워드 추출

In [None]:
def sort_keywords(keywords):
    return sorted(zip(keywords.col, keywords.data), key=lambda x: (x[1], x[0]), reverse=True)

def extract_keywords(feature_names, sorted_keywords, n=5):
    return [(feature_names[idx], score) for idx, score in sorted_keywords[:n]]

In [None]:
doc = preprocessed_docs[0] # 핵심키워드 추출할 문서 조회

feature_names = count_vectorizer.get_feature_names() # TF-IDF 단어 목록
tf_idf_vector = tfidf_transformer.transform(count_vectorizer.transform([doc])) # 문서의 tf-idf 추출
sorted_keywords = sort_keywords(tf_idf_vector.tocoo()) # TF-IDF를 기준으로 역순 정렬

# 사용자가 지정한 갯수만큼 키워드 추출
keywords = extract_keywords(feature_names, sorted_keywords, 5)

print("\n===== 원문 =====")
print(docs[0][:100])
print("\n=== 핵심키워드 ===")
for k in keywords:
    print(k)

In [None]:
tf_idf_vector.tocoo().data


---


## 실습 2. gensim 활용


### 1) 전처리

In [None]:
from konlpy.tag import Mecab
mecab = Mecab()

preprocessed_docs = []
for doc in docs :
    # 명사와 동사만으로 문서 전처리
    preprocessed_docs.append(' '.join([token[0] for token in mecab.pos(doc) if token[1][0] in ['N', 'V']]))
preprocessed_docs[0][:100]

### 2) TF-IDF 계산

In [None]:
from gensim.models import TfidfModel
from gensim.corpora import Dictionary

document_ls = [doc.split() for doc in preprocessed_docs]
dct = Dictionary(document_ls) # 인덱스(key) - 단어(value) 인 딕셔너리 생성
corpus = [dct.doc2bow(doc) for doc in document_ls] # 각 문서에 포함된 단어를 인덱스로 변환하여 corpus 생성
tfidf = TfidfModel(corpus) # TF-IDF 산출

### 3) 핵심키워드 추출

In [None]:
def sort_keywords(tfidf):
    return sorted(tfidf, key=lambda x: (x[1], x[0]), reverse=True)

def extract_keywords(feature_names, sorted_keywords, n=5):
    return [(feature_names[idx], score) for idx, score in sorted_keywords[:n]]

In [None]:
doc = corpus[0]

sorted_keywords = sort_keywords(tfidf[doc]) # TF-IDF를 기준으로 역순 정렬

# 사용자가 지정한 갯수만큼 키워드 추출
keywords = extract_keywords(dct, sorted_keywords, 5)

print("\n=== 핵심키워드 ===")
for k in keywords:
    print(k)

In [None]:
tfidf[doc]



---



# 1.2 Textrank
https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

<img src="https://3.bp.blogspot.com/-yp0Lr3ec5EY/XIs6znCcO_I/AAAAAAAAAPY/xtZxe_OYtH0xeuWsp4Qd4DQrunGMpVQmQCLcBGAs/s640/keyword-extraction-textrank.png" />

## 실습 1. 행렬 활용


In [1]:
doc = '딸기 바나나 사과 딸기 파인애플'

### 1) 토큰화 (Tokenization)

분석 텍스트 정제

In [7]:
tokens = doc.split()
tokens

['딸기', '바나나', '사과', '딸기', '파인애플']

### 2) Unique한 토큰 목록 생성

그래프 생성을 위해서 Unique한 토큰 목록 생성

In [5]:
nodes = list(set(tokens))
node_scores = [1.0] * len(nodes)

In [6]:
nodes, node_scores

(['딸기', '사과', '바나나', '파인애플'], [1.0, 1.0, 1.0, 1.0])

In [19]:
# 연결 정보
edges = {node:set() for node in nodes} # 중복으로 값 넣지 않기 위한 set() 자료형 사용

{
    '딸기': set(),
    '사과': set(),
}

window_size = 2 # 한번에 고려할 토큰 수

# 전체 길이의 - window_size + 1
for i in range(len(tokens) - window_size + 1):
    # print(tokens[i:i+window_size])
    # 한번에 고려하는 토큰들을 담는 리스트
    context = tokens[i:i+window_size]
    # start_token = 0 부터 시작해서, 마지막 - 1
    for s_token in range(window_size-1):
        # start_token보다 1 큰 토큰부터 마지막까지
        for e_token in range(s_token+1, window_size):
            # print('s', context[s_token])
            # print('e', context[e_token])
            # 무방향이기 때문에, 양쪽 모두에 추가
            edges[context[s_token]].add(context[e_token])
            edges[context[e_token]].add(context[s_token])
edges

{'딸기': {'바나나', '사과', '파인애플'},
 '사과': {'딸기', '바나나'},
 '바나나': {'딸기', '사과'},
 '파인애플': {'딸기'}}

In [22]:
node2idx = {v: i for i, v in enumerate(nodes)}

In [23]:
node2idx

{'딸기': 0, '사과': 1, '바나나': 2, '파인애플': 3}

In [28]:
d = 0.85
for epoch in range(20):
    new_scores = [0] * len(nodes)
    for node in edges:
        connected_nodes = edges[node]
        # print(node, connected_nodes)
        edge_sum = 0
        for come_node in connected_nodes:
            cnt = len(edges[come_node]) # 몇개와 연결되어 있는지
            node_score = node_scores[node2idx[come_node]]
            edge_sum += node_score / cnt # 나에게 들어오는 edge 가중치

        new_scores[node2idx[node]] = (1-d) + d * edge_sum # 새 스코어에 넣어준다

    # 기존 스코어 최신화
    node_scores = new_scores

new_scores

[1.4669434685404021, 0.9837112743532418, 0.9837112743532418, 0.565633982753114]

In [None]:
# 특정 노드의 Textrank 점수 = (1-d) + d * (나한테 들어오는 엣지 가중치들의 합)


### 3) 그래프 생성 (weighted edge 계산)

*   TextRank는 그래프 기반 모델
*   각 단어(토큰)은 그래프의 노드(vertex)
*   weighted_edge 행렬은 노드간 가중치 정보를 담고 있음
*   weighted_edge[i][j] 는 i번째 단어와 j번째 단어의 가중치를 의미
*   weighted_edge[i][j] 가 0인 경우는 노드간 연결이 없음을 의미
*   모든 노드는 1로 초기화

In [None]:
# 그래프 구조 잡기

# 무방향
    # 시작노드에 끝 노드 추가
    # 끝 노드에도 시작 노드 추가

# 1. window_size 만큼 토큰들을 가져온다 (context)
# 2. 2개씩 짝지어준다 (조합) -> 이중 반복문
# 3. edges에 추가해준다 (중복 x) set 자료형 활용


### 4) 각 노드의 score계산
각 노드와 연결된 weighted edge의 값을 합산

In [None]:
# score 계산 로직

# 1. Textrank score 계산할 노드 선택 (반복문)
# 2. 해당 노드와 연결된 노드들 (반복문)
    # score, 연결된 노드 수를 통해 엣지 가중치 계산
    # 새로운 score를 new_scores에 담아준다
# 3. 계산이 끝나면 기존 노드 스코어 갱신


### 5) 핵심 단어 추출

In [29]:
nodes

['딸기', '사과', '바나나', '파인애플']

In [None]:
# numpy array 특성을 활용

edge_matrix = [
    [0, 1/3, 1/3, 1/3], # 딸기에서 나가는 가중치들 (딸기, 사과,  바나나, 파인애플 순)
    [0.5, 0, 0.5, 0] # 사과에서 나가는 가중치들
    [0.5, 0.5, 0, 0] # 바나나에서 나가는 가중치들
    [1, 0, 0, 0] # 파인애플에서 나가는 가중치들
]

# edge_matrix에 스코어를 행으로 곱하면 그때의 엣지 가중치가 된다
weighted_edge_matrix

# 이것을 열로 더해준면 그때의 나에게 들어오는 엣지 가중치들의 합이 된다

# damping factor 곱해서 점수 최신화

# [0 * 딸기 스코어, 1/3 * 딸기 스코어, 1/3 * 딸기 스코어, 1/3 * 딸기 스코어]

---

## 실습 2. 그래프 활용

In [None]:
import requests
from bs4 import BeautifulSoup

def get_news_by_url(url):
    res = requests.get(url, headers = {
        'User-Agent': 'Mozilla/5.0'
    })
    bs = BeautifulSoup(res.content, 'html.parser')

    title = bs.select_one('#title_area').text #제목
    content = bs.select_one('#contents').get_text().replace('\n', " ") #본문
    content = content.replace("// flash 오류를 우회하기 위한 함수 추가 function _flash_removeCallback() {}", "")
    return content.strip()

doc = get_news_by_url('https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=105&oid=018&aid=0004430108')
doc[:50]

### 1) 토큰화 (Tokenization)

분석 텍스트 정제

In [None]:
from konlpy.tag import Mecab
mecab = Mecab()

nodes = [token for token in mecab.pos(doc) if token[1] in ['NNG','NNP']] #NNG, NNP를 스코어 계산 대상(노드)로 제한
tokens = [token for token in mecab.pos(doc)] #탐색할 토큰 전체

### 2) 그래프 생성 (weighted edge 계산)

*   TextRank는 그래프 기반 모델
*   각 단어(토큰)은 그래프의 노드(vertex) 없음을 의미
*   모든 노드는 1로 초기화

In [None]:
import numpy as np
import math
import networkx as nx

# 윈도내 동시 등장한 토큰으로 그래프를 생성
def connect(nodes, tokens) :
    window_size = 2 # coocurrence를 판단하기 위한 window 사이즈 설정

    edges = []
    for window_start in range(0,(len(tokens)-window_size+1)):
        window = tokens[window_start:window_start+window_size]
        for i in range(window_size) :
            for j in range(i+1, window_size) :
                if (window[i] in nodes) & (window[j] in nodes) : #윈도 내 단어가 노드에 속하는 경우만 엣지로 연결
                    edges.append((window[i], window[j]))
                    print((window[i], window[j]))
    return edges

# tokens = ['딸기', '바나나', '사과', '딸기', '파인애플']
# nodes = ['바나나', '사과', '파인애플', '딸기']

graph=nx.diamond_graph()
graph.clear()
graph.add_nodes_from(list(set(nodes))) #node 등록
graph.add_edges_from(connect(nodes, tokens)) #edge 연결

### 3) 스코어 계산 및 핵심키워드 추출

In [None]:
scores = nx.pagerank(graph) #pagerank 계산
rank = sorted(scores.items(), key=lambda x: x[1], reverse=True) #score 역순 정렬
print("\n=== 핵심키워드 ===")
rank[:5]

In [None]:
import networkx as nx
from IPython.core.display import Image
from networkx.drawing.nx_pydot import to_pydot

d = to_pydot(graph)
d.set_dpi(600)
d.set_rankdir("LR")
Image(d.create_png(), width=600)

---

## 실습 3. TextRank 핵심 구 추출

### 1) 불용어를 기준으로 구 추출

In [None]:
phrases = []
phrase = ' '

for word in tokens:
    if word[1][0] != 'N':
        if phrase != ' ':
            phrases.append(phrase.strip())
        phrase= ' '
    else:
        phrase+=word[0]
        phrase+= ' '

print(phrases)

In [None]:
unique_phrases = []

for phrase in phrases:
    if phrase not in unique_phrases:
        unique_phrases.append(phrase)

print(unique_phrases)

### 2) 각 구의 Score 계산

앞서 산출한 각 단어별 점수를 합산

In [None]:
vocabs = dict((r[0][0], r[1]) for r in rank)
phrase_scores = []
keywords = []

for phrase in unique_phrases:
    phrase_score = 0
    for word in phrase.split():
        if word in vocabs.keys():
            phrase_score+=vocabs[word]

    phrase_scores.append((phrase, phrase_score))

for phrase_score in phrase_scores[:10]:
    print(f"keyword: {phrase_score[0]}, Score : {phrase_score[1]}")

### 3) 각 구를 Score로 정렬하여 핵심 구 추출

In [None]:
sorted_phrase_score = sorted(phrase_scores, key=lambda tup: tup[1], reverse=True)
sorted_phrase_score[:10]



---



## 실습 4. gensim 활용

- summarization.keywords(document, words) : document를 요약하여 words만큼 키워드를 추출

In [None]:
from gensim.summarization import keywords
keywords(doc, words=5).split('\n')