# 문서 유사도 측정
 - 클래스 초기화: 문장 리스트
 - 출력1: 벡터별 TD-IDF 출력
 - 출력2: 벡터간 코사인 유사도 계산 및 출력 (벡터 목록 중 2개만 추출하여 계산)

In [155]:
import nltk
import math
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

class TextSimilarityExample:
    # __init__ ->
    def __init__(self):
        self.statements = [
            'ruled india',
            'Chalukyas ruled Badami',
            'So many kingdoms ruled India',
            'Lalbagh is a botanical garden in India'
        ]
        
# 배운 걸로 재 구현 해보자
    def TF(self, sentence):
        # .lower를 사용해서 전부 소문자로 변형 후 token화
        # 근데 왜 소문자로 만들어야 하나요?
        words = nltk.word_tokenize(sentence.lower()) 

        # 단어 빈도수 count
        count_dict = {} # 숫자를 셀 빈 dictionary를 만든다. 
        for word in words: # words 리스트 안에 word를 하나씩 꺼내고
            count_dict.setdefault(word, 0) # 기본 값은 0으로 둔다. 
            count_dict[word] += 1 # 같은 이름을 가진 word가 등장하면 1씩 += 해준다. 
        
        # TF 구하기
        dictionary = {} # TF를 구하는 새로운 dictionary
        for key in count_dict.keys(): # 딕셔너리의 key값, 즉, 단어들을 하나씩 가져온다.
            norm = count_dict[key]/float(len(words)) # val 값을 전체 단어 수로 나누어준다. 빈도수 측정 공식
            dictionary[key] = norm # 값을 빈도값으로 재정의 한다.
        return dictionary # 딕셔너리를 반환한다.

    def IDF(self):
        # 먼저 idf를 구할 공식을 def idf 로 정의한다.
        def idf(TotalNumberOfDocuments, NumberOfDocumentsWithThisWord):
            return 1.0 + math.log(TotalNumberOfDocuments/NumberOfDocumentsWithThisWord)
        
        numDocuments = len(self.statements) # 전체 문장의 개수 (이걸 왜 Documents라고 하지?)
        uniqueWords = {}
        idfValues = {}
        
        for sentence in self.statements: # 문장을 문장리스트에서 하나씩 가져온다.
            for word in nltk.word_tokenize(sentence.lower()): # token화 시킨다.
                if word not in uniqueWords: # 만약 단어가 빈 딕셔너리에 없으면, 
                    uniqueWords[word] = 1 # 그 단어를 추가하고 1값을 준다.
                else:
                    uniqueWords[word] += 1 # 만약 단어가 있으면, += 1을 해준다.
                    
        for word in uniqueWords: # 다시 단어를 꺼내온다.
            idfValues[word] = idf(numDocuments, uniqueWords[word]) # 공식을 통해 idf 값을 구한다.
        return idfValues

    # TF-IDF 구하는 공식
    def TF_IDF(self, query): 
        words = nltk.word_tokenize(query.lower()) # 먼저 단어들을 토큰화
        idf = self.IDF() # idf는 위에서 정의한 IDF를 그대로 활용한다.
        vectors = {} # vector 값을 받을 빈 딕셔너리 생성
        for sentence in self.statements: # 문장리스트에서 문장을 꺼내온다.
            tf = self.TF(sentence) # TF 역시 위에서 정의한 TF를 그대로 활용한다. 
            
            for word in words: # 단어를 하나씩 꺼내온다.
                tfv = tf[word] if word in tf else 0.0 # tfv의 값은 단어가 tf에 있을 때만 받고 ,그 외는 0
                idfv = idf[word] if word in idf else 0.0 # idfv의 값은 단어가 idf에 있을 때만 받고, 그 외는 0
                mul = tfv * idfv # 곱해준다. # 이거 왜 곱하는거야?!?!
                
                if word not in vectors: # 그 다음, 단어가 vector에 없으면 (빈 딕셔너리기 때문에 당연히 없음)
                    vectors[word] = [] # 벡터의 단어를 key로 하는 key와 빈 리스트 val 값을 만들고,
                vectors[word].append(mul) # 거기에 mul 값을 추가한다.
        print("Vectors: ", vectors)
        return vectors # 벡터 완성

    def displayVectors(self, vectors):
        print(self.statements) # 문장들 확인
        for word in vectors: # 만약 단어가 벡터안에 있으면, 
            print("{} -> {}".format(word, vectors[word])) # 단어는 -> 이 벡터로 변했다.

####################################### 여기까지 이해 끝냄 #######################################            
    
# 아나
    def cosineSimilarity(self):
        vec = TfidfVectorizer() # vec는 TF-IDF Vectorizer를 활용
        matrix = vec.fit_transform(self.statements) # 문장을 바로 박아서 matrix를 생성한다.

        # 1이상 5미만의 for문을 돌린다. 
        for j in range(1, 5):
            i = j - 1
            # j = 1, 2, 3, 4
            # i = 0, 1, 2, 3
            print("\tsimilarity of document {} with others".format(i)) # 문장 위치(인덱스)를 나타내는 문장 출력
            similarity = cosine_similarity(matrix[i:j], matrix) # 왜 0과 1의 유사도지? 0과 0이여야지 않나?
            print(similarity)

    def demo(self):
        inputQuery = self.statements[0]
        vectors = self.TF_IDF(inputQuery)
        
        inputQuery2 = self.statements[1]
        vectors2 = self.TF_IDF(inputQuery2)
        
        self.displayVectors(vectors)
        self.cosineSimilarity()

similarity = TextSimilarityExample()
similarity.demo()

Vectors:  {'ruled': [0.6438410362258904, 0.42922735748392693, 0.2575364144903562, 0.0], 'india': [0.6438410362258904, 0.0, 0.2575364144903562, 0.18395458177882582]}
Vectors:  {'chalukyas': [0.0, 0.7954314537066303, 0.0, 0.0], 'ruled': [0.6438410362258904, 0.42922735748392693, 0.2575364144903562, 0.0], 'badami': [0.0, 0.7954314537066303, 0.0, 0.0]}
['ruled india', 'Chalukyas ruled Badami', 'So many kingdoms ruled India', 'Lalbagh is a botanical garden in India']
ruled -> [0.6438410362258904, 0.42922735748392693, 0.2575364144903562, 0.0]
india -> [0.6438410362258904, 0.0, 0.2575364144903562, 0.18395458177882582]
	similarity of document 0 with others
[[1.         0.29088811 0.46216171 0.19409143]]
	similarity of document 1 with others
[[0.29088811 1.         0.13443735 0.        ]]
	similarity of document 2 with others
[[0.46216171 0.13443735 1.         0.08970163]]
	similarity of document 3 with others
[[0.19409143 0.         0.08970163 1.        ]]


## TEST

In [133]:
sentence = "djieljfAAAEJF"
sentence.lower()

'djieljfaaaejf'

In [134]:
nltk.FreqDist?

In [135]:
words = ['사과','바나나','딸기']
a = nltk.FreqDist(words)
a

FreqDist({'사과': 1, '바나나': 1, '딸기': 1})

In [136]:
dict.keys?

In [129]:
vectors = {'ruled': [0.6438410362258904, 0.42922735748392693, 0.2575364144903562, 0.0], 'india': [0.6438410362258904, 0.0, 0.2575364144903562, 0.18395458177882582]}

# 실패한 코드 
# 코사인 유사도 구하기
def cosineSimilarity(self):
    temp_list = []
    # x와 y, 두 벡터의 코사인 유사도를 계산하는 함수

    # for문돌려서 벡터 두개 꺼내오고,
    for word in vectors:
        # print(vectors[word])
        temp_list.append(vectors[word])

    print(temp_list)
    # x, y로 수정한다음에
    x = temp_list[0]
    y = temp_list[1]
    
    nominator = np.dot(x,y) # 분자
    donominator = np.linalg.norm(x) * np.linalg.norm(y) # 분모
    similarity = nominator / donominator
    print(similarity)

## 네이버 뉴스 요약
 - 입력: 네이버 뉴스, url, 요약 비율
 - 출력: matrix 혹은 그래프 활용 textrank 구현 이용한 문서 요약
 
출력: 요약문(요약비율 적용), 원문

In [137]:
import requests
from bs4 import BeautifulSoup

def summarizeNaverNews(url, ratio):
    

In [196]:
import requests
from bs4 import BeautifulSoup
from gensim.summarization.summarizer import summarize
import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize
import networkx as nx
import math
import matplotlib.pyplot as plt
import re

url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=018&aid=0004435771'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# soup
content = soup.find('div', id='articleBodyContents').text
# 나중에 개행문자와 '오류를 우회하기 위한 함수 추가와 같은 것들 제거할 것'
Text = content
Text = Text.strip()
Text = Text.lstrip()
Text = Text.replace('\n','')
Text = Text.replace('// flash 오류를 우회하기 위한 함수 추가function _flash_removeCallback() {}','')
Text = Text.replace("이윤화 (akfdl34@edaily.co.kr)네이버 홈에서 ‘이데일리’ 뉴스 [구독하기▶]꿀잼가득 [영상보기▶] , 청춘뉘우스~ [스냅타임▶]＜ⓒ종합 경제정보 미디어 이데일리 - 무단전재 & 재배포 금지＞",'')
# print(Text)


# 문장간 유사도 측정 (BOW를 활용한 코사인 유사도 측정)
def sentence_similarity(sentence1, sentence2):
    # 각 문장을 소문자로 변환
    sentence1 = [word.lower() for word in sentence1.split()]
    sentence2 = [word.lower() for word in sentence2.split()]
    
    # BOW 생성을 위한 unique한 단어로 배열 생성
    words_ls = list(set(sentence1 + sentence2))
    
    bow1 = [0] * len(words_ls)
    bow2 = [0] * len(words_ls)
    
    # 첫번째 문장 BoW 생성
    for word in sentence1:
        bow1[words_ls.index(word)] += 1
        
    # 두번째 문장 BoW 생성
    for word in sentence2:
        bow2[words_ls.index(word)] += 1
        
    return cosine_similarity(bow1, bow2)

# 코사인 유사도 (1. 단어의 표현 예제 참고)
def cosine_similarity(x, y):
    # x와 y, 두 벡터의 코사인 유사도를 계산하는 함수
    nominator = np.dot(x,y) # 분자
    donominator = np.linalg.norm(x)*np.linalg.norm(y) # 분모
    return nominator / donominator

##############################################

def sentences(text):
#     print(text.split('.'))
    return sent_tokenize(text)

def connect(nodes):
    return [(start, end, sentence_similarity(start, end)) for start in nodes for end in nodes if start is not end]

def rank(nodes,edges):
    graph=nx.diamond_graph()
    graph.add_nodes_from(nodes)
    graph.add_weighted_edges_from(edges)
    
#     nx.draw(graph)
#     plt.show()
    
    return nx.pagerank(graph)

def summarize(text,num_summaries=6):
    nodes=sentences(text)
    edges=connect(nodes)
    scores=rank(nodes,edges)
    #print(nodes)
    return sorted(scores,key=scores.get)[:num_summaries]

summary = summarize(Text, 3)
for sentence in summary:
    print('='*15)
    print(sentence)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


8월부터 이마트, 홈플러스 등 전국 대형매장 판매온라인, 한정판매 완판 기록하며 소비자 인기 입증포기하지 마라탕면.
한정판 세트를 단독 판매한 11번가에서는 판매 시간 동안 실시간 쇼핑 검색어 1위를 달리며 높은 관심을 입증했고, 전체 판매량 3위에 이름을 올렸다.풀무원은 앞으로 11번가 외에도 다양한 온라인 채널을 통해 소비자를 위한 세트 구성 및 프로모션을 진행할 계획이다.이기욱 풀무원식품 생면식감 사업부 PM(Product Manager)은 “’포기하지 마라탕면’은 두 차례의 온라인 한정 판매서 단기간에 완판되는 저력을 보여줬다.
더불어, 라면 조리 시 기름으로 인해 맛이 퍼지는 현상이 나타나지 않아 정통 마라탕에 가까운 국물 맛을 구현해냈다.


In [144]:
# def summarize(text, linesinSummary=10):
#     text = sent_tokenize(text)
#     weighted_edge = buildMatrix(text)
#     score = scoring(weighted_edge)
#     # print(score)
    
#     # -item[1] 은 오름차순 정렬
#     # item[1] 은 내림차순 정렬
#     rankedSentenceIndexes = [item[0] for item in sorted(enumerate(score), key=lambda item: -item[1])]
#     selectedSentences = sorted(rankedSentenceIndexes[:linesinSummary])
#     summary = itemgetter(*selectedSentences)(text)
    
#     return summary

# 네이버 뉴스 핵심키워드 추출
 - 입력: 네이버 뉴스, url, 핵심 키워드 개수
 - 출력: matrix 혹은 그래프 활용 textrank 구현을 이용한 문서 요약
 - gensim 사용 가능, 허나 결과의 퀄리티를 높여볼 것

In [47]:
import requests
from bs4 import BeautifulSoup
from gensim.summarization import keywords
import re


url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=018&aid=0004435771'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# soup
content = soup.find('div', id='articleBodyContents').text
# 나중에 개행문자와 '오류를 우회하기 위한 함수 추가와 같은 것들 제거할 것'
Text = content
Text = Text.replace('\n','')
Text = re.sub("네이버 홈에서 [^\t\r\n\v\f]*","",Text)
Text = Text.replace('// flash 오류를 우회하기 위한 함수 추가function _flash_removeCallback() {}','')

def extractKeywordNaverNews(url, count):
    pass

gensim_keywords = keywords(Text, words=5).split('\n')
print(gensim_keywords)

['생면식감', '포기하지', '한정판', '것으로', '온라인']


In [36]:
re.sub?

In [37]:
import nltk
import string
from nltk.tokenize import TreebankWordTokenizer
nltk.download('punkt')

# 1. Tokenized
text = TreebankWordTokenizer().tokenize(Text)

print("Tokenized Text: \n")
print(text)

Tokenized Text: 

['8월부터', '이마트', ',', '홈플러스', '등', '전국', '대형매장', '판매온라인', ',', '한정판매', '완판', '기록하며', '소비자', '인기', '입증포기하지', '마라탕면.', '(', '사진=풀무원', ')', '[', '이데일리', '이윤화', '기자', ']', '풀무원', '생면식감', '‘', '포기하지', '마라탕면', '’', '이', '오프라인을', '통해', '선보인다.풀무원식품은', '기름에', '튀기지', '않은', '비유탕', '건면으로', '만들어', '면의', '쫄깃함과', '국물의', '얼얼함이', '살아있는', '생면식감', '포기하지', '마라탕면을', '온라인에', '이어', '전국', '오프라인', '매장서', '판매한다고', '31일', '밝혔다.대형', '할인점', '이마트', ',', '홈플러스', ',', '롯데마트와', '코스트코까지', '입점이', '확정돼', '8월부터', '전국', '곳곳에서', '포기하지', '마라탕면을', '만나볼', '수', '있다.생면식감', '포기하지', '마라탕면은', '지난', '5일', '온라인', '쇼핑몰', '11번가에서', '한정판', '판매를', '시작한', '지', '100분', '만에', '1000세트', '(', '8000봉지', ')', '가', '완판됐다.', '이어', '추가로', '준비한', '2만', '봉지도', '4일', '만에', '조기', '소진됐다.이에', '풀무원은', '지난', '25일', '2차', '한정판', '앵콜', '판매를', '시작했는데', '이', '역시', '반응이', '좋았다.', '포기하지', '마라탕면', '8봉지와', '한화이글스', '마스코트', '‘', '수리', '’', '를', '새긴', '레트로컵으로', '구성한', '한정판', '2000세트', '(', '1만', '6000봉지', ')', '를', '판매한', '결과', '이', '또한', '9시간', '만

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [38]:
# 2. POS Tagging
nltk.download('averaged_perceptron_tagger')
POS_tag = nltk.pos_tag(text)

print("POS_tag: \n")
print(POS_tag)

POS_tag: 

[('8월부터', 'CD'), ('이마트', 'NN'), (',', ','), ('홈플러스', 'NNP'), ('등', 'NNP'), ('전국', 'NNP'), ('대형매장', 'NNP'), ('판매온라인', 'NNP'), (',', ','), ('한정판매', 'NNP'), ('완판', 'NNP'), ('기록하며', 'NNP'), ('소비자', 'NNP'), ('인기', 'NNP'), ('입증포기하지', 'NNP'), ('마라탕면.', 'NNP'), ('(', '('), ('사진=풀무원', 'NNP'), (')', ')'), ('[', 'VBP'), ('이데일리', 'JJ'), ('이윤화', 'NNP'), ('기자', 'NNP'), (']', 'NNP'), ('풀무원', 'NNP'), ('생면식감', 'NNP'), ('‘', 'NNP'), ('포기하지', 'NNP'), ('마라탕면', 'NNP'), ('’', 'NNP'), ('이', 'NNP'), ('오프라인을', 'NNP'), ('통해', 'NNP'), ('선보인다.풀무원식품은', 'NNP'), ('기름에', 'NNP'), ('튀기지', 'NNP'), ('않은', 'NNP'), ('비유탕', 'NNP'), ('건면으로', 'NNP'), ('만들어', 'NNP'), ('면의', 'NNP'), ('쫄깃함과', 'NNP'), ('국물의', 'NNP'), ('얼얼함이', 'NNP'), ('살아있는', 'NNP'), ('생면식감', 'NNP'), ('포기하지', 'NNP'), ('마라탕면을', 'NNP'), ('온라인에', 'NNP'), ('이어', 'NNP'), ('전국', 'NNP'), ('오프라인', 'NNP'), ('매장서', 'NNP'), ('판매한다고', 'VBD'), ('31일', 'CD'), ('밝혔다.대형', 'NNP'), ('할인점', 'NNP'), ('이마트', 'NNP'), (',', ','), ('홈플러스', 'NNP'), (',', ','), ('롯데마트와', 'NNP')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [39]:
from nltk.corpus import wordnet
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('N'):
        return wordnet.VERB
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN
    

wordnet_lemmatizer = WordNetLemmatizer()
lemmatized_text = []
# 각 토큰의 표제어 추출
for word in POS_tag:
    lemmatized_text.append(str(wordnet_lemmatizer.lemmatize(word[0],pos=get_wordnet_pos(word[1]))))
    
print(lemmatized_text)

['8월부터', '이마트', ',', '홈플러스', '등', '전국', '대형매장', '판매온라인', ',', '한정판매', '완판', '기록하며', '소비자', '인기', '입증포기하지', '마라탕면.', '(', '사진=풀무원', ')', '[', '이데일리', '이윤화', '기자', ']', '풀무원', '생면식감', '‘', '포기하지', '마라탕면', '’', '이', '오프라인을', '통해', '선보인다.풀무원식품은', '기름에', '튀기지', '않은', '비유탕', '건면으로', '만들어', '면의', '쫄깃함과', '국물의', '얼얼함이', '살아있는', '생면식감', '포기하지', '마라탕면을', '온라인에', '이어', '전국', '오프라인', '매장서', '판매한다고', '31일', '밝혔다.대형', '할인점', '이마트', ',', '홈플러스', ',', '롯데마트와', '코스트코까지', '입점이', '확정돼', '8월부터', '전국', '곳곳에서', '포기하지', '마라탕면을', '만나볼', '수', '있다.생면식감', '포기하지', '마라탕면은', '지난', '5일', '온라인', '쇼핑몰', '11번가에서', '한정판', '판매를', '시작한', '지', '100분', '만에', '1000세트', '(', '8000봉지', ')', '가', '완판됐다.', '이어', '추가로', '준비한', '2만', '봉지도', '4일', '만에', '조기', '소진됐다.이에', '풀무원은', '지난', '25일', '2차', '한정판', '앵콜', '판매를', '시작했는데', '이', '역시', '반응이', '좋았다.', '포기하지', '마라탕면', '8봉지와', '한화이글스', '마스코트', '‘', '수리', '’', '를', '새긴', '레트로컵으로', '구성한', '한정판', '2000세트', '(', '1만', '6000봉지', ')', '를', '판매한', '결과', '이', '또한', '9시간', '만에', '완판됐다.', '한정판'

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [40]:
# 4. 불용어 처리 + 불필요한 품사 제거
stopwords = [] # 불용어 배열

# 추출 키워드 대상이 되는 품사 지정 (N: 명사, J: 형용사)
wanted_POS = ['NN','NNS','NNP','NNPS','JJ','JJR','JJS']

# 추출 키워드 대상 품사가 아닌 토큰은 불용어로 등록
for word in POS_tag:
    if word[1] not in wanted_POS:
        stopwords.append(word[0])
        
# punctuation 을 불용어로 추가
punctuations = list(str(string.punctuation))
stopwords = stopwords + punctuations

# 사용자 정의 토큰을 불용어로 추가
stopwords_plus = ['t','isn']
stopwords = stopwords + stopwords_plus
stopwords = set(stopwords)

processed_text = []
for word in lemmatized_text:
    if word not in stopwords:
        processed_text.append(word)
print(processed_text)

['이마트', '홈플러스', '등', '전국', '대형매장', '판매온라인', '한정판매', '완판', '기록하며', '소비자', '인기', '입증포기하지', '마라탕면.', '사진=풀무원', '이데일리', '이윤화', '기자', '풀무원', '생면식감', '‘', '포기하지', '’', '이', '오프라인을', '통해', '선보인다.풀무원식품은', '기름에', '튀기지', '않은', '비유탕', '건면으로', '만들어', '면의', '쫄깃함과', '국물의', '얼얼함이', '살아있는', '생면식감', '포기하지', '마라탕면을', '온라인에', '이어', '전국', '오프라인', '매장서', '밝혔다.대형', '할인점', '이마트', '홈플러스', '롯데마트와', '코스트코까지', '입점이', '전국', '곳곳에서', '포기하지', '마라탕면을', '만나볼', '수', '있다.생면식감', '포기하지', '마라탕면은', '온라인', '판매를', '시작한', '만에', '가', '완판됐다.', '이어', '추가로', '봉지도', '만에', '조기', '소진됐다.이에', '풀무원은', '앵콜', '판매를', '시작했는데', '이', '역시', '반응이', '좋았다.', '포기하지', '한화이글스', '마스코트', '‘', '수리', '’', '를', '새긴', '레트로컵으로', '구성한', '를', '결과', '이', '만에', '완판됐다.', '세트를', '단독', '판매', '시간', '동안', '실시간', '쇼핑', '달리며', '높은', '관심을', '입증했고', '전체', '이름을', '올렸다.풀무원은', '외에도', '다양한', '온라인', '채널을', '통해', '소비자를', '위한', '세트', '구성', '및', '프로모션을', '진행할', '계획이다.이기욱', '풀무원식품', '생면식감', '사업부', 'PM', 'Product', 'Manager', '“', '’', '포기하지', '’', '두', '차례의', '온라인', '한정', '판매서'

In [41]:
# Unique한 token 목록 생성
vocabulary = list(set(processed_text))
print(vocabulary)

['수리', '실시간', '단기간에', '선도하고', '더', 'PM', '만족도가', '얼얼함이', '시작한', '완판되는', '이어', '외에도', '잘', 'Product', '프로모션을', '반응이', '및', '”', '를', '등', '말했다.한편', '중국', '구현해냈다.이윤화', '제품이다.', '대형매장', '마라탕을', '더불어', '시장을', '기자', '계획이다.이기욱', '선보인다.풀무원식품은', '조기', '저력을', '소비자에게', '풀무원식품', '가', '이윤화', '정통', '구성한', '오프라인을', '한정', '통해', '수', '국물', '기름으로', '차례의', '홈플러스', '소진됐다.이에', '매장서', '건면으로', '국물의', '이제는', '맛이', '며', '전체', '마라탕면은', '다양한', 'edaily.co.kr', '단독', '더해', '이', '많은', '마라탕에', '협업한', '매장', '레트로컵으로', '마스코트', '이름을', '할인점', '“', '사업부', '진행할', '면발과', '온라인에', '마라탕처럼', '전국', '밝혔다.대형', '한정판매', '’', '대한', '非油湯', '조리', '관심을', '만나볼', '한화이글스', '높은', '올렸다.풀무원은', '달리', '완판됐다.', '트렌드에', '결과', '맛을', '이마트', '입증했고', '소비자', '만들어', '쫄깃함과', '라면으로', '만든', '라면', '이데일리', '인기', '패키지에', '판매를', '않은', '사진=풀무원', '판매온라인', '새긴', '기름에', '가능했던', 'Manager', '기록하며', '온라인', '않아', '소비자를', '코스트코까지', '가까운', '시작했는데', '현재', 'akfdl34', '중독성', '시간', '인해', '입증포기하지', '한화이글스와', '있는', '포기하지', '시', '판매', '완판', '마라탕면의', '사랑받을', '채널을', '일반', '생각한

In [42]:
# 그래프 생성
import numpy as np
import math
vocab_len = len(vocabulary)

# 토큰별로 그래프 edge를 Matrix 형태로 생성
weighted_edge = np.zeros((vocab_len, vocab_len),dtype=np.float32)

# 각 토큰 노트 별로 점수계산을 위한 배열 생성
score = np.zeros((vocab_len),dtype=np.float32)

# coocurrence를 판단하기 위한 window 사이즈 설정
window_size = 3
covered_coocurrences = []

# ~20행까지 같은 단어는 skip 하는 코드 
for i in range(0, vocab_len):
    score[i] = 1
    for j in range(0, vocab_len):
        if j == i:
            continue
            
        else:
            # 마지막 사이즈에서 window size를 차감한 만큼만 for문이 돈다. 
            for window_start in range(0, (len(processed_text) - window_size)):
                
                window_end = window_start + window_size
                
                window = processed_text[window_start:window_end]
                
                # 탐색하고 있는 두 단어가 윈도(window)에 동시 등장할 경우 edge로 연결한다.
                if (vocabulary[i] in window) and (vocabulary[j] in window):
                    
                    index_of_i = window_start + window.index(vocabulary[i])
                    index_of_j = window_start + window.index(vocabulary[j])
                    
                    if [index_of_i,index_of_j] not in covered_coocurrences:
                        weighted_edge[i][j]+=1/math.fabs(index_of_i-index_of_j) 
                        # math.fabs -> 절대값을 취하는 코드 
                        covered_coocurrences.append([index_of_i,index_of_j])

In [43]:
# 노드의 score 계산
inout = np.zeros((vocab_len), dtype=np.float32)

for i in range(0, vocab_len):
    for j in range(0, vocab_len):
        inout[i]+=weighted_edge[i][j]

In [44]:
MAX_ITERATIONS = 50
d = 0.85 # 임의의 상수
threshold = 0.0001 # convergence threshold
# threshold가 뭔데?
# 전의 계산된 score의 합과 현재 계산된 score의 합과의 차이 
# 계산을 여러번 할수록 아주 조금씩 줄어들게 된다. 

for iter in range(0, MAX_ITERATIONS):
    prev_score = np.copy(score)
    
    for i in range(0, vocab_len):
        
        summation = 0
        for j in range(0, vocab_len):
            if weighted_edge[i][j] != 0:
                summation += (weighted_edge[i][j]/inout[j])*score[j]
                
        score[i] = (1-d) + d*(summation)
        
    if np.sum(np.fabs(prev_score-score)) <= threshold: # convergence condition
        break

In [45]:
for i in range(0,10): # vocab_len:
    print('Score of '+vocabulary[i]+": "+str(score[i]))

Score of 수리: 0.7103317
Score of 실시간: 0.9730625
Score of 단기간에: 0.9198625
Score of 선도하고: 0.8194917
Score of 더: 0.7668544
Score of PM: 0.81875026
Score of 만족도가: 0.93915427
Score of 얼얼함이: 0.82716465
Score of 시작한: 0.72532356
Score of 완판되는: 0.94598675


In [46]:
# 핵심 단어 추출
sorted_index = np.flip(np.argsort(score,0))

keywords_num = 10

print('Keywords:\n')

for i in range(0, keywords_num):
    print(str(vocabulary[sorted_index[i]]) + " : " + str(score[sorted_index[i]]))

Keywords:

포기하지 : 4.1886163
생면식감 : 2.7699673
전국 : 2.6275177
’ : 2.243547
정통 : 2.112884
온라인 : 2.0414855
만에 : 2.009934
통해 : 2.0073943
판매를 : 1.9603643
이 : 1.9152642
