In [1]:
from konlpy.tag import Kkma
from konlpy.tag import Twitter
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import normalize
import numpy as np
import re
import pandas as pd

In [2]:
def token_word(line):    
    hangul = re.compile('[^ㄱ-ㅣ가-힣]+') # 한글과 띄어쓰기를 제외한 모든 글자
    # hangul = re.compile('[^ \u3131-\u3163\uac00-\ud7a3]+')  # 위와 동일
    result = hangul.sub(' ', line) # 한글과 띄어쓰기를 제외한 모든 부분을 제거
    
    return result

In [4]:
review = pd.read_csv("review_final_38.csv", encoding="cp949")
del review["Unnamed: 0"]

In [6]:
reple = [k for k in review["reple"]]
reple = [token_word(k) for k in reple]

In [7]:
reple = [token_word(k) for k in reple]

In [8]:
review["reple"] = reple

In [9]:
review.head(1)

Unnamed: 0,bad,good,reple,score,movie,y
0,126,1427,강동원 너 나오면 꼭 보러가는거 알지 최소 다섯번,10,검사외전,1


In [10]:
class SentenceTokenizer(object):
    
    def __init__(self):
        self.kkma = Kkma()
        self.twitter = Twitter()
        self.stopwords = ['ㅎ','ㅋ','ㅜ','ㅠ']
    
  
    def text2sentences(self, text):
        sentences = self.kkma.sentences(text)
        for idx in range(0, len(sentences)):
            if len(sentences[idx]) <= 10:
                sentences[idx-1] += (' ' + sentences[idx])
                sentences[idx] = ''
        sentences = [i for i in sentences if i != '']
        return sentences
    
    def get_nouns(self, sentences):
        nouns = []
        for sentence in sentences:
            nouns.append(' '.join([noun for noun in self.twitter.nouns(str(sentence)) if noun not in self.stopwords and len(noun) > 1]))
        return nouns

class GraphMatrix(object):
    def __init__(self):
        self.tfidf = TfidfVectorizer()
        self.cnt_vec = CountVectorizer()
        self.graph_sentence = []
        
    def build_sent_graph(self, sentence):
        tfidf_mat = self.tfidf.fit_transform(sentence).toarray()
        self.graph_sentence = np.dot(tfidf_mat, tfidf_mat.T)
        return self.graph_sentence
    
    def build_words_graph(self, sentence):
        cnt_vec_mat = normalize(self.cnt_vec.fit_transform(sentence).toarray().astype(float), axis=0)
        vocab = self.cnt_vec.vocabulary_
        return np.dot(cnt_vec_mat.T, cnt_vec_mat), {vocab[word] : word for word in vocab}


class Rank(object):
    def get_ranks(self, graph, d=0.85): # d = damping factor
        A = graph
        A += 0.001 # 노이즈 넣어서 에러 없앰~~!!!
        matrix_size = A.shape[0]
        for id in range(matrix_size):
            A[id, id] = 0 # diagonal 0으로
            link_sum = np.sum(A[:,id]) # A[:, id] = A[:][id]
            if link_sum != 0:
                A[:, id] /= link_sum
                A[:, id] *= -d
                A[id, id] = 1
        B = (1-d) * np.ones((matrix_size, 1))
        #B = np.ones((matrix_size, 1))
        ranks = np.linalg.solve(A, B) # 연립방정식 Ax = b
        return {idx: r[0] for idx, r in enumerate(ranks)}


class TextRank(object):
    def __init__(self, text):
        self.sent_tokenize = SentenceTokenizer()
        self.sentences = self.sent_tokenize.text2sentences(text)
        
        self.nouns = self.sent_tokenize.get_nouns(self.sentences)
        
        self.graph_matrix = GraphMatrix()
        self.sent_graph = self.graph_matrix.build_sent_graph(self.nouns)
        self.words_graph, self.idx2word = self.graph_matrix.build_words_graph(self.nouns)
        
        self.rank = Rank()
        self.sent_rank_idx = self.rank.get_ranks(self.sent_graph)
        self.sorted_sent_rank_idx = sorted(self.sent_rank_idx, key=lambda k: self.sent_rank_idx[k], reverse=True)
        
        self.word_rank_idx = self.rank.get_ranks(self.words_graph)
        self.sorted_word_rank_idx = sorted(self.word_rank_idx, key=lambda k: self.word_rank_idx[k], reverse=True)

    def summarize(self, sent_num=3):
        summary = []
        index=[]
        for idx in self.sorted_sent_rank_idx[:sent_num]:
            index.append(idx)
        index.sort()
        for idx in index:
            summary.append(self.sentences[idx])
            
        return summary
    
    def keywords(self, word_num=10):
        rank = Rank()
        rank_idx = rank.get_ranks(self.words_graph)
        sorted_rank_idx = sorted(rank_idx, key=lambda k: rank_idx[k], reverse=True)
        
        keywords = []
        index=[]
        for idx in sorted_rank_idx[:word_num]:
            index.append(idx)
        #index.sort()
        for idx in index:
            keywords.append(self.idx2word[idx])
        return keywords


In [11]:
summary = pd.DataFrame()
keyword = pd.DataFrame()
textrank = TextRank(' '.join(review[review["movie"] =="검사외전" ]["reple"]))
for row in textrank.summarize(3):
    print("summary:", row)
    print("keyword :", textrank.keywords(5))
    print()

summary: ㅜㅜ 강 동원과 황 정민이라니
keyword : ['이번', '검사', '재미', '매력', '보고']

summary: 기대 기대 자 자 이건 무조건 그냥 이유 없이 무조건 봐야 함 강 동원 황 정민 거기 다가 소재 봐 봐 미쳤어 강 동원 황 정민만 보고 간다 진짜 특히 동원 오빠 ㅠㅠㅠ 진짜 느낌 좋아 보이는 영화 강 동원 황 정민 갓 동원 믿고 보는 황 정민 무조건 흥행 대박 갓 정민 갓 동원 갓 성 민 끝 년 월 일 의형제 개봉 년 만에 년 월 일 검사 외전 개봉 두 둥 강 동원 황 정민이야 말 다한 거 아니야
keyword : ['동원', '전우치', '사직서', '그냥', '머리']

summary: ㅜㅜㅜ 황 정민에 강 동원이라니
keyword : ['드라마', '좌파', '엄마', '머리', '감동']

