In [28]:
from newspaper import Article
from konlpy.tag import Kkma
from konlpy.tag import Twitter
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import normalize
import numpy as np

In [29]:
class SentenceTokenizer(object):
    def __init__(self):
        self.kkma = Kkma()
        self.twitter = Twitter()
        self.stopwords = ['중인' ,'만큼', '마찬가지', '꼬집었', "연합뉴스", "데일리", "동아일보", "중앙일보", "조선일보", "기자"
                          ,"아", "휴", "아이구", "아이쿠", "아이고", "어", "나", "우리", "저희", "따라", "의해", "을", "를", "에", "의", "가",]
    def url2sentences(self, url):
        article = Article(url, language='ko')
        article.download()
        article.parse()
        sentences = self.kkma.sentences(article.text)
        for idx in range(0, len(sentences)):
            if len(sentences[idx]) <= 10:
                sentences[idx-1] += (' ' + sentences[idx])
                sentences[idx] = ''
        return sentences
    def text2sentences(self, text):
        sentences = self.kkma.sentences(text)
        for idx in range(0, len(sentences)):
            if len(sentences[idx]) <= 10:
                sentences[idx-1] += (' ' + sentences[idx])
                sentences[idx] = ''
            print('sentences[idx] : ',sentences[idx])
        return sentences
    def get_nouns(self, sentences):
        nouns = []
        for sentence in sentences:
            if sentence is not '':
                nouns.append(' '.join([noun for noun in self.twitter.nouns(str(sentence))
                                       if noun not in self.stopwords and len(noun) > 1]))
        print('nouns : ', nouns)
        return nouns

In [30]:
class GraphMatrix(object):
    def __init__(self):
        self.tfidf = TfidfVectorizer()
        self.cnt_vec = CountVectorizer()
        self.graph_sentence = []
    def build_sent_graph(self, sentence):
        tfidf_mat = self.tfidf.fit_transform(sentence).toarray()
        print('tfidf_mat : ',tfidf_mat)
        self.graph_sentence = np.dot(tfidf_mat, tfidf_mat.T)
        print('self.graph_sentence : ', self.graph_sentence)
        return self.graph_sentence
    def build_words_graph(self, sentence):
        cnt_vec_mat = normalize(self.cnt_vec.fit_transform(sentence).toarray().astype(float), axis=0)
        print('cnt_vec_mat : ', cnt_vec_mat)
        vocab = self.cnt_vec.vocabulary_
        print('vocab : ',vocab)
        return np.dot(cnt_vec_mat.T, cnt_vec_mat), {vocab[word] : word for word in vocab}

In [31]:
class Rank(object):
    def get_ranks(self, graph, d=0.85): # d = damping factor
        A = graph
        matrix_size = A.shape[0]
        for id in range(matrix_size):
            A[id, id] = 0 # diagonal 부분을 0으로
            link_sum = np.sum(A[:,id]) # A[:, id] = A[:][id]
            if link_sum != 0:
                A[:, id] /= link_sum
                A[:, id] *= -d
                A[id, id] = 1
        print('A : ', A)
        B = (1-d) * np.ones((matrix_size, 1))
        print('B : ', B)
        ranks = np.linalg.solve(A, B) # 연립방정식 Ax = b
        print('ranks : ', ranks)
        return {idx: r[0] for idx, r in enumerate(ranks)}

In [32]:
class TextRank(object):
    def __init__(self, text):
        self.sent_tokenize = SentenceTokenizer()
        if text[:5] in ('http:', 'https'):
            self.sentences = self.sent_tokenize.url2sentences(text)
        else:
            self.sentences = self.sent_tokenize.text2sentences(text)
        self.nouns = self.sent_tokenize.get_nouns(self.sentences)
        self.graph_matrix = GraphMatrix()
        self.sent_graph = self.graph_matrix.build_sent_graph(self.nouns)
        self.words_graph, self.idx2word = self.graph_matrix.build_words_graph(self.nouns)
        self.rank = Rank()
        self.sent_rank_idx = self.rank.get_ranks(self.sent_graph)
        self.sorted_sent_rank_idx = sorted(self.sent_rank_idx, key=lambda k: self.sent_rank_idx[k], reverse=True)
        self.word_rank_idx = self.rank.get_ranks(self.words_graph)
        self.sorted_word_rank_idx = sorted(self.word_rank_idx, key=lambda k: self.word_rank_idx[k], reverse=True)
        print('self.sentences : ', self.sentences)
        print('self.nouns: ', self.nouns)
        print('self.graph_matrix : ', self.graph_matrix)
        print('self.sent_graph : ', self.sent_graph)
        print('self.words_graph:', self.words_graph)
        print('self.sent_rank_idx:', self.sent_rank_idx)
        print('self.sorted_sent_rank_idx:', self.sorted_sent_rank_idx)
        print('self.word_rank_idx:', self.word_rank_idx)
        print('self.sorted_word_rank_idx:',self.sorted_word_rank_idx)
        
    def summarize(self, sent_num=3):
        summary = []
        index=[]
        for idx in self.sorted_sent_rank_idx[:sent_num]:
            index.append(idx)
            index.sort()
            print('index : ', index)
        for idx in index:
            summary.append(self.sentences[idx])
            print('summary : ', summary)
        return summary



    def keywords(self, word_num=10):
        rank = Rank()
        rank_idx = rank.get_ranks(self.words_graph)
        sorted_rank_idx = sorted(rank_idx, key=lambda k: rank_idx[k], reverse=True)
        keywords = []
        index=[]
        for idx in sorted_rank_idx[:word_num]:
            index.append(idx)
            #index.sort()
        for idx in index:
            keywords.append(self.idx2word[idx])
        return keywords

In [34]:
# url = 'http://v.media.daum.net/v/20170611192209012?rcmd=r'
url = 'http://www.travelnbike.com/news/articleView.html?idxno=49809'
textrank = TextRank(url)
for row in textrank.summarize(3):
    print(row)
    print()
    print('keywords :',textrank.keywords())

['한국 필리핀 항공 회담 마닐라 필리핀 노선 항공 자유 화가 설정', '마닐라 현재 추가', '사진 필리핀 항공 트래블 바이크 뉴스 광수 한국 필리핀 항공 회담 의미 협정', '마닐라 필리핀 노선 항공 자유 화가 설정 마닐라 현재 확장 양국 하늘', '항공 노선 확대 필리핀 여행 활성화', '노선 확대 여행자 증가 이어진 바로 최근 대세 여행 지인 일본 사례', '실제 일본 경우 구마 모토 대지진 지진 피해 한국인 여행자 수가', '극복 올해 이상 최대 가까이 한국인 여행자 유치 여행 업계', '노선 확대 여행자 증가 이어진 바로 최근 대세 여행 지인 일본 사례', '일본 올해 이상 최대 가까이 한국인 여행자 유치', '사진 일본 정부 관광 유치 실적 다른 요인 전세기 포함 한국 일본 양국 간의 하늘 항공사 역할 가장', '일본 여행지 오사카 도쿄 일본 소도 시로 노선도 확장 인기 누리', '필리핀 인기 가늠 요인 바로 여기', '현재 기준 한국 필리핀 항공사 대한 항공 아시아나 항공 필리핀 항공 세부 퍼시픽 항공 제주 항공 웨이 항공 에어 부산 필리핀 아시아 항공사', '운항 노선 경우 마닐라 세부 보라 카이 리보 인기 여행지 경우 클락 빌라 소도시 여행 지로 노선 확장', '항공 노선 경쟁 심화 공급 과잉 항공권 가격 가능성', '여행자 더욱 저렴 가격 필리핀 여행', '사진 수권 제한 비용 항공사 위주 필리핀 신규 노선 취항 검토', '항공 자유 화로 노선 확장 경우 그동안 필리핀 노선', '항공사 신규 항공사 추가 노선 배분', '항공 노선 경쟁 심화 공급 과잉 항공권 가격 가능성', '여행자 더욱 저렴 가격 필리핀 여행 여기 필리핀 소도 시로 여행 활성화 가능성', '세부 모래알 필리핀 보석 여행지', '세부 모래알 필리핀 보석 여행지', '사진 고래 상어 사진 필리핀 관광 사진 중앙 마리아 필리핀 관광 한국 사무소 지사 각기 다른 매력 여행 여행자', '필리핀 하나 투어 여행 박람회 부산 올해 추천 여행 지로 선정', '사진 광수 마리아 필리핀 관