In [1]:
import numpy as np

from newspaper import Article # 파이썬3는 newspaper3k 설치
from konlpy.tag import Kkma
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import normalize

<br>
<br>

# 문장을 토큰으로 분리

In [2]:
class SentenceTokenizer(object):

    # 초기화
    def __init__(self):

        self.kkma = Kkma()
        self.Okt = Okt()
        self.stopwords = ["아", "어", "나", "너", "우리", "저희", 
                          "을", "를", "에", "의", "은", "는", "이", "가", "기자"]

        
    # 웹페이지에서 문장 토큰 생성
    def url2sentences(self, url):
        
        # 뉴스 웹페이지를 크롤링
        article = Article(url, language='ko')
        article.download()
        article.parse()
        
        # 문장 단위로 토큰 추출
        sentences = self.kkma.sentences(article.text)
        
        # 문장의 길이가 짧으면 이전 문장과 통합
        for idx in range(0, len(sentences)):
            if len(sentences[idx]) <= 10:
                sentences[idx-1] += (' ' + sentences[idx])
                sentences[idx] = ''

        return sentences

    
    # 텍스트에서 문장 토큰 생성
    def text2sentences(self, text):
        
        sentences = self.kkma.sentences(text)
        
        for idx in range(0, len(sentences)):
            if len(sentences[idx]) <= 10:
                sentences[idx-1] += (' ' + sentences[idx])
                sentences[idx] = ''

        return sentences


    # 명사를 구함
    def get_nouns(self, sentences):

        nouns = []

        for sentence in sentences:
            if sentence is not '':
                # 불용어와 1글자인 단어를 제외하고 명사를 추출
                nouns.append(' '.join([noun for noun in self.Okt.nouns(str(sentence))
                                        if noun not in self.stopwords and len(noun) > 1]))

        return nouns

In [3]:
sent_tokenizer = SentenceTokenizer()
sentences = sent_tokenizer.url2sentences("https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=100&oid=437&aid=0000214234")
sentences


-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


['동영상 뉴스 [ 앵커] 김대중 정부 때 초고 속 인터넷망의 필요성을 적극 제안했던 인물이지요.',
 '손정의 일본 소프트 뱅크 회장이 오늘 (4 일) 문 재인 대통령을 만났습니다.',
 '그는 " 한국이 집중해야 할 것은 첫째도 AI, 둘째도 AI, 셋째도 AI"라고 말했습니다.',
 '인공지능을 말합니다.',
 '안의 근 기자의 보도입니다.',
 '[ 기자] 외환 위기 이듬해 1998년, 재일동포 기업인 손정의 소프트 뱅크 회장은 김대중 대통령을 만 나 초고속 인터넷망의 필요성을 조언했습니다.',
 '노무현 대통령에게는 온라인 게임산업 육성을 제안했습니다.',
 '문재인 대통령은 오늘 손 회장을 만 나 " 당시 조언이 한국 경제에 큰 도움이 됐다" 고 말했습니다.',
 '손 회장은 " 대통령은 비전을 갖고 방향을 잡아야 한다 "며 " 앞으로 한국이 집중해야 할 건 첫째도 인공지능, 둘째도 인공지능, 셋째도 인공지능" 이라고 강조했습니다.',
 '문 대통령은 자금력이 부족한 젊은 혁신 벤처 창업 가들에게 투자해 달라고 당부했습니다.AI',
 '전문인력 양성에도 지원해 달라고 했고 손 회장은 " 그렇게 하겠다" 고 답했습니다.',
 '일본의 경제 보복 논란이 계속되는 가운데, 문 대통령과 일본 IT 업계를 대표하는 손 회장의 만남 자체는 큰 관심을 받았습니다.',
 '만남은 예정된 40분을 훌쩍 넘긴 90 분간 진행됐는데 청와대는 " 일본 경제 보복이나 한일 갈등에 대한 논의는 없었다" 는 공식 입장을 내놨습니다.',
 '손 회장은 오늘 저녁 4차 산업 혁신 분야에서 협업 파트너가 될 수 있는 이 재용 삼성전자 부회장과 이해진 네이버 글로벌 투자책임자, 김 택진 엔씨 소프트 대표 등도 만났습니다.',
 '( 영상 디자인 : 최수진) 안의 근 (egahn @jtbc .co .kr) [ 영상 취재: 주 수영, 이병 구 / 영상 편집: 지 윤 정 ]Copyright by JTBC(http: //jtbc .joins .com) and JTBC Content Hub 

In [4]:
sent_tokenizer.get_nouns(sentences)


['동영상 뉴스 앵커 김대중 정부 초고 인터넷 필요성 적극 제안 인물 이지',
 '손정 일본 소프트 뱅크 회장 오늘 재인 대통령',
 '한국 집중 첫째 둘째',
 '인공 지능',
 '보도',
 '외환 위기 이듬해 재일동포 기업인 손정 소프트 뱅크 회장 김대중 대통령 고속 인터넷 필요성 조언',
 '노무현 대통령 온라인 게임 산업 육성 제안',
 '문재인 대통령 오늘 회장 당시 조언 한국 경제 도움',
 '회장 대통령 방향 한국 집중 첫째 인공 지능 둘째 인공 지능 인공 지능 강조',
 '대통령 자금 혁신 창업 투자 달라 당부',
 '전문 인력 양성 지원 달라 회장',
 '일본 경제 보복 논란 계속 가운데 대통령 일본 업계 대표 회장 만남 자체 관심',
 '만남 예정 훌쩍 분간 진행 청와대 일본 경제 보복 한일 갈등 대한 논의 공식 입장',
 '회장 오늘 저녁 산업 혁신 분야 협업 파트너 삼성 전자 부회장 이해진 네이버 글로벌 투자 책임자 택진 엔씨 소프트 대표',
 '영상 디자인 최수진 영상 취재 수영 이병 영상 편집 무단 배포 금지']

In [5]:
sent_tokenizer.text2sentences("아이유는 가수이다. 방탄소년단은 보이그룹이다.")


['아이 유는 가수이다.', '방탄 소년단은 보이 그룹이다.']

<br>
<br>

# 문장 및 단어간의 그래프 생성

In [6]:
class GraphMatrix(object):

    # 초기화
    def __init__(self):
        
        self.tf_idf = TfidfVectorizer()
        self.cnt_vec = CountVectorizer()

    
    # 문장 그래프 생성
    def build_sent_graph(self, sentence):
        
        # TF-IDF 변환
        tf_idf_mat = self.tf_idf.fit_transform(sentence).toarray()
        
        # 모든 문장들을 서로 내적하여 그래프 매트릭스 계산
        # 문장이 10개라면 10x10=100개의 항목
        graph_sentence = np.dot(tf_idf_mat, tf_idf_mat.T)
        
        return graph_sentence
    
    
    # 단어 그래프 생성
    def build_words_graph(self, sentence):
        
        # BoW 변환
        # normalize() : 0~1 사이로 정규화
        cnt_vec_mat = normalize(self.cnt_vec.fit_transform(sentence).toarray().astype(float), axis=0)
        
        # 단어사전 구함
        vocab = self.cnt_vec.vocabulary_
        
        # 모든 단어들을 서로 내적하여 그래프 매트릭스 계산
        graph_word = np.dot(cnt_vec_mat.T, cnt_vec_mat)
        
        # 인덱스-단어 딕셔너리 생성
        idx2word = {vocab[word] : word for word in vocab}
        
        return graph_word, idx2word

In [7]:
graph_matrix = GraphMatrix()
graph_matrix.build_sent_graph(["나는 인공지능을 좋아해요", "나는 딥러닝을 좋아해요"])


array([[1.        , 0.50310261],
       [0.50310261, 1.        ]])

In [8]:
graph_matrix.build_words_graph(["나는 인공지능을 좋아해요", "나는 딥러닝을 좋아해요"])


(array([[1.        , 0.70710678, 0.70710678, 1.        ],
        [0.70710678, 1.        , 0.        , 0.70710678],
        [0.70710678, 0.        , 1.        , 0.70710678],
        [1.        , 0.70710678, 0.70710678, 1.        ]]),
 {0: '나는', 2: '인공지능을', 3: '좋아해요', 1: '딥러닝을'})

<br>
<br>

# 텍스트 랭크 알고리즘으로 랭킹 계산

In [9]:
class Rank(object):
    
    # 그래프의 랭킹 점수를 구함
    # d : damping factor로 다른 페이지를 클릭할 확률
    def get_ranks(self, graph, d=0.85):
        
        A = graph
        matrix_size = A.shape[0]
        
        # 그래프의 노드 개수만큼 반복
        for id in range(matrix_size):
            A[id, id] = 0
            link_sum = np.sum(A[:,id])
            
            if link_sum != 0:
                A[:, id] /= link_sum
                
            A[:, id] *= -d
            A[id, id] = 1
            
        B = (1-d) * np.ones((matrix_size, 1))
        ranks = np.linalg.solve(A, B)
        
        return {idx: r[0] for idx, r in enumerate(ranks)}

In [10]:
graph, idx2word = graph_matrix.build_words_graph(["나는 인공지능을 좋아해요", "나는 딥러닝을 좋아해요"])

print(idx2word)


{0: '나는', 2: '인공지능을', 3: '좋아해요', 1: '딥러닝을'}


In [11]:
# 그래프에서 각 노드의 랭킹 점수를 각각 계산
rank = Rank()
rank.get_ranks(graph)


{0: 1.2350471902192797,
 1: 0.7649528097807199,
 2: 0.7649528097807197,
 3: 1.2350471902192797}

In [12]:
class TextRank(object):
    
    # 초기화
    def __init__(self, text):
        
        # 문장 토크나이저 설정
        self.sent_tokenizer = SentenceTokenizer()
        
        # URL 또는 텍스트에서 문장 추출
        if text[:5] in ('http:', 'https'):
            self.sentences = self.sent_tokenizer.url2sentences(text)
        else:
            self.sentences = self.sent_tokenizer.text2sentences(text)
            
        # 문장에서 명사만 추출
        self.nouns = self.sent_tokenizer.get_nouns(self.sentences)
        
        # 문장과 단어의 그래프 매트릭스 생성
        self.graph_matrix = GraphMatrix()
        self.sent_graph = self.graph_matrix.build_sent_graph(self.nouns)
        self.words_graph, self.idx2word = self.graph_matrix.build_words_graph(self.nouns)
        
        # 그래프 매트릭스로 랭킹 계산
        self.rank = Rank()
        self.sent_rank_idx = self.rank.get_ranks(self.sent_graph)
        self.sorted_sent_rank_idx = sorted(self.sent_rank_idx, key=lambda k: self.sent_rank_idx[k], reverse=True)
        self.word_rank_idx = self.rank.get_ranks(self.words_graph)
        self.sorted_word_rank_idx = sorted(self.word_rank_idx, key=lambda k: self.word_rank_idx[k], reverse=True)
    
    
    # 문장 요약
    def summarize(self, sent_num=3):
        
        summary = []
        index=[]
        
        # 최대 개수 sent_num 만큼 랭킹 인덱스 추출
        for idx in self.sorted_sent_rank_idx[:sent_num]:
            index.append(idx)
            
        # 인덱스의 순서로 정렬
        index.sort()
        
        # 인덱스에 따른 문장 추가
        for idx in index:
            summary.append(self.sentences[idx])
            
        return summary


    # 키워드 요약
    def keywords(self, word_num=10):
        
        keywords = []
        index=[]
        
        # 최대 개수 word_num 만큼 랭킹 인덱스 추출
        for idx in self.sorted_word_rank_idx[:word_num]:
            index.append(idx)
            
        # 인덱스에 따른 단어 추가
        for idx in index:
            keywords.append(self.idx2word[idx])
            
        return keywords

In [13]:
url = "https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=100&oid=437&aid=0000214234"
textrank = TextRank(url)

for row in textrank.summarize(3):
    print(row)
    print()
    
print('keywords :',textrank.keywords())


손정의 일본 소프트 뱅크 회장이 오늘 (4 일) 문 재인 대통령을 만났습니다.

문재인 대통령은 오늘 손 회장을 만 나 " 당시 조언이 한국 경제에 큰 도움이 됐다" 고 말했습니다.

손 회장은 " 대통령은 비전을 갖고 방향을 잡아야 한다 "며 " 앞으로 한국이 집중해야 할 건 첫째도 인공지능, 둘째도 인공지능, 셋째도 인공지능" 이라고 강조했습니다.

keywords : ['회장', '대통령', '소프트', '대표', '경제', '김대중', '인터넷', '필요성', '산업', '만남']
