# edubey / text-summarizer

아래의 깃헙을 참고하여 test 하기 위한 파일입니다. 해당 알고리즘의 설명은 아래의 Medium 자료를 참고하여 작성 수정했습니다.

- https://github.com/edubey/text-summarizer

-  Medium 및 코드 설명

> https://towardsdatascience.com/understand-text-summarization-and-create-your-own-summarizer-in-python-b26a9f09fc70

### Description

> <b>unsupervised learning 접근 방식</b>

- single document의 문장들의 matrix를 구성해서 각 문장안에 들어가는 단어들을 이용한 vector를 형성한다. 비교할 두 문장의 vector의 cosine similarity를 기반으로 문장 유사도를 측정한다. 전체 문장에 대해서 다른 문장들과 유사도가 가장 높은 문장을 사용자 지정 Top-N개 선정하여 요약 결과로 제시한다.


- 장점 : 

    실제 test 셋에 적용하기 위해서 사전에 오랜 시간 학습시키거나 모델을 형성할 필요가 없다.
    
    
> <b>문장 유사도 측정 방식 : cosine similarity</b>

- 설명 : 두 개의 non-zero vector들 간의 내적 공간에 대해서 cosine 각도를 계산해서 유사도를 측정하는 방식

    https://ko.wikipedia.org/wiki/%EC%BD%94%EC%82%AC%EC%9D%B8_%EC%9C%A0%EC%82%AC%EB%8F%84

> <b>Text Rank algorithm</b>

- 설명: Graph-based ranking algorithm for NLP
- 특징:
    
    이전의 training data에 의존하지 않고, 독립적인 text를 이용해서 적용 가능하다. 

> <b>Code Flow</b>

<b> Input article → split into sentences → remove stop words → build a similarity matrix → generate rank based on matrix → pick top N sentences for summary.</b>

# text-summarizer.py 코드 설명

##  import all necessary libraries


In [8]:
import nltk
# from nltk.corpus import stopwords
from nltk.cluster.util import cosine_distance
import numpy as np
import networkx as nx
import re

## Generate clean sentences

In [109]:
def read_article(file_name):
    file = open(file_name, "r",encoding='utf-8')
    filedata = file.readlines()
    article = filedata[0].split(".")
    sentences = []
    removed = []
    print("article: ",article)
    for sentence in article:
#         print("sentence:",sentence)
        hangul = re.compile('[^ㄱ-ㅣ 가-힣]+') # 정교화 필요
        sentences.append(hangul.sub('',sentence).split(" "))
        removed.append(hangul.findall(sentence)) #제거된 단어들 확인 필요 시 return에 추가
        
    return sentences

In [66]:
!pip install konlpy

Collecting konlpy
  Using cached https://files.pythonhosted.org/packages/e5/3d/4e983cd98d87b50b2ab0387d73fa946f745aa8164e8888a714d5129f9765/konlpy-0.5.1-py2.py3-none-any.whl
Collecting JPype1>=0.5.7 (from konlpy)
  Using cached https://files.pythonhosted.org/packages/d3/08/f4bb58c1c0dff93e9628cd0e1025f80fcb5a4551310455feb96b96e58ad1/JPype1-0.7.0-cp37-cp37m-win_amd64.whl
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-0.7.0 konlpy-0.5.1


In [90]:
read_article('korean_text.txt')

article:  ['"써머스플랫폼이 운영하는 가격비교 사이트 \'에누리 가격비교\'가 가구 교체 시즌에 맞춰 오는 28일까지 2개의 가구 할인 기획전을 진행한다', '우선 11번가와 함께 새학기를 맞아 학생가구를 찾는 고객들을 위한 ‘새학기 가구 추가할인 기획전’을 진행한다', '에누리 가격비교 홈페이지를 통해 11번가에서 서재/사무용 가구, 유아동 가구 등을 구매할 시 최대 2만 원의 추가 할인 혜택을 받을 수 있다', '/ 에누리닷컴 제공 @머니S MNB, 식품 외식 유통 · 프랜차이즈 가맹 & 유망 창업 아이템의 모든 것또한 28일까지 위메프와 함께 해외 유명 가구 브랜드를 대상으로 ‘해외직구 홈&리빙 페어’도 진행한다', '에누리 가격비교 홈페이지를 통해 위메프에서 씰리(Sealy), 랠리(Rally) 등 해외직구 인기 침구 및 가구, 인테리어 제품을 구매할 시 기획전 전 품목을 대상으로 최대 20만 원의 즉시 할인 혜택을 제공한다', '에누리 관계자는 “새학기, 봄맞이 등 가구교체 시즌에 맞춰 고객들이 부담 없는 가격에 가구를 장만할 수 있는 기획전을 마련했다”라며, “앞으로도 최저가 쇼핑정보와 함께 고객만족을 위한 실질적인 혜택을 제공할 수 있도록 최선을 다할 것이다”라고 말했다', '보다 자세한 내용은 에누리 가격비교 사이트와 모바일 앱, 웹에서 확인할 수 있다', '강동완 기자 ▶ 고수들의 재테크 비법 ▶ 박학다식 \'이건희칼럼\' <저작권자 ⓒ \'성공을 꿈꾸는 사람들의 경제 뉴스\' 머니S, 무단전재 및 재배포 금지>"\n']
sentence: "써머스플랫폼이 운영하는 가격비교 사이트 '에누리 가격비교'가 가구 교체 시즌에 맞춰 오는 28일까지 2개의 가구 할인 기획전을 진행한다
sentence: 우선 11번가와 함께 새학기를 맞아 학생가구를 찾는 고객들을 위한 ‘새학기 가구 추가할인 기획전’을 진행한다
sentence: 에누리 가격비교 홈페이지를 통해 11번가에서 서재/사무용 가구, 유아동 가구 등을 구매할 시 최대 2만 원의 추가 할인 

[['써머스플랫폼이',
  '운영하는',
  '가격비교',
  '사이트',
  '에누리',
  '가격비교가',
  '가구',
  '교체',
  '시즌에',
  '맞춰',
  '오는',
  '일까지',
  '개의',
  '가구',
  '할인',
  '기획전을',
  '진행한다'],
 ['우선',
  '번가와',
  '함께',
  '새학기를',
  '맞아',
  '학생가구를',
  '찾는',
  '고객들을',
  '위한',
  '새학기',
  '가구',
  '추가할인',
  '기획전을',
  '진행한다'],
 ['에누리',
  '가격비교',
  '홈페이지를',
  '통해',
  '번가에서',
  '서재사무용',
  '가구',
  '유아동',
  '가구',
  '등을',
  '구매할',
  '시',
  '최대',
  '만',
  '원의',
  '추가',
  '할인',
  '혜택을',
  '받을',
  '수',
  '있다'],
 ['',
  '에누리닷컴',
  '제공',
  '머니',
  '',
  '식품',
  '외식',
  '유통',
  '',
  '프랜차이즈',
  '가맹',
  '',
  '유망',
  '창업',
  '아이템의',
  '모든',
  '것또한',
  '일까지',
  '위메프와',
  '함께',
  '해외',
  '유명',
  '가구',
  '브랜드를',
  '대상으로',
  '해외직구',
  '홈리빙',
  '페어도',
  '진행한다'],
 ['에누리',
  '가격비교',
  '홈페이지를',
  '통해',
  '위메프에서',
  '씰리',
  '랠리',
  '등',
  '해외직구',
  '인기',
  '침구',
  '및',
  '가구',
  '인테리어',
  '제품을',
  '구매할',
  '시',
  '기획전',
  '전',
  '품목을',
  '대상으로',
  '최대',
  '만',
  '원의',
  '즉시',
  '할인',
  '혜택을',
  '제공한다'],
 ['에누리',
  '관계자는',
  '새학기',
  '봄맞이',
  '등',
  

## Similarity matrix

In [119]:
def sentence_similarity(sent1, sent2, stopwords=None):
    if stopwords is None:
        stopwords = []

    sent1 = [w.lower() for w in sent1]
    sent2 = [w.lower() for w in sent2]
    
    all_words = list(set(sent1 + sent2))
 
    vector1 = [0] * len(all_words)
    vector2 = [0] * len(all_words)
 
    # build the vector for the first sentence
    for w in sent1:
        if w in stopwords:
            continue
        vector1[all_words.index(w)] += 1
 
    # build the vector for the second sentence
    for w in sent2:
        if w in stopwords:
            continue
        vector2[all_words.index(w)] += 1
 
    return 1 - cosine_distance(vector1, vector2)


In [120]:
def build_similarity_matrix(sentences, stop_words):
    # Create an empty similarity matrix
    similarity_matrix = np.zeros((len(sentences), len(sentences)))
    for idx1 in range(len(sentences)):
        for idx2 in range(len(sentences)):
            if idx1 == idx2: #ignore if both are same sentences
                continue 
            similarity_matrix[idx1][idx2] = sentence_similarity(sentences[idx1], sentences[idx2], stop_words)

    return similarity_matrix


## Generate Summary Method

In [121]:
def generate_summary(file_name, top_n=5):
    stop_words = read_data(filename='korean_stopwords_list.txt')

    summarize_text = []

    # Step 1 - Read text anc split it
    sentences =  read_article(file_name)
#     sentences = p.main(file_name)

    # Step 2 - Generate Similary Martix across sentences
    sentence_similarity_martix = build_similarity_matrix(sentences, stop_words)

    # Step 3 - Rank sentences in similarity martix
    sentence_similarity_graph = nx.from_numpy_array(sentence_similarity_martix)
    scores = nx.pagerank(sentence_similarity_graph)

    # Step 4 - Sort the rank and pick top sentences
    ranked_sentence = sorted(((scores[i],s) for i,s in enumerate(sentences)), reverse=True)    
    print("\nIndexes of top ranked_sentence order are \n", ranked_sentence)    

    for i in range(top_n):
        summarize_text.append(" ".join(ranked_sentence[i][1]))

    # Step 5 - Offcourse, output the summarize texr
    print("\nSummarize Text: \n", ". ".join(summarize_text))
 

## Result

In [123]:
# let's begin
generate_summary( "korean_text.txt", 2)

article:  ['"써머스플랫폼이 운영하는 가격비교 사이트 \'에누리 가격비교\'가 가구 교체 시즌에 맞춰 오는 28일까지 2개의 가구 할인 기획전을 진행한다', '우선 11번가와 함께 새학기를 맞아 학생가구를 찾는 고객들을 위한 ‘새학기 가구 추가할인 기획전’을 진행한다', '에누리 가격비교 홈페이지를 통해 11번가에서 서재/사무용 가구, 유아동 가구 등을 구매할 시 최대 2만 원의 추가 할인 혜택을 받을 수 있다', '/ 에누리닷컴 제공 @머니S MNB, 식품 외식 유통 · 프랜차이즈 가맹 & 유망 창업 아이템의 모든 것또한 28일까지 위메프와 함께 해외 유명 가구 브랜드를 대상으로 ‘해외직구 홈&리빙 페어’도 진행한다', '에누리 가격비교 홈페이지를 통해 위메프에서 씰리(Sealy), 랠리(Rally) 등 해외직구 인기 침구 및 가구, 인테리어 제품을 구매할 시 기획전 전 품목을 대상으로 최대 20만 원의 즉시 할인 혜택을 제공한다', '에누리 관계자는 “새학기, 봄맞이 등 가구교체 시즌에 맞춰 고객들이 부담 없는 가격에 가구를 장만할 수 있는 기획전을 마련했다”라며, “앞으로도 최저가 쇼핑정보와 함께 고객만족을 위한 실질적인 혜택을 제공할 수 있도록 최선을 다할 것이다”라고 말했다', '보다 자세한 내용은 에누리 가격비교 사이트와 모바일 앱, 웹에서 확인할 수 있다', '강동완 기자 ▶ 고수들의 재테크 비법 ▶ 박학다식 \'이건희칼럼\' <저작권자 ⓒ \'성공을 꿈꾸는 사람들의 경제 뉴스\' 머니S, 무단전재 및 재배포 금지>"\n']

Indexes of top ranked_sentence order are 
 [(0.1841369196008701, ['에누리', '가격비교', '홈페이지를', '통해', '번가에서', '서재사무용', '가구', '유아동', '가구', '등을', '구매할', '시', '최대', '만', '원의', '추가', '할인', '혜택을', '받을', '수', '있다']), (0.16462874241009828, ['써머스플랫

In [126]:
# let's begin
generate_summary( "korean_text2.txt", 2)

article:  ['"4일 선개통 이후 5일째 수령 못 받은 예약자 속출""갤럭시S10 취소하고 G8 갈아타겠다""는 소비자도 나와삼성전자 모델별 수요 예측 실패…일부 채널 자급제 물량 줄이기도[아시아경제 임온유 기자] 삼성전자 상반기 전략 스마트폰 \'갤럭시S10\'이 8일 공식 출시됐다', ' 이 제품은 선개통일인 4일 전작보다 높은 성적을 받으며 흥행 기대감을 높이고 있다', ' 하지만 화이트 모델 쏠림 현상과 자급제 모델의 예상 밖 인기에 물량난이 여전한 상황이다', '이동통신ㆍ유통업계에 따르면 갤럭시S10 예약 구매자 일부가 재고 부족으로 개통 5일째 제품을 수령받지 못했다', ' 11번가에서 갤럭시S10 128GB 프리즘 화이트 자급제 모델을 구매한 A씨는 ""갤럭시S8를 산 지 2년이 채 안 됐지만 사은품인 갤럭시버즈가 갖고 싶어 갤럭시S10을 예약했다""며 ""그런데 며칟날 받을지조차 공지받지 못해 답답한 상황""이라고 말했다', '물량난의 주요인은 전작 갤럭시S9을 뛰어넘는 인기이지만 삼성전자의 모델별 수요 예측 실패 역시 적잖은 영향을 미쳤다', ' 현재 갤럭시S10ㆍS10+ 128GB 프리즘 화이트의 품귀현상이 도드라진다', ' 삼성전자는 프리즘 화이트, 프리즘 블랙, 프리즘 그린의 물량을 고루 준비했지만 프리즘 화이트의 구매 비중이 압도적으로 높은 것이다', ' 한 이통사 관계자는 ""해당 모델은 온라인 사이트는 물론 오프라인 대리점에서도 구하기 쉽지 않은 상황""이라고 말했다', '자급제 모델도 예상을 뛰어넘어 흥행하며 변수로 작용했다', ' 첫날 개통량 중 22%가 자급제 모델로 파악됐다', ' 갤럭시S9의 8%에 견줘 점유율이 단 1년 만에 3배 가까이 늘어났다', ' 한 온라인 유통채널 관계자는 ""이 같은 소비자 반응을 예상치 못하고 높은 가격을 고려해 갤럭시S10 자급제 물량을 갤럭시S9보다 더 적게 준비했다""며 ""확보한 물량은 모두 소진한 상태""라고 말했다', '품귀현상은 갤럭시S10의 희소성을 높이는 흥행요소가 될 수

In [127]:
# let's begin
generate_summary( "korean_text3.txt", 2)

article:  ['"공급과잉으로 폐기 위기…쇼핑몰과 협력, 판매 지원[아이뉴스24 도민선 기자] 우체국이 공급과잉으로 실의에 빠진 배추 재배 농가 돕기에 나선다', '15일 과학기술정보통신부 우정사업본부(본부장 강성주)는 우체국쇼핑몰을 비롯해 G마켓, 옥션, 티몬 등 외부 쇼핑몰과 협업해 판로 개척에 나선다고 발표했다', '우정사업본부 우체국전자상거래지원센터는 전남 해남군에서 공급과잉으로 배추를 산지 폐기하기로 결정했다는 소식을 듣고 전남도청, 해남군청과 협업해 위기에 빠진 해남 농민들을 돕기로 했다', '지난해 8월에도 산지폐기를 앞둔 강원도 화천군 애호박을 우체국쇼핑 등 외부 쇼핑몰과 협력해 1만5천박스(120톤)을 판매하는 등 지역농가를 적극 지원했다', ' [[출처=우체국쇼핑]]전남 해남 배추는 우체국쇼핑몰을 비롯해 G마켓, 옥션, 티몬 등을 통해 10㎏ 1상자(3포기)를 온라인 최저가인 균일가 6천900원에 판매된다', ' 11번가 등과도 협의를 진행해 농가를 지원할 예정이다', '우정사업본부는 해남군청과 협력을 통한 판매지원으로 산지폐기 위기에 처한 농가들은 손실을 보전할 것으로 기대하고 있다', '강성주 본부장은 ""이번 해남 농가 지원이 우체국의 공익적 역할을 더욱 강화하는 계기가 되기를 바란다""며, ""앞으로 우체국네트워크를 활용해 전국 어느 곳이든 도움의 손길이 필요한 이웃을 찾아 적극 지원하겠다""고 말했다', '도민선기자 domingo@inews24', "com▶네이버 채널에서 '아이뉴스24'를 구독해주세요", '▶아이뉴스TV에서 부동산 고수를 만나보세요', '[ⓒ 아이뉴스24 무단전재 및 재배포 금지]"\n']

Indexes of top ranked_sentence order are 
 [(0.17772319027892688, ['', '출처우체국쇼핑전남', '해남', '배추는', '우체국쇼핑몰을', '비롯해', '마켓', '옥션', '티몬', '등을', '통해', '', '상자포기를', '온라인', '최저가인', '균일가', '

In [128]:
# let's begin
generate_summary( "korean_text4.txt", 2)

article:  ['"이베스트투자증권, 투자의견 \'매수\'·목표주가  33만원 제시…20일 종가 26만원[아시아경제 금보령 기자] 이베스트투자증권은 SK텔레콤에 대해 T서비스가 홈라이프, 근무환경 등을 아우른다며 투자의견 \'매수\', 목표주가  33만원을 제시했다', ' 20일 종가는 26만원이다', '21일 김현용 이베스트투자증권 연구원에 따르면 SK텔레콤은 분기 매출증가에도 영업손실이 줄어들어 체질 개선에 성공했다', '보안사업이 이익에 기여한 것으로 분석됐다', ' 김 연구원은 ""전사 영업이익 측면에서 올해는 유무선이 플랫한 수준에서 상쇄되고, 한 해 전체가 첫 반영되는 보안사업이 연간 1200억원 내외 증익 요인""이라며 ""기존 비즈니스와의 결합상품의 출시 및 무인 주차장 등 신규사업 전개로 성장성 확보할 것""이라고 설명했다', '2분기 중에 옥수수xPOOQ 통합법인 출범이 예상된다', ' 투자자 유치와 조달자금의 콘텐츠 집중투자를 수반할 수 있을 것으로 보인다', ' 김 연구원은 ""현재 웹드라마와 K-POP 아티스트 관련 콘텐츠로 제한적인 오리지널 콘텐츠의 전폭적인 확대를 예상한다""며 ""지난해 말부터 라인업 개선세가 돋보이는 지상파와의 연합전선 구축을 통해 의미 있는 드라마 공급주체로 부각이 가능할 전망""이라고 말했다', 'T서비스는 홈라이프, 근무환경, 출퇴근까지 아우른다', ' 홈라이프에는 모바일, IPTV, AI Speaker(누구), 음원플랫폼(플로), 콘텐츠플랫폼(옥수수), 쇼핑(11번가, 오케이캐쉬백, 시럽) 등이 있고, 출퇴근 및 근무환경에는 ADT캡스, T맵 & T맵 택시, 무인주차장 등이 있다', '금보령 기자 gold@asiae', 'co', 'kr▶ 아시아경제 채널 추가하고 에어팟, 해외여행비 받자!▶ 재미와 신기 \'과학을읽다\' ▶ 꿀잼 \'인기만화\'<ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제 무단전재 배포금지>"\n']

Indexes of top ranked_sentence order are 
 [(0

# 전체 script

In [140]:
#!/usr/bin/env python
# coding: utf-8
import nltk
from nltk.corpus import stopwords
from nltk.cluster.util import cosine_distance
import numpy as np
import networkx as nx
import re

def read_data(filename, encoding='utf-8'):
    # stop_word_list.txt를 부르기 위해서 사용
    # text 파일을 한줄씩 \n(줄바꿈)을 기준으로 읽는다.
    with open(filename, 'r', encoding=encoding) as f:
        data = [line.split('\t') for line in f.read().splitlines()]
        return data

def read_article(file_name,encoding='utf-8'):
    file = open(file_name, "r",encoding=encoding)
    filedata = file.readlines()
    article = filedata[0].split(".")
    sentences = []
    removed = []
    print("article: ",article)
    for sentence in article:
    #         print("sentence:",sentence)
        hangul = re.compile('[^ㄱ-ㅣ 가-힣]+') # 정교화 필요
        sentences.append(hangul.sub('',sentence).split(" "))
        removed.append(hangul.findall(sentence)) #제거된 단어들 확인 필요 시 return에 추가

    return sentences

def sentence_similarity(sent1, sent2, stopwords=None):
    if stopwords is None:
        stopwords = []
 
    sent1 = [w.lower() for w in sent1]
    sent2 = [w.lower() for w in sent2]
 
    all_words = list(set(sent1 + sent2))
 
    vector1 = [0] * len(all_words)
    vector2 = [0] * len(all_words)
 
    # build the vector for the first sentence
    for w in sent1:
        if w in stopwords:
            continue
        vector1[all_words.index(w)] += 1
 
    # build the vector for the second sentence
    for w in sent2:
        if w in stopwords:
            continue
        vector2[all_words.index(w)] += 1
 
    return 1 - cosine_distance(vector1, vector2)
 
def build_similarity_matrix(sentences, stop_words):
    # Create an empty similarity matrix
    similarity_matrix = np.zeros((len(sentences), len(sentences)))
 
    for idx1 in range(len(sentences)):
        for idx2 in range(len(sentences)):
            if idx1 == idx2: #ignore if both are same sentences
                continue 
            similarity_matrix[idx1][idx2] = sentence_similarity(sentences[idx1], sentences[idx2], stop_words)

    return similarity_matrix


def generate_summary(file_name, top_n=5):
    stop_words = read_data(filename='korean_stopwords_list.txt')

    summarize_text = []

    # Step 1 - Read text anc split it
    sentences =  read_article(file_name)
#     sentences = p.main(file_name)

    # Step 2 - Generate Similary Martix across sentences
    sentence_similarity_martix = build_similarity_matrix(sentences, stop_words)

    # Step 3 - Rank sentences in similarity martix
    sentence_similarity_graph = nx.from_numpy_array(sentence_similarity_martix)
    scores = nx.pagerank(sentence_similarity_graph)
    
    # Step 4 - Sort the rank and pick top sentences
    ranked_sentence = sorted(((scores[i],s) for i,s in enumerate(sentences)), reverse=True)    
    print("\nIndexes of top ranked_sentence order are \n", ranked_sentence)    

    for i in range(top_n):
        summarize_text.append(" ".join(ranked_sentence[i][1]))

    # Step 5 - Offcourse, output the summarize texr
    print("\nSummarize Text: \n", ". ".join(summarize_text))
 

# let's begin
generate_summary( "korean_text.txt", 2)

article:  ['"써머스플랫폼이 운영하는 가격비교 사이트 \'에누리 가격비교\'가 가구 교체 시즌에 맞춰 오는 28일까지 2개의 가구 할인 기획전을 진행한다', '우선 11번가와 함께 새학기를 맞아 학생가구를 찾는 고객들을 위한 ‘새학기 가구 추가할인 기획전’을 진행한다', '에누리 가격비교 홈페이지를 통해 11번가에서 서재/사무용 가구, 유아동 가구 등을 구매할 시 최대 2만 원의 추가 할인 혜택을 받을 수 있다', '/ 에누리닷컴 제공 @머니S MNB, 식품 외식 유통 · 프랜차이즈 가맹 & 유망 창업 아이템의 모든 것또한 28일까지 위메프와 함께 해외 유명 가구 브랜드를 대상으로 ‘해외직구 홈&리빙 페어’도 진행한다', '에누리 가격비교 홈페이지를 통해 위메프에서 씰리(Sealy), 랠리(Rally) 등 해외직구 인기 침구 및 가구, 인테리어 제품을 구매할 시 기획전 전 품목을 대상으로 최대 20만 원의 즉시 할인 혜택을 제공한다', '에누리 관계자는 “새학기, 봄맞이 등 가구교체 시즌에 맞춰 고객들이 부담 없는 가격에 가구를 장만할 수 있는 기획전을 마련했다”라며, “앞으로도 최저가 쇼핑정보와 함께 고객만족을 위한 실질적인 혜택을 제공할 수 있도록 최선을 다할 것이다”라고 말했다', '보다 자세한 내용은 에누리 가격비교 사이트와 모바일 앱, 웹에서 확인할 수 있다', '강동완 기자 ▶ 고수들의 재테크 비법 ▶ 박학다식 \'이건희칼럼\' <저작권자 ⓒ \'성공을 꿈꾸는 사람들의 경제 뉴스\' 머니S, 무단전재 및 재배포 금지>"\n']

Indexes of top ranked_sentence order are 
 [(0.1841369196008701, ['에누리', '가격비교', '홈페이지를', '통해', '번가에서', '서재사무용', '가구', '유아동', '가구', '등을', '구매할', '시', '최대', '만', '원의', '추가', '할인', '혜택을', '받을', '수', '있다']), (0.16462874241009828, ['써머스플랫

# Feedback

- cosine similarity를 구하기 위해서 문장을 vector화 할 때 현재는 stop word에 대한 정보만 제거 후 개별 단어들 모두가 포함되는 형식

    => 명사 등 주요한 품사에 대해서만 vector를 형성하는 방안이 더 요약 결과를 정교화시킬 수 있을 것으로 예상 
    
- 긴 문장에 대해서는 여러 단어가 존재할 가능성이 높아지기에 다른 문장들과 similarity가 높다고 나올 가능성이 높다.
    
    => brevity(간결성)에 대한 penalty를 줘서 단순히 긴 문장이 중요한 문장으로 선정되지 않도록 조절 필요