# Book Text Summarization - TextRank (use gensim)
### AI Hub의 도서자료요약 데이터셋을 사용한 추출적 요약(extractive summarization)

## 0. Import Library

In [1]:
import pandas as pd
import numpy as np

from gensim.summarization.summarizer import summarize

## 1. Load Dataset

json파일로 이루어진 AI Hub의 도서자료요약 데이터셋을 정리해 csv파일로 만들었습니다.

In [2]:
df = pd.read_csv('../../dataset/BookSummarization/test_df/Book_test.csv')

In [3]:
df = df.iloc[0:150]

In [4]:
df.reset_index(inplace=True)

## 2. Extract Summarization  
Text Rank 알고리즘 기반의 Gensim summarizer 모델을 통해 추출적 요약을 진행했습니다.  

In [5]:
df['extract'] = df.passage.apply(lambda x : summarize(x, ratio=0.4))

In [6]:
df.head()

Unnamed: 0.1,index,Unnamed: 0,passage,summary,extract
0,0,0,이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다....,후진타오 시대는 제 3세대 지도자가 물러나며 제 4세대 지도자가 새로운 통치 집단...,이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다.\...
1,1,1,한편 사영기업가의 입당허용이 단기간에 중국정치에 변화를 몰고 올 것 같지는 않다....,사영기업가 계층은 국가의 통제를 아직 벗어나지 못했다는 등의 이유로 단기간에 중국...,그러나 장기적으로 볼 때 사영기업가 계층의 정치적 복권은 정치변화와 관련해 큰 의미...
2,2,2,그런데 제 16차 당 대회에서는 민족주의를 강조하는 경향이 이전보다 더욱 두드러졌...,"공산당이 국민정당에 대해 민족정당이 된 것, 정치보고에 민족정신 등에 대한 강조가...","예를 들어, 앞에서 보았듯이 “당헌” 개정에 의해 공산당이 ‘중화민족의 선봉대’로 ..."
3,3,3,2.3.2 제10기 전국인민대표대회 제 1차 회의(2003년)\n 2003년 3월 ...,2003년의 10기 전국인대 1차 회의는 주요 국가지도자에 대한 인선이 있었고 공...,또한 제 10기 전국인대 첫 번째 회의는 5년 임기의 제 10기 전국인대가 시작하는...
4,4,4,1) 인선에 대한 총괄평가\n 제 10기 전국인대 제 1차 회의에서 선출(비준)된...,10기 전국인대 1차 회의는 완전하고 실질적인 권력이양이 이루어지지 않았다. 이에...,"우선, 제 10기 전국인대 제 1차 회의에서는 장쩌민으로부터 후진타오로의 실질적이고..."


In [7]:
random_number = np.random.randint(0,99, size=1)
print(random_number[0])

63


In [8]:
for i in range(0, 3):
    random_number = np.random.randint(0,150, size=1)
    print("=" * 120)
    print(f'{random_number[0]}' + " 번째 문장 \n")
    print('원문 내용: \n\n' + df['passage'][random_number[0]] + '\n\n')
    print('추출 요약 내용: \n\n' + df['extract'][random_number[0]] + '\n\n')
    print('라벨링된 요약 내용: \n\n' + df['summary'][random_number[0]] + '\n\n')

90 번째 문장 

원문 내용: 

그런데 이러한 느낌은 이성과 매우 다릅니다. 그래서 이를 감성(感性)이라고 부릅니다. 감성은 이성처럼 사물과의 거리(距離) 만들기를 하지 않습니다. 오히려 사물과 밀착하거나 아예 사물 속으로 들어간다고 해도 좋을 만큼 하나가 되고자 합니다. 의도적으로 그렇게 한다기보다 저절로 그러한 상황 속에서 내 마음에 이는 일렁임이라고 할 수 있는 그러한 것입니다. 그렇기 때문에 당연히 사물을 뜯어보려 하지 않습니다. 달리 말하면 감성은 사물에 대한 분석적 인식으로부터 비롯하는 것이 아닙니다. 있는 그대로의 사물과 부닥치면서 나도 모르게 내 안에서 솟는 독특한 경험입니다. 그렇기 때문에 이러한 감성은 사물을 체계화하려 하지 않습니다. 논리적인 설명을 통해 그 총체성을 확보하기보다 스며드는 느낌을 통해 그렇게 합니다. 따라서 어떤 사물의 윤곽이 분명히 그려지지 않는 데도 그 사물이 있다는 사실, 나와 만난다고 하는 사실 등을 총체적으로 내 안에 지닙니다.


추출 요약 내용: 

오히려 사물과 밀착하거나 아예 사물 속으로 들어간다고 해도 좋을 만큼 하나가 되고자 합니다.
그렇기 때문에 당연히 사물을 뜯어보려 하지 않습니다.
그렇기 때문에 이러한 감성은 사물을 체계화하려 하지 않습니다.
논리적인 설명을 통해 그 총체성을 확보하기보다 스며드는 느낌을 통해 그렇게 합니다.


라벨링된 요약 내용: 

감성은 이성과 달리 사물과의 거리를 두지 않고 사물 속에 들어가 하나가 되려고 합니다. 또한 사물에 대한 분석적 인식이 아니라 그대로 부닥치면서 나도 모르게 내 안에서 솟는 독특한 경험이라고 할 수 있습니다. 사물을 체계화 하지 않고 스며들게 만듭니다.


57 번째 문장 

원문 내용: 

 현재 중국은 이전의 어떤 시기보다 유리한 국내외적 조건에 놓여 있다. 세계 3대 핵 보유국이며 UN 안보리 상임이사국인 중국은, 지난 20여 년의 급속한 경제성장을 통해 경제규모 제 4위의 경제대국이 되면서, 이제 명실상부한 지역강대국, 잠재적 세계강대국으로