# **문서 요약하기 - gensim**
---
### 📌 **개요**
> 1. 바이너리 파일을 문자열로 변경 - base64 <br>
> 2. 문자열에서 키워드 추출 - textwrap, re <br>
> 3. 단어 개수 구하기 - collections.Counter <br>
> 4. 문서 요약하기 - gensim <br>
> 5. 텍스트 파일 저장 - open, close <br>
> 6. 실습

## **gensim**
> - `summarization` 내자 모듈로 **긴 문장을 요약**하는 것이 가능 (gensim 4.x 버전부터 요약 기능이 지원되지 않음) => **gensim 3.7.3 버전 사용해서 테스트**

## **Word2Vec**
> - `pip install gensim==3.7.3` 로 특정 버전 설치
> - [30+ 개 국어 단어 학습 프로젝트](https://github.com/Kyubyong/wordvectors)로 미리 학습되어 있는 모델을 사용
> - `unzip 파일명.zip -d 원하는/디렉토리/경로`로 압축해제 후 `ls -l ko/` 로 확인 시 두 개의 파일이 존재함
```bash
$ ls -l ko/
total 1661616
-rw-rw-r-- 1 1000 1000 1648815483 Feb 27  2017 ko.bin
-rw-rw-r-- 1 1000 1000   52677684 Feb 27  2017 ko.vec
```

In [1]:
%config Completer.use_jedi = False

In [2]:
import gensim

In [3]:
# 사전 훈련된 Word2Vec 모델을 로드
model = gensim.models.Word2Vec.load('/home/ko/ko.bin')

In [4]:
# 사용 중인 모델 확인
model

<gensim.models.word2vec.Word2Vec at 0x7f11e2df1b00>

In [5]:
# 유사한 단어 검색(1에 가까울 수록 유사함)
model.wv.most_similar("뉴스")

[('리포트', 0.6553797721862793),
 ('언론사', 0.6399534940719604),
 ('앵커', 0.637794017791748),
 ('데일리', 0.6316319704055786),
 ('일간지', 0.6260204315185547),
 ('투데이', 0.623687744140625),
 ('토크쇼', 0.5938538312911987),
 ('중앙일보', 0.5876286625862122),
 ('데스크', 0.5873063802719116),
 ('한겨레', 0.584434986114502)]

In [6]:
# 유사도 검색(자동차와 강아지가 얼마나 유사한 단어인지 확인)
# 마이너스(-)의 값은 거의 유사하지 않다고 gensim모델로 확인
model.wv.similarity('자동차', '강아지')

-0.01987284

In [7]:
# 유사도 검색
model.wv.similarity('고양이', '강아지')

0.7290453

## **문서 요약하기**
---
```bash
$ ls -l Book_test.csv 
-rw-r--r-- 1 root root 27735858 Feb 11 13:05 Book_test.csv
```

In [8]:
from gensim.summarization.summarizer import summarize
import pandas as pd
import numpy as np

In [9]:
# 위에서부터 100번째 줄까지의 데이터 불러오기
df = pd.read_csv('/home/Book_test.csv')
df = df.iloc[:100]
df.reset_index(inplace=True)

In [10]:
# 상위 5개만 확인
df.head()

Unnamed: 0.1,index,Unnamed: 0,passage,summary
0,0,0,이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다....,후진타오 시대는 제 3세대 지도자가 물러나며 제 4세대 지도자가 새로운 통치 집단...
1,1,1,한편 사영기업가의 입당허용이 단기간에 중국정치에 변화를 몰고 올 것 같지는 않다....,사영기업가 계층은 국가의 통제를 아직 벗어나지 못했다는 등의 이유로 단기간에 중국...
2,2,2,그런데 제 16차 당 대회에서는 민족주의를 강조하는 경향이 이전보다 더욱 두드러졌...,"공산당이 국민정당에 대해 민족정당이 된 것, 정치보고에 민족정신 등에 대한 강조가..."
3,3,3,2.3.2 제10기 전국인민대표대회 제 1차 회의(2003년)\n 2003년 3월 ...,2003년의 10기 전국인대 1차 회의는 주요 국가지도자에 대한 인선이 있었고 공...
4,4,4,1) 인선에 대한 총괄평가\n 제 10기 전국인대 제 1차 회의에서 선출(비준)된...,10기 전국인대 1차 회의는 완전하고 실질적인 권력이양이 이루어지지 않았다. 이에...


In [11]:
# index 0번의 데이터를 자세히 확인
df.loc[0, 'passage']

' 이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다. 이를 위해 여기서는 2002년 11월 개최된 중국공산당 제 16차 전국대표대회(당 대회)와 2003년 3월 개최된 제 10기 전국인민대표대회(전국인대) 제 1차 회의를 분석할 것이다. 후진타오 시대는 이 두 대회를 시작으로 2004년 9월 공산당 제 16기 중앙위원회 4차 전체회의(4중전회)까지 약 2년의 긴 과정을 거쳐 형성되었다. 우선, 이 기간 동안 장쩌민(장택민), 리펑(이붕), 주룽지(주용기)로 대표되는 제 3세대 지도자가 물러나고, 후진타오, 원자바오(온가보), 쩡칭홍(증경홍)으로 대표되는 제 4세대 지도자가 새로운 통치 집단으로 등장했다. 또한, 이 기간 동안 후진타오 시대의 중국이 실시할 국가정책의 방침과 내용이 서서히 모습을 드러냈다. 따라서 후진타오 시대의 등장과정을 이해하기 위해서는 16차 당 대회와 10기 전국인대 1차 회의에 대한 분석이 필수적이다.\n 그런데 제 3세대에서 제 4세대로의 권력이양은 결코 순탄하지 않았다. 장쩌민이 2002년 16차 당 대회에서 후진타오에게 총서기직을 물려준 다음에도 2004년 공산당 제 16기 4중전회까지 약 2년 동안 중앙군사위원회 주석직을 유지했다는 사실은 이를 상징적으로 보여준다. 따라서 이 기간은 장쩌민 시대와 후진타오 시대가 공존하는 일종의 과도기라고 할 수 있다. 또한 이 기간은 후진타오와 원자바오가 장쩌민 세력에 맞서 자신의 권력기반을 공고히 하는 한편 장쩌민 시대의 유산을 정리하면서 국민들에게 자신의 새로운 비전을 제시하는 탐색기였다고 말할 수 있다.'

In [12]:
# index 0번의 내용을 진흥원의 AI가 요약한 내용 확인
df.loc[0, 'summary']

' 후진타오 시대는 제 3세대 지도자가 물러나며 제 4세대 지도자가 새로운 통치 집단이 되었고 국가정책 방침과 내용이 모습을 드러냈다. 장쩌민이 후진타오에게 총서기직을 물려준 후에도 약 2년 동안 중앙군사위원회 주석직을 유지한 것은 제 3세대에서 제 4세대로의 순탄치 않은 권력이양을 보여준다. 이 시기는 장쩌민 시대와 후진타오 시대가 공존하는 과도기이며 후진타오와 원자바오가 자신의 새로운 비전을 제시하는 탐색기였다.'

### **gensim 라이브러리로 요약**
---

In [13]:
# 첫번째 데이터 요약
summarize(df.loc[0,'passage'])

'이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다.\n따라서 이 기간은 장쩌민 시대와 후진타오 시대가 공존하는 일종의 과도기라고 할 수 있다.'

In [14]:
# 첫번째 데이터 기준으로 40% 정도로 요약 비율을 지정해서 요약 (ratio는 0~1 사이의 값을 넣어주며 됨)
summarize(df.loc[0, 'passage'], ratio=0.4)

'이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다.\n후진타오 시대는 이 두 대회를 시작으로 2004년 9월 공산당 제 16기 중앙위원회 4차 전체회의(4중전회)까지 약 2년의 긴 과정을 거쳐 형성되었다.\n따라서 후진타오 시대의 등장과정을 이해하기 위해서는 16차 당 대회와 10기 전국인대 1차 회의에 대한 분석이 필수적이다.\n따라서 이 기간은 장쩌민 시대와 후진타오 시대가 공존하는 일종의 과도기라고 할 수 있다.'

In [15]:
# 전체 데이터 적용
# extract라는 새로운 열을 생성한 후 기사 원문을 대상으로 lambda 함수(summarize) 적용
df['extract'] = df.passage.apply(lambda x : summarize(x, ratio=0.2))

In [16]:
df.head()

Unnamed: 0.1,index,Unnamed: 0,passage,summary,extract
0,0,0,이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다....,후진타오 시대는 제 3세대 지도자가 물러나며 제 4세대 지도자가 새로운 통치 집단...,이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다.\...
1,1,1,한편 사영기업가의 입당허용이 단기간에 중국정치에 변화를 몰고 올 것 같지는 않다....,사영기업가 계층은 국가의 통제를 아직 벗어나지 못했다는 등의 이유로 단기간에 중국...,다만 사영기업가 계층의 정치적 영향력은 지역에 따라 큰 차이를 보일 것이다.\n예를...
2,2,2,그런데 제 16차 당 대회에서는 민족주의를 강조하는 경향이 이전보다 더욱 두드러졌...,"공산당이 국민정당에 대해 민족정당이 된 것, 정치보고에 민족정신 등에 대한 강조가...","예를 들어, 앞에서 보았듯이 “당헌” 개정에 의해 공산당이 ‘중화민족의 선봉대’로 ..."
3,3,3,2.3.2 제10기 전국인민대표대회 제 1차 회의(2003년)\n 2003년 3월 ...,2003년의 10기 전국인대 1차 회의는 주요 국가지도자에 대한 인선이 있었고 공...,또한 제 10기 전국인대 첫 번째 회의는 5년 임기의 제 10기 전국인대가 시작하는...
4,4,4,1) 인선에 대한 총괄평가\n 제 10기 전국인대 제 1차 회의에서 선출(비준)된...,10기 전국인대 1차 회의는 완전하고 실질적인 권력이양이 이루어지지 않았다. 이에...,"이를 두고 일부 언론에서는 “장쩌민이 반은 퇴임했지만 실제로는 퇴임하지 않았으며”,..."


In [17]:
df.loc[0, 'extract']

'이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다.\n따라서 이 기간은 장쩌민 시대와 후진타오 시대가 공존하는 일종의 과도기라고 할 수 있다.'

In [18]:
# 시각화
# 100개 중에 랜덤하게 숫자를 생성 후 원문과 AI요약, gensim 요약 내용을 가져옴
for i in range(0,1):
    random_number = np.random.randint(0, 100, size=1)
    print(f'{random_number[0]}' + ' 번째 문장')
    print("="*120 + '\n')
    print('원문: \n\n' + df['passage'][random_number[0]] + '\n\n')
    print('AI 요약: \n\n' + df['summary'][random_number[0]] + '\n\n')
    print('Gensim 요약: \n\n'+ df['extract'][random_number[0]] + '\n\n')

43 번째 문장

원문: 

 종합적으로 볼 때, 중국이 국내 경제발전에 전념할 수 있는 비교적 평화적이고 안정적인 국제환경이 조성되었다는 것이다. 이런 시대인식과 국제정세에 대한 판단은 지금까지 이어진다. 예를 들어, 2002년 제 16차 당 대회 보고에서 장쩌민(강택민)은 “평화와 발전이 여전히 현시대의 주제”이며, “비교적 장기간에 걸쳐 평화적 국제환경과 양호한 주변 환경을 쟁취하는 것이 실현 가능”하다고 주장했다.
 여기에 더해 중국 정치지도자들은, 현재 중국은 건국 이래 가장 유리한 평화롭고 안정적인 국제환경에 놓였다고 생각한다. 이러한 중국의 인식은 아시아 안보질서에 대한 최근의 일부학자들의 주장과 일치하는 면이 있다. 물론 이들이 현재의 국제정세에 문제가 없다고 생각하는 것은 아니다. 미국의 패권주의와 강권정치가 새롭게 발전하고 있고 군사적 간섭주의와 경제적 식민주의도 지속되고 있다는 것이다. 또한 중국 정치지도자들에 따르면 국부적 무력충돌이 빈발하고, 불공정하고 불합리한 국제정치경제 질서는 아직도 개선되지 않았다. 그밖에도 전통적 위협에 더해 사스(SARS) 등의 전염병이나 경제위기와 같은 비전통적 위협이 국가안보를 위협한다. 그렇지만 전체적으로 보면 중국이 당면한 국제환경은 평화롭고 안정적이다. 이 추세는 앞으로 20년 동안은 지속될 것이고, 그래서 중국은 천재일우의 중요한 전략적 기회를 얻게 되었다고 주장한다.


AI 요약: 

 중국은 경제발전에 전념할 수 있는 국제환경이 조성되었다. 미국의 패권주의와 강권정치의 발전, 국부적 무력충돌의 빈발 등으로 일부 학자들은 현재 중국의 국제정세에 문제가 있다고 생각한다. 하지만 이런 중국의 국제환경은 전체적으로 평화적, 안정적이다. 이 추세는 20년 동안 지속될 것이며 이에 중국은 중요한 전략적 기회를 얻었다고 주장한다.


Gensim 요약: 

종합적으로 볼 때, 중국이 국내 경제발전에 전념할 수 있는 비교적 평화적이고 안정적인 국제환경이 조성되었다는 것이다.
여기에 더해 중국 정치지도자들은, 