# Project1 Used Library - Gensim 
***  
### **INDEX**  
>  
> 1. 바이너리 파일을 문자열로 변경 - base64<br>
> 2. 문자열 다루기 - textwrap, re<br>
> 3. 단어 개수 구하기 - collections.Counter<br>
> 4. **문서 요약하기 - gensim**<br>
> 5. 텍스트 파일 저장 - open, close<br>
>  

### gensim

> ### 자연어 처리, 토픽 모델링에 활발히 사용되는 파이썬 머신러닝 라이브러리
> - **`Word2Vec`** 알고리즘을 통한 **자연어의 벡터화 (Word Embedding)** 이 대표적

> - **`summarization`** 내장 모듈로 **긴 문장을 요약**할 수 있음 ( _gensim 4.x 버전 부터는 요약기능이 지원되지 않음 !_ )
> - **gensim 3.7.3 버전**을 사용
> - 호환을 위해 **파이썬3.7 ver**을 사용
> - 또한 Last Update is 2022.12이므로 다른 프로젝트에서는 적절한 대안을 찾을 필요 有

### Word2Vec 예제

- 30+ 개국어 단어 학습 프로젝트 (https://github.com/Kyubyong/wordvectors)
- [사전 학습모델 다운로드](https://docs.google.com/uc?export=download&id=0B0ZXk88koS2KbDhXdWg1Q2RydlU)

In [1]:
import gensim

In [2]:
# 모델 불러오기
model = gensim.models.Word2Vec.load('ko/ko.bin')
#사전 학습모델 다운로드 가능

In [3]:
model

<gensim.models.word2vec.Word2Vec at 0x1fd0eed1dc8>

In [4]:
# 유사한 단어 검색
model.wv.most_similar("뉴스")

[('리포트', 0.6553797721862793),
 ('언론사', 0.6399534940719604),
 ('앵커', 0.637794017791748),
 ('데일리', 0.6316319704055786),
 ('일간지', 0.6260204315185547),
 ('투데이', 0.623687744140625),
 ('토크쇼', 0.5938538312911987),
 ('중앙일보', 0.5876286625862122),
 ('데스크', 0.5873063802719116),
 ('한겨레', 0.584434986114502)]

In [5]:
# 유사도 검색
model.wv.similarity('자동차', '강아지')

-0.01987284

In [6]:
# 유사도 검색
model.wv.similarity('자동차', '버스')

0.42055488

### 문서 요약하기

- [AI 도서자료 요약 데이터](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=93)
- [데이터 다운로드 링크](https://docs.google.com/uc?export=download&id=1-FOX-Uo17eG5lV0qop9SWaTuzp7AIYtX)

In [10]:
from gensim.summarization.summarizer import summarize
import pandas as pd
import numpy as np

In [11]:
# 데이터 불러오기
df = pd.read_csv('Book_test.csv')
df = df.iloc[0:100]
df.reset_index(inplace=True)

In [12]:
df.head()

Unnamed: 0.1,index,Unnamed: 0,passage,summary
0,0,0,이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다....,후진타오 시대는 제 3세대 지도자가 물러나며 제 4세대 지도자가 새로운 통치 집단...
1,1,1,한편 사영기업가의 입당허용이 단기간에 중국정치에 변화를 몰고 올 것 같지는 않다....,사영기업가 계층은 국가의 통제를 아직 벗어나지 못했다는 등의 이유로 단기간에 중국...
2,2,2,그런데 제 16차 당 대회에서는 민족주의를 강조하는 경향이 이전보다 더욱 두드러졌...,"공산당이 국민정당에 대해 민족정당이 된 것, 정치보고에 민족정신 등에 대한 강조가..."
3,3,3,2.3.2 제10기 전국인민대표대회 제 1차 회의(2003년)\n 2003년 3월 ...,2003년의 10기 전국인대 1차 회의는 주요 국가지도자에 대한 인선이 있었고 공...
4,4,4,1) 인선에 대한 총괄평가\n 제 10기 전국인대 제 1차 회의에서 선출(비준)된...,10기 전국인대 1차 회의는 완전하고 실질적인 권력이양이 이루어지지 않았다. 이에...


In [13]:
df.loc[0,'passage']

' 이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다. 이를 위해 여기서는 2002년 11월 개최된 중국공산당 제 16차 전국대표대회(당 대회)와 2003년 3월 개최된 제 10기 전국인민대표대회(전국인대) 제 1차 회의를 분석할 것이다. 후진타오 시대는 이 두 대회를 시작으로 2004년 9월 공산당 제 16기 중앙위원회 4차 전체회의(4중전회)까지 약 2년의 긴 과정을 거쳐 형성되었다. 우선, 이 기간 동안 장쩌민(장택민), 리펑(이붕), 주룽지(주용기)로 대표되는 제 3세대 지도자가 물러나고, 후진타오, 원자바오(온가보), 쩡칭홍(증경홍)으로 대표되는 제 4세대 지도자가 새로운 통치 집단으로 등장했다. 또한, 이 기간 동안 후진타오 시대의 중국이 실시할 국가정책의 방침과 내용이 서서히 모습을 드러냈다. 따라서 후진타오 시대의 등장과정을 이해하기 위해서는 16차 당 대회와 10기 전국인대 1차 회의에 대한 분석이 필수적이다.\n 그런데 제 3세대에서 제 4세대로의 권력이양은 결코 순탄하지 않았다. 장쩌민이 2002년 16차 당 대회에서 후진타오에게 총서기직을 물려준 다음에도 2004년 공산당 제 16기 4중전회까지 약 2년 동안 중앙군사위원회 주석직을 유지했다는 사실은 이를 상징적으로 보여준다. 따라서 이 기간은 장쩌민 시대와 후진타오 시대가 공존하는 일종의 과도기라고 할 수 있다. 또한 이 기간은 후진타오와 원자바오가 장쩌민 세력에 맞서 자신의 권력기반을 공고히 하는 한편 장쩌민 시대의 유산을 정리하면서 국민들에게 자신의 새로운 비전을 제시하는 탐색기였다고 말할 수 있다.'

In [18]:
import textwrap

In [22]:
#csv파일에 내장되어 있는 summary 열 
text_or = df.loc[0,'summary']
filled_text_or = textwrap.fill(text_or, width=40)
print(filled_text_or)

 후진타오 시대는 제 3세대 지도자가 물러나며 제 4세대 지도자가 새로운
통치 집단이 되었고 국가정책 방침과 내용이 모습을 드러냈다. 장쩌민이
후진타오에게 총서기직을 물려준 후에도 약 2년 동안 중앙군사위원회
주석직을 유지한 것은 제 3세대에서 제 4세대로의 순탄치 않은 권력이양을
보여준다. 이 시기는 장쩌민 시대와 후진타오 시대가 공존하는 과도기이며
후진타오와 원자바오가 자신의 새로운 비전을 제시하는 탐색기였다.


In [23]:
# 첫번째 데이터 요약
text_rough = summarize(df.loc[0,'passage'])
filled_text_rough = textwrap.fill(text_rough, width=40)
print(filled_text_rough)

이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는
것이다. 따라서 이 기간은 장쩌민 시대와 후진타오 시대가 공존하는 일종의
과도기라고 할 수 있다.


In [24]:
# 첫번째 데이터 요약
text_ratio = summarize(df.loc[0,'passage'], ratio=0.4)
filled_text_ratio = textwrap.fill(text_ratio, width=40)
print(filled_text_ratio)

이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는
것이다. 후진타오 시대는 이 두 대회를 시작으로 2004년 9월 공산당
제 16기 중앙위원회 4차 전체회의(4중전회)까지 약 2년의 긴 과정을
거쳐 형성되었다. 따라서 후진타오 시대의 등장과정을 이해하기 위해서는
16차 당 대회와 10기 전국인대 1차 회의에 대한 분석이 필수적이다.
따라서 이 기간은 장쩌민 시대와 후진타오 시대가 공존하는 일종의
과도기라고 할 수 있다.


In [25]:
# 전체 데이터 적용
df['extract'] = df.passage.apply(lambda x : summarize(x, ratio=0.4))

In [26]:
df.head()

Unnamed: 0.1,index,Unnamed: 0,passage,summary,extract
0,0,0,이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다....,후진타오 시대는 제 3세대 지도자가 물러나며 제 4세대 지도자가 새로운 통치 집단...,이 장은 후진타오(호금도) 시대가 어떤 과정을 통해 등장했는가를 검토하는 것이다.\...
1,1,1,한편 사영기업가의 입당허용이 단기간에 중국정치에 변화를 몰고 올 것 같지는 않다....,사영기업가 계층은 국가의 통제를 아직 벗어나지 못했다는 등의 이유로 단기간에 중국...,그러나 장기적으로 볼 때 사영기업가 계층의 정치적 복권은 정치변화와 관련해 큰 의미...
2,2,2,그런데 제 16차 당 대회에서는 민족주의를 강조하는 경향이 이전보다 더욱 두드러졌...,"공산당이 국민정당에 대해 민족정당이 된 것, 정치보고에 민족정신 등에 대한 강조가...","예를 들어, 앞에서 보았듯이 “당헌” 개정에 의해 공산당이 ‘중화민족의 선봉대’로 ..."
3,3,3,2.3.2 제10기 전국인민대표대회 제 1차 회의(2003년)\n 2003년 3월 ...,2003년의 10기 전국인대 1차 회의는 주요 국가지도자에 대한 인선이 있었고 공...,또한 제 10기 전국인대 첫 번째 회의는 5년 임기의 제 10기 전국인대가 시작하는...
4,4,4,1) 인선에 대한 총괄평가\n 제 10기 전국인대 제 1차 회의에서 선출(비준)된...,10기 전국인대 1차 회의는 완전하고 실질적인 권력이양이 이루어지지 않았다. 이에...,"우선, 제 10기 전국인대 제 1차 회의에서는 장쩌민으로부터 후진타오로의 실질적이고..."


In [27]:
# 시각화
for i in range(0,1):
    random_number = np.random.randint(0, 100, size=1)
    print("="*120)
    print(f'{random_number[0]}' + ' 번째 문장 \n')
    print('원문: \n\n' + df['passage'][random_number[0]] + '\n\n')
    print('AI 요약: \n\n' + df['summary'][random_number[0]] + '\n\n')
    print('Gensim 요약: \n\n'+ df['extract'][random_number[0]] + '\n\n')

85 번째 문장 

원문: 

누구나 아는 일이지만 인간의 삶은 다양합니다. 이를테면 몸매도, 피부색도, 언어도, 먹거리도, 생각 틀도, 귀하게 여기는 것도, 꿈도 같지 않습니다. 그러한 사람들이 여기저기 모여 살아가고 있습니다. 그래서 세상에는 여러 다른 문화들이 있음을 우리는 잘 압니다. 그런가 하면 살아가는 생태적인 조건들도 한결같지 않습니다. 계절, 지형, 기후, 지역들이 서로 달라 이에 맞추어 생존하는 이러저러한 경험들 때문에 삶의 모습이 크게 달라지기도 합니다. 게다가 역사의 긴 과정마저 염두에 두면 삶이 복잡하고 다양하다는 것은 굳이 말할 필요조차 없습니다. 지금 여기와 상관없다고 해도 좋을 지난 어떤 세월들 속에는 지금 우리의 삶과 아주 다른 삶이 그때 거기에 잘 어울리는 모습으로 있었을 것을 생각해보십시다. 세월이 흐르면서, 그 마디를 뚜렷이 할 수는 없어도 얼마나 다른 삶의 모습들이 고리처럼 이어져왔을 것인가 하는 것을 짐작하는 일은 조금도 어렵지 않습니다. 세상은, 그리고 삶의 모습은 참 다양합니다. 역사-문화적 다양성을 제대로 보지 않고 지금 여기에서 우리가 겪는 것만을 인류의 역사이고 문화라고 한다면 우리는 무척 어리석은 사람일 수밖에 없습니다.


AI 요약: 

인간의 삶은 다양하고 세상에는 여러 다른 문화가 있습니다. 생태적인 조건은 변하고 역사의 긴 과정까지 더하면 더 복잡하고 다양합니다. 역사-문화적 다양성을 보지 않고 우리가 경험한 것만 인류의 역사이자 문화라고 한다면 그것은 어리석은 일입니다.


Gensim 요약: 

누구나 아는 일이지만 인간의 삶은 다양합니다.
이를테면 몸매도, 피부색도, 언어도, 먹거리도, 생각 틀도, 귀하게 여기는 것도, 꿈도 같지 않습니다.
그런가 하면 살아가는 생태적인 조건들도 한결같지 않습니다.
역사-문화적 다양성을 제대로 보지 않고 지금 여기에서 우리가 겪는 것만을 인류의 역사이고 문화라고 한다면 우리는 무척 어리석은 사람일 수밖에 없습니다.


