# Exploration 10. Text Summarization - 추출적 요약(Extractive Summarization)


텍스트 요약(Text Summarization)이란 긴 길이의 문서(Document) 원문을 핵심 주제만으로 구성된 짧은 요약(Summary) 문장들로 변환하는 것이다.  

텍스트 요약은 크게 추출적 요약(extractive summarization)과 추상적 요약(abstractive summarization)으로 나뉜다.  

- __추출적 요약(Extractive Summarization)__ : 원문에서 중요한 핵심 문장 또는 단어구를 몇 개 뽑아서 이들로 구성된 요약문을 만드는 방법
- __추상적 요약(Abstractive Summarization)__ : 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해서 원문을 요약하는 방법


영화 매트릭스 시놉시스를 사용하여 추출적(Extractive) 텍스트 요약 모델을 만들어보자.  

![image](https://user-images.githubusercontent.com/84179578/129665735-ea26a458-9ecd-48d5-a632-eedce24773fd.png)


## 0. 패키지 설치
패키지 `Summa`에서는 추출적 요약을 위한 모듈인 summarize를 제공하고 있어 아주 간단하게 구현할 수 있다.
```
$ pip install summa
```

## 1. 데이터 준비

In [1]:
import requests
from summa.summarizer import summarize

In [2]:
# 매트릭스 시놉시스 다운
text = requests.get('http://rare-technologies.com/the_matrix_synopsis.txt').text

text에는 매트릭스 시놉시스가 문자열로 저장되어있다.

In [3]:
# 잘 저장되어있는지 확인
print(text[:1500])

The screen is filled with green, cascading code which gives way to the title, The Matrix.

A phone rings and text appears on the screen: "Call trans opt: received. 2-19-98 13:24:18 REC: Log>" As a conversation takes place between Trinity (Carrie-Anne Moss) and Cypher (Joe Pantoliano), two free humans, a table of random green numbers are being scanned and individual numbers selected, creating a series of digits not unlike an ordinary phone number, as if a code is being deciphered or a call is being traced.

Trinity discusses some unknown person. Cypher taunts Trinity, suggesting she enjoys watching him. Trinity counters that "Morpheus (Laurence Fishburne) says he may be 'the One'," just as the sound of a number being selected alerts Trinity that someone may be tracing their call. She ends the call.

Armed policemen move down a darkened, decrepit hallway in the Heart O' the City Hotel, their flashlight beam bouncing just ahead of them. They come to room 303, kick down the door and 

## 2. summarize 사용하기

Summa의 summarize()의 인자로 사용되는 값들은 아래와 같다.
- `text (str)` : 요약할 테스트.
- `ratio (float, optional)` : 요약문에서 원본에서 선택되는 문장 비율. 0~1 사이값
- `words (int or None, optional)` : 출력에 포함할 단어 수.  만약, ratio와 함께 두 파라미터가 모두 제공되는 경우 ratio는 무시함
- `split (bool, optional)` : True면 문장 list / False는 조인(join)된 문자열을 반환

Summa의 summarize는 문장 토큰화를 별도로 하지 않더라도 내부적으로 문장 토큰화를 수행한다. 그렇기 때문에 문장 구분이 되어있지 않은 원문을 바로 입력으로 넣을 수 있다.  

비율을 적게 주어서 요약문으로 선택되는 문장의 개수를 줄이자. 원문의 0.005%만을 출력하도록 설정한다.

In [5]:
print('Summary:')
print(summarize(text, ratio=0.005))

Summary:
Morpheus, Trinity, Neo, Apoc, Switch, Mouse and Cypher are jacked into the Matrix.
Trinity brings the helicopter down to the floor that Morpheus is on and Neo opens fire on the three Agents.


split 인자의 값을 True로 하면 리스트로 출력 결과를 받는다. 

In [6]:
print('Summary:')
print(summarize(text, ratio=0.005, split=True))

Summary:
['Morpheus, Trinity, Neo, Apoc, Switch, Mouse and Cypher are jacked into the Matrix.', 'Trinity brings the helicopter down to the floor that Morpheus is on and Neo opens fire on the three Agents.']


단어의 수를 50개만 선택하도록 요약문의 크기를 조절한다.

In [7]:
print('Summary:')
print(summarize(text, words=50))

Summary:
Trinity takes Neo to Morpheus.
Morpheus, Trinity, Neo, Apoc, Switch, Mouse and Cypher are jacked into the Matrix.
Trinity brings the helicopter down to the floor that Morpheus is on and Neo opens fire on the three Agents.
