## 어텐션을 이용한 텍스트 요약(Text Summarization with Attention mechanism)
- 텍스트 요약 : 상대적으로 큰 원문을 핵심 내용만 간추려서 상대적으로 작은 요약문으로 변환하는 것
- 어텐션 매커니즘(attention mechanism) 기반의 시퀀스-투-시퀀스(Sequences-to-Sequence, seq2seq) 모델을 활용한 텍스트 요약
- 텍스트 요약은 크게 **추출적 요약(extractive summarization)**과 **추상적 요약(abstractive summarization)**으로 구분 <br>
  #### 1) 추출적 요약(extractive summarization)
  - 원문에서 중요한 핵심 문장 또는 단어구를 몇 개 뽑아서 이들로 구성된 요약문을 만드는 방법
  - 결과로 나온 요약문의 문장이나 단어구들은 전부 원문에 있는 문장들
  - 단점 : 이미 존재하는 문장이나 단어구로만 구성하므로 모델의 언어 표현 능력이 제한됨
  
  #### 2) 추상적 요약(abstractive summarization)
  - 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해서 원문을 요약하는 방법
  - 추출적 요약보다는 난이도가 높음
  - 단점 : 기본적으로 지도 학습 문제이기 때문에, 대량의 데이터가 필요함

In [1]:
# install required packages
import urllib.request
urllib.request.urlretrieve("https://raw.githubusercontent.com/thushv89/attention_keras/master/src/layers/attention.py", filename="attention.py")

# clear install verbose messages
from IPython.display import clear_output
clear_output()


# import packages
import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
import nltk
from nltk.corpus import stopwords
from bs4 import BeautifulSoup 
np.random.seed(seed=0)

import tensorflow
from tensorflow.keras.preprocessing.text import Tokenizer 
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Input, LSTM, Embedding, Dense, Concatenate
from tensorflow.keras.models import Model
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

from attention import AttentionLayer


def show_table(df, sample_num=2):
  print('>>> shape :', df.shape)
  print('>>> No of NA :', df.isna().sum().sum())
  if len(df) <= sample_num*2:
    display(df)
  else:
    display(df.head(sample_num))
    display(df.tail(sample_num))
  pass


# pd : 1.1.5  |  np : 1.19.5  |  nltk : 3.2.5  |  tensorflow : 2.4.1
print(f'>>> pd : {pd.__version__}  |  np : {np.__version__}  |  nltk : {nltk.__version__}  |  tensorflow : {tensorflow.__version__}') 

>>> pd : 1.1.5  |  np : 1.19.5  |  nltk : 3.2.5  |  tensorflow : 2.4.1
