# 참고

- \#@ : 단순 노트
- \#@KeyNote : 핵심 개념 노트
- \#@Todo : 당장 해야할 것들

# 프로젝트: 뉴스기사 요약해보기

In [62]:
from importlib.metadata import version
import nltk
import tensorflow
import summa
import pandas as pd
import numpy as np
import os
import re
import matplotlib.pyplot as plt
from nltk.corpus import stopwords
from bs4 import BeautifulSoup 
from tensorflow.keras.preprocessing.text import Tokenizer 
from tensorflow.keras.preprocessing.sequence import pad_sequences
import urllib.request
import warnings
warnings.filterwarnings("ignore", category=UserWarning, module='bs4')

print(nltk.__version__)
print(tensorflow.__version__)
print(pd.__version__)
print(version('summa'))

3.6.5
2.6.0
1.3.3
1.2.0


# Step 1. 데이터 수집하기

이 데이터는 기사의 본문에 해당되는 text와 headlines 두 가지 열로 구성되어져 있습니다.

추상적 요약을 하는 경우에는 text를 본문, headlines를 이미 요약된 데이터로 삼아서 모델을 학습할 수 있어요. 추출적 요약을 하는 경우에는 오직 text열만을 사용하세요.

In [63]:
import urllib.request
urllib.request.urlretrieve("https://raw.githubusercontent.com/sunnysai12345/News_Summary/master/news_summary_more.csv", filename="../data/news_summary_more.csv")
data = pd.read_csv('../data/news_summary_more.csv', encoding='iso-8859-1')

In [64]:
data.sample(10)

Unnamed: 0,headlines,text
47603,ED asks MEA to revoke Nirav Modi's passport,The Enforcement Directorate on Thursday wrote ...
90568,Higuain's brace seals Juventus' 2-0 CL win aga...,Juventus' Argentine forward Gonzalo Higuain sc...
61181,Pakistan must end illegal occupation of PoK: I...,India has asked Pakistan at the UN to end its ...
7910,I've nose and mouth again: Man who shot himsel...,"America's 26-year-old Cameron Underwood, who g..."
5410,New species of snake discovered inside another...,Scientists have discovered remains of a new sp...
71316,Climate change may wipe out 33% of parasites b...,Changing climate could cause extinction of up ...
73468,Two-time Olympic silver medalist arrested for ...,Australia's silver-winning Olympic medalist Ja...
81144,Actress killed by drug dealers over Ã¢ÂÂ¹6k p...,"According to Mumbai Police, actress Kritika Ch..."
95138,Rani Mukerji starts shooting for her comeback ...,Actress Rani Mukerji has started shooting for ...
52571,Upcoming app to use blockchain tech to verify ...,Netherlands-based company LegalThings is deve...


In [65]:
#@KeyNote 기존 코드 활용을 쉽게 하기 위해서 이름 변경.

# 컬럼 이름 변경
data.rename(columns={'headlines': 'Summary', 'text': 'Text'}, inplace=True)

# 컬럼 순서 변경
data = data[['Text', 'Summary']]

In [66]:
# 결과 확인
data.sample(10)

Unnamed: 0,Text,Summary
63917,Students at United States' Southern Illinois U...,Poop repeatedly found in washing machines of U...
61927,"In a document submitted to the court, the CBI ...",Class XI Ryan student confessed to murder of P...
87279,The government will be providing cheaper headp...,Tejas to get cheaper headphones after passenge...
89967,India-born brothers Srichand and Gopichand Hin...,India-born Hinduja brothers top UK's rich list...
8008,"A 19-year-old British student, who clicked a p...","UK teen takes photo from plane, faces spying t..."
34865,A man has been arrested for allegedly raping a...,Man rapes 6-yr-old who stepped out of home to ...
15860,Mercedes-Benz parent Daimler has named Swedish...,Mercedes-Benz maker names first ever non-Germa...
63786,Fourteen-time major winner American golfer Tig...,Tiger Woods' brand value dips Ã¢ÂÂ¹425 cr sin...
94785,Actor Aamir Khan has decided not to release 'D...,Aamir refuses Dangal release in Pak without Na...
26347,A mid-air collision between two IndiGo planes ...,Mid-air collision averted between two IndiGo p...


In [67]:
for _, row in data.sample(2).iterrows():
    print(f"[Text]         {row['Text']}\n -> {len(row['Text'])}문자\n")
    print(f"[Summary]    {row['Summary']}\n -> {len(row['Summary'])}문자")
    print("\n\n")


[Text]         NASA has shared the final image taken by the Cassini spacecraft before it plunged into Saturn's atmosphere, ending its 20-year mission. Built in the early 1990s, the $3.9-billion spacecraft had a 1-megapixel camera, with which it took over 4,50,000 images of Saturn's rings and moons. The image here shows the site of atmospheric entry, taken at 6,34,000 kilometres from Saturn.
 -> 378문자

[Summary]    NASA shares last image by spaceship that crashed into Saturn
 -> 60문자



[Text]         A 25-year-old Hindu woman has moved the Kerala High Court against a Muslim man, alleging that he wanted to take her to Syria and sell her to ISIS as a sex slave. She claimed that he had forcibly converted her to Islam and forged documents to marry her. The woman also accused him of coercing her to have sexual intercourse. 
 -> 324문자

[Summary]    Kerala woman claims husband wanted to sell her as ISIS slave
 -> 60문자





# Step 2. 데이터 전처리하기 (추상적 요약)

실습에서 사용된 전처리를 참고하여 각자 필요하다고 생각하는 전처리를 추가 사용하여 텍스트를 정규화 또는 정제해 보세요. 만약, 불용어 제거를 선택한다면 상대적으로 길이가 짧은 요약 데이터에 대해서도 불용어를 제거하는 것이 좋을지 고민해 보세요.

- Abstractive한 문장 요약 결과문이 자연스러운 문장이 되려면 불용어들이 Summary에는 남아 있는 게 더 좋을 것 같음.

## 데이터 전처리하기 (1) 데이터 정리하기

### 중복 샘플과 NULL 값이 존재하는 샘플 제거

In [68]:
print('Text 열에서 중복을 배제한 유일한 샘플의 수 :', data['Text'].nunique())
print('Summary 열에서 중복을 배제한 유일한 샘플의 수 :', data['Summary'].nunique())

Text 열에서 중복을 배제한 유일한 샘플의 수 : 98360
Summary 열에서 중복을 배제한 유일한 샘플의 수 : 98280


In [69]:
# inplace=True 를 설정하면 DataFrame 타입 값을 return 하지 않고 data 내부를 직접적으로 바꿉니다
data.drop_duplicates(subset = ['Text'], inplace=True)
print('전체 샘플수 :', (len(data)))

전체 샘플수 : 98360


In [70]:
print(data.isnull().sum())

Text       0
Summary    0
dtype: int64


In [35]:
#@ 데이터셋의 'Text' 자체에 비어있는 게 없으므로 무의미하지만, 템플릿 느낌으로 포함.
data.dropna(axis=0, inplace=True)
print('전체 샘플수 :', (len(data)))

전체 샘플수 : 98360


### 텍스트 정규화와 불용어 제거

정규화 사전 출처
https://stackoverflow.com/questions/19790188/expanding-english-language-contractions-in-python

In [71]:
contractions = {"ain't": "is not", "aren't": "are not","can't": "cannot", "'cause": "because", "could've": "could have", "couldn't": "could not",
                           "didn't": "did not",  "doesn't": "does not", "don't": "do not", "hadn't": "had not", "hasn't": "has not", "haven't": "have not",
                           "he'd": "he would","he'll": "he will", "he's": "he is", "how'd": "how did", "how'd'y": "how do you", "how'll": "how will", "how's": "how is",
                           "I'd": "I would", "I'd've": "I would have", "I'll": "I will", "I'll've": "I will have","I'm": "I am", "I've": "I have", "i'd": "i would",
                           "i'd've": "i would have", "i'll": "i will",  "i'll've": "i will have","i'm": "i am", "i've": "i have", "isn't": "is not", "it'd": "it would",
                           "it'd've": "it would have", "it'll": "it will", "it'll've": "it will have","it's": "it is", "let's": "let us", "ma'am": "madam",
                           "mayn't": "may not", "might've": "might have","mightn't": "might not","mightn't've": "might not have", "must've": "must have",
                           "mustn't": "must not", "mustn't've": "must not have", "needn't": "need not", "needn't've": "need not have","o'clock": "of the clock",
                           "oughtn't": "ought not", "oughtn't've": "ought not have", "shan't": "shall not", "sha'n't": "shall not", "shan't've": "shall not have",
                           "she'd": "she would", "she'd've": "she would have", "she'll": "she will", "she'll've": "she will have", "she's": "she is",
                           "should've": "should have", "shouldn't": "should not", "shouldn't've": "should not have", "so've": "so have","so's": "so as",
                           "this's": "this is","that'd": "that would", "that'd've": "that would have", "that's": "that is", "there'd": "there would",
                           "there'd've": "there would have", "there's": "there is", "here's": "here is","they'd": "they would", "they'd've": "they would have",
                           "they'll": "they will", "they'll've": "they will have", "they're": "they are", "they've": "they have", "to've": "to have",
                           "wasn't": "was not", "we'd": "we would", "we'd've": "we would have", "we'll": "we will", "we'll've": "we will have", "we're": "we are",
                           "we've": "we have", "weren't": "were not", "what'll": "what will", "what'll've": "what will have", "what're": "what are",
                           "what's": "what is", "what've": "what have", "when's": "when is", "when've": "when have", "where'd": "where did", "where's": "where is",
                           "where've": "where have", "who'll": "who will", "who'll've": "who will have", "who's": "who is", "who've": "who have",
                           "why's": "why is", "why've": "why have", "will've": "will have", "won't": "will not", "won't've": "will not have",
                           "would've": "would have", "wouldn't": "would not", "wouldn't've": "would not have", "y'all": "you all",
                           "y'all'd": "you all would","y'all'd've": "you all would have","y'all're": "you all are","y'all've": "you all have",
                           "you'd": "you would", "you'd've": "you would have", "you'll": "you will", "you'll've": "you will have",
                           "you're": "you are", "you've": "you have"}

print("정규화 사전의 수: ", len(contractions))

정규화 사전의 수:  120


In [72]:
nltk.download('stopwords')

print('불용어 개수 :', len(stopwords.words('english') ))
print(stopwords.words('english'))

불용어 개수 : 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 's

[nltk_data] Downloading package stopwords to /aiffel/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [73]:
# 데이터 전처리 함수
def preprocess_sentence(sentence, remove_stopwords=True):
    sentence = sentence.lower() # 텍스트 소문자화
    sentence = BeautifulSoup(sentence, "lxml").text # <br />, <a href = ...> 등의 html 태그 제거
    sentence = re.sub(r'\([^)]*\)', '', sentence) # 괄호로 닫힌 문자열 (...) 제거 Ex) my husband (and myself!) for => my husband for
    sentence = re.sub('"','', sentence) # 쌍따옴표 " 제거
    sentence = ' '.join([contractions[t] if t in contractions else t for t in sentence.split(" ")]) # 약어 정규화
    sentence = re.sub(r"'s\b","", sentence) # 소유격 제거. Ex) roland's -> roland
    sentence = re.sub("[^a-zA-Z]", " ", sentence) # 영어 외 문자(숫자, 특수문자 등) 공백으로 변환
    sentence = re.sub('[m]{2,}', 'mm', sentence) # m이 3개 이상이면 2개로 변경. Ex) ummmmmmm yeah -> umm yeah
    
    # 불용어 제거 (Text)
    if remove_stopwords:
        tokens = ' '.join(word for word in sentence.split() if not word in stopwords.words('english') if len(word) > 1)
    # 불용어 미제거 (Summary)
    else:
        tokens = ' '.join(word for word in sentence.split() if len(word) > 1)
    return tokens

In [75]:
# 전처리 후 차이점 살펴보기
for _, row in data.sample(1).iterrows():
    print(f"=== Text:    \n    {row['Text']}\n => {preprocess_sentence(row['Text'])}")
    print(f"=== Summary:    \n    {row['Summary']}\n => {preprocess_sentence(row['Summary'])}")
    

=== Text:    
    The formula of Benzene was known long before its structure was determined, as arranging six carbon and six hydrogen atoms without violating the rules of chemistry didn't seem possible. However, German chemist August KekulÃÂ©, while presenting his research on Benzene in 1890, claimed he had discovered its ring structure after having a dream of a snake biting its own tail.
 => formula benzene known long structure determined arranging six carbon six hydrogen atoms without violating rules chemistry seem possible however german chemist august kekul presenting research benzene claimed discovered ring structure dream snake biting tail
=== Summary:    
    Idea of Benzene ring structure is based on dream about snake
 => idea benzene ring structure based dream snake


In [None]:
# 전체 Text 데이터에 대한 전처리
clean_text = []

for sentence in data['Text']:
    #@ 불용어 제거: 텍스트 길이가 길기 때문
    processed_sentence = preprocess_sentence(sentence, remove_stopwords=True)
    clean_text.append(processed_sentence)

# 전처리 후 출력
print("Text 전처리 후 결과: ", clean_text[:2])

In [None]:
# 전체 Summary 데이터에 대한 전처리
clean_headlines = []

for sentence in data['Summary']:
    #@ 불용어 제거하지 않음: 텍스트 길이가 짧아서 주요 정보 소실될 수 있음.
    processed_sentence = preprocess_sentence(sentence, remove_stopwords=False)  
    clean_summary.append(processed_sentence)

print("Summary 전처리 후 결과: ", clean_headlines[:2])

In [None]:
data['Text'] = clean_text
data['Summary'] = clean_summary

# 빈 값을 Null 값으로 변환
data.replace('', np.nan, inplace=True)

In [None]:
data.head()

In [None]:
data.isnull().sum()

In [None]:
data.dropna(axis=0, inplace=True)
print('전체 샘플수 :', (len(data)))

## 데이터 전처리하기 (2) 훈련데이터와 테스트데이터 나누기

### 샘플의 최대 길이 정하기

In [None]:
import matplotlib.pyplot as plt

text_len = [len(s.split()) for s in data['Text']]
summary_len = [len(s.split()) for s in data['Summary']]

print('텍스트의 최소 길이 : {}'.format(np.min(text_len)))
print('텍스트의 최대 길이 : {}'.format(np.max(text_len)))
print('텍스트의 평균 길이 : {}'.format(np.mean(text_len)))
print('요약의 최소 길이 : {}'.format(np.min(summary_len)))
print('요약의 최대 길이 : {}'.format(np.max(summary_len)))
print('요약의 평균 길이 : {}'.format(np.mean(summary_len)))

plt.subplot(1,2,1)
plt.boxplot(text_len)
plt.title('Text')
plt.subplot(1,2,2)
plt.boxplot(summary_len)
plt.title('Summary')
plt.tight_layout()
plt.show()

plt.title('Text')
plt.hist(text_len, bins = 40)
plt.xlabel('length of samples')
plt.ylabel('number of samples')
plt.show()

plt.title('Summary')
plt.hist(summary_len, bins = 40)
plt.xlabel('length of samples')
plt.ylabel('number of samples')
plt.show()

In [None]:
#@TODO: 적당한 길이 설정 필요함 (상의해봐야 함)
# text_max_len = 50
# summary_max_len = 8

In [None]:
def below_threshold_len(max_len, nested_list):
  cnt = 0
  for s in nested_list:
    if(len(s.split()) <= max_len):
        cnt = cnt + 1
  print('전체 샘플 중 길이가 %s 이하인 샘플의 비율: %s'%(max_len, (cnt / len(nested_list))))
print('=3')

In [None]:
below_threshold_len(text_max_len, data['Text'])
below_threshold_len(summary_max_len,  data['Summary'])

In [None]:
# 조건에 맞는 샘플만 필터링
filtered_data = data[
    data['Text'].apply(lambda x: len(x.split()) <= text_max_len) &  # Text 길이 조건
    data['Summary'].apply(lambda x: len(x.split()) <= summary_max_len)  # Summary 길이 조건
]

# 결과 출력
print(f"필터링 전 샘플 수: {len(data)}")
print(f"필터링 후 샘플 수: {len(filtered_data)}")

### 시작 토큰과 종료 토큰 추가하기

In [None]:
# 요약 데이터에는 시작 토큰과 종료 토큰을 추가한다.
data['decoder_input'] = data['Summary'].apply(lambda x : 'sostoken '+ x)
data['decoder_target'] = data['Summary'].apply(lambda x : x + ' eostoken')
data.head()

In [None]:
encoder_input = np.array(data['Text']) # 인코더의 입력
decoder_input = np.array(data['decoder_input']) # 디코더의 입력
decoder_target = np.array(data['decoder_target']) # 디코더의 레이블

In [None]:
indices = np.arange(encoder_input.shape[0])
np.random.shuffle(indices)
print(indices)

In [None]:
encoder_input = encoder_input[indices]
decoder_input = decoder_input[indices]
decoder_target = decoder_target[indices]

In [None]:
n_of_val = int(len(encoder_input)*0.2)
print('테스트 데이터의 수 :', n_of_val)

In [None]:
encoder_input_train = encoder_input[:-n_of_val]
decoder_input_train = decoder_input[:-n_of_val]
decoder_target_train = decoder_target[:-n_of_val]

encoder_input_test = encoder_input[-n_of_val:]
decoder_input_test = decoder_input[-n_of_val:]
decoder_target_test = decoder_target[-n_of_val:]

print('훈련 데이터의 개수 :', len(encoder_input_train))
print('훈련 레이블의 개수 :', len(decoder_input_train))
print('테스트 데이터의 개수 :', len(encoder_input_test))
print('테스트 레이블의 개수 :', len(decoder_input_test))

## 데이터 전처리하기 (3) 정수 인코딩

### 단어 집합(vocabulary) 만들기 및 정수 인코딩

In [None]:
src_tokenizer = Tokenizer() # 토크나이저 정의
src_tokenizer.fit_on_texts(encoder_input_train) # 입력된 데이터로부터 단어 집합 생성

In [None]:
print(list(src_tokenizer.word_index.items())[:5])  # 단어-인덱스 맵핑 상위 5개 출력

In [None]:
threshold = 7
total_cnt = len(src_tokenizer.word_index) # 단어의 수
rare_cnt = 0 # 등장 빈도수가 threshold보다 작은 단어의 개수를 카운트
total_freq = 0 # 훈련 데이터의 전체 단어 빈도수 총 합
rare_freq = 0 # 등장 빈도수가 threshold보다 작은 단어의 등장 빈도수의 총 합

# 단어와 빈도수의 쌍(pair)을 key와 value로 받는다.
for key, value in src_tokenizer.word_counts.items():
    total_freq = total_freq + value

    # 단어의 등장 빈도수가 threshold보다 작으면
    if(value < threshold):
        rare_cnt = rare_cnt + 1
        rare_freq = rare_freq + value

print('단어 집합(vocabulary)의 크기 :', total_cnt)
print('등장 빈도가 %s번 이하인 희귀 단어의 수: %s'%(threshold - 1, rare_cnt))
print('단어 집합에서 희귀 단어를 제외시킬 경우의 단어 집합의 크기 %s'%(total_cnt - rare_cnt))
print("단어 집합에서 희귀 단어의 비율:", (rare_cnt / total_cnt)*100)
print("전체 등장 빈도에서 희귀 단어 등장 빈도 비율:", (rare_freq / total_freq)*100)

In [None]:
src_vocab = 8000
src_tokenizer = Tokenizer(num_words=src_vocab) # 단어 집합의 크기를 8,000으로 제한
src_tokenizer.fit_on_texts(encoder_input_train) # 단어 집합 재생성

In [None]:
# 텍스트 시퀀스를 정수 시퀀스로 변환
encoder_input_train = src_tokenizer.texts_to_sequences(encoder_input_train) 
encoder_input_test = src_tokenizer.texts_to_sequences(encoder_input_test)

# 잘 진행되었는지 샘플 출력
print(encoder_input_train[:3])

In [None]:
tar_tokenizer = Tokenizer()
tar_tokenizer.fit_on_texts(decoder_input_train)

In [None]:
threshold = 6
total_cnt = len(tar_tokenizer.word_index) # 단어의 수
rare_cnt = 0 # 등장 빈도수가 threshold보다 작은 단어의 개수를 카운트
total_freq = 0 # 훈련 데이터의 전체 단어 빈도수 총 합
rare_freq = 0 # 등장 빈도수가 threshold보다 작은 단어의 등장 빈도수의 총 합

# 단어와 빈도수의 쌍(pair)을 key와 value로 받는다.
for key, value in tar_tokenizer.word_counts.items():
    total_freq = total_freq + value

    # 단어의 등장 빈도수가 threshold보다 작으면
    if(value < threshold):
        rare_cnt = rare_cnt + 1
        rare_freq = rare_freq + value

print('단어 집합(vocabulary)의 크기 :', total_cnt)
print('등장 빈도가 %s번 이하인 희귀 단어의 수: %s'%(threshold - 1, rare_cnt))
print('단어 집합에서 희귀 단어를 제외시킬 경우의 단어 집합의 크기 %s'%(total_cnt - rare_cnt))
print("단어 집합에서 희귀 단어의 비율:", (rare_cnt / total_cnt)*100)
print("전체 등장 빈도에서 희귀 단어 등장 빈도 비율:", (rare_freq / total_freq)*100)

In [None]:
tar_vocab = 2000
tar_tokenizer = Tokenizer(num_words=tar_vocab) 
tar_tokenizer.fit_on_texts(decoder_input_train)
tar_tokenizer.fit_on_texts(decoder_target_train)

# 텍스트 시퀀스를 정수 시퀀스로 변환
decoder_input_train = tar_tokenizer.texts_to_sequences(decoder_input_train) 
decoder_target_train = tar_tokenizer.texts_to_sequences(decoder_target_train)
decoder_input_test = tar_tokenizer.texts_to_sequences(decoder_input_test)
decoder_target_test = tar_tokenizer.texts_to_sequences(decoder_target_test)

# 잘 변환되었는지 확인
print('input')
print('input ',decoder_input_train[:5])
print('target')
print('decoder ',decoder_target_train[:5])

In [None]:
drop_train = [index for index, sentence in enumerate(decoder_input_train) if len(sentence) == 1]
drop_test = [index for index, sentence in enumerate(decoder_input_test) if len(sentence) == 1]

print('삭제할 훈련 데이터의 개수 :', len(drop_train))
print('삭제할 테스트 데이터의 개수 :', len(drop_test))

encoder_input_train = [sentence for index, sentence in enumerate(encoder_input_train) if index not in drop_train]
decoder_input_train = [sentence for index, sentence in enumerate(decoder_input_train) if index not in drop_train]
decoder_target_train = [sentence for index, sentence in enumerate(decoder_target_train) if index not in drop_train]

encoder_input_test = [sentence for index, sentence in enumerate(encoder_input_test) if index not in drop_test]
decoder_input_test = [sentence for index, sentence in enumerate(decoder_input_test) if index not in drop_test]
decoder_target_test = [sentence for index, sentence in enumerate(decoder_target_test) if index not in drop_test]

print('훈련 데이터의 개수 :', len(encoder_input_train))
print('훈련 레이블의 개수 :', len(decoder_input_train))
print('테스트 데이터의 개수 :', len(encoder_input_test))
print('테스트 레이블의 개수 :', len(decoder_input_test))

### 패딩하기

In [None]:
encoder_input_train = pad_sequences(encoder_input_train, maxlen=text_max_len, padding='post')
encoder_input_test = pad_sequences(encoder_input_test, maxlen=text_max_len, padding='post')
decoder_input_train = pad_sequences(decoder_input_train, maxlen=summary_max_len, padding='post')
decoder_target_train = pad_sequences(decoder_target_train, maxlen=summary_max_len, padding='post')
decoder_input_test = pad_sequences(decoder_input_test, maxlen=summary_max_len, padding='post')
decoder_target_test = pad_sequences(decoder_target_test, maxlen=summary_max_len, padding='post')

In [None]:
print("encoder_input_train: ", encoder_input_train, "\n", len(encoder_input_train), "개 (", len(encoder_input_train[0]), ")")
print("encoder_input_test: ", encoder_input_test, "\n", len(encoder_input_test), "개 (", len(encoder_input_test[0]), ")")
print("decoder_input_train: ", decoder_input_train, "\n", len(decoder_input_train), "개 (", len(decoder_input_train[0]), ")")
print("decoder_target_train: ", decoder_target_train, "\n", len(decoder_target_train), "개 (", len(decoder_target_train[0]), ")")
print("decoder_input_test: ", decoder_input_test, "\n", len(decoder_input_test), "개 (", len(decoder_input_test[0]), ")")
print("decoder_target_test: ", decoder_target_test, "\n", len(decoder_target_test), "개 (", len(decoder_target_test[0]), ")")

# Step 3. 어텐션 메커니즘 사용하기 (추상적 요약)

일반적인 seq2seq보다는 어텐션 메커니즘을 사용한 seq2seq를 사용하는 것이 더 나은 성능을 얻을 수 있어요. 실습 내용을 참고하여 어텐션 메커니즘을 사용한 seq2seq를 설계해 보세요.

## Seq2Seq (기본) 모델 설계하기

In [None]:
from tensorflow.keras.layers import Input, LSTM, Embedding, Dense, Concatenate, TimeDistributed
from tensorflow.keras.models import Model
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint


# 인코더 설계 시작
embedding_dim = 128
hidden_size = 256

# 인코더
encoder_inputs = Input(shape=(text_max_len,))

# 인코더의 임베딩 층
enc_emb = Embedding(src_vocab, embedding_dim)(encoder_inputs)

# 인코더의 LSTM 1
encoder_lstm1 = LSTM(hidden_size, return_sequences=True, return_state=True ,dropout = 0.4)
encoder_output1, state_h1, state_c1 = encoder_lstm1(enc_emb)

# 인코더의 LSTM 2
encoder_lstm2 = LSTM(hidden_size, return_sequences=True, return_state=True, dropout=0.4)
encoder_output2, state_h2, state_c2 = encoder_lstm2(encoder_output1)

# 인코더의 LSTM 3
encoder_lstm3 = LSTM(hidden_size, return_sequences=True, return_state=True, dropout=0.4)
encoder_output3, state_h3, state_c3 = encoder_lstm3(encoder_output2)


In [None]:
# 디코더의 출력층
decoder_softmax_layer = Dense(tar_vocab, activation='softmax')
decoder_softmax_outputs = decoder_softmax_layer(decoder_outputs) 

# 모델 정의
model = Model([encoder_inputs, decoder_inputs], decoder_softmax_outputs)
model.summary()

## 어텐션 메커니즘

In [None]:
from tensorflow.keras.layers import AdditiveAttention

# 어텐션 층(어텐션 함수)
attn_layer = AdditiveAttention(name='attention_layer')

# 인코더와 디코더의 모든 time step의 hidden state를 어텐션 층에 전달하고 결과를 리턴
attn_out = attn_layer([decoder_outputs, encoder_outputs])


# 어텐션의 결과와 디코더의 hidden state들을 연결
decoder_concat_input = Concatenate(axis=-1, name='concat_layer')([decoder_outputs, attn_out])

# 디코더의 출력층
decoder_softmax_layer = Dense(tar_vocab, activation='softmax')
decoder_softmax_outputs = decoder_softmax_layer(decoder_concat_input)

# 모델 정의
model = Model([encoder_inputs, decoder_inputs], decoder_softmax_outputs)
model.summary()

## 모델 훈련

In [None]:
model.compile(optimizer='rmsprop', loss='sparse_categorical_crossentropy')
es = EarlyStopping(monitor='val_loss', patience=2, verbose=1)
history = model.fit(x=[encoder_input_train, decoder_input_train], y=decoder_target_train, \
          validation_data=([encoder_input_test, decoder_input_test], decoder_target_test), \
          batch_size=256, callbacks=[es], epochs=50)

In [None]:
plt.plot(history.history['loss'], label='train')
plt.plot(history.history['val_loss'], label='test')
plt.legend()
plt.show()

## 인퍼런스 모델 구현하기

In [None]:
#@TODO: 이거 구현을 해야 모델 성능 테스트가 가능한 건가? 그럼 스텝 3인가? 4인가?

# Step 4. 실제 결과와 요약문 비교하기 (추상적 요약)

원래의 요약문(headlines 열 == Summary 열)과 학습을 통해 얻은 추상적 요약의 결과를 비교해 보세요.

In [None]:
#@TODO: 뭘 어떻게 비교할까?

# Step 5. Summa을 이용해서 추출적 요약해보기

추상적 요약은 추출적 요약과는 달리 문장의 표현력을 다양하게 가져갈 수 있지만, 추출적 요약에 비해서 난이도가 높아요. 반대로 말하면 추출적 요약은 추상적 요약에 비해 난이도가 낮고 기존 문장에서 문장을 꺼내오는 것이므로 잘못된 요약이 나올 가능성이 낮아요.

Summa의 summarize를 사용하여 추출적 요약을 해보세요.

## 데이터 다운로드하기

In [None]:
import requests
from summa.summarizer import summarize

In [None]:
text = requests.get('http://rare-technologies.com/the_matrix_synopsis.txt').text

In [None]:
print(text[:1500])

## summarize 사용하기

In [None]:
print('Summary:')
print(summarize(text, ratio=0.005))

In [None]:
print('Summary:')
print(summarize(text, ratio=0.005, split=True))

In [None]:
print('Summary:')
print(summarize(text, words=50))

# 회고

마크다운 파일로 따로 제작하였음.