In [None]:
from google.colab import drive
drive.mount('/content/drive')

# AI 텍스트 요약 알고리즘 개발 경진대회
#### 팀 : 공공재
#### 모델 요약 : 요약과 분류의 학습을 동시에 진행하여 다양한 종류의 문서를 안정적으로 요약 가능한 KoBART 모델

# 구동 가이드

1) 제공드린 "공공재_KoBART_model" 폴더의 경로를 DIR 변수에 할당 해주시고 런타임 칸에 모두 실행을 눌러주시면 바로 구동됩니다.

2) 학습 시간은 코랩 프로 기준으로 3~4시간 정도 걸리지만, 일반 코랩 사용 시 학습 시간이 11시간 가량으로 상당히 오래 걸립니다. 혹시 너무 많은 시간이 경과된다 판단되시면 똑같은 프로세스로 학습시킨 모델을 saved_model 폴더에 저장해놓았으니 5-2의 "저장된 모델 로딩" 부분에서 모델을 로드하시어 바로 추론으로 넘어가셔도 좋습니다.

#### ※ 경로 설정
- 구동하시는 분의 "공공재_KoBART_model" 폴더의 절대 경로를 folder_path에 업로드 해주시면 됩니다.

In [41]:
# 최상위 폴더 경로(해당 부분을 사용자의 경로로 변경 요)
folder_path = '/content/drive/MyDrive/공공재_KoBART_model'

In [None]:
# 데이터 경로
DIR = folder_path + "/data/"
# 저장한 모델 경로
saved_model_path = folder_path + '/saved_model/'

#### ※ 파라미터 설정

In [42]:
# 파라미터 설정
train_pct = 1 # 학습용 데이터 퍼센트
test_pct = 0 # 검증용 데이터 퍼센트
max_length = 500 # 인코딩 입력 데이터 최대 길이
label_len = 300 # 디코딩 입력 데이터 최대 길이
batch_size = 8

EPOCHS = 4
warmup_ratio = 0.1 # 학습 스케줄러 사용 시 warm_up 비율
learning_rate = 1e-4
max_grad_norm = 1

## 1. 라이브러리 및 데이터 (Library & Data)

### 1-1 필요 패키지 로드

In [43]:
!pip install transformers
!pip install einops



In [44]:
import transformers
import os
import re
import numpy as np
import requests
import pandas as pd

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
import torch.nn.utils as torch_utils
import time
from tqdm import tqdm

import json
from glob import glob

import warnings
warnings.filterwarnings(action='ignore')

from transformers import PreTrainedTokenizerFast
from transformers import BartForConditionalGeneration
from transformers import AdamW
from transformers.optimization import get_cosine_schedule_with_warmup

from einops.layers.torch import Rearrange, Reduce



# 토크나이저 설치
tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-summarization')

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BartTokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.


In [45]:
os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"]= "0,1"
os.environ["TOKENIZERS_PARALLELISM"] = "false"

# GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

print('Device:', device)

Device: cuda


### 1-2 데이터 로드
- json 파일 로드 후 데이터를 데이터 프레임 형태로 변환

In [46]:
# 데이터 로드 및 데이터 프레임 형태로 전환

# 데이터 이름
TRAIN_SOURCE = os.path.join(DIR, "train_summary.json")
TRAIN_SOURCE_broad = os.path.join(DIR, "train_summary_broadcast.json")
TEST_SOURCE = os.path.join(DIR, "test_summary.json")

with open(TRAIN_SOURCE, encoding='UTF-8') as f:
    TRAIN_DATA = json.loads(f.read())

with open(TRAIN_SOURCE_broad, encoding='UTF-8') as f:
    TRAIN_broad_DATA = json.loads(f.read())

with open(TEST_SOURCE, encoding='UTF-8') as f:
    TEST_DATA = json.loads(f.read())


# DataFrame 형태로 변환

# train_summary 데이터
uid = 1000
train = pd.DataFrame(columns=['uid','original', 'category','summary'])
for data in TRAIN_DATA:
    train.loc[uid, 'uid'] = uid
    train.loc[uid, 'original'] = data['original']
    train.loc[uid, 'summary'] = data['summary']
    train.loc[uid, 'category'] = data['Meta']['category']

    uid += 1

# train_summary_broadcast 데이터
uid = 1000
train_b = pd.DataFrame(columns=['uid','original', 'category','summary'])
for data in TRAIN_broad_DATA:
    train_b.loc[uid, 'uid'] = uid
    train_b.loc[uid, 'original'] = data['original']
    train_b.loc[uid, 'summary'] = data['summary']
    train_b.loc[uid, 'category'] = data['Meta']['category']

    uid += 1


# test_summary 데이터
uid = 2000
test = pd.DataFrame(columns=['uid','original', 'category','summary'])
for data in TEST_DATA:
    test.loc[uid, 'uid'] = uid
    test.loc[uid, 'original'] = data['original']
    test.loc[uid, 'summary'] = data['summary']
    test.loc[uid, 'category'] = data['Meta']['category']

    uid += 1


In [None]:
in_df = train.copy()
in_df.head()

## 2. 데이터 전처리 (Data Cleansing & Pre-Processing)
- 특수문자 제거
- 문장 길이 측정 : 인코더 및 디코더 입력 길이 판단 시 사용
- 특징 학습을 위한 레이블 설정 : 요약에 대한 학습과 더불어 각 문서의 카테고리도 함께 학습하여 학습의 안정화를 이룰 수 있도록 카테고리 변수를 레이블 인코딩화하여 학습 데이터에 함께 삽입
- KoBART 전용 Tokenizer를 통해 원본 문장과 요약 문장 토큰화
- 문장의 맨 앞과 맨 끝에 각각 <s>와 </s>을 넣어 시작과 끝에 대한 표시를 삽입

### 2-1 텍스트 전처리

특수문자 제거

In [48]:
# 특수문자 제거 함수

def clean_text(text):
    # text = re.sub('[?.,;:|\)*~`’!^\-_+<>@\#$%&-=#}※]', ' ', text)#특수문자 이모티콘 제거
    text = re.sub("\n", ' ', text) #개행문자 제거
    text = re.sub("\xa0", ' ', text) #개행문자 제거
    text = re.sub(r'Copyright .* rights reserved', '', text) # "Copyright all rights reserved" 제거
    # text = re.sub("─", ' ', text)
    return text

# broadcast 데이터를 위한 전처리
def clean_text_b(text):
    # text = re.sub('[?.,;:|\)*~`’!^\-_+<>@\#$%&-=#}※]', ' ', text)#특수문자 이모티콘 제거
    text = re.sub("\n", ' ', text) #개행문자 제거
    text = re.sub("\xa0", ' ', text) #개행문자 제거
    text = re.sub(r'Copyright .* rights reserved', '', text) # "Copyright all rights reserved" 제거
    text = re.sub("해설]", ' ', text) #개행문자 제거
    # text = re.sub("]", ' ', text) #개행문자 제거
    # text = re.sub("\(", ' ', text) #개행문자 제거
    # text = re.sub("\)", ' ', text) #개행문자 제거
    # # text = re.sub("\!|\'|\?","",text)
    # text = re.sub("<","",text)
    # text = re.sub(">","",text)
    # text = re.sub('[a-zA-z]','',text)
    return text


in_df["original"] = in_df["original"].apply(clean_text)
in_df["summary"] = in_df["summary"].apply(clean_text)
train_b["original"] = train_b["original"].apply(clean_text_b)
train_b["summary"] = train_b["summary"].apply(clean_text_b)
test["original"] = test["original"].apply(clean_text)

in_df = pd.concat([in_df,train_b],axis=0)

in_df['total'] = in_df['original']
test['total'] = test['original']

문장의 맨 앞과 맨 끝에 각각 와 을 넣어 시작과 끝에 대한 표시를 삽입

In [50]:
# 문장의 처음과 끝에 sign을 삽입
def sos_eos(df):
    return '<s> '+df+' </s>'

in_df['total'] = in_df['total'].apply(sos_eos)
in_df['summary'] = in_df['summary'].apply(sos_eos)

test['total'] = test['total'].apply(sos_eos)
test['summary'] = test['summary'].apply(sos_eos)

특징 학습을 위한 레이블 설정 : 요약에 대한 학습과 더불어 각 문서의 카테고리도 함께 학습하여 학습의 안정화를 이룰 수 있도록 카테고리 변수를 레이블 인코딩화하여 학습 데이터에 함께 삽입

In [53]:
# 카테고리 레이블 인코딩
def label_encoding(df):
    if df == 'briefing':
        return 0
    elif df == 'news_r':
        return 1
    elif df == 'cul_ass':
        return 2
    elif df == 'novel':
        return 3
    elif df == 'drama':
        return 4
    elif df == 'history':
        return 5

in_df['category'] = in_df['category'].apply(label_encoding)
test['category'] = test['category'].apply(label_encoding)

In [54]:
in_df['label'] = in_df['category']
test['label'] = test['category']

### 2-2 학습 데이터 준비

In [55]:
# 커스텀 데이터 세트 클래스
class Summary_dataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels, lasttext=None):
        self.encodings = encodings["input_ids"]
        self.token_type = encodings["token_type_ids"]
        self.masking = encodings["attention_mask"]
        self.labels = labels
        self.lasttext = lasttext            
            
    def __getitem__(self, idx):
        item = {}
        if self.encodings[idx][-1]!=3:
            self.encodings[idx][-1] = 1 
            
        if self.labels['input_ids'][idx][-1] !=3:
            self.labels['input_ids'][idx][-1] = 1
        
        if self.lasttext is not None:
            item['last_text'] = torch.tensor(self.lasttext.iloc[idx])
        
        item['input_ids'] = torch.tensor(self.encodings[idx])
        item['attention_mask'] = torch.tensor(self.masking[idx])
        item['token_type_ids'] = torch.tensor(self.token_type[idx])
        item['labels'] = torch.tensor(self.labels['input_ids'][idx])  # torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.encodings)

KoBART 전용 Tokenizer를 통해 원본 문장과 요약 문장 토큰화

In [56]:
## 학습 및 검증 세트 설정
in_df = in_df.sample(len(in_df), random_state=20)
train_sub = int(len(in_df) * train_pct)
# test_sub = int(len(in_df) * test_pct) + train_sub # 검증 시 사용, 본 파일에서는 검증을 사용하지 않음

train_df = in_df[0:train_sub]
test_df = in_df[train_sub:]
# val_df = in_df[test_sub:]

train_texts = list(train_df['total'])
test_texts = list(test_df['total'])
# val_texts = list(val_df['text'])

train_decode = list(train_df['summary'])
test_decode = list(test_df['summary'])
# val_decode = list(val_df['summary'])

test_df_texts = list(test['total'])
test_df_decode = list(test['summary'])


## 토크나이징
train_encodings = tokenizer(train_texts,max_length=max_length, truncation=True, padding='max_length',add_special_tokens = True,return_tensors="pt")
# test_encodings = tokenizer(test_texts,max_length=max_length, truncation=True, padding=True)
train_labels = tokenizer(train_decode,max_length=label_len, truncation=True, padding='max_length',add_special_tokens = True,return_tensors="pt")
# test_labels = tokenizer(test_decode,max_length=50, truncation=True, padding=True)

test_df_encodings = tokenizer(test_df_texts,max_length=max_length, truncation=True, padding='max_length',add_special_tokens = True,return_tensors="pt")
test_df_labels = tokenizer(test_df_decode,max_length=label_len, truncation=True, padding=True)



## DataLoader 형으로 변환
train_dataset = Summary_dataset(train_encodings, train_labels, lasttext=in_df["label"])
# test_dataset = Summary_dataset(test_encodings, test_labels)
train_dataloader = DataLoader(train_dataset, batch_size=batch_size, num_workers=5, shuffle=True)
# test_dataloader = DataLoader(test_dataset, batch_size=batch_size, num_workers=1)

## 3. 탐색적 자료 분석(Exploratory Data Analysis)

문장 길이 측정 : 인코더 및 디코더 입력 길이 판단 시 사용

In [None]:
# 문장 길이 출력 함수 
def cal_len(text):
    return len(text.split())

in_df['original_len'] = in_df['original'].apply(cal_len)
in_df['target_len'] = in_df['summary'].apply(cal_len)
in_df['target_len_total'] = in_df['summary'].apply(lambda x: len(x))
test['len'] = test['original'].apply(cal_len)

In [None]:
print(in_df.describe())
print()
print(test.describe())
## 원문과 요약의 max 길이가 각각 405, 266이지만 띄어쓰기가 되지 않은 문장을 고려하여 max_length를 각각 500, 300으로 설정

       original_len    target_len  target_len_total
count  31975.000000  31975.000000      31975.000000
mean     180.817639     43.784988        189.126849
std       70.355816     13.337147         58.483816
min       49.000000      8.000000         51.000000
25%      117.000000     35.000000        152.000000
50%      171.000000     43.000000        185.000000
75%      250.500000     50.000000        207.000000
max      450.000000    266.000000       1106.000000

               len
count  4640.000000
mean    201.712931
std      70.454206
min      50.000000
25%     156.000000
50%     203.000000
75%     267.000000
max     400.000000


## 4. 모델 구축 (Initial Modeling)
### 모델 특징
- 한 모델에서 요약에 대한 학습과 문장 특징(카테고리) 학습을 동시에 진행
- 각 학습을 통해 구해진 loss를 A + (B/10) 비율로 합산하고 이를 역전파를 통해 업데이트
- 문장의 특징을 함께 학습하기 때문에 안정적인 학습이 가능

### 세부 조정 사항
- 인코딩 층, 디코딩 층 각각의 최하단 부분과 출력층까지만 가중치 업데이트 진행(본 데이터에서는 전체 가중치를 업데이트하는 것이 더 효과적이므로 해당 사항은 적용 X)
- 학습률 스케줄을 적용하여 처음에는 1e-4로 학습 후 warm ratio 초과시 get_cosine_schedule_with_warmup을 이용하여 학습률 조정

In [57]:
# 요약문에 대한 학습과 분류에 대한 학습을 동시에 진행하는 모델 구축

class BART_Classification(nn.Module):
    def __init__(self,n_classes, emb_size=768):
        super().__init__()
        self.bart_model = BartForConditionalGeneration.from_pretrained('gogamza/kobart-summarization')
        self.reduce = Reduce('b n e -> b e', reduction='mean')
        self.norm = nn.LayerNorm(n_classes)
        self.linear = nn.Linear(emb_size, n_classes)
        self.softmax=nn.LogSoftmax(dim=-1)
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(p=0.3)

    def forward(self,input_,mask_,intrg):
        out = self.bart_model.forward(input_,mask_,intrg)
        hidden_state = out.encoder_last_hidden_state
                
        x = self.reduce(hidden_state)
        x = self.linear(x)
        x = self.norm(x)
        x = self.softmax(x)
        return x, out


model = BART_Classification(in_df["label"].nunique())
model = model.to(device)

### 4-1 모델 세부 조정

##### - KoBART 모델 층 구조
- encoding part : 2 ~ 97 / Layer norm 98 ~ 99
- decoding part : Embedding, PE  100 ~ 101 / Decoding 층 102 ~ 257 / Layer norm 258~259

- 총 개수 259 개


##### - 초기에 1e-4로 학습 후 warm ratio 초과시 get_cosine_schedule_with_warmup을 이용하여 학습률 조정

In [58]:
n=0
for name, child in model.named_children():
    if n==0:
      h=0
      for param in child.parameters():
        if (95<=h) or (98<=h<=254):
            param.requires_grad = False
        h+=1
    n+=1

no_decay = ['bias', 'LayerNorm.weight']
optimizer_grouped_parameters = [
    {'params': [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01},
    {'params': [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}
]

optimizer = AdamW(optimizer_grouped_parameters, lr=learning_rate)
t_total = len(train_dataloader) * EPOCHS
warmup_step = int(t_total * warmup_ratio)
scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps=warmup_step, num_training_steps=t_total)

criterion = nn.CrossEntropyLoss()

### 5. 모델 학습 및 검증 (Model Tuning & Evaluation)

### 5-1 학습

In [59]:
torch.cuda.empty_cache() # 캐시 삭제

for Epoch in range(EPOCHS): 
    train_loss = []
    first_time = time.time()
    epoch_start = time.time()
    model.train()
    torch.set_grad_enabled(True)
    for batch_idx, data in enumerate(train_dataloader):
        optimizer.zero_grad()
       
        input_ = data['input_ids'].long().to(device)
        mask_ = data['attention_mask'].long().to(device)
        trg_ = data["labels"]
        intrg = torch.tensor(trg_[:,:-1]).to(device)
        outtrg = torch.tensor(trg_[:,1:]).to(device)
        
        c_out, out = model.forward(input_,mask_,intrg)
     
        _,_,vocab = out[0].size()
        out_ = out[0].view(-1,vocab)
        outtrg = outtrg.view(-1)

        c_loss = criterion(c_out.cpu(),data["last_text"].long().cpu())
        

        # # 3 에폭까지는 함께 학습, 이후 3 에폭은 요약문 대상 학습만 진행
        # # pad 부분에 대해 손실을 구하지 않도록 설정
        # if Epoch<3:
        #     loss_ = criterion(out_,outtrg)
        #     nopad = torch.logical_not(torch.eq(outtrg, 3))
        #     nopad = torch.tensor(nopad, dtype=loss_.dtype)
        #     loss_ = nopad * loss_
        
        #     loss = torch.sum(loss_)/torch.sum(nopad) + c_loss/10
        # else: 
        #     loss_ = criterion(out_,outtrg)
        #     nopad = torch.logical_not(torch.eq(outtrg, 3))
        #     nopad = torch.tensor(nopad, dtype=loss_.dtype)
        #     loss_ = nopad * loss_
        
        #     loss = torch.sum(loss_)/torch.sum(nopad)

        
        loss_ = criterion(out_,outtrg)
        nopad = torch.logical_not(torch.eq(outtrg, 3))
        nopad = torch.tensor(nopad, dtype=loss_.dtype)
        loss_ = nopad * loss_
        loss = torch.sum(loss_)/torch.sum(nopad) + c_loss/10


        loss.backward()
        torch_utils.clip_grad_norm_(model.parameters(),1)
        optimizer.step()
        
        scheduler.step()

        if batch_idx%100==0:
            second_time = time.time()
            print("Train Epoch: {} [{}/{}({:.0f}%)]\tTrain Loss: {:.6f}\t runtime={:.1f}sec".format(Epoch, batch_idx * batch_size, train_sub,100.*batch_idx* batch_size/train_sub, loss.item(),(second_time-first_time)))
            first_time = second_time
            
        del input_,mask_,trg_, out, outtrg, loss
        
        torch.cuda.empty_cache()
        
    epoch_end = time.time()

    print("Train Epoch Takes {:.2f}min".format((epoch_end - epoch_start)/60))

Train Epoch Takes 40.43min
Train Epoch Takes 40.46min
Train Epoch Takes 40.48min
Train Epoch Takes 40.41min


In [60]:
torch.cuda.empty_cache()

#### 모델 저장

In [61]:
torch.save(model, saved_model_path + 'kobart_model.pt')

### 5-2 추론
#### 후처리 사항
- 특수문자 제거
- 앞 뒤 공백 제거

In [62]:
# # (Option) 저장된 모델 로드
# model = torch.load(saved_model_path + 'kobart_model.pt')
# model = model.to(device)

In [63]:
test_df_dataset = Summary_dataset(test_df_encodings, train_labels)
test_df_dataloader = DataLoader(test_df_dataset, batch_size=2, num_workers=5)

특수 문자 제거 함수

In [64]:
def clean_text_2(text):
    text = text.split("</s>")[0]
    text = text.replace("<s>"," ")
    text = text.replace("<usr>"," ")
    text = text.replace("<pad>"," ")
    test = re.sub('<[a-zA-Z]+>'," ",text)
    text = text.replace("▁"," ")
    text = re.sub("\n", ' ', text)
    text = re.sub("\xa0", ' ', text)   
    text = re.sub('<',' ',text)
    text = re.sub('>',' ',text)
    text = re.sub('\s+', ' ', text)

    return text

추론

In [65]:
test_loss = 0
correct = 0

test_sum = []
model.eval()
for data in tqdm(test_df_dataloader):
    
    input_ = data['input_ids'].to(device)    
    out = model.bart_model.generate(input_, max_length=500)
    torch.cuda.empty_cache()
    
    for i in range(len(out)):
        text = tokenizer.convert_ids_to_tokens(out[i])
        text = "".join(text)
        text = clean_text_2(text)        
        test_sum.append(text)


100%|██████████| 2320/2320 [20:29<00:00,  1.89it/s]


문장 앞 뒤 공백 제거

In [66]:
# 문장 앞 뒤 공백 제거
for i in range(len(test_sum)):
    if test_sum[i][0] == ' ':
        test_sum[i] = test_sum[i][1:]
    if test_sum[i][-1] == ' ':
        test_sum[i] = test_sum[i][:-1]

결과 요약문 확인

In [67]:
test_sum

['공주시 무령왕릉에서 발견된 청동거울로 청동신수경, 의자손수대경, 수대경 3점이다. 청동신수경은 ‘방격규구문경’이라는 중국 후한의 거울을 모방하여 만든 것이다. 거울 중앙의 꼭지를 중심으로 9개의 돌기가 있고, 안에는 크고 작은 원과 7개의 돌기가 솟아있다.',
 '높이 47cm의 대형 백자 병으로 목이 유난히 길어 속칭 거위병이라고도 부른다. 경기도자박물관 소장 백자대병의 용도는 다병(茶甁;차를 담는 병)이었을 것으로 보인다.',
 '공주시 무령왕릉에서 출토된 백제 때 귀고리 2쌍으로 길이는 11.8cm, 8.8cm이다. 왕비의 귀고리로, 굵은 고리를 중심으로 작은 장식들을 연결하여 만들었다. 국립중앙박물관과 국립공주박물관에 각1쌍씩 보관되어 있다.',
 '전통적 형식을 지닌 보덕사 해우소는 앞면 3칸, 옆면 1칸 규모로 맞배지붕을 하고 있는 2층 누각식 건물이다. 앞뒤 2열로 나누어 각각 6칸씩의 대변소를 배치하여 남녀의 사용을 구분하면서 12명을 동시에 수용할 수 있는 지혜를 엿볼 수 있는 건물이다.',
 '완도군 완도읍 군내리 신흥사에 모셔진 약사여래좌상이다. 이 불상은 원래 해남 대흥사 소속암자인 심적암(深寂庵)에 있었던 것인데 초의스님이 현 대광명전에 옮겨 모셨으며, 그 뒤 응송(박영희)스님이 신흥사로 옮겨 봉안한 것이다. 조선시대 불상으로 그 조성연대를 알 수 있어 불상 편년사 연구에 중요한 자료로 평가된다.',
 '농악은 농부들이 두레를 짜서 일할 때 치는 음악으로 꽹과리·징·장구·북과 같은 타악기를 치며 벌이는 음악을 두루 가리키는 말이다. 농악을 공연하는 목적에 따라 종류를 나누어 보면 당산굿·마당밟이·걸립굿·두레굿·판굿·기우제굿·배굿 등으로 나눌 수 있고, 지역적 특성에 따라 분류하면 경기농악·영동농악·호남우도농악·호남좌도농악·경남농악·경북농악으로 갈라진다.',
 '화기에 의한 1868년 3월 서운암(瑞雲菴)에 봉안한다고 적혀있으나, 밑부분이 잘려 신중도를 그린 불화승은 알 수 없음. 그러나 거의 같은 초본을 사용한 신중도를 통해 서운암의

### 결과 저장

In [68]:
MY_SOURCE = os.path.join(DIR, "my_summary.json")

with open(MY_SOURCE, encoding='UTF-8') as f:
    MY_DATA = json.loads(f.read())

In [69]:
for data,ans in zip(TEST_DATA,test_sum):
    data['summary'] = ans

In [70]:
with open(MY_SOURCE, 'w', encoding='UTF-8') as file:
   json.dump(TEST_DATA, file, indent='\t', ensure_ascii=False)