In [1]:
import re
import os
import sys
import math
import json
import shutil
import hashlib
import platform
import itertools
import collections
import pkg_resources  # pip install py-rouge
from io import open
from rouge import Rouge
from konlpy.tag import Mecab 

import numpy as np
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

from tqdm import tqdm
from zipfile import ZipFile

import boto3
from botocore import UNSIGNED
from botocore.client import Config

import torch
from torch import nn
from torch.utils.data import DataLoader, Dataset
from torch.optim.lr_scheduler import _LRScheduler
import transformers
from transformers import get_scheduler, PreTrainedTokenizerFast, EarlyStoppingCallback, Seq2SeqTrainer, Seq2SeqTrainingArguments, DataCollatorForSeq2Seq, AutoModelForSeq2SeqLM

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Trainer arguments
lr = 1e-3
stop = 3
epoch = 100
batch = 4
seed = 42
device = 'cuda'

# init

In [3]:
class AwsS3Downloader(object):
    def __init__(
        self,
        aws_access_key_id=None,
        aws_secret_access_key=None,
    ):
        self.resource = boto3.Session(
            aws_access_key_id=aws_access_key_id,
            aws_secret_access_key=aws_secret_access_key,
        ).resource("s3")
        self.client = boto3.client(
            "s3",
            aws_access_key_id=aws_access_key_id,
            aws_secret_access_key=aws_secret_access_key,
            config=Config(signature_version=UNSIGNED),
        )

    def __split_url(self, url: str):
        if url.startswith("s3://"):
            url = url.replace("s3://", "")
        bucket, key = url.split("/", maxsplit=1)
        return bucket, key

    def download(self, url: str, local_dir: str):
        bucket, key = self.__split_url(url)
        filename = os.path.basename(key)
        file_path = os.path.join(local_dir, filename)

        os.makedirs(os.path.dirname(file_path), exist_ok=True)
        meta_data = self.client.head_object(Bucket=bucket, Key=key)
        total_length = int(meta_data.get("ContentLength", 0))

        downloaded = 0

        def progress(chunk):
            nonlocal downloaded
            downloaded += chunk
            done = int(50 * downloaded / total_length)
            sys.stdout.write(
                "\r{}[{}{}]".format(file_path, "█" * done, "." * (50 - done))
            )
            sys.stdout.flush()

        try:
            with open(file_path, "wb") as f:
                self.client.download_fileobj(bucket, key, f, Callback=progress)
            sys.stdout.write("\n")
            sys.stdout.flush()
        except:
            raise Exception(f"downloading file is failed. {url}")
        return file_path

def download(url, chksum=None, cachedir=".cache"):
    cachedir_full = os.path.join(os.getcwd(), cachedir)
    os.makedirs(cachedir_full, exist_ok=True)
    filename = os.path.basename(url)
    file_path = os.path.join(cachedir_full, filename)
    if os.path.isfile(file_path):
        if hashlib.md5(open(file_path, "rb").read()).hexdigest()[:10] == chksum:
            print(f"using cached model. {file_path}")
            return file_path, True

    s3 = AwsS3Downloader()
    file_path = s3.download(url, cachedir_full)
    if chksum:
        assert (
            chksum == hashlib.md5(open(file_path, "rb").read()).hexdigest()[:10]
        ), "corrupted file!"
    return file_path, False

def get_kobart_tokenizer(cachedir=".cache"):
    """Get KoGPT2 Tokenizer file path after downloading"""
    tokenizer = {
        "url": "s3://skt-lsl-nlp-model/KoBART/tokenizers/kobart_base_tokenizer_cased_cf74400bce.zip",
        "chksum": "cf74400bce",
    }
    file_path, is_cached = download(
        tokenizer["url"], tokenizer["chksum"], cachedir=cachedir
    )
    cachedir_full = os.path.expanduser(cachedir)
    if (
        not os.path.exists(os.path.join(cachedir_full, "emji_tokenizer"))
        or not is_cached
    ):
        if not is_cached:
            shutil.rmtree(
                os.path.join(cachedir_full, "emji_tokenizer"), ignore_errors=True
            )
        zipf = ZipFile(os.path.expanduser(file_path))
        zipf.extractall(path=cachedir_full)
    tok_path = os.path.join(cachedir_full, "emji_tokenizer/model.json")
    tokenizer_obj = PreTrainedTokenizerFast(
        tokenizer_file=tok_path,
        bos_token="<s>",
        eos_token="</s>",
        unk_token="<unk>",
        pad_token="<pad>",
        mask_token="<mask>",
    )
    return tokenizer_obj

def get_pytorch_kobart_model(ctx="cpu", cachedir=".cache"):
    pytorch_kobart = {
        "url": "s3://skt-lsl-nlp-model/KoBART/models/kobart_base_cased_ff4bda5738.zip",
        "chksum": "ff4bda5738",
    }
    model_zip, is_cached = download(
        pytorch_kobart["url"], pytorch_kobart["chksum"], cachedir=cachedir
    )
    cachedir_full = os.path.join(os.getcwd(), cachedir)
    model_path = os.path.join(cachedir_full, "kobart_from_pretrained")
    if not os.path.exists(model_path) or not is_cached:
        if not is_cached:
            shutil.rmtree(model_path, ignore_errors=True)
        zipf = ZipFile(os.path.expanduser(model_zip))
        zipf.extractall(path=cachedir_full)
    return model_path

In [4]:
def make_df(phase):
    work_dir = "C:\\Users\\hist\\Documents\\GitHub\\KoBART"
    if phase == 'train':
        tmp = work_dir+'/022.요약문 및 레포트 생성 데이터/01.데이터/1.Training/라벨링데이터/TL1'
    else:
        tmp = work_dir+'/022.요약문 및 레포트 생성 데이터/01.데이터/2.Validation/라벨링데이터/VL1'
    listdir = os.listdir(tmp)
    df = pd.DataFrame({}, columns = ['genre', 'text', 'label'])
    for i in listdir:
        files = os.listdir(f'{tmp}/{i}/2~3sent')
        for f in tqdm(files):
            with open(f'{tmp}/{i}/2~3sent/{f}', 'r', encoding='utf-8') as json_file:
                j = json.loads(json_file.read())
                df2 = pd.DataFrame.from_dict([{'genre' : i, 
                                               'text'  : j['Meta(Refine)']['passage'], 
                                               'label' : j['Annotation']['summary1']}])
                df = pd.concat([df, df2])
    return df

In [5]:
# %%time

# train = make_df('train').reset_index(drop=True)
# val = make_df('val').reset_index(drop=True)

In [6]:
# train.to_parquet('train.parquet')
# val.to_parquet('val.parquet')

In [7]:
train = pd.read_parquet('train.parquet')
val   = pd.read_parquet('val.parquet')
val   = val.sample(n=2, replace=False).reset_index(drop=True)
val

Unnamed: 0,genre,text,label
0,08.speech,안녕하십니까? 국립산림과학원 임산공학부 화학미생물과 안병준입니다. 산림바이오매스는 ...,신재생에너지 공급 의무화 제도를 시행함에 따라 발전소에서는 새로운 대체에너지 발굴에...
1,06.edit,그가 내가 다음 가야 할 곳을 알려주었다. 나는 서울 외곽의 군부대 같아 보이는 ...,서울 외곽의 군부대처럼 보이는 지역으로 가 철문을 통과해 들어갔고 IQ검사 등을 받았다.


# 전처리

In [8]:
def preprocss(df):
    df.text = df.text.apply(lambda x : re.sub('\n', ' ',  x))
    df.text = df.text.apply(lambda x : re.sub(' +', ' ',  x).strip())
    return df

train = preprocss(train)
val = preprocss(val)

In [9]:
val.loc[0, 'text']

'안녕하십니까? 국립산림과학원 임산공학부 화학미생물과 안병준입니다. 산림바이오매스는 지구의 육상 바이오매스의 90%를 차지하고 있는 미래 에너지원으로서 잠재력이 높은 자원입니다. 정부에서는 2008년에 제1차 국가에너지기본계획을 수립하여 추진하여 왔으며, 금년 1월 14일 2차 국가에너지기본계획을 발표하였습니다. 2차 기본계획에서는 원자력 발전의 비율을 당초 41%에서 29% 수준으로 낮추고 신재생에너지의 비율은 1차 기본계획에서 제시했던 11% 수준에서 추진하는 것으로 공표하였습니다. 또한, 산업통상자원부에서는 2012년부터 매년 50만㎾ 이상을 생산하는 국내 발전사업자를 대상으로 총 발전량의 일부를 신재생에너지로 공급하도록 하는 신재생에너지 공급 의무화 제도를 시행함에 따라, 공급의무 대상자이자 대규모 사용처인 발전소에서는 새로운 대체에너지 발굴에 총력을 기울이고 있는 실정입니다. 그러나 12개의 신재생에너지원중에서 단기간 내에 현장적용이 가능한 에너지원은 바이오 에너지를 비롯한 일부에 국한되어있는 것이 현실입니다. 따라서 목질류의 바이오메스를 포함하는 바이오 에너지의 비율은 매년 지속적으로 증가할것으로 예상되고 있습니다. 산림청 국립산림과학원에서는 대표적인 청정연료인 목재펠릿에 대해 2009년 품질규격을 제정하여 국내 유통제품등에 대해 품질을 관리하고 있으나, 최근 해외로로부터 수입되는 제품증가와 환경문제등을 고려한 새로운 규격품질 기준이 요구되고 있는 실정입니다.'

In [10]:
val.loc[0, 'label']

'신재생에너지 공급 의무화 제도를 시행함에 따라 발전소에서는 새로운 대체에너지 발굴에 총력을 기울이고 있지만 단기간 내에 현장 적용이 가능한 에너지원은 일부에 국한되어 있다.'

In [11]:
train.text.str.len().min()

242

# Dataset

In [12]:
class KoBARTSumDataset(Dataset):
    def __init__(self, df, tokenizer, max_len, ignore_index=-100):
        super().__init__()
        self.tokenizer = tokenizer
        self.max_len = max_len
        self.df = df
        self.len = len(self.df)

        self.pad_index = self.tokenizer.pad_token_id
        self.ignore_index = ignore_index

    def add_padding_data(self, inputs):
        if len(inputs) < self.max_len:
            pad = np.array([self.pad_index] *(self.max_len - len(inputs)))
            inputs = np.concatenate([inputs, pad])
        else:
            inputs = inputs[:self.max_len]

        return inputs

    def add_ignored_data(self, inputs):
        if len(inputs) < self.max_len:
            pad = np.array([self.ignore_index] *(self.max_len - len(inputs)))
            inputs = np.concatenate([inputs, pad])
        else:
            inputs = inputs[:self.max_len]

        return inputs
    
    def __getitem__(self, idx):
        instance = self.df.iloc[idx]
        input_ids = self.tokenizer.encode(instance['text'])
        input_ids = self.add_padding_data(input_ids)

        label_ids = self.tokenizer.encode(instance['label'])
        label_ids.append(self.tokenizer.eos_token_id)
        dec_input_ids = [self.tokenizer.eos_token_id]
        dec_input_ids += label_ids[:-1]
        dec_input_ids = self.add_padding_data(dec_input_ids)
        label_ids = self.add_ignored_data(label_ids)
        
        return {'input_ids': np.array(input_ids, dtype=np.int_),
                'decoder_input_ids': np.array(dec_input_ids, dtype=np.int_),
                'labels': np.array(label_ids, dtype=np.int_)}

    def __len__(self):
        return self.len
train_dataset = KoBARTSumDataset(train, PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v1'), 1024)
val_dataset = KoBARTSumDataset(val, PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v1'), 1024)

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


In [13]:
train.text.str.len().max(), val.text.str.len().max(), 

(1499, 776)

# Model

In [14]:
model = AutoModelForSeq2SeqLM.from_pretrained('gogamza/kobart-base-v1').to(device)
tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v1')

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


In [15]:
collator = DataCollatorForSeq2Seq(tokenizer, model=model, label_pad_token_id=tokenizer.pad_token_id)

In [16]:
rouge = Rouge()
def compute_metrics(pred):
    preds, labels = pred

    preds = tokenizer.batch_decode(preds, skip_special_tokens=True)
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    
    print('Text\n', val.text[0])
    print(f'Summarize\nGold : {labels[0]}\nGen : {preds[0]}')
    
    labels = ['\n'.join(labels)]
    preds = ['\n'.join(preds)]
    score = rouge.get_scores(preds, labels, avg=True)
    return {
        "ROUGE-1" : score['rouge-1'],
        "ROUGE-2" : score['rouge-2'],
        "ROUGE-L" : score['rouge-l'],
    }

In [17]:
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3)
# scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(optimizer, T_0=1, T_mult=1, eta_min=0, last_epoch=-1)

lr_scheduler = transformers.get_linear_schedule_with_warmup(optimizer=optimizer, 
                                                            num_warmup_steps=0, 
                                                            num_training_steps=epoch * len(train_dataset) * batch, 
                                                            last_epoch = -1)

In [None]:
args = Seq2SeqTrainingArguments(run_name = f'KoBARTSum',
                                output_dir= f"models",
                                evaluation_strategy="steps",
                                eval_steps=10,
                                save_steps=10,
                                logging_steps=10,
                                save_total_limit = 2,
                                
                                per_device_train_batch_size=batch,
                                per_device_eval_batch_size=batch,
                                gradient_accumulation_steps=16,
                                num_train_epochs=epoch,
                                
                                load_best_model_at_end=True,
                                fp16=True,
                                do_train=True,
                                do_eval=True,
                                predict_with_generate=True,)

trainer = Seq2SeqTrainer(model=model,
                         tokenizer=tokenizer,
                         args=args,

                         train_dataset=train_dataset,
                         eval_dataset=val_dataset,

                         compute_metrics=compute_metrics,
                         optimizers=(optimizer, lr_scheduler),
                         callbacks=[EarlyStoppingCallback(early_stopping_patience=stop)],
                         data_collator=collator,)
trainer.train()

Using cuda_amp half precision backend
***** Running training *****
  Num examples = 73340
  Num Epochs = 100
  Instantaneous batch size per device = 4
  Total train batch size (w. parallel, distributed & accumulation) = 64
  Gradient Accumulation steps = 16
  Total optimization steps = 114500
  Number of trainable parameters = 123859968
You're using a PreTrainedTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Step,Training Loss,Validation Loss,Rouge-1,Rouge-2,Rouge-l
10,8.1974,2.47003,"{'r': 0.11764705882352941, 'p': 0.2857142857142857, 'f': 0.16666666253472232}","{'r': 0.030303030303030304, 'p': 0.07692307692307693, 'f': 0.04347825681474518}","{'r': 0.11764705882352941, 'p': 0.2857142857142857, 'f': 0.16666666253472232}"


***** Running Evaluation *****
  Num examples = 2
  Batch size = 4
Generate config GenerationConfig {
  "bos_token_id": 0,
  "decoder_start_token_id": 1,
  "eos_token_id": 1,
  "forced_eos_token_id": 1,
  "pad_token_id": 3,
  "transformers_version": "4.26.0"
}



Text
 안녕하십니까? 국립산림과학원 임산공학부 화학미생물과 안병준입니다. 산림바이오매스는 지구의 육상 바이오매스의 90%를 차지하고 있는 미래 에너지원으로서 잠재력이 높은 자원입니다. 정부에서는 2008년에 제1차 국가에너지기본계획을 수립하여 추진하여 왔으며, 금년 1월 14일 2차 국가에너지기본계획을 발표하였습니다. 2차 기본계획에서는 원자력 발전의 비율을 당초 41%에서 29% 수준으로 낮추고 신재생에너지의 비율은 1차 기본계획에서 제시했던 11% 수준에서 추진하는 것으로 공표하였습니다. 또한, 산업통상자원부에서는 2012년부터 매년 50만㎾ 이상을 생산하는 국내 발전사업자를 대상으로 총 발전량의 일부를 신재생에너지로 공급하도록 하는 신재생에너지 공급 의무화 제도를 시행함에 따라, 공급의무 대상자이자 대규모 사용처인 발전소에서는 새로운 대체에너지 발굴에 총력을 기울이고 있는 실정입니다. 그러나 12개의 신재생에너지원중에서 단기간 내에 현장적용이 가능한 에너지원은 바이오 에너지를 비롯한 일부에 국한되어있는 것이 현실입니다. 따라서 목질류의 바이오메스를 포함하는 바이오 에너지의 비율은 매년 지속적으로 증가할것으로 예상되고 있습니다. 산림청 국립산림과학원에서는 대표적인 청정연료인 목재펠릿에 대해 2009년 품질규격을 제정하여 국내 유통제품등에 대해 품질을 관리하고 있으나, 최근 해외로로부터 수입되는 제품증가와 환경문제등을 고려한 새로운 규격품질 기준이 요구되고 있는 실정입니다.
Summarize
Gold : 신재생에너지 공급 의무화 제도를 시행함에 따라 발전소에서는 새로운 대체에너지 발굴에 총력을 기울이고 있지만 단기간 내에 현장 적용이 가능한 에너지원은 일부에 국한되어 있다.
Gen : 산림청림과학원 임산공학부 화학미생물과 안병준입니다. 산림


Saving model checkpoint to models\checkpoint-10
Configuration saved in models\checkpoint-10\config.json
Configuration saved in models\checkpoint-10\generation_config.json
Model weights saved in models\checkpoint-10\pytorch_model.bin
tokenizer config file saved in models\checkpoint-10\tokenizer_config.json
Special tokens file saved in models\checkpoint-10\special_tokens_map.json
