In [1]:
import os
# Bertsum directory chdir
os.chdir('./src')

In [2]:
%ls

[0m[01;34m__pycache__[0m/    [01;34mmodels[0m/  [01;34mprepro[0m/        requirements.txt  train.py
distributed.py  [01;34mothers[0m/  preprocess.py  [01;34mtmp[0m/


## 추출요약 코드

In [3]:
"""
    Main training workflow
"""
from __future__ import division

import argparse
import glob
import os
import random
import signal
import time
import numpy as np

import torch
from pytorch_pretrained_bert import BertConfig


import distributed
from models import data_loader, model_builder
from models.data_loader import load_dataset
from models.model_builder import Summarizer
from tensorboardX import SummaryWriter
from models.reporter import ReportMgr
from models.stats import Statistics
from others.logging import logger
# from models.trainer import build_trainer
# build_trainer의 dependency package pyrouge.utils가 import되지 않아 직접 셀에 삽입
from others.logging import logger, init_logger
import easydict

args = easydict.EasyDict({
    "encoder":'classifier',
    "mode":'summary',
    "bert_data_path":'../bert_sample/korean',
    "model_path":'../models/bert_classifier',
    "bert_model":'../001_bert_morp_pytorch',
    "result_path":'../results/korean',
    "temp_dir":'.',
    "bert_config_path":'../001_bert_morp_pytorch/bert_config.json',
    "batch_size":1000,
    "use_interval":True,
    "hidden_size":128,
    "ff_size":512,
    "heads":4,
    "inter_layers":2,
    "rnn_size":512,
    "param_init":0,
    "param_init_glorot":True,
    "dropout":0.1,
    "optim":'adam',
    "lr":2e-3,
    "report_every":1,
    "save_checkpoint_steps":5,
    "block_trigram":True,
    "recall_eval":False,
    
    "accum_count":1,
    "world_size":1,
    "visible_gpus":'-1',
    "gpu_ranks":'0',
    "log_file":'../logs/bert_classifier',
    "test_from":'../models/bert_classifier2/model_step_35000.pt'
})


def build_trainer(args, device_id, model,
                  optim):
    """
    Simplify `Trainer` creation based on user `opt`s*
    Args:
        opt (:obj:`Namespace`): user options (usually from argument parsing)
        model (:obj:`onmt.models.NMTModel`): the model to train
        fields (dict): dict of fields
        optim (:obj:`onmt.utils.Optimizer`): optimizer used during training
        data_type (str): string describing the type of data
            e.g. "text", "img", "audio"
        model_saver(:obj:`onmt.models.ModelSaverBase`): the utility object
            used to save the model
    """
    device = "cpu" if args.visible_gpus == '-1' else "cuda"


    grad_accum_count = args.accum_count
    n_gpu = args.world_size

    if device_id >= 0:
        gpu_rank = int(args.gpu_ranks[device_id])
    else:
        gpu_rank = 0
        n_gpu = 0

    #print('gpu_rank %d' % gpu_rank)

    tensorboard_log_dir = args.model_path

    writer = SummaryWriter(tensorboard_log_dir, comment="Unmt")

    report_manager = ReportMgr(args.report_every, start_time=-1, tensorboard_writer=writer)

    trainer = Trainer(args, model, optim, grad_accum_count, n_gpu, gpu_rank, report_manager)

    # print(tr)
    if (model):
        n_params = _tally_parameters(model)
        #logger.info('* number of parameters: %d' % n_params)

    return trainer

class Trainer(object):
    """
    Class that controls the training process.

    Args:
            model(:py:class:`onmt.models.model.NMTModel`): translation model
                to train
            train_loss(:obj:`onmt.utils.loss.LossComputeBase`):
               training loss computation
            valid_loss(:obj:`onmt.utils.loss.LossComputeBase`):
               training loss computation
            optim(:obj:`onmt.utils.optimizers.Optimizer`):
               the optimizer responsible for update
            trunc_size(int): length of truncated back propagation through time
            shard_size(int): compute loss in shards of this size for efficiency
            data_type(string): type of the source input: [text|img|audio]
            norm_method(string): normalization methods: [sents|tokens]
            grad_accum_count(int): accumulate gradients this many times.
            report_manager(:obj:`onmt.utils.ReportMgrBase`):
                the object that creates reports, or None
            model_saver(:obj:`onmt.models.ModelSaverBase`): the saver is
                used to save a checkpoint.
                Thus nothing will be saved if this parameter is None
    """

    def __init__(self,  args, model,  optim,
                  grad_accum_count=1, n_gpu=1, gpu_rank=1,
                  report_manager=None):
        # Basic attributes.
        self.args = args
        self.save_checkpoint_steps = args.save_checkpoint_steps
        self.model = model
        self.optim = optim
        self.grad_accum_count = grad_accum_count
        self.n_gpu = n_gpu
        self.gpu_rank = gpu_rank
        self.report_manager = report_manager

        self.loss = torch.nn.BCELoss(reduction='none')
        assert grad_accum_count > 0
        # Set model in training mode.
        if (model):
            self.model.train()

    def summary(self, test_iter, step, cal_lead=False, cal_oracle=False):
        """ Validate model.
            valid_iter: validate data iterator
        Returns:
            :obj:`nmt.Statistics`: validation loss statistics
        """
        # Set model in validating mode.
        def _get_ngrams(n, text):
            ngram_set = set()
            text_length = len(text)
            max_index_ngram_start = text_length - n
            for i in range(max_index_ngram_start + 1):
                ngram_set.add(tuple(text[i:i + n]))
            return ngram_set

        def _block_tri(c, p):
            tri_c = _get_ngrams(3, c.split())
            for s in p:
                tri_s = _get_ngrams(3, s.split())
                if len(tri_c.intersection(tri_s))>0:
                    return True
            return False

        if (not cal_lead and not cal_oracle):
            self.model.eval()
        stats = Statistics()

        
        with torch.no_grad():
            for batch in test_iter:
                src = batch.src
                labels = batch.labels
                segs = batch.segs
                clss = batch.clss
                mask = batch.mask
                mask_cls = batch.mask_cls


                gold = []
                pred = []

                if (cal_lead):
                    selected_ids = [list(range(batch.clss.size(1)))] * batch.batch_size
                elif (cal_oracle):
                    selected_ids = [[j for j in range(batch.clss.size(1)) if labels[i][j] == 1] for i in
                                    range(batch.batch_size)]
                else:
                    sent_scores, mask = self.model(src, segs, clss, mask, mask_cls)

                    # loss = self.loss(sent_scores, labels.float())
                    # loss = (loss * mask.float()).sum()
                    # batch_stats = Statistics(float(loss.cpu().data.numpy()), len(labels))
                    # stats.update(batch_stats)

                    sent_scores = sent_scores + mask.float()
                    sent_scores = sent_scores.cpu().data.numpy()
                    selected_ids = np.argsort(-sent_scores, 1)
                # selected_ids = np.sort(selected_ids,1)
                

        return selected_ids


    def _gradient_accumulation(self, true_batchs, normalization, total_stats,
                               report_stats):
        if self.grad_accum_count > 1:
            self.model.zero_grad()

        for batch in true_batchs:
            if self.grad_accum_count == 1:
                self.model.zero_grad()

            src = batch.src
            labels = batch.labels
            segs = batch.segs
            clss = batch.clss
            mask = batch.mask
            mask_cls = batch.mask_cls

            sent_scores, mask = self.model(src, segs, clss, mask, mask_cls)

            loss = self.loss(sent_scores, labels.float())
            loss = (loss*mask.float()).sum()
            (loss/loss.numel()).backward()
            # loss.div(float(normalization)).backward()

            batch_stats = Statistics(float(loss.cpu().data.numpy()), normalization)


            total_stats.update(batch_stats)
            report_stats.update(batch_stats)

            # 4. Update the parameters and statistics.
            if self.grad_accum_count == 1:
                # Multi GPU gradient gather
                if self.n_gpu > 1:
                    grads = [p.grad.data for p in self.model.parameters()
                             if p.requires_grad
                             and p.grad is not None]
                    distributed.all_reduce_and_rescale_tensors(
                        grads, float(1))
                self.optim.step()

        # in case of multi step gradient accumulation,
        # update only after accum batches
        if self.grad_accum_count > 1:
            if self.n_gpu > 1:
                grads = [p.grad.data for p in self.model.parameters()
                         if p.requires_grad
                         and p.grad is not None]
                distributed.all_reduce_and_rescale_tensors(
                    grads, float(1))
            self.optim.step()

    def _save(self, step):
        real_model = self.model
        # real_generator = (self.generator.module
        #                   if isinstance(self.generator, torch.nn.DataParallel)
        #                   else self.generator)

        model_state_dict = real_model.state_dict()
        # generator_state_dict = real_generator.state_dict()
        checkpoint = {
            'model': model_state_dict,
            # 'generator': generator_state_dict,
            'opt': self.args,
            'optim': self.optim,
        }
        checkpoint_path = os.path.join(self.args.model_path, 'model_step_%d.pt' % step)
        #logger.info("Saving checkpoint %s" % checkpoint_path)
        # checkpoint_path = '%s_step_%d.pt' % (FLAGS.model_path, step)
        if (not os.path.exists(checkpoint_path)):
            torch.save(checkpoint, checkpoint_path)
            return checkpoint, checkpoint_path

    def _start_report_manager(self, start_time=None):
        """
        Simple function to start report manager (if any)
        """
        if self.report_manager is not None:
            if start_time is None:
                self.report_manager.start()
            else:
                self.report_manager.start_time = start_time

    def _maybe_gather_stats(self, stat):
        """
        Gather statistics in multi-processes cases

        Args:
            stat(:obj:onmt.utils.Statistics): a Statistics object to gather
                or None (it returns None in this case)

        Returns:
            stat: the updated (or unchanged) stat object
        """
        if stat is not None and self.n_gpu > 1:
            return Statistics.all_gather_stats(stat)
        return stat

    def _maybe_report_training(self, step, num_steps, learning_rate,
                               report_stats):
        """
        Simple function to report training stats (if report_manager is set)
        see `onmt.utils.ReportManagerBase.report_training` for doc
        """
        if self.report_manager is not None:
            return self.report_manager.report_training(
                step, num_steps, learning_rate, report_stats,
                multigpu=self.n_gpu > 1)

    def _report_step(self, learning_rate, step, train_stats=None,
                     valid_stats=None):
        """
        Simple function to report stats (if report_manager is set)
        see `onmt.utils.ReportManagerBase.report_step` for doc
        """
        if self.report_manager is not None:
            return self.report_manager.report_step(
                learning_rate, step, train_stats=train_stats,
                valid_stats=valid_stats)

    def _maybe_save(self, step):
        """
        Save the model if a model saver is set
        """
        if self.model_saver is not None:
            self.model_saver.maybe_save(step)

            
def summary(args, b_list, device_id, pt, step, model):

    device = "cpu" if args.visible_gpus == '-1' else "cuda"
    if (pt != ''):
        test_from = pt
    else:
        test_from = args.test_from
    
    opt = vars(checkpoint['opt'])
    for k in opt.keys():
        if (k in model_flags):
            setattr(args, k, opt[k])
    #print(args)

    model.load_cp(checkpoint)
    model.eval()

    test_iter =data_loader.Dataloader(args, _lazy_dataset_loader(b_list),
                                  args.batch_size, device,
                                  shuffle=False, is_test=True)
    trainer = build_trainer(args, device_id, model, None)
    result = trainer.summary(test_iter,step)
    return result

def _tally_parameters(model):
    n_params = sum([p.nelement() for p in model.parameters()])
    return n_params

args.gpu_ranks = [int(i) for i in args.gpu_ranks.split(',')]
os.environ["CUDA_VISIBLE_DEVICES"] = args.visible_gpus

init_logger(args.log_file)
device = "cpu" if args.visible_gpus == '-1' else "cuda"
device_id = 0 if device == "cuda" else -1
model_flags = ['hidden_size', 'ff_size', 'heads', 'inter_layers','encoder','ff_actv', 'use_interval','rnn_size']

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
import argparse
import json
import os
import time
import urllib3
from glob import glob
import collections
import six
import gc
import gluonnlp as nlp
from kobert.utils import get_tokenizer
from kobert.utils import download as _download

def do_lang ( openapi_key, text ) :
    openApiURL = "http://aiopen.etri.re.kr:8000/WiseNLU"
    requestJson = {  
        "argument": {
            "text": text,
            "analysis_code": "morp"
        }
    }
    http = urllib3.PoolManager()
    response = http.request(
        "POST",
        openApiURL,
        headers={"Content-Type": "application/json; charset=UTF-8", "Authorization" :  openapi_key},
        body=json.dumps(requestJson)
    )

    json_data = json.loads(response.data.decode('utf-8'))
    json_result = json_data["result"]
    
    if json_result == -1:
        json_reason = json_data["reason"]
        if "Invalid Access Key" in json_reason:
            logger.info(json_reason)
            logger.info("Please check the openapi access key.")
            sys.exit()
        return "openapi error - " + json_reason
    else:
        json_data = json.loads(response.data.decode('utf-8'))
    
        json_return_obj = json_data["return_object"]
        
        return_result = ""
        json_sentence = json_return_obj["sentence"]
        for json_morp in json_sentence:
            for morp in json_morp["morp"]:
                return_result = return_result+str(morp["lemma"])+"/"+str(morp["type"])+" "

        return return_result

def get_kobert_vocab(cachedir="./tmp/"):
    # Add BOS,EOS vocab
    tokenizer = {
        "url": "s3://skt-lsl-nlp-model/KoBERT/tokenizers/kobert_news_wiki_ko_cased-1087f8699e.spiece",
        #"fname": "/opt/ml/SumAI/bertsum/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece",
        "chksum": "ae5711deb3",
    }
    
    vocab_info = tokenizer
    vocab_file = _download(
        #vocab_info["url"], vocab_info["fname"], vocab_info["chksum"], cachedir=cachedir
        vocab_info["url"], vocab_info["chksum"], cachedir=cachedir
    )

    vocab_b_obj = nlp.vocab.BERTVocab.from_sentencepiece(
        vocab_file[0], padding_token="[PAD]", bos_token="[BOS]", eos_token="[EOS]"
    )
    return vocab_b_obj

    
class BertData():
    def __init__(self, vocab):
        self.tokenizer = nlp.data.BERTSPTokenizer(get_tokenizer(), vocab, lower=False)
        #self.tokenizer = Tokenizer(vocab_file_path)
        self.sep_vid = self.tokenizer.vocab['[SEP]']
        self.cls_vid = self.tokenizer.vocab['[CLS]']
        self.pad_vid = self.tokenizer.vocab['[PAD]']

    def preprocess(self, src):

        if (len(src) == 0):
            return None

        original_src_txt = [''.join(s) for s in src]


        idxs = [i for i, s in enumerate(src) if (len(s) > 0)]

        src = [src[i][:20000] for i in idxs]
        src = src[:10000]

        if (len(src) < 3):
            return None

        src_txt = [''.join(sent) for sent in src]
        text = ' [SEP] [CLS] '.join(src_txt)
        src_subtokens = text.split(' ')
        src_subtokens = src_subtokens[:510]
        src_subtokens = ['[CLS]'] + src_subtokens + ['[SEP]']

        src_subtoken_idxs = self.tokenizer.convert_tokens_to_ids(src_subtokens)
        _segs = [-1] + [i for i, t in enumerate(src_subtoken_idxs) if t == self.sep_vid]
        segs = [_segs[i] - _segs[i - 1] for i in range(1, len(_segs))]
        segments_ids = []
        for i, s in enumerate(segs):
            if (i % 2 == 0):
                segments_ids += s * [0]
            else:
                segments_ids += s * [1]
        cls_ids = [i for i, t in enumerate(src_subtoken_idxs) if t == self.cls_vid]
        labels = None
        tgt_txt = None
        src_txt = [original_src_txt[i] for i in idxs]
        return src_subtoken_idxs, labels, segments_ids, cls_ids, src_txt, tgt_txt
    
def convert_to_unicode(text):
    """Converts `text` to Unicode (if it's not already), assuming utf-8 input."""
    if six.PY3:
        if isinstance(text, str):
            return text
        elif isinstance(text, bytes):
            return text.decode("utf-8", "ignore")
        else:
            raise ValueError("Unsupported string type: %s" % (type(text)))
    elif six.PY2:
        if isinstance(text, str):
            return text.decode("utf-8", "ignore")
        elif isinstance(text, unicode):
            return text
        else:
            raise ValueError("Unsupported string type: %s" % (type(text)))
    else:
        raise ValueError("Not running on Python2 or Python 3?")
        
class Tokenizer(object):
    
    def __init__(self, vocab_file_path):
        self.vocab_file_path = vocab_file_path
        """Loads a vocabulary file into a dictionary."""
        vocab = collections.OrderedDict()
        index = 0
        with open(self.vocab_file_path, "r", encoding='utf-8') as reader:

            while True:
                token = convert_to_unicode(reader.readline())
                if not token:
                    break

          ### joonho.lim @ 2019-03-15
                if token.find('n_iters=') == 0 or token.find('max_length=') == 0 :

                    continue
                token = token.split('\t')[0].strip('_')

                token = token.strip()
                vocab[token] = index
                index += 1
        self.vocab = vocab
        
    def convert_tokens_to_ids(self, tokens):
        """Converts a sequence of tokens into ids using the vocab."""
        ids = []
        for token in tokens:
            try:
                ids.append(self.vocab[token])
            except:
                ids.append(1)
        if len(ids) > 10000:
            raise ValueError(
                "Token indices sequence length is longer than the specified maximum "
                " sequence length for this BERT model ({} > {}). Running this"
                " sequence through BERT will result in indexing errors".format(len(ids), 10000)
            )
        return ids


def _lazy_dataset_loader(pt_file):
    dataset = pt_file    
    yield dataset
    
def News_to_input(text, openapi_key):
    newstemp = do_lang(openapi_key, text)
    news = newstemp.split(' ./SF ')[:-1]
    vocab = get_kobert_vocab()
    tokenizer = nlp.data.BERTSPTokenizer(get_tokenizer(), vocab, lower=False)
    bertdata = BertData(vocab)
    sent_labels = [0] * len(news)
    tmp = bertdata.preprocess(news)
    if(not tmp): return None
    #print(tmp)
    b_data_dict = {"src":tmp[0],
               "tgt": [0],
               "labels":[0,0,0],
               "src_sent_labels":sent_labels,
               "segs":tmp[2],
               "clss":tmp[3],
               "src_txt":tmp[4],
               "tgt_txt":'hehe'}
    b_list = []
    b_list.append(b_data_dict) 
    return b_list

2023-01-19 08:22:32.782757: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2023-01-19 08:22:32.782796: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


## 추출요약 테스트

In [19]:
openapi_key = '9318dc23-24ac-4b59-a99e-a29ec170bf02'
chat_history = "뉴스 "
user_input = '''
일본 정부가 문재인 대통령이 도쿄올림픽을 계기로 일본을 방문하는 방향으로 한일 양국이 조율하고 있다는 15일 요미우리신문의 보도를 부인했다.
정부 대변인인 가토 가쓰노부(加藤勝信) 관방장관은 이날 오전 정례 기자회견에서 관련 질문에 “말씀하신 보도와 같은 사실이 없는 것으로 안다”고 밝혔다.
앞서 요미우리는 한국 측이 도쿄올림픽을 계기로 한 문 대통령의 방일을 타진했고, 일본 측은 수용하는 방향이라고 이날 보도했다.
한국 측은 문 대통령의 방일 때 스가 요시히데(菅義偉) 총리와 처음으로 정상회담을 하겠다는 생각이라고 요미우리는 전했다.
가토 장관은 한일 정상회담에 대한 일본 정부의 자세에 대해 “그런 사실이 없기 때문에 가정의 질문에 대해 답하는 것을 삼가겠다”고 말했다.
그는 한국 측의 독도방어훈련에 ‘어떤 대항 조치를 생각하고 있느냐’는 질문에는 “한국 해군의 훈련에 대해 정부로서는 강한 관심을 가지고 주시하는 상황이어서 지금 시점에선 논평을 삼가겠다”고 말을 아꼈다.
가토 장관은 “다케시마(竹島·일본이 주장하는 독도의 명칭)는 역사적 사실에 비춰봐도, 국제법상으로도 명백한 일본 고유의 영토”라며 독도 영유권 주장을 되풀이했다.
그러면서 “다케시마 문제에 대해서는 계속 우리나라의 영토, 영해, 영공을 단호히 지키겠다는 결의로 냉정하고 의연하게 대응해갈 생각”이라고 밝혔다.
'''


bot_input_ids = News_to_input(chat_history + user_input, openapi_key)
print('------------------------------------------------------------')


#logger.info('Loading checkpoint from %s' % test_from)
checkpoint = torch.load('../models/bert_classifier/model_step_1000.pt', map_location=lambda storage, loc: storage)
config = BertConfig.from_json_file(args.bert_config_path)
model = Summarizer(args, device, load_pretrained_bert=False, bert_config = config)
    
chat_history_ids = summary(args, bot_input_ids, -1, '', None, model)
print(chat_history_ids)
print('------------------------------------------------------------')
pred_lst = list(chat_history_ids[0][:3])
print(pred_lst)
print('------------------------------------------------------------')
final_text = ''
for i,a in enumerate(user_input.split('.')):
    if i in pred_lst:
        print(i, a)
        final_text = final_text+a+'. '
chat_history = user_input + '<token>' +final_text
print('------------------------------------------------------------')
print(final_text)
print('------------------------------------------------------------')

using cached model. /opt/ml/KorBertSum/src/./tmp/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
------------------------------------------------------------


[2023-01-19 14:39:27,221 INFO] loading archive file ../001_bert_morp_pytorch
[2023-01-19 14:39:27,223 INFO] Model config {
  "attention_probs_dropout_prob": 0.1,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "type_vocab_size": 2,
  "vocab_size": 30349
}



[[0 7 3 1 4 5 2 6]]
------------------------------------------------------------
[0, 7, 3]
------------------------------------------------------------
0 
일본 정부가 문재인 대통령이 도쿄올림픽을 계기로 일본을 방문하는 방향으로 한일 양국이 조율하고 있다는 15일 요미우리신문의 보도를 부인했다
3 
한국 측은 문 대통령의 방일 때 스가 요시히데(菅義偉) 총리와 처음으로 정상회담을 하겠다는 생각이라고 요미우리는 전했다
7 
그러면서 “다케시마 문제에 대해서는 계속 우리나라의 영토, 영해, 영공을 단호히 지키겠다는 결의로 냉정하고 의연하게 대응해갈 생각”이라고 밝혔다
------------------------------------------------------------

일본 정부가 문재인 대통령이 도쿄올림픽을 계기로 일본을 방문하는 방향으로 한일 양국이 조율하고 있다는 15일 요미우리신문의 보도를 부인했다. 
한국 측은 문 대통령의 방일 때 스가 요시히데(菅義偉) 총리와 처음으로 정상회담을 하겠다는 생각이라고 요미우리는 전했다. 
그러면서 “다케시마 문제에 대해서는 계속 우리나라의 영토, 영해, 영공을 단호히 지키겠다는 결의로 냉정하고 의연하게 대응해갈 생각”이라고 밝혔다. 
------------------------------------------------------------


In [6]:
checkpoint = torch.load('../models/bert_classifier2/model_step_35000.pt', map_location=lambda storage, loc: storage)
config = BertConfig.from_json_file(args.bert_config_path)
model = Summarizer(args, device, load_pretrained_bert=False, bert_config = config)
    
def get_topk_sentences(k, user_input, model):
    bot_input_ids = News_to_input(user_input, openapi_key)
    
    chat_history_ids = summary(args, bot_input_ids, -1, '', None, model)
    pred_lst = list(chat_history_ids[0][:k])
    final_text = []
    for i,a in enumerate(user_input.split('.')):
        if i in pred_lst:
            #print(i, a)
            final_text.append((i, a+'. '))
    #print('------------------------------------------------------------')
    return final_text
    
    
#print(get_topk_sentences(4, user_input, model))

[2023-01-19 08:23:05,635 INFO] loading archive file ../001_bert_morp_pytorch
[2023-01-19 08:23:05,637 INFO] Model config {
  "attention_probs_dropout_prob": 0.1,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "type_vocab_size": 2,
  "vocab_size": 30349
}



## Get Topic

In [None]:
import pandas as pd

all_df = pd.read_csv('../result(paraphrase).csv')
all_df.head()

In [None]:
from newspaper import Article

def context(x):
    try:
        article = Article(x, language='ko')
        article.download()
        article.parse()
        return article.text
    except:
        return None

In [None]:
all_df['Topic']

In [None]:
topics = []
for i in sorted(all_df['Topic'].unique()):
    if(i != -1):
        print(i, len(all_df[all_df['Topic'] == i]))
        topics.append(all_df[all_df['Topic'] == i])
    
topics[0].head(2)

In [None]:
topic_df = topics[15]

### 전처리

In [None]:
from tqdm import tqdm

contexts = []
delete_idx = []
for i, link in enumerate(tqdm(topic_df['link'])):
    cont = context(link)
    if(context):
        contexts.append(cont)
    else:
        print(context)
        delete_idx.append(i)
        
    
print(len(delete_idx), delete_idx)
print(len(topic_df))
topic_df = topic_df.drop(topic_df.index[delete_idx])
print(len(topic_df))
topic_df['context'] = contexts
topic_df

In [None]:
for s in topic_df['title']:
    print(s)

In [229]:
topic_df.to_csv('../paraphrase_topic15.csv')

In [230]:
topic_df.head(2)

Unnamed: 0.1,Unnamed: 0,title,originallink,link,description,pubDate,Topic,Top_n_words,context
141,159,"<b>전자</b>랜드, 새해 &apos;<b>삼성전자</b> 세일 페스타&apos;...",https://www.news1.kr/articles/4922321,https://n.news.naver.com/mnews/article/421/000...,<b>전자</b>랜드는 이달 22일까지 &apos;<b>삼성전자</b> 세일 페스타...,"Thu, 12 Jan 2023 08:53:00 +0900",15,랜드 - 페스타 - 세일 - 할인 - 동참 - 행사 - 12 - 규모 - 수량 - 한정,(서울=뉴스1) 한지명 기자 = 전자랜드는 이달 22일까지 '삼성전자 세일 페스타'...
142,160,"&quot;55인치 TV 99만원&quot; <b>전자</b>랜드, &apos;<b...",http://www.newsis.com/view/?id=NISX20230112_00...,https://n.news.naver.com/mnews/article/003/001...,<b>전자</b>랜드는 <b>삼성전자</b>에서 진행하는 대규모 할인 행사 ‘<b>...,"Thu, 12 Jan 2023 08:39:00 +0900",15,랜드 - 페스타 - 세일 - 할인 - 동참 - 행사 - 12 - 규모 - 수량 - 한정,[서울=뉴시스] 이혜원 기자 = 전자랜드는 삼성전자에서 진행하는 대규모 할인 행사 ...


## Preprocess

In [50]:
# 공백 정리
import re, unicodedata
from string import whitespace, punctuation
from pykospacing import Spacing
from nltk import word_tokenize, sent_tokenize
import pandas as pd

def clean_byline(text):
    # byline
    pattern_email = re.compile(r'[-_0-9a-z]+@[-_0-9a-z]+(?:\.[0-9a-z]+)+', flags=re.IGNORECASE)
    pattern_url = re.compile(r'(?:https?:\/\/)?[-_0-9a-z]+(?:\.[-_0-9a-z]+)+', flags=re.IGNORECASE)
    pattern_others = re.compile(r'\.([^\.]*(?:기자|특파원|교수|작가|대표|논설|고문|주필|부문장|팀장|장관|원장|연구원|이사장|위원|실장|차장|부장|에세이|화백|사설|소장|단장|과장|기획자|큐레이터|저작권|평론가|©|©|ⓒ|\@|\/|=|▶|무단|전재|재배포|금지|\[|\]|\(\))[^\.]*)$')
    result = pattern_email.sub('', text)
    result = pattern_url.sub('', result)

    # 본문 시작 전 꺽쇠로 쌓인 바이라인 제거
    pattern_bracket = re.compile(r'^((?:\[.+\])|(?:【.+】)|(?:<.+>)|(?:◆.+◆)\s)')
    result = pattern_bracket.sub('', result).strip()
    return result


def text_filter(text): # str -> 전처리 -> 문장 배열
    text = clean_byline(text)
    exclude_pattern = re.compile(r'[^\% 0-9a-zA-Zㄱ-ㅣ가-힣.,]+')
    exclusions = exclude_pattern.findall(text)
    result = exclude_pattern.sub(' ', text).strip()
    spacing = Spacing()
    kospacing_txt = spacing(result) 
    sentences = sent_tokenize(kospacing_txt) 
    return sentences

def make_df(name, model):
    start = time.time()
    df = pd.read_csv(f'../{name}.csv')
    text = []
    topk = []
    for i,context in enumerate(df['context']):
        preprocess = text_filter(context)[:60]
        text.append([(i,v) for i,v in enumerate(preprocess)])
        top = None
        if(len(preprocess) > 3):
            top = get_topk_sentences(len(preprocess)//4+1, ' '.join(preprocess), model)
        if(top):
            topk.append(top)
        else:
            topk.append('Hello world')
            
    df['text'] = text
    df['topk'] = topk
    df = df.drop(df[df['topk'] == 'Hello world'].index)
    print(f"{time.time()-start:.4f} sec")
    return df


In [51]:
text_filter("삼성전자가 갤럭시 버즈2 프로                소프트웨어 업데이트를 통해 스마트폰 카메라 사용성을 한 단계 더 높였습니다. 삼성전자는 휴대전화로 동영상을 찍을 때 360도 사운드 녹음이 가능하도록 갤럭시 버즈2 프로와 갤럭시Z 플립4, 폴드4의 소프트웨어 업데이트를 시행한다고 밝혔습니다. 소프트웨어 업데이트를 통해 버즈2 프로 좌우에 있는 마이크로 사용자가 듣는 그대로의 소리를 생생하게 녹음할 수 있다고 삼성전자 측은 설명했습니다. ※ '당신의 제보가 뉴스가 됩니다' [카카오톡] YTN 검색해 채널 추가 [전화] 02-398-8585 [메일]")



['삼성전자가 갤럭시 버즈 2 프로 소프트웨어 업데이트를 통해 스마트폰 카메라 사용성을 한 단계 더 높였습니다.',
 '삼성전자는 휴대전화로 동영상을 찍을 때 360도 사운드 녹음이 가능하도록 갤럭시 버즈 2 프로와 갤럭시Z 플립4, 폴드 4의 소프트웨어 업데이트를 시행한다고 밝혔습니다.',
 '소프트웨어 업데이트를 통해 버즈 2 프로 좌우에 있는 마 이 크로 사용자가 듣는 그대로의 소리를 생생하게 녹음할 수 있다고 삼성전자 측은 설명했습니다.',
 '당신의 제보가 뉴스가 됩니다 카카오톡 YTN 검색해 채널 추가 전화 02 398 8585 메일']

In [52]:
checkpoint = torch.load('../models/bert_classifier2/model_step_35000.pt', map_location=lambda storage, loc: storage)
config = BertConfig.from_json_file(args.bert_config_path)
model = Summarizer(args, device, load_pretrained_bert=False, bert_config = config)
    
df = make_df('paraphrase_topic15', model)
len(df)

[2023-01-19 14:45:10,791 INFO] loading archive file ../001_bert_morp_pytorch
[2023-01-19 14:45:10,793 INFO] Model config {
  "attention_probs_dropout_prob": 0.1,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "type_vocab_size": 2,
  "vocab_size": 30349
}



using cached model. /opt/ml/KorBertSum/src/./tmp/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/./tmp/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/./tmp/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/./tmp/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wi

20

In [54]:
i = 19
df['text'][i]

[(0, '전자랜드가 2023년을 맞아 삼성전자에서 진행하는 대규모 할인 행사 삼성전자 세일 페스타 에 동참한다고 12일 밝혔다.'),
 (1, '이에 전자랜드는 오는 2월 12일까지 삼성전자의 제품들을 할인 판매한다.'),
 (2,
  '품목으로는 삼성전자의 55인치 QLED TV를 한 정 판매하고, 이외에 냉장고, 김치냉장고, 에어컨, 세탁기, 건조기, 청소기 등 주요 가전 제품이 있다.'),
 (3, '할인 기 간에 삼성전자 제품을 구매하면 결제 금액의 최대 3배를 삼성전자 멤버십 포인트로 환급 받을 수 있다.'),
 (4, '프리미엄 가전제품은 두 가지 이상 구매 시 최대 450만원의 캐시백을 지급한다.'),
 (5,
  '또한 45개 전자랜드 행사 점에서 1월 13일부터 16일까지 1300만원 이상 결제하면 최대 50만원의 캐시백을 추가 증정한다.'),
 (6,
  '1월 16일부터 31일까지는 삼세권 인증샷 이 벤트 를 진행해 삼성전자 세일 페스타의 판촉물을 찍은 사진을 개인 SNS에 업로드하면 추첨을 통해 치킨 기프티콘을 증정한다.'),
 (7, '최연성 기자 경제를 읽는 맑은 창 비즈니스플러스')]

In [55]:
df['topk'][i]

[(4, ' 프리미엄 가전제품은 두 가지 이상 구매 시 최대 450만원의 캐시백을 지급한다. '),
 (5,
  ' 또한 45개 전자랜드 행사 점에서 1월 13일부터 16일까지 1300만원 이상 결제하면 최대 50만원의 캐시백을 추가 증정한다. '),
 (6,
  ' 1월 16일부터 31일까지는 삼세권 인증샷 이 벤트 를 진행해 삼성전자 세일 페스타의 판촉물을 찍은 사진을 개인 SNS에 업로드하면 추첨을 통해 치킨 기프티콘을 증정한다. ')]

In [56]:
df.to_csv('../paraphrase_topic15_pre.csv')

In [57]:
eval(str(df['topk'][6]))[:1]

[(5, ' 행사 기간 프리미엄 가전제품을 두 가지 이상 구매한 고객에게는 캐시백을 지급한다. ')]

## K-means 클러스터링

## 토픽 요약하기

In [69]:
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.stem import WordNetLemmatizer
import nltk
import string
from sklearn.cluster import KMeans


def get_clustered_df(sentences, clusternum):
    print(clusternum)
    document_df = pd.DataFrame()
    document_df['opinion_text'] = [str(t) for t in sentences]
    remove_punct_dict = dict((ord(punct), None) for punct in string.punctuation)

    lemmar = WordNetLemmatizer()
    
    # 토큰화한 각 단어들의 원형들을 리스트로 담아서 반환
    def LemTokens(tokens):
        return [lemmar.lemmatize(token) for token in tokens]

    # 텍스트를 Input으로 넣어서 토큰화시키고 토큰화된 단어들의 원형들을 리스트로 담아 반환
    def LemNormalize(text):
        # .translate인자에 구두점 dict넣어주어서 구두점 삭제해준 상태로 토큰화시키기!
        return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))
    
    tfidf_vect = TfidfVectorizer(tokenizer=LemNormalize,
                            ngram_range=(1,2),
                            min_df=0.05, max_df=0.85)

    # fit_transform으로 위에서 구축한 도구로 텍스트 벡터화
    ftr_vect = tfidf_vect.fit_transform(document_df['opinion_text'])
    # K-means로 3개 군집으로 문서 군집화시키기

    kmeans = KMeans(n_clusters=clusternum, max_iter=10000, random_state=42)
    # 비지도 학습이니 feature로만 학습시키고 예측
    cluster_label = kmeans.fit_predict(ftr_vect)
    
    # 군집화한 레이블값들을 document_df 에 추가하기
    document_df['cluster_label'] = cluster_label
    return document_df.sort_values(by=['cluster_label'])
    

def get_topic_sentences(df, clabel):
    lst = []
    for i,t in enumerate(df[df['cluster_label'] == clabel]['opinion_text']):
        print(i, t)
        lst.append(t)
    return lst 

In [70]:
def delete_similar(input_sentences):
    sorted_sentences = sorted(input_sentences, key=lambda x:x[1])
    prev = sorted_sentences[0]
    processed_sentences = []
    for sentence in sorted_sentences[1:]:
        s1 = set(prev[1].split())
        s2 = set(sentence[1].split())
        actual_jaccard = float(len(s1.intersection(s2)))/float(len(s1.union(s2)))
        if(actual_jaccard < 0.45): # if not similar
            processed_sentences.append(prev)
        prev = sentence
        
    return processed_sentences


def get_first_topk_sentences(name):
    df = pd.read_csv(f'../{name}.csv')

    first_sentences = []
    topk_sentences = []
    for a,b in zip(df['text'], df['topk']):
        if(eval(str(b))[0][0] == 0):
            first_sentences += eval(str(b))[:1]
            topk_sentences += eval(str(b))[1:]
        else:
            first_sentences += eval(str(a))[:1]
            topk_sentences += eval(str(b))
    
    print('before delete similar:', len(first_sentences), len(topk_sentences))
    first_sentences = delete_similar(first_sentences)
    topk_sentences = delete_similar(topk_sentences)
    print('after delete similar:', len(first_sentences), len(topk_sentences))
    return first_sentences, topk_sentences

first_sentences, topk_sentences = get_first_topk_sentences('paraphrase_topic15_pre')

before delete similar: 20 67
after delete similar: 14 39


In [71]:
import time
import pandas as pd
import torch
from transformers import PreTrainedTokenizerFast
from transformers import BartForConditionalGeneration
import random


def summarize_topic(document_df, topic_num, tokenizer, model):
    sentences = []
    numbers = []
    for i,t in enumerate(document_df[document_df['cluster_label'] == topic_num]['opinion_text']):
        sentences.append(eval(t)[1])
        numbers.append(eval(t)[0])
    result = make_summarization(sentences, tokenizer, model)
    avg = sum(numbers)/len(numbers)
    return (avg, result)


def make_summarization(sentences, tokenizer, model):
    if(len(sentences) < 4): return max(sentences, key=lambda x:len(x))
    split = []
    for i in range(len(sentences)//8):
        split.append(sentences[:8])
        sentences = sentences[8:]

    for i in range(len(split)):
        if(len(sentences) == 0): break
        split[i].append(sentences.pop())
    
    if(len(sentences) != 0): split.append(sentences)
    
    split_sum = []
    for sentences in split:
        text = '\n'.join(sentences)
        start = time.time()
        raw_input_ids = tokenizer.encode(text)
        input_ids = [tokenizer.bos_token_id] + raw_input_ids + [tokenizer.eos_token_id]

        summary_ids = model.generate(torch.tensor([input_ids]),  num_beams=4,  max_length=512, min_length=48,  eos_token_id=1)
        print(f"{time.time()-start:.4f} sec")
        sum_result = tokenizer.decode(summary_ids.squeeze().tolist(), skip_special_tokens=True)
        print(sum_result)
        split_sum.append(sum_result)
        print(len(split), len(split_sum))
        print('-----------------------------------------------')
    
    if(len(split_sum)==1):
        return split_sum[0]
      
    return ' '.join(split_sum)

In [72]:
tokenizer = PreTrainedTokenizerFast.from_pretrained('digit82/kobart-summarization')
model = BartForConditionalGeneration.from_pretrained('digit82/kobart-summarization')
    
def summarize_first_sentences(processed_sentences, tokenizer, model):
    clusternum = 1
    document_df = get_clustered_df(processed_sentences, clusternum)
    sum_result = []
    for c in range(clusternum):
        temp = get_topic_sentences(document_df, c)
        print('~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~')
        summ = summarize_topic(document_df, c, tokenizer, model)
        sum_result.append(summ)
        print(summ)
        print('===================================================')
    
    first_result = (sum_result[0][0], min(sum_result[0][1].split('. '), key=lambda x:len(x)))
    return first_result
    
def summarize_topk_sentences(processed_sentences, tokenizer, model):
    clusternum = len(processed_sentences)//7
    document_df = get_clustered_df(processed_sentences, clusternum)
    sum_result = []
    for c in range(clusternum):
        temp = get_topic_sentences(document_df, c)
        print('---------------------------------------------------')
        summ = summarize_topic(document_df, c, tokenizer, model)
        sum_result.append(summ)
        print(summ)
        print('***************************************************')
        
    return sorted(sum_result, key= lambda x: x[0])

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


In [73]:
sum_result1 = summarize_first_sentences(first_sentences, tokenizer, model)
sum_result2 = summarize_topk_sentences(topk_sentences, tokenizer, model)

1




0 (0, '사진 전자랜드 이 데일리 정병묵 기자 전자랜드가 2대 규모 할인 행사 삼성전자 005930 세일 페스타 에 참여한다고 12일 밝혔다.')
1 (0, '사진 전자랜드 제공 데일리 한국 김보라 기자 전자랜드가 2023년을 맞아 삼성전자에서 진행하는 대규모 할인 행사 삼성전자 세일 페스타 삼세페 에 동참한다고 12일 밝혔다.')
2 (0, '삼성전자 세일 페스타.')
3 (0, '서울 뉴스1 한 지명 기자 전자랜드는 이 달 22일까지 삼성전자 세일 페스타 에 동참한다고 12일 밝혔다.')
4 (0, '자랜드, 2023년 삼성전자 세일 페스타 동시 운영 전자랜드가 2023년을 맞아 삼성전자에서 진행하는 대규모 할인 행사 삼성전자 세일 페스타 삼세페 에 동참한다고 12일 밝혔다.')
5 (0, '저작권자 소비자가 만드는 신문 무단 전재 및 재배포 금지 전자랜드가 2023년을 맞아 삼성전자에서 진행하는 대규모 할인 행사 삼성 세일 페스타 에 동참한다고 12일 밝혔다.전자랜드는 오는 2월 12일까지 행사 제품을 한 정 수량으로 할인 판매한다.')
6 (0, '전자랜드, 2023년 삼성전자 세일 페스타 동시 운영 전 자랜드가 2023년을 맞아 삼성전자에서 진행하는 대규모 할인 행사 삼성전자 세일 페스타 삼세페 에 동참한다.')
7 (0, '전자랜드, 2023년 삼성전자 세일 페스타 동시 운영 제공 전자랜드 열린뉴스통신 ONA 서울 열린뉴스통신 유연수 기자 전자랜드가 2023년 삼성전자 세일 페스타 에 참여한다.')
8 (0, '전자랜드가 2023년을 맞아 삼성전자에서 진행하는 대규모 할인 행사 삼성전자 세일 페스타 에 동참한다고 12일 밝혔다.')
9 (0, '전자랜드가 삼성전자 세일 페스타 에 동참한다.')
10 (0, '전자랜드는 새해를 맞아 삼성전자에서 진행하는 대규모 할인 행사 삼성전자 세일 페스타 에 동참한다.')
11 (0, '최대 450만원의 캐시백 지급하는 다 품목 할인 행사 운영 삼성전자 멤버십 행사에도 동참, SNS 인증하면 멤버십 포인트와 기



1.8788 sec
이 달 13일부터 16일까지 45개의 전자랜드 행사점에서 1300만 원  이상의 다 품목을 구매하면 최대 50만 원의 캐시백을 추가 증정한다. 블룸 또한 45개의 전자랜드 행사점에서 1300만 원  이상의 다 품목을 구매하면 최대 50만원의 캐시백을 추가 증정한다.
1 1
-----------------------------------------------
(5.8, '이 달 13일부터 16일까지 45개의 전자랜드 행사점에서 1300만 원  이상의 다 품목을 구매하면 최대 50만 원의 캐시백을 추가 증정한다. 블룸 또한 45개의 전자랜드 행사점에서 1300만 원  이상의 다 품목을 구매하면 최대 50만원의 캐시백을 추가 증정한다.')
***************************************************
0 (8, ' 또한 16일부터 31일까지는 삼세권 인증샷 이벤트 를 진행해 삼성전자 세일 페스타의 판촉물을 찍은 사진을 개인 SNS에 업로드하면 추첨을 통해 치킨 기프티콘을 증정한다. ')
1 (8, ' 또 1월 16일부터 31일까지는 삼세권 인증샷 이벤트 를 진행해 삼성전자 세일 페스타의 판촉물을 찍은 사진을 개인 SNS에 업로드하면 추첨을 통해 치킨 기프티콘을 증정한다. ')
2 (8, ' 또한 1월 16일부터 31일까지는 삼세권 인증샷 행사를 진행해 삼성전자  세일 페스타의 판촉물을 찍은 사진을 개인 SNS에 업로드하면 추첨을 통해 치킨 기프티콘을 증정한다. ')
3 (6, ' 1월 16일부터 31일까지는 삼세권 인증샷 이 벤트 를 진행해 삼성전자 세일 페스타의 판촉물을 찍은 사진을 개인 SNS에 업로드하면 추첨을 통해 치킨 기프티콘을 증정한다. ')
---------------------------------------------------
2.1918 sec
1월 16일부터 31일까지는 삼세권 인증샷 이벤트 를 진행해 삼성전자 세일 페스타의 판촉물을 찍은 사진을 개인 SNS에 업로드하면 추첨을 통해 치킨 기프티

In [74]:
sum_result1

(0.0,
 '전자랜드가 2023년을 맞아 삼성전자에서 진행하는 대규모 할인 행사 삼성전자 005930 세일 페스타 에 동참한다고 12일 밝혔으며 전자랜드는 오는 2월 12일까지 행사 제품을 한 정 수량으로 할인하였고, 전자랜드는 이 달 22일까지 삼성전자 세일 페스타 에 동참한다고 12일 밝혔다')

In [75]:
sum_result2

[(5.2,
  '여러 가지 가전제품을 구매하면 풍성한 혜택을 제공하는 다 품목 할인 행사도 운영하며 여러 가지 가전제품을 구매하면 풍성한 혜택을 제공하는 다 품목 할인 행사도 운영한다.  \n전자랜드는 삼성전자 멤버십 행사에도 동참하며 여러 가지 가전제품을 구매하면 풍성한 혜택을 제공하는 다 품목 할인 행사도 운영한다.'),
 (5.8,
  '이 달 13일부터 16일까지 45개의 전자랜드 행사점에서 1300만 원  이상의 다 품목을 구매하면 최대 50만 원의 캐시백을 추가 증정한다. 블룸 또한 45개의 전자랜드 행사점에서 1300만 원  이상의 다 품목을 구매하면 최대 50만원의 캐시백을 추가 증정한다.'),
 (5.833333333333333,
  '삼성전자는 행사 기간 동안 프리미엄 가전제품을 두 가지 이상 구매한 고객들에게 최대 450만원의 캐시백을 지급하며, 행사 기간 동안 프리미엄 가전제품을 두 가지 이상 구매한 고객들은 구매 금액의 최대 3배를 삼성전자 멤버십 포인트로 환급 받을 수 있다. 스웨덴 교회는 2000년부터 국가와  분리되었지만 여전히 국민들이 어렵고 힘들 때 기대고 찾아가는 중요한 사회적 구심점 역할을 하고  있으며 이러한 기관과 나란히 어깨를 나란히 하고 있는 것이 노조 인 셈이다.  \n 신뢰도의 최근 변화를 보면 병원과 의료기관이 최고의 높은 점수를 받고 있고, 경찰, 대학, 법원, 중앙은행, 국가, 의회의 순으로 높은 신뢰도를 보여준다.'),
 (7.5,
  '1월 16일부터 31일까지는 삼세권 인증샷 이벤트 를 진행해 삼성전자 세일 페스타의 판촉물을 찍은 사진을 개인 SNS에 업로드하면 추첨을 통해 치킨 기프티콘을 증정하며 1월 16일부터 31일까지는 삼세권 인증샷 이벤트 를 진행해 삼성전자 세일 페스타의 판촉물을 찍은 사진을 개인 SNS에 업로드하면 추첨을 통해 치킨 기프티콘을 증정한다.'),
 (7.923076923076923,
  '스웨덴 국민들의가 총파업에 들어 갈 경우 국민들의 일반적 시선은 그들의 당연한 권리로 받아

In [78]:
final_result = [v for i,v in [sum_result1] + sum_result2]
final_sentences = [(i,s) if '.' in s[-2: ] else s+'. ' for i,s in enumerate(final_result)]
final_sentences

['전자랜드가 2023년을 맞아 삼성전자에서 진행하는 대규모 할인 행사 삼성전자 005930 세일 페스타 에 동참한다고 12일 밝혔으며 전자랜드는 오는 2월 12일까지 행사 제품을 한 정 수량으로 할인하였고, 전자랜드는 이 달 22일까지 삼성전자 세일 페스타 에 동참한다고 12일 밝혔다. ',
 (1,
  '여러 가지 가전제품을 구매하면 풍성한 혜택을 제공하는 다 품목 할인 행사도 운영하며 여러 가지 가전제품을 구매하면 풍성한 혜택을 제공하는 다 품목 할인 행사도 운영한다.  \n전자랜드는 삼성전자 멤버십 행사에도 동참하며 여러 가지 가전제품을 구매하면 풍성한 혜택을 제공하는 다 품목 할인 행사도 운영한다.'),
 (2,
  '이 달 13일부터 16일까지 45개의 전자랜드 행사점에서 1300만 원  이상의 다 품목을 구매하면 최대 50만 원의 캐시백을 추가 증정한다. 블룸 또한 45개의 전자랜드 행사점에서 1300만 원  이상의 다 품목을 구매하면 최대 50만원의 캐시백을 추가 증정한다.'),
 (3,
  '삼성전자는 행사 기간 동안 프리미엄 가전제품을 두 가지 이상 구매한 고객들에게 최대 450만원의 캐시백을 지급하며, 행사 기간 동안 프리미엄 가전제품을 두 가지 이상 구매한 고객들은 구매 금액의 최대 3배를 삼성전자 멤버십 포인트로 환급 받을 수 있다. 스웨덴 교회는 2000년부터 국가와  분리되었지만 여전히 국민들이 어렵고 힘들 때 기대고 찾아가는 중요한 사회적 구심점 역할을 하고  있으며 이러한 기관과 나란히 어깨를 나란히 하고 있는 것이 노조 인 셈이다.  \n 신뢰도의 최근 변화를 보면 병원과 의료기관이 최고의 높은 점수를 받고 있고, 경찰, 대학, 법원, 중앙은행, 국가, 의회의 순으로 높은 신뢰도를 보여준다.'),
 (4,
  '1월 16일부터 31일까지는 삼세권 인증샷 이벤트 를 진행해 삼성전자 세일 페스타의 판촉물을 찍은 사진을 개인 SNS에 업로드하면 추첨을 통해 치킨 기프티콘을 증정하며 1월 16일부터 31일까지는 삼세권 인증샷 이벤트 를

In [80]:
clusternum = len(final_sentences)//7 + 1
final_cluster_df = get_clustered_df(final_sentences, clusternum)
final_cluster_df

1




Unnamed: 0,opinion_text,cluster_label
0,전자랜드가 2023년을 맞아 삼성전자에서 진행하는 대규모 할인 행사 삼성전자 005...,0
1,"(1, '여러 가지 가전제품을 구매하면 풍성한 혜택을 제공하는 다 품목 할인 행사도...",0
2,"(2, '이 달 13일부터 16일까지 45개의 전자랜드 행사점에서 1300만 원 ...",0
3,"(3, '삼성전자는 행사 기간 동안 프리미엄 가전제품을 두 가지 이상 구매한 고객들...",0
4,"(4, '1월 16일부터 31일까지는 삼세권 인증샷 이벤트 를 진행해 삼성전자 세일...",0
5,"(5, '스웨덴 국민들의가 총파업에 들어 갈 경우 국민들의 일반적 시선은 그들의 당...",0


In [82]:
len(final_result)

6

In [163]:
checkpoint = torch.load('../models/bert_classifier2/model_step_35000.pt', map_location=lambda storage, loc: storage)
config = BertConfig.from_json_file(args.bert_config_path)
model2 = Summarizer(args, device, load_pretrained_bert=False, bert_config = config)

[2023-01-19 06:23:45,517 INFO] loading archive file ../001_bert_morp_pytorch
[2023-01-19 06:23:45,519 INFO] Model config {
  "attention_probs_dropout_prob": 0.1,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "type_vocab_size": 2,
  "vocab_size": 30349
}



In [174]:
#checkpoint = torch.load('../models/bert_classifier2/model_step_35000.pt', map_location=lambda storage, loc: storage)
#config = BertConfig.from_json_file(args.bert_config_path)
#model = Summarizer(args, device, load_pretrained_bert=False, bert_config = config)
def make_summarization_final(sentences, model):
    if(len(sentences) < 4): return max(sentences, key=lambda x:len(x))
    split = []
    for i in range(len(sentences)//8):
        split.append(sentences[:8])
        sentences = sentences[8:]

    for i in range(len(split)):
        if(len(sentences) == 0): break
        split[i].append(sentences.pop())
    
    if(len(sentences) != 0): split.append(sentences)
    
    split_sum = []
    for sentences in split:
        text = '\n'.join(sentences)
        start = time.time()
        sent = get_topk_sentences(len(sentences)//2, ' '.join(sentences), model) 
        print(f"{time.time()-start:.4f} sec")
        print(sent)
        split_sum += sent
        print(len(split), len(split_sum))
        print('-----------------------------------------------')
    
    if(len(split_sum)==1):
        return split_sum[0]
      
    return split_sum


In [175]:
final_sum = make_summarization_final(final_result, model2)
final_sum

using cached model. /opt/ml/KorBertSum/src/./tmp/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
1.6871 sec
[(3, '   TSMC는 지난해 같은 기간 대비 매출을 43% 가량 늘리며 세계 반도체 매출 1위는 유지한 것으로 추정되나, TSMC는 지난해 3분기에 이어 4분기에도 세계 반도체 매출 1위는 유지한 것으로 추정된다. '), (4, '  세계 1위 파운드리업체인 TSMC 매출에서 데이터 서버 등에 사용되는 고성능 컴퓨터용 반도체가 1위에 올라섰다는 점은 세계 파운드리 시장의 판도 변화를 보여주는 중요한 의미가 있다. '), (5, '  \n웨이저자 TSMC CEO 는 12일 콘퍼런스콜을 통해 3나노 미세공정에서 고성능 컴퓨터용 반도체 고객사 수요가 공급 능력을 웃도는 상황을 보이고 있다며, 2023년 하반기부터 매출에 상당한 부분을 기여하게 될 것 이라고 밝혔다. '), (8, ' 마이크론은 인력 구조조정에도 나섰으며 전년 대비 각각 %, % 감소한 규모인 매출 증가율은 10%로 집계됐다. ')]
3 4
-----------------------------------------------
using cached model. /opt/ml/KorBertSum/src/./tmp/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached model. /opt/ml/KorBertSum/src/.cache/kobert_news_wiki_ko_cased-1087f8699e.spiece
using cached mod

[(3,
  '   TSMC는 지난해 같은 기간 대비 매출을 43% 가량 늘리며 세계 반도체 매출 1위는 유지한 것으로 추정되나, TSMC는 지난해 3분기에 이어 4분기에도 세계 반도체 매출 1위는 유지한 것으로 추정된다. '),
 (4,
  '  세계 1위 파운드리업체인 TSMC 매출에서 데이터 서버 등에 사용되는 고성능 컴퓨터용 반도체가 1위에 올라섰다는 점은 세계 파운드리 시장의 판도 변화를 보여주는 중요한 의미가 있다. '),
 (5,
  '  \n웨이저자 TSMC CEO 는 12일 콘퍼런스콜을 통해 3나노 미세공정에서 고성능 컴퓨터용 반도체 고객사 수요가 공급 능력을 웃도는 상황을 보이고 있다며, 2023년 하반기부터 매출에 상당한 부분을 기여하게 될 것 이라고 밝혔다. '),
 (8, ' 마이크론은 인력 구조조정에도 나섰으며 전년 대비 각각 %, % 감소한 규모인 매출 증가율은 10%로 집계됐다. '),
 (2, '                                                                   . '),
 (3,
  '  세계적인 경기 침체 우려 속에 글로벌 반도체 기업인 삼성전자와 TSMC의 실적 온도 차의 원인을 파운드리 사업의 수 주 경쟁력에서 찾고 있는 가운데, 삼성전자는 파운드리 업체가 보유한 공정 기술과 특허를 반영해 반도체를 설계하기 때문에 경기 부진의 여파를 상대적으로 비껴 간 것으로 보인다. '),
 (4,
  ' 삼성전자는 메모 메모리 반도체와 파운드리를 모두 운영하는 사업자인데 메모리 반도체 업황 침체로 분 기 매출 1위를  되찾지 못하였으며 이는 고금리 영향으로 글로벌 IT 기업들이 투자를 축소하고 스마트폰과 PC 등의 수요가 줄어들자 직격탄을 맞았기 때문이다. '),
 (7,
  '   삼성전자는 오는 31일 2022년 4분기 및 연간 실적을 발표하는 가운데 시장에선 반도 체 부문 매출액을 19조 3천억 원 수준으로 보고 있으며 삼성전자는 잠정 실적 발표를 통해 2 022년 4분기 매출 

## 생성 요약

In [193]:
import time
import pandas as pd
import torch
from transformers import PreTrainedTokenizerFast
from transformers import BartForConditionalGeneration
import random

tokenizer = PreTrainedTokenizerFast.from_pretrained('digit82/kobart-summarization')
model = BartForConditionalGeneration.from_pretrained('digit82/kobart-summarization')

def make_summarization(sentences):
    text = '\n'.join(sentences)
    start = time.time()
    raw_input_ids = tokenizer.encode(text)
    input_ids = [tokenizer.bos_token_id] + raw_input_ids + [tokenizer.eos_token_id]

    summary_ids = model.generate(torch.tensor([input_ids]),  num_beams=4,  max_length=512, min_length=64,  eos_token_id=1)
    print(f"{time.time()-start:.4f} sec")
    sum_result = tokenizer.decode(summary_ids.squeeze().tolist(), skip_special_tokens=True)
    return sum_result

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


In [194]:
import time
import pandas as pd
import torch
from transformers import PreTrainedTokenizerFast
from transformers import BartForConditionalGeneration
import random

tokenizer = PreTrainedTokenizerFast.from_pretrained('digit82/kobart-summarization')
model = BartForConditionalGeneration.from_pretrained('digit82/kobart-summarization')

def summarize_topic(document_df, topic_num):
    sentences = []
    numbers = []
    for i,t in enumerate(document_df[document_df['cluster_label'] == topic_num]['opinion_text']):
        sentences.append(eval(t)[1])
        numbers.append(eval(t)[0])
    result = make_summarization(sentences)
    avg = sum(numbers)/len(numbers)
    return (avg, result)

def make_summarization(sentences, tokenizer, model):
    if(len(sentences) < 4): return max(sentences, key=lambda x:len(x))
    split = []
    for i in range(len(sentences)//8):
        split.append(sentences[:8])
        sentences = sentences[8:]

    for i in range(len(split)):
        if(len(sentences) == 0): break
        split[i].append(sentences.pop())
    
    if(len(sentences) != 0): split.append(sentences)
    
    split_sum = []
    for sentences in split:
        text = '\n'.join(sentences)
        start = time.time()
        raw_input_ids = tokenizer.encode(text)
        input_ids = [tokenizer.bos_token_id] + raw_input_ids + [tokenizer.eos_token_id]

        summary_ids = model.generate(torch.tensor([input_ids]),  num_beams=4,  max_length=512, min_length=48,  eos_token_id=1)
        print(f"{time.time()-start:.4f} sec")
        sum_result = tokenizer.decode(summary_ids.squeeze().tolist(), skip_special_tokens=True)
        print(sum_result)
        split_sum.append(sum_result)
        print(len(split), len(split_sum))
        print('-----------------------------------------------')
    
    if(len(split_sum)==1):
        return split_sum[0]
      
    return ' '.join(split_sum)

In [195]:
document_df

Unnamed: 0,opinion_text,cluster_label
150,"(5, ' 특히 최근 주목받고 있는 자동차용 반도체, 인공지능 AI , 사물인터넷 ...",0
71,"(5, ' 비즈니스 포스트 글로벌 경제팀에서 연재하는 삼성의 라이벌 기획은 삼성전자...",0
148,"(5, ' 특히 이 반도체는 단독이 아닌 CPU와 함께 쓰여 CPU 업체로부터 인증...",0
8,"(5, ' 6 삼성전자 파운드리 분사 준비됐나, 고객사와 경쟁 한계 비즈니스포스트 ...",0
137,"(5, ' 지난해 363억달러 보다 시설 투자액을 최대 % 줄이겠다 고 선언한 것이...",0
...,...,...
121,"(12, ' 인도네시아는 오랜 기간 테슬라 공장 유치를 추진해 왔습니다. ')",24
11,"(12, ' DDR 뒤에 붓는 숫자가 높을수록 차세대 제품이며, 숫자가 높아질 때마...",24
58,"(12, ' 미국 텍 사스주 테일 러시에 건설 중인 삼성전자 신규 파운드리 공장. ')",24
174,"(12, '장중 머우 창업주의 표현은 다소 거칠었지만, 그가 세계화 및 자유무역 ...",24


In [196]:
def summarize_topic(document_df, topic_num):
    sentences = []
    numbers = []
    for i,t in enumerate(document_df[document_df['cluster_label'] == topic_num]['opinion_text']):
        sentences.append(eval(t)[1])
        numbers.append(eval(t)[0])
    result = make_summarization(sentences)
    avg = sum(numbers)/len(numbers)
    return (avg, result)

In [125]:
result = summarize_topic(document_df, 1)
result

1.3943 sec
대만 T운드리 위탁 생산 글로벌 1위인 대만 TSMC가 지난해 3분기에 이어 4분기에도 삼성전자를 꺾고 세계 반도체 매출 1위에 오른 소식에도, 하반기 반도체 업황 반등 기대감이 작용해 삼성전자 주가는 소폭 상승하고 있다.  
2 1
-----------------------------------------------
1.2878 sec
TSMC는 지난해 같은 기간 대비 매출을 43% 가량 늘리며 세계 반도체 매출 1위는 유지한 것으로 추정되나, TSMC는 지난해 3분기에 이어 4분기에도 세계 반도체 매출 1위는 유지한 것으로 추정된다. 
2 2
-----------------------------------------------


(7.363636363636363,
 '대만 T운드리 위탁 생산 글로벌 1위인 대만 TSMC가 지난해 3분기에 이어 4분기에도 삼성전자를 꺾고 세계 반도체 매출 1위에 오른 소식에도, 하반기 반도체 업황 반등 기대감이 작용해 삼성전자 주가는 소폭 상승하고 있다.   TSMC는 지난해 같은 기간 대비 매출을 43% 가량 늘리며 세계 반도체 매출 1위는 유지한 것으로 추정되나, TSMC는 지난해 3분기에 이어 4분기에도 세계 반도체 매출 1위는 유지한 것으로 추정된다. ')

In [137]:
sentences = []
for i,t in enumerate(document_df[document_df['cluster_label'] == 6]['opinion_text']):
    print(i, t)
    sentences.append(eval(t)[1])

0 (5, ' 하지만 올해는 수익성, 재고 문제 등으로 인해 이어폰 신제품을 출시하지 않을 예정이다. ')
1 (6, ' 딜 사이트 김민기 기자 삼성전자의 새로운 먹거리로 보였던  무선 이어폰이 애플이라는 큰 벽과 중국 기업의 저가 공세를 막지 못하면서 어려움을 겪고 있다. ')
2 (7, ' 신제품 대신 업데이트로 대응 업계에서는 올해 삼성전자의 무선 이어폰 신제품 출시는 없을 것으로 전망하고 있다. ')
3 (15, ' 하지만 이번에는 소프트웨어 업데이트 이외에  새로운 신제품 출시는 이뤄지지 않는다. ')
4 (16, ' 삼성전자 관계자는 갤럭시 버즈 2 신제품 나온 지가 6개월 밖에 안 된 상황 이라며 올해 신제품 출시와 관련해서는 아직 잘 모르겠다 고 답했다. ')
5 (15, ' 해당 기능은 원 UI 소프트웨어 지원 스마트폰과 연동해 이 용할 수 있다. ')


In [138]:
result = make_summarization(sentences)
result

1.7708 sec


'삼성전자의 새로운 먹거리로 보였던 무선 이어폰이 애플이라는 큰 벽과 중국 기업의 저가 공세를 막지 못하면서 어려움을 겪고 있는 가운데, 삼성전자는 올해 무선 이어폰 신제품 출시는 없을 것으로 전망하고 업데이트로 대응 업계에서는 올해 무선 이어폰 신제품 출시는 없을 것으로 전망하고 있다.     '

In [140]:
def summarize_topic(document_df, topic_num):
    sentences = []
    for i,t in enumerate(document_df[document_df['cluster_label'] == topic_num]['opinion_text']):
        sentences.append(eval(t)[1])
    result = make_summarization(sentences)
    return result

In [139]:
result = summarize_topic(document_df, 0)
result

1.7528 sec


'더 풍부하고 섬세한 사운드, 매끄러운 연결성, 향상된 배터리 수명을 제공하는 LE 오디오 기술은 보다 풍부하고 섬세한 사운드, 섬세한 사운드, 매끄러운 연결성, 향상된 배터리 수명을 제공하는 것이 특징이라고 회사는 설명했다.         '

In [141]:
result1 = summarize_topic(document_df, 1)
result1

2.8699 sec


'삼성전자는 갤럭시 스마트폰 동영상 촬영 시 360도 사운드 녹음이 가능하도록 갤럭시 버즈 2 프로와 갤럭시 Z 플립4 폴드4의 소프트웨어 업데이트를 시행하여 사용자가 직접 듣는 그대로의 생생한 사운드를 녹음할 수 있다고 밝혔다.  \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n'

In [142]:
result2 = summarize_topic(document_df, 2)
result2

2.3841 sec


'삼성전자는 다음 워치5와 워치 4 시리즈에 카메라 줌 인, 줌 아웃 기능을 추가한다고 밝히며 다음 달 진행되는 갤럭시 언팩에서 새로운 갤럭시 스마트폰과 관련된 더 많은 내용을 소개할 것 이라고 말했다  \n 삼성전자는 다음 달 갤럭시 워치5와 워치 4 시리즈에 카메라 줌 인, 줌 아웃 기능을 추가한다고 전했다.'

In [143]:
result3 = summarize_topic(document_df, 3)
result3

2.5630 sec


'스마트폰을 먼 거리에 세워두고 단체 사진이나 단독 셀카를 찍을 때 카메라가 있는 곳까지 돌아갈 필요 없이 손목에서 바로 손쉽게 화면 배율 조정을 할 수 있게 되어 손목에서 바로 손쉽게 화면 배율 조정을 할 수 있게 되었으며,  \n 스마트폰을 먼 거리에 세워두고 단체 사진이나 단독 셀카를 찍을 때 카메라가 있는 곳까지 돌아갈 필요 없이 손목에서 바로 손쉽게 화면 배율 조정이 가능해진다.'

In [144]:
result4 = summarize_topic(document_df, 4)
result4

2.1447 sec


'360 오디오 레코딩은 차세대 블 루투스 오디오 기술 표 준인 LE 오디오가 적용됐다.  련련련련련련련련련련련련련련련련련련은 차세대 블루투스 오디오 기술 표 준인 LE 오디오를 적용했다.'

In [145]:
result5 = summarize_topic(document_df, 5)
result5

2.9359 sec


'전문 장비 없이도 누구나  언제 어디서든 고품질의 실감 나는 오디오를 동영상에 담을 수 있다는 게 삼성전자의 설명으로 사용자는 시계 화면을 손가락으로 늘리거나 줄이는 핀치 동작이나, 시계의 베젤을 돌려 갤럭시 스마트폰의 카메라 줌을 원격으로 제어할 수 있게 되었으며 사용자는 시계 화면을 손가락으로 늘 리거나 줄이는 핀치 동작이나, 시계의 베젤을 돌려 갤럭시 스마트폰의 카메라 줌을 원격으로 제어할 수 있게 되었다.'