## Setting

In [None]:
# !pip install pyrouge --upgrade
# !pip install https://github.com/bheinzerling/pyrouge/archive/master.zip
# !pip install pyrouge
# !pip show pyrouge
# !git clone https://github.com/andersjo/pyrouge.git
# from pyrouge import Rouge155
# !pyrouge_set_rouge_path 'pyrouge/tools/ROUGE-1.5.5'

In [2]:
# !pip install transformers
# !pip install tensorboardX
# !pip install easydict

## Preprocessing

In [1]:
import os

os.chdir('KorBertSum/src')

import torch
import numpy as np
from models import data_loader, model_builder
from models.model_builder import Summarizer
from others.logging import logger, init_logger
from models.data_loader import load_dataset
from transformers import BertConfig, BertTokenizer
from tensorboardX import SummaryWriter
from models.reporter import ReportMgr
from models.stats import Statistics
import easydict
from multiprocessing.dummy import Pool as ThreadPool

In [2]:
def _tally_parameters(model):
    n_params = sum([p.nelement() for p in model.parameters()])
    return n_params

def build_trainer(args, device_id, model,
                  optim):
    """
    Simplify `Trainer` creation based on user `opt`s*
    Args:
        opt (:obj:`Namespace`): user options (usually from argument parsing)
        model (:obj:`onmt.models.NMTModel`): the model to train
        fields (dict): dict of fields
        optim (:obj:`onmt.utils.Optimizer`): optimizer used during training
        data_type (str): string describing the type of data
            e.g. "text", "img", "audio"
        model_saver(:obj:`onmt.models.ModelSaverBase`): the utility object
            used to save the model
    """
    device = "cpu" if args.visible_gpus == '-1' else "cuda"


    grad_accum_count = args.accum_count
    n_gpu = args.world_size

    if device_id >= 0:
        gpu_rank = int(args.gpu_ranks[device_id])
    else:
        gpu_rank = 0
        n_gpu = 0

    print('gpu_rank %d' % gpu_rank)

    tensorboard_log_dir = args.model_path

    writer = SummaryWriter(tensorboard_log_dir, comment="Unmt")

    report_manager = ReportMgr(args.report_every, start_time=-1, tensorboard_writer=writer)

    trainer = Trainer(args, model, optim, grad_accum_count, n_gpu, gpu_rank, report_manager)

    # print(tr)
    if (model):
        n_params = _tally_parameters(model)
        logger.info('* number of parameters: %d' % n_params)

    return trainer

class Trainer(object):
    """
    Class that controls the training process.

    Args:
            model(:py:class:`onmt.models.model.NMTModel`): translation model
                to train
            train_loss(:obj:`onmt.utils.loss.LossComputeBase`):
               training loss computation
            valid_loss(:obj:`onmt.utils.loss.LossComputeBase`):
               training loss computation
            optim(:obj:`onmt.utils.optimizers.Optimizer`):
               the optimizer responsible for update
            trunc_size(int): length of truncated back propagation through time
            shard_size(int): compute loss in shards of this size for efficiency
            data_type(string): type of the source input: [text|img|audio]
            norm_method(string): normalization methods: [sents|tokens]
            grad_accum_count(int): accumulate gradients this many times.
            report_manager(:obj:`onmt.utils.ReportMgrBase`):
                the object that creates reports, or None
            model_saver(:obj:`onmt.models.ModelSaverBase`): the saver is
                used to save a checkpoint.
                Thus nothing will be saved if this parameter is None
    """

    def __init__(self,  args, model,  optim,
                  grad_accum_count=1, n_gpu=1, gpu_rank=1,
                  report_manager=None):
        # Basic attributes.
        self.args = args
        self.save_checkpoint_steps = args.save_checkpoint_steps
        self.model = model
        self.optim = optim
        self.grad_accum_count = grad_accum_count
        self.n_gpu = n_gpu
        self.gpu_rank = gpu_rank
        self.report_manager = report_manager

        self.loss = torch.nn.BCELoss(reduction='none')
        assert grad_accum_count > 0
        # Set model in training mode.
        if (model):
            self.model.train()
            
    def summ(self, test_iter, step, cal_lead=False, cal_oracle=False):
          """ Validate model.
              valid_iter: validate data iterator
          Returns:
              :obj:`nmt.Statistics`: validation loss statistics
          """
          # Set model in validating mode.
          def _get_ngrams(n, text):
              ngram_set = set()
              text_length = len(text)
              max_index_ngram_start = text_length - n
              for i in range(max_index_ngram_start + 1):
                  ngram_set.add(tuple(text[i:i + n]))
              return ngram_set

          def _block_tri(c, p):
              tri_c = _get_ngrams(3, c.split())
              for s in p:
                  tri_s = _get_ngrams(3, s.split())
                  if len(tri_c.intersection(tri_s))>0:
                      return True
              return False

          if (not cal_lead and not cal_oracle):
              self.model.eval()
          stats = Statistics()

          with torch.no_grad():
              for batch in test_iter:
                  src = batch.src
                  labels = batch.labels
                  segs = batch.segs
                  clss = batch.clss
                  mask = batch.mask
                  mask_cls = batch.mask_cls

                  if (cal_lead):
                      selected_ids = [list(range(batch.clss.size(1)))] * batch.batch_size
                  elif (cal_oracle):
                      selected_ids = [[j for j in range(batch.clss.size(1)) if labels[i][j] == 1] for i in
                                      range(batch.batch_size)]
                  else:
                      sent_scores, mask = self.model(src, segs, clss, mask, mask_cls)
                      sent_scores = sent_scores + mask.float()
                      sent_scores = sent_scores.cpu().data.numpy()
                      selected_ids = np.argsort(-sent_scores, 1)
          return selected_ids

    def _gradient_accumulation(self, true_batchs, normalization, total_stats,
                               report_stats):
        if self.grad_accum_count > 1:
            self.model.zero_grad()

        for batch in true_batchs:
            if self.grad_accum_count == 1:
                self.model.zero_grad()

            src = batch.src
            labels = batch.labels
            segs = batch.segs
            clss = batch.clss
            mask = batch.mask
            mask_cls = batch.mask_cls

            sent_scores, mask = self.model(src, segs, clss, mask, mask_cls)

            loss = self.loss(sent_scores, labels.float())
            loss = (loss*mask.float()).sum()
            (loss/loss.numel()).backward()
            # loss.div(float(normalization)).backward()

            batch_stats = Statistics(float(loss.cpu().data.numpy()), normalization)


            total_stats.update(batch_stats)
            report_stats.update(batch_stats)

            # 4. Update the parameters and statistics.
            if self.grad_accum_count == 1:
                # Multi GPU gradient gather
                if self.n_gpu > 1:
                    grads = [p.grad.data for p in self.model.parameters()
                             if p.requires_grad
                             and p.grad is not None]
                    distributed.all_reduce_and_rescale_tensors(
                        grads, float(1))
                self.optim.step()

        # in case of multi step gradient accumulation,
        # update only after accum batches
        if self.grad_accum_count > 1:
            if self.n_gpu > 1:
                grads = [p.grad.data for p in self.model.parameters()
                         if p.requires_grad
                         and p.grad is not None]
                distributed.all_reduce_and_rescale_tensors(
                    grads, float(1))
            self.optim.step()
            
    def _save(self, step):
        real_model = self.model
        # real_generator = (self.generator.module
        #                   if isinstance(self.generator, torch.nn.DataParallel)
        #                   else self.generator)

        model_state_dict = real_model.state_dict()
        # generator_state_dict = real_generator.state_dict()
        checkpoint = {
            'model': model_state_dict,
            # 'generator': generator_state_dict,
            'opt': self.args,
            'optim': self.optim,
        }
        checkpoint_path = os.path.join(self.args.model_path, 'model_step_%d.pt' % step)
        logger.info("Saving checkpoint %s" % checkpoint_path)
        # checkpoint_path = '%s_step_%d.pt' % (FLAGS.model_path, step)
        if (not os.path.exists(checkpoint_path)):
            torch.save(checkpoint, checkpoint_path)
            return checkpoint, checkpoint_path

    def _start_report_manager(self, start_time=None):
        """
        Simple function to start report manager (if any)
        """
        if self.report_manager is not None:
            if start_time is None:
                self.report_manager.start()
            else:
                self.report_manager.start_time = start_time

    def _maybe_gather_stats(self, stat):
        """
        Gather statistics in multi-processes cases

        Args:
            stat(:obj:onmt.utils.Statistics): a Statistics object to gather
                or None (it returns None in this case)

        Returns:
            stat: the updated (or unchanged) stat object
        """
        if stat is not None and self.n_gpu > 1:
            return Statistics.all_gather_stats(stat)
        return stat

    def _maybe_report_training(self, step, num_steps, learning_rate,
                               report_stats):
        """
        Simple function to report training stats (if report_manager is set)
        see `onmt.utils.ReportManagerBase.report_training` for doc
        """
        if self.report_manager is not None:
            return self.report_manager.report_training(
                step, num_steps, learning_rate, report_stats,
                multigpu=self.n_gpu > 1)
        
    def _report_step(self, learning_rate, step, train_stats=None,
                     valid_stats=None):
        """
        Simple function to report stats (if report_manager is set)
        see `onmt.utils.ReportManagerBase.report_step` for doc
        """
        if self.report_manager is not None:
            return self.report_manager.report_step(
                learning_rate, step, train_stats=train_stats,
                valid_stats=valid_stats)

    def _maybe_save(self, step):
        """
        Save the model if a model saver is set
        """
        if self.model_saver is not None:
            self.model_saver.maybe_save(step)

class BertData():
    def __init__(self):
        self.tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
        self.sep_vid = self.tokenizer.vocab['[SEP]']
        self.cls_vid = self.tokenizer.vocab['[CLS]']
        self.pad_vid = self.tokenizer.vocab['[PAD]']

    def preprocess(self, src):

        if (len(src) == 0):
            return None

        original_src_txt = [' '.join(s) for s in src]
        idxs = [i for i, s in enumerate(src) if (len(s) > 1)]

        src = [src[i][:2000] for i in idxs]
        src = src[:1000]

        if (len(src) < 3):
            return None

        src_txt = [' '.join(sent) for sent in src]
        text = ' [SEP] [CLS] '.join(src_txt)
        src_subtokens = self.tokenizer.tokenize(text)
        src_subtokens = src_subtokens[:510]
        src_subtokens = ['[CLS]'] + src_subtokens + ['[SEP]']

        src_subtoken_idxs = self.tokenizer.convert_tokens_to_ids(src_subtokens)
        _segs = [-1] + [i for i, t in enumerate(src_subtoken_idxs) if t == self.sep_vid]
        segs = [_segs[i] - _segs[i - 1] for i in range(1, len(_segs))]
        segments_ids = []
        for i, s in enumerate(segs):
            if (i % 2 == 0):
                segments_ids += s * [0]
            else:
                segments_ids += s * [1]
        cls_ids = [i for i, t in enumerate(src_subtoken_idxs) if t == self.cls_vid]
        labels = None
        src_txt = [original_src_txt[i] for i in idxs]
        tgt_txt = None
        return src_subtoken_idxs, labels, segments_ids, cls_ids, src_txt, tgt_txt
    
def _lazy_dataset_loader(pt_file):
  yield  pt_file

## Params

In [3]:
args = easydict.EasyDict({
    "encoder":'transformer', ## classifier or transformer
    "mode":'test',
    "bert_data_path":'../bert_data/korean',
    "model_path":'../models/bert_trans_1', ## check
    "result_path":'../results',
    "temp_dir":'../temp',
    "batch_size":1000,
    "use_interval":True,
    "hidden_size":128,
    "ff_size":512,
    "heads":4,
    "inter_layers":2,
    "rnn_size":512,
    "param_init":0,
    "param_init_glorot":True,
    "dropout":0.1,
    "optim":'adamW', ## check
    "lr":2e-3,
    "report_every":1,
    "save_checkpoint_steps":100,
    "block_trigram":True,
    "recall_eval":False,
    
    "accum_count":1,
    "world_size":1,
    "visible_gpus":'0', # 0 = gpu, -1 = cpu ## check
    "gpu_ranks":'0',
    "log_file":'../logs/train_trans_1.txt', ## check
    "test_from":'../models/bert_trans_1/model_step_65000.pt' ## check
})
model_flags = ['hidden_size', 'ff_size', 'heads', 'inter_layers','encoder','ff_actv', 'use_interval','rnn_size']

##############################################################################

# Model Load
# test(args, input_data, -1, '', None)
pt = ''
step = None

init_logger(args.log_file)
device = "cpu" if args.visible_gpus == '-1' else "cuda"
device_id = 0 if device == "cuda" else -1

cp = args.test_from
try:
    step = int(cp.split('.')[-2].split('_')[-1])
except:
    step = 0

device = "cpu" if args.visible_gpus == '-1' else "cuda"
if (pt != ''):
    test_from = pt
else:
    test_from = args.test_from
logger.info('Loading checkpoint from %s' % test_from)
checkpoint = torch.load(test_from, map_location=lambda storage, loc: storage)
opt = vars(checkpoint['opt'])
for k in opt.keys():
    if (k in model_flags):
        setattr(args, k, opt[k])

config = BertConfig.from_pretrained('bert-base-multilingual-cased')
model = Summarizer(args, device, load_pretrained_bert=False, bert_config = config)
model.load_cp(checkpoint)
model.eval()

[2022-05-16 17:27:56,703 INFO] Loading checkpoint from ../models/bert_trans_1/model_step_65000.pt


Summarizer(
  (bert): Bert(
    (model): BertModel(
      (embeddings): BertEmbeddings(
        (word_embeddings): Embedding(119547, 768, padding_idx=0)
        (position_embeddings): Embedding(512, 768)
        (token_type_embeddings): Embedding(2, 768)
        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (encoder): BertEncoder(
        (layer): ModuleList(
          (0): BertLayer(
            (attention): BertAttention(
              (self): BertSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNo

In [4]:
def test(args, input_list):
  test_iter = data_loader.Dataloader(args, _lazy_dataset_loader(input_list),
                                args.batch_size, device,
                                shuffle=False, is_test=True)
  trainer = build_trainer(args, device_id, model, None)
  result = trainer.summ(test_iter, step)
  return result, input_list

##############################################################################

def txt2input(text):
  data = list(filter(None, text.split('\n')))
  bertdata = BertData()
  txt_data = bertdata.preprocess(data)
  data_dict = {"src":txt_data[0],
               "labels":[0,1,2],
               "segs":txt_data[2],
               "clss":txt_data[3],
               "src_txt":txt_data[4],
               "tgt_txt":None}
  input_data = []
  input_data.append(data_dict)
  return input_data

## Data Processing

In [5]:
### DB 검색어 데이터셋 가져오기

import requests
import json
import pandas as pd

res = requests.get('http://ec2-3-34-47-218.ap-northeast-2.compute.amazonaws.com:5000/news?query=' + '민주당') # 검색어 바꾸기
news_dict = json.loads(res.text) # list 안에 딕셔너리 형태

col_name = ["_id", "content", "date", "journal", "summary", "title", "url"]
news_df = pd.DataFrame(news_dict, columns=col_name)

news_df.head()

[2022-05-16 17:28:08,929 INFO] Note: NumExpr detected 32 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 8.


Unnamed: 0,_id,content,date,journal,summary,title,url
0,627cdd2c7f98dd6342b32229,민주당-檢 ‘검수완박’ 충돌 더불어민주당이 15일 이른바 ‘검수완박’(검찰 수사권 ...,2022-04-16,동아일보,민주당-檢 ‘검수완박’ 충돌 더불어민주당이 15일 이른바 ‘검수완박’(검찰 수사권 ...,민주 172명 전원 ‘검수완박’ 법안 발의… 대검 “명백한 위헌”,https://www.donga.com/news/Politics/article/al...
1,627cdd4d7f98dd6342b3222e,"민주, ‘정호영 자녀 의혹’ 경북대병원 현장조사 정호영 보건복지부 장관 후보자의 자...",2022-04-16,동아일보,"민주, ‘정호영 자녀 의혹’ 경북대병원 현장조사 정호영 보건복지부 장관 후보자의 자...","[단독]정호영 논문 공저자들, 딸 의대 편입 구술평가 만점 줘",https://www.donga.com/news/Society/article/all...
2,627cdd4d7f98dd6342b3225c,지난 15일 박병석 국회의장에게 검찰 수사권 완전 박탈 입법 추진의 부당성을 호소하...,2022-04-18,동아일보,지난 15일 박병석 국회의장에게 검찰 수사권 완전 박탈 입법 추진의 부당성을 호소하...,"김오수 검찰총장, 민주당 검수완박에 항의 사표",https://www.donga.com/news/Society/article/all...
3,627cdd4d7f98dd6342b32263,정호영 보건복지부 장관 후보자가 자녀 관련 의혹 등을 설명하기 위해 17일 서울 중...,2022-04-19,동아일보,정호영 보건복지부 장관 후보자가 자녀 관련 의혹 등을 설명하기 위해 17일 서울 중...,"정호영 동문 교수 3명, 아들-딸 서류전형도 최고점",https://www.donga.com/news/Society/article/all...
4,627cdd4d7f98dd6342b32268,크게보기 문재인 대통령은 2018년 6·13지방선거 압승 이후 ‘적폐 청산’이 본격...,2022-04-19,동아일보,크게보기 문재인 대통령은 2018년 6·13지방선거 압승 이후 ‘적폐 청산’이 본격...,두 전임 대통령이 윤석열 당선인에게 주는 교훈[동아광장/한규섭],https://www.donga.com/news/Opinion/article/all...


In [11]:
news_df.loc[930][4]

'NaN'

In [12]:
### 동아일보 들여쓰기
from tqdm import tqdm
from more_itertools import locate

new_list = []

for i in tqdm(range(len(news_df))):
    idx = news_df.loc[i]['_id']
    test_txt = news_df.loc[i]['content']
    date = news_df.loc[i]['date']
    journal = news_df.loc[i]['journal']
    summary = news_df.loc[i]['summary']
    title = news_df.loc[i]['title']
    url = news_df.loc[i]['url']
        
    if journal == '동아일보':
        # 문장 끝 부호 인덱스 구하기
        pos_1 = list(locate(test_txt, (lambda x: x == ".")))
        pos_2 = list(locate(test_txt, (lambda x: x == "?")))
        pos_3 = list(locate(test_txt, (lambda x: x == "!")))

        pos = (pos_1 + pos_2 + pos_3)
        pos.sort()
        
        # 문장별 리스트로 쪼개기
        txts = []
        for i in range(len(pos)):
            if i == 0:
                txts.append(test_txt[:(pos[i]+1)])
            elif i == (len(pos)-1):
                txts.append(test_txt[(pos[i-1]+1):(pos[i]+1)])
                txts.append(test_txt[(pos[i]+1):])
            else:
                txts.append(test_txt[(pos[i-1]+1):(pos[i]+1)])
                
        # \n 추가
        # 쪼개서 추가하는 이유.. 확인하고 바로 \n 추가하면 인덱스가 달라져서..
        txt = ""
        for i in range(1, len(txts)):
            if len(txts[i]) == 0:
                continue
            elif txts[i][0] != " ":
                txts[i - 1] += "\n\n"

        # 문장 하나로 합치기
        for i in range(len(txts)):
            txt += txts[i]
        
        # Df에서 바로 변경하고 싶었지만, 변경되지 않아서 새로 만듦
        new_list.append(
            {
                "_id" : idx,
                "content" : txt,
                "date" : date,
                "journal" : journal,
                "summary" : summary,
                "title" : title,
                "url" : url
            }
        )
    else: # 한겨레일 때
        new_list.append(
            {
                "_id" : idx,
                "content" : test_txt,
                "date" : date,
                "journal" : journal,
                "summary" : summary,
                "title" : title,
                "url" : url
            }
        )

col_name = ["_id", "content", "date", "journal", "summary", "title", "url"]
news_df_test = pd.DataFrame(new_list, columns=col_name)

##############################################################################

### 리스트 생성
idxs = news_df_test['_id'].tolist()
texts = news_df_test['content'].tolist()
summaries = news_df_test['summary'].tolist()
idx_text = list(zip(idxs, texts, summaries))

##############################################################################

# # 기준 정하기
# print(len('박임근 기자 hanjeoung990111@kookmin.ac.kr'))
# print(len('지난해 3월 만경강 도보여행길 걷기에 앞서 발원지인 밤샘에서 촬영한 모습. 박영환씨 제공'))
# 논문에서 50 미만 제거 함

# 문자열 길이 확인 및 제거 & 기자 및 이메일 제거
from tqdm import tqdm
import re

for i in tqdm(range(len(idx_text))):
    idx_text[i] = list(idx_text[i])
    if (idx_text[i][1] != ""):
        if (isinstance(idx_text[i][1], str)):
            text_list = idx_text[i][1].split('\n')
            re_text = ''

            for text in (text_list):
                if len(text) > 50:
                    text = re.sub(r"([\w\.-]+)@([\w\.-]+)(\.[\w\.]+)", "", text) # 이메일 검사

                    if " 기자" in text: # 기자 검사
                        repoter_check = text.split(" ")
                        while "기자" in repoter_check:
                            index = repoter_check.index("기자")
                            del repoter_check[index]
                            del repoter_check[index-1]
                        text = ' '.join(r for r in repoter_check)

                    re_text += (text + '\n')

            idx_text[i][1] = re_text
        
    else:
        idx_text[i][1] = ''

100%|██████████| 979/979 [00:00<00:00, 1283.94it/s]
100%|██████████| 979/979 [00:00<00:00, 5428.43it/s]


In [13]:
idx_text[-1]

['627cdd4d7f98dd6342b33b58',
 '조 바이든 미국 대통령이 9일 제2차 세계대전이 한창이던 1941년 이후 81년 만에 외국에 무기를 지원할 때 별도의 행정절차를 거치지 않아도 되는 ‘무기 대여법’에 서명하며 우크라이나 지원에 박차를 가했다. 같은 날 러시아군 역시 우크라이나 남부 흑해 연안의 요충지 오데사에 극초음속 미사일 ‘킨잘’ 3발을 발사하는 등 대규모 공격을 가했다. 이로 인해 당시 오데사를 방문 중이던 샤를 미셸 유럽연합(EU) 정상회의 상임 의장이 긴급 대피했다.\n바이든 대통령은 이날 백악관에서 “미국은 블라디미르 푸틴 러시아 대통령의 잔혹한 전쟁에 맞서 민주주의와 조국을 지키려는 우크라이나의 투쟁을 지지한다”며 무기 대여법에 서명했다. 이어 “우크라이나에 지원할 예산이 10일 뒤면 바닥날 것”이라며 미 의회에 추가 예산 승인도 촉구했다.\n현재 미 국방부가 보유한 우크라이나 지원 예산 잔액은 약 1억 달러(약 1273억 원)로 곧 소진될 가능성이 높다. 집권 민주당은 당초 바이든 대통령이 요청한 330억 달러의 지원 예산에 인도적 지원 예산 등을 포함해 총 398억 달러(약 51조 원)의 우크라이나 지원 예산을 빠르면 10일 표결에 부치기로 했다.\nCNN 등에 따르면 러시아군은 9일 내내 오데사에 대한 미사일 공격을 단행했다. 킨잘 외에도 오닉스 순항미사일, 폭격기 등이 동원됐다. 중심가의 한 쇼핑센터에서는 거대한 폭발음과 화염도 나타났다. 오데사를 거쳐 돈바스 등으로 공급되는 서방 무기를 차단하기 위한 목적이라는 분석이 나온다. 이날 오데사를 깜짝 방문한 미셸 의장 또한 미사일 공격을 피해 방공호로 잠시 대피하는 소동 속에서도 우크라이나를 지원할 뜻을 강조했다.\n',
 'NaN']

## Inference

In [7]:
## DB 연결

from bson.objectid import ObjectId
from pymongo import MongoClient
client = MongoClient("mongodb+srv://BaekYeonsun:hello12345@cluster.3dypr.mongodb.net/database?retryWrites=true&w=majority")
collection = client.database.news

# collection.update_one({'_id': ObjectId('627cdd2c7f98dd6342b32229')}, {'$set': {'summary':'test'}})

Plink failed to import tkinter.


In [14]:
import time

def inference(texts):
    time.sleep(1)
    idx = texts[0]
    text = texts[1]
    summary = texts[2]
    
    if(summary == 'NaN'): # 요약이 nan 값인 경우
        if text == "" or pd.isna(text):
            collection.update_one({'_id': ObjectId(idx)}, {'$set': {'summary':''}})
        else:
            if len(text.split('\n')) <= 3: # 원문 기사가 짧은 경우. txt2input에서 none 타입이 됨
                collection.update_one({'_id': ObjectId(idx)}, {'$set': {'summary': text}})
            else:
                input_data = txt2input(text)
                sum_list = test(args, input_data)
                result = [list(filter(None, text.split('\n')))[i] for i in sum_list[0][0][:2]]
                try:
                    summary = (result[0] + " " + result[1])
                    collection.update_one({'_id': ObjectId(idx)}, {'$set': {'summary': summary}})
                except:
                    summary = (result[0])
                    collection.update_one({'_id': ObjectId(idx)}, {'$set': {'summary': summary}})
        return ''

In [15]:
# ThreadPool 방식
pool = ThreadPool(50)

for _ in tqdm(pool.imap_unordered(inference, idx_text), total=len(idx_text)):
    pass
    
print("finish")

# pool.close()
# pool.terminate()
# pool.join()

 92%|█████████▏| 901/979 [00:19<00:01, 49.90it/s]

gpu_rank 0


[2022-05-16 17:31:35,846 INFO] * number of parameters: 184162049


gpu_rank 0
gpu_rank 0


[2022-05-16 17:31:40,000 INFO] * number of parameters: 184162049
[2022-05-16 17:31:40,613 INFO] * number of parameters: 184162049
 92%|█████████▏| 901/979 [00:31<00:01, 49.90it/s][2022-05-16 17:31:41,648 INFO] * number of parameters: 184162049
[2022-05-16 17:31:42,352 INFO] * number of parameters: 184162049


gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0


[2022-05-16 17:31:43,151 INFO] * number of parameters: 184162049
[2022-05-16 17:31:43,185 INFO] * number of parameters: 184162049
[2022-05-16 17:31:43,357 INFO] * number of parameters: 184162049


gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0


[2022-05-16 17:31:44,370 INFO] * number of parameters: 184162049
[2022-05-16 17:31:44,507 INFO] * number of parameters: 184162049


gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0


[2022-05-16 17:31:46,204 INFO] * number of parameters: 184162049


gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0


 95%|█████████▌| 931/979 [00:43<00:08,  5.51it/s][2022-05-16 17:31:52,604 INFO] * number of parameters: 184162049
[2022-05-16 17:31:47,052 INFO] * number of parameters: 184162049
 95%|█████████▌| 932/979 [00:44<00:08,  5.23it/s]

gpu_rank 0
gpu_rank 0


[2022-05-16 17:31:47,601 INFO] * number of parameters: 184162049
 96%|█████████▌| 936/979 [00:45<00:08,  5.23it/s][2022-05-16 17:31:48,110 INFO] * number of parameters: 184162049
 96%|█████████▌| 939/979 [00:46<00:07,  5.02it/s]

gpu_rank 0
gpu_rank 0
gpu_rank 0
gpu_rank 0


[2022-05-16 17:31:48,555 INFO] * number of parameters: 184162049
[2022-05-16 17:31:49,120 INFO] * number of parameters: 184162049
[2022-05-16 17:31:49,639 INFO] * number of parameters: 184162049
[2022-05-16 17:31:49,722 INFO] * number of parameters: 184162049
[2022-05-16 17:31:49,751 INFO] * number of parameters: 184162049
[2022-05-16 17:31:49,763 INFO] * number of parameters: 184162049
[2022-05-16 17:31:49,765 INFO] * number of parameters: 184162049
[2022-05-16 17:31:49,825 INFO] * number of parameters: 184162049
[2022-05-16 17:31:49,925 INFO] * number of parameters: 184162049
[2022-05-16 17:31:50,031 INFO] * number of parameters: 184162049
[2022-05-16 17:31:50,034 INFO] * number of parameters: 184162049
[2022-05-16 17:31:50,187 INFO] * number of parameters: 184162049
[2022-05-16 17:31:50,222 INFO] * number of parameters: 184162049
[2022-05-16 17:31:50,455 INFO] * number of parameters: 184162049
[2022-05-16 17:31:50,856 INFO] * number of parameters: 184162049
[2022-05-16 17:31:50,878 

gpu_rank 0
gpu_rank 0


[2022-05-16 17:31:54,852 INFO] * number of parameters: 184162049
[2022-05-16 17:31:55,167 INFO] * number of parameters: 184162049
[2022-05-16 17:31:55,227 INFO] * number of parameters: 184162049
[2022-05-16 17:31:55,237 INFO] * number of parameters: 184162049
[2022-05-16 17:31:55,667 INFO] * number of parameters: 184162049
[2022-05-16 17:31:55,669 INFO] * number of parameters: 184162049
 96%|█████████▌| 942/979 [00:48<00:08,  4.41it/s][2022-05-16 17:31:55,672 INFO] * number of parameters: 184162049
[2022-05-16 17:31:55,674 INFO] * number of parameters: 184162049


gpu_rank 0


[2022-05-16 17:31:57,264 INFO] * number of parameters: 184162049
100%|██████████| 979/979 [01:07<00:00, 14.55it/s]

finish





In [16]:
collection.find_one({'_id': ObjectId(idx_text[-1][0])})

{'_id': ObjectId('627cdd4d7f98dd6342b33b58'),
 'content': '조 바이든 미국 대통령이 9일 제2차 세계대전이 한창이던 1941년 이후 81년 만에 외국에 무기를 지원할 때 별도의 행정절차를 거치지 않아도 되는 ‘무기 대여법’에 서명하며 우크라이나 지원에 박차를 가했다. 같은 날 러시아군 역시 우크라이나 남부 흑해 연안의 요충지 오데사에 극초음속 미사일 ‘킨잘’ 3발을 발사하는 등 대규모 공격을 가했다. 이로 인해 당시 오데사를 방문 중이던 샤를 미셸 유럽연합(EU) 정상회의 상임 의장이 긴급 대피했다.바이든 대통령은 이날 백악관에서 “미국은 블라디미르 푸틴 러시아 대통령의 잔혹한 전쟁에 맞서 민주주의와 조국을 지키려는 우크라이나의 투쟁을 지지한다”며 무기 대여법에 서명했다. 이어 “우크라이나에 지원할 예산이 10일 뒤면 바닥날 것”이라며 미 의회에 추가 예산 승인도 촉구했다.현재 미 국방부가 보유한 우크라이나 지원 예산 잔액은 약 1억 달러(약 1273억 원)로 곧 소진될 가능성이 높다. 집권 민주당은 당초 바이든 대통령이 요청한 330억 달러의 지원 예산에 인도적 지원 예산 등을 포함해 총 398억 달러(약 51조 원)의 우크라이나 지원 예산을 빠르면 10일 표결에 부치기로 했다.CNN 등에 따르면 러시아군은 9일 내내 오데사에 대한 미사일 공격을 단행했다. 킨잘 외에도 오닉스 순항미사일, 폭격기 등이 동원됐다. 중심가의 한 쇼핑센터에서는 거대한 폭발음과 화염도 나타났다. 오데사를 거쳐 돈바스 등으로 공급되는 서방 무기를 차단하기 위한 목적이라는 분석이 나온다. 이날 오데사를 깜짝 방문한 미셸 의장 또한 미사일 공격을 피해 방공호로 잠시 대피하는 소동 속에서도 우크라이나를 지원할 뜻을 강조했다.워싱턴=문병기 특파원 weappon@donga.com',
 'date': '2022-05-11',
 'journal': '동아일보',
 'summary': '바이든 대통령은 이날 백악관에서 “미국은 블라디미르 푸틴 러시아 대