In [13]:
import torch
import os
import openai

from transformers import AutoTokenizer, AutoModelForCausalLM, AutoModelForSeq2SeqLM
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration

import pandas as pd

from rouge_score import rouge_scorer
from tqdm import tqdm

In [239]:
import nltk
from nltk.tokenize import sent_tokenize

In [40]:
import math

In [2]:
def get_encode_length(tokenizer, sentence) :
    encoded = tokenizer(sentence, padding=True, truncation=False)

    return len(encoded.input_ids)

In [3]:
def get_encode_data(tokenizer, sentence):
    encoded_inputs = tokenizer(sentence, padding=True, truncation=False)
    input_ids = torch.tensor(encoded_inputs['input_ids'])
    attention_masks = torch.tensor(encoded_inputs['attention_mask'])

    return input_ids, attention_masks

In [4]:
def summarize(input_text, tokenizer, model, device, max_tokens=200, min_tokens=100, num_beams=2) :
    input_ids = tokenizer.encode(input_text, return_tensors="pt").to(device)

    # Generate Summary Text Ids
    summary_text_ids = model.generate(
        input_ids=input_ids,
        bos_token_id=model.config.bos_token_id,
        eos_token_id=model.config.eos_token_id,
        length_penalty=2.0,
        max_new_tokens=max_tokens,
        min_new_tokens=min_tokens,
        no_repeat_ngram_size=3,
        num_beams=num_beams,
    )

    response = tokenizer.decode(summary_text_ids[0], skip_special_tokens=True)

    #print(len(input_text), len(response))

    return response

In [5]:
def get_model(model_name, device, tokenizer=None) :

    print(model_name)

    if tokenizer is None :
      tokenizer = AutoTokenizer.from_pretrained(model_name)

    model = AutoModelForSeq2SeqLM.from_pretrained(model_name)


    # parallelization
    if torch.cuda.device_count() > 1:
        print(f'Using {torch.cuda.device_count()} GPUs.')

        model = torch.nn.DataParallel(model)

    return model.to(device), tokenizer

In [6]:
def summarize_openai(sentence) :
  openai.api_key = "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"

  system_message = "You are a friendly assistant. Respond using Korean language."
  prompt = "다음 문장을 200자로 짧게 요약해줘. 존대말을 사용하지 말고 ~이다. 로 끝내줘."

  messages = [
    {"role": "system", "content": system_message},
    {"role": "user", "content": prompt + sentence}
  ]

  response = openai.chat.completions.create(
            model="gpt-4", #3.5-turbo",
            messages=messages,
            temperature=0.0,  # 창의성을 조절하는 옵션
            #max_tokens=max_tokens,  # 답변의 최대 토큰 수 설정
           )

  return response.choices[0].message.content

In [7]:
def run_summarize(sentence, models, max_tokens=200, min_tokens=100, num_beams=2) :
    responses = []

    for model in models :
        print('==== ', model[2], ' ===')
        response = summarize(sentence, model[1], model[0], device, max_tokens, min_tokens, num_beams)
        print(response, '\n')

        responses.append(response)

    return responses

In [8]:
def evaluate_summary(reference, candidate) :
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
    scores = scorer.score(reference, candidate)

    return scores

In [9]:
def summarize(input_text, tokenizer, model, device, max_tokens=200, min_tokens=100, num_beams=2) :
    input_ids = tokenizer.encode(input_text, return_tensors="pt").to(device)

    # Generate Summary Text Ids
    summary_text_ids = model.generate(
        input_ids=input_ids,
        bos_token_id=model.config.bos_token_id,
        eos_token_id=model.config.eos_token_id,
        length_penalty=2.0,
        max_new_tokens=max_tokens,
        min_new_tokens=min_tokens,
        no_repeat_ngram_size=3,
        num_beams=num_beams,
        top_p=0.95, # 누적 확률이 top_p %인 후보집합에서만 생성
        top_k=50, # 확률 순위 top_k 밖의 sample은 제외
        do_sample=False #True
    )

    response = tokenizer.decode(summary_text_ids[0], skip_special_tokens=True)

    #print(len(input_text), len(response))

    return response

In [265]:
def seperate_sentence(sentence, chunk) :
    ss = sent_tokenize(sentence)
    
    sentences = []
    merged = ""

    for s in ss :
        if len(merged) + len(s) <= chunk :
            merged = merged + s
        else :
            sentences.append(merged)
            merged = ""
        
    if len(merged) > 256 :
        sentences.append(merged)
    elif len(merged) > 0 :
        sentences[-1] = sentences[-1] + merged
        
    return sentences

In [269]:
def summarize_long_sentence(sentence, chunk, tokenizer, model, device, max_tokens, min_tokens, num_beams, verify=False) :
    
    ss = seperate_sentence(sentence, chunk)
    summaries = []
    
    for s in ss :
        if verify == True :
            print(s)
        
        summary = summarize(s, tokenizer, model.module, device, max_tokens, min_tokens, num_beams)
        summaries.append(summary)

    return summaries

In [236]:
def summarize_long_sentence_old(sentence, chunk, tokenizer, model, device, max_tokens, min_tokens, num_beams, verify=False) :
    length = len(sentence)
    n = math.floor(length / chunk)
    
    summaries = []
    
    for i in range(n) :
        
        s = sentence[i*chunk:(i+1)*chunk]
        
        if verify == True :
            print(i*chunk, (i+1)*chunk)
            print(s)
        
        summary = summarize(s, tokenizer, model.module, device, max_tokens, min_tokens, num_beams)
        summaries.append(summary)
        
    s = sentence[n*chunk:]
    
    if verify == True :
        print(n*chunk)
        print(s)
    
    summary = summarize(s, tokenizer, model.module, device, max_tokens, min_tokens, num_beams)
    summaries.append(summary)

    return summaries

In [74]:
def summarize_long_sentence_openai(sentence, chunk) :
    length = len(sentence)
    n = math.floor(length / chunk)
    
    summaries = []
    
    for i in range(n) :
        print(i*chunk, (i+1)*chunk)
        s = sentence[i*chunk:(i+1)*chunk]
        
        summary = summarize_openai(s)
        summaries.append(summary)
        
    s = sentence[n*chunk:]
    summary = summarize_openai(s)
    summaries.append(summary)

    return summaries

In [76]:
openai.api_key = "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"
os.environ['CURL_CA_BUNDLE'] = '/home/osung/Downloads/kisti_cert.crt'

In [10]:
df = pd.read_csv('/home/osung/work/summary.0516/data/Naver_news_sum_test_openai.csv')

In [11]:
sentence = df.iloc[0].document

In [12]:
sentence

'모빌리티 mobility . 최근 몇 년간 많이 들려오는 단어입니다. 한국어로 해석해보자면 ‘이동성’ 정도가 적당하겠네요. 그런데 말입니다. 어느 순간부터 자동차도 모빌리티 킥보드도 모빌리티 심지어 드론도 모빌리티라고 말합니다. 대체 기준이 뭘까요 무슨 뜻인지조차 헷갈리는데 아이러니하게도 지난 몇 년간 세계적으로 큰 성공을 거둔 스타 벤처 중 상당수는 모빌리티 기업이었습니다. ‘마치 유행어처럼 여기저기에서 쓰이고 있지만 도대체 무슨 뜻인지 어디부터 어디까지 모빌리티라고 부르는지 도무지 모르겠다 ’라는 분들을 위해 준비했습니다. 모빌리티 인사이트 를 통해 국내외에서 주목받는 다양한 모빌리티 기업과 서비스를 소개합니다. 우리에게 익숙한 차량호출 서비스부터 아직은 낯선 ‘마이크로 모빌리티’ ‘MaaS’ 모빌리티 산업의 꽃이라는 ‘자율 주행’ 등 모빌리티 인사이트가 국내외 사례 취합 분석해 어떤 의미를 담고 있는지 하나씩 알려 드립니다. 이번 여름은 또 어떻게 극복할 것인가 지난 주간 장마로 인해 여러 지역에서 많은 피해를 당했습니다. 지난 월요일에 중부지방에 쏟아진 국지성폭우로 수원 지역 중고차단지 내 차량 326대는 침수피해를 입었죠. 이외에도 호우로 인해 발생하는 산사태 주택 침수 농작물 피해 등은 우리 생활에 직접적인 영향을 미칩니다. 장마 집중호우 태풍 등 올해 여름에도 앞으로 발생할 수 있는 잠재적 피해를 미리 대비해야겠습니다. 그런데 여름철 문제는 하나 더 있습니다. 장마 후 찾아오는 무더운 더위죠. 최근 우리나라의 여름은 과거에 비교해 기온과 습도 보다 높아졌습니다. 그만큼 불쾌지수도 많이 상승했죠. 이제 7월의 시작점인데… 앞으로 찾아올 무더위를 생각하면 벌써부터 걱정을 떨칠 수가 없습니다. 막 시작한 뜨거운 여름 여러분은 어떻게 준비하시나요 출처 픽사베이 특히 올해는 여름 더위가 더 빨리 찾아 온 것 같습니다. 많이 내리는 비에 기온은 덥고 습도도 높고… 아무리 옷을 얇게 입어도 정말 힘드네요. 올해 무더운 여름을 무사히 보낼 수 있도록 에어컨을 

In [14]:
df.iloc[0].openai_summary

"모빌리티는 이동성을 의미하며, 자동차부터 킥보드, 드론까지 다양한 이동 수단을 포함한다. 최근에는 이동성을 넘어 이동형 공간으로의 발전을 보이며, 외형 관련 기술의 중요성이 증가하고 있다. BMW는 전자잉크 기술을 활용해 자동차 외장 색상을 바꿀 수 있는 'iX 플로우'를 공개했고, 스크래치를 스스로 수선하는 '셀프힐링' 기술도 개발했다. 한국화학연구원은 흠집이 발생한 자동차 표면에 햇빛을 쬐면 흠집이 사라지는 보호용 코팅 소재를 개발했다. 이러한 기술들은 자동차의 기능을 넘어 디자인과 같은 외적인 요소들의 중요성을 높이며, 미래의 자동차 산업에 큰 영향을 미칠 것이다."

In [15]:
if torch.cuda.is_available():
    device = torch.device("cuda")
    print('available device: ', device)
else:
    device = torch.device("cpu")
    print('available device: ', device)

available device:  cuda


In [63]:
model_names = ['noahkim/KoT5_news_summarization', 'psyche/KoT5-summarization', 
               'KETI-AIR-Downstream/long-ke-t5-base-summarization'] #, 'ainize/kobart-news']

In [19]:
max_tokens = 200
min_tokens = 100
num_beams = 2

In [25]:
summaries = []

for model_name in model_names :
    model, tokenizer = get_model(model_name, device)

    summary = summarize(sentence, tokenizer, model.module, device, max_tokens, min_tokens, num_beams)
    summaries.append(summary)

noahkim/KoT5_news_summarization
Using 2 GPUs.
psyche/KoT5-summarization
Using 2 GPUs.
KETI-AIR-Downstream/long-ke-t5-base-summarization
Using 2 GPUs.




In [26]:
summaries

['지난 6월 28일 한국화학연구원이 자동차 외장 색상을 쉽게 바꾸는 기술을 개발해 자동차에 적용한 BMW의 ‘iX 플로우 Flow’를 공개한 가운데, 이 기술은 자동차의 외형 색상 변경 기술에 이어 스크래치를 스스로 수선하는 기술도 개발했으며, 향후 관련 기술 시장은 주목받을 가능성이 높아 선제적으로 투자해 글로벌 선도 국가로 도약하기를 기대하고 있다.',
 '한국화학연구원이 자동차 외형 색상을 바꾸는 셀프힐링 소재를 개발했다고 발표했는데, 자동차 도장 및 셀프힐링 등 외형 관련 기술 개발은 쉽게 찾아보기 어렵기 때문에 기술 개발에 선제적으로 투자해 글로벌 선도 국가로 도약하기를 기대한다. 모빌리티 인사이트 를 통해 국내외에서 주목받는 다양한 모빌리티 기업과 서비스를 소개합니다. BMW는 올해 초 미국 라스베이거스에서 개최한 2022 국제 전자제품 박람회 Consumer Electronics Show CES2022 에 참가해 전자잉크 기술을 활용해 마음대로 자동차 외장 색상을 바꿀 수 있는 iX 플로우 Flow 를 공개했습니다.',
 "글로벌 자동차 기업 BMW는 올해 초 미국 라스베이거스에서 개최한 '2022 국제 전자제품 박람회 등재'에 참가해 전자잉크 기술을 활용해 마음대로 자동차 외장 색상을 바꿀 수 있는 ‘iX 플로우 Flow’를 공개했는데, 이는 자동차의 기능은 기존의 ‘기동  ’에서 ‘공간’을 더한 ‘이동형 공간’으로 확장하고 있기 때문에 자동차에서 할 수 잇는 일들은 더욱 다양해지고 자율주행과 같은 기술까지 더해진다면 앞으로 인류가 자동차 안에서 보내는 시간은 비약적으로 증가할 것입니다."]

In [27]:
model, tokenizer = get_model(model_names[1], device)

psyche/KoT5-summarization
Using 2 GPUs.


In [28]:
summary = summarize(sentence, tokenizer, model.module, device, max_tokens, min_tokens, num_beams)

In [29]:
summary

'한국화학연구원이 자동차 외형 색상을 바꾸는 셀프힐링 소재를 개발했다고 발표했는데, 자동차 도장 및 셀프힐링 등 외형 관련 기술 개발은 쉽게 찾아보기 어렵기 때문에 기술 개발에 선제적으로 투자해 글로벌 선도 국가로 도약하기를 기대한다. 모빌리티 인사이트 를 통해 국내외에서 주목받는 다양한 모빌리티 기업과 서비스를 소개합니다. BMW는 올해 초 미국 라스베이거스에서 개최한 2022 국제 전자제품 박람회 Consumer Electronics Show CES2022 에 참가해 전자잉크 기술을 활용해 마음대로 자동차 외장 색상을 바꿀 수 있는 iX 플로우 Flow 를 공개했습니다.'

In [38]:
sentence[:2048]

'모빌리티 mobility . 최근 몇 년간 많이 들려오는 단어입니다. 한국어로 해석해보자면 ‘이동성’ 정도가 적당하겠네요. 그런데 말입니다. 어느 순간부터 자동차도 모빌리티 킥보드도 모빌리티 심지어 드론도 모빌리티라고 말합니다. 대체 기준이 뭘까요 무슨 뜻인지조차 헷갈리는데 아이러니하게도 지난 몇 년간 세계적으로 큰 성공을 거둔 스타 벤처 중 상당수는 모빌리티 기업이었습니다. ‘마치 유행어처럼 여기저기에서 쓰이고 있지만 도대체 무슨 뜻인지 어디부터 어디까지 모빌리티라고 부르는지 도무지 모르겠다 ’라는 분들을 위해 준비했습니다. 모빌리티 인사이트 를 통해 국내외에서 주목받는 다양한 모빌리티 기업과 서비스를 소개합니다. 우리에게 익숙한 차량호출 서비스부터 아직은 낯선 ‘마이크로 모빌리티’ ‘MaaS’ 모빌리티 산업의 꽃이라는 ‘자율 주행’ 등 모빌리티 인사이트가 국내외 사례 취합 분석해 어떤 의미를 담고 있는지 하나씩 알려 드립니다. 이번 여름은 또 어떻게 극복할 것인가 지난 주간 장마로 인해 여러 지역에서 많은 피해를 당했습니다. 지난 월요일에 중부지방에 쏟아진 국지성폭우로 수원 지역 중고차단지 내 차량 326대는 침수피해를 입었죠. 이외에도 호우로 인해 발생하는 산사태 주택 침수 농작물 피해 등은 우리 생활에 직접적인 영향을 미칩니다. 장마 집중호우 태풍 등 올해 여름에도 앞으로 발생할 수 있는 잠재적 피해를 미리 대비해야겠습니다. 그런데 여름철 문제는 하나 더 있습니다. 장마 후 찾아오는 무더운 더위죠. 최근 우리나라의 여름은 과거에 비교해 기온과 습도 보다 높아졌습니다. 그만큼 불쾌지수도 많이 상승했죠. 이제 7월의 시작점인데… 앞으로 찾아올 무더위를 생각하면 벌써부터 걱정을 떨칠 수가 없습니다. 막 시작한 뜨거운 여름 여러분은 어떻게 준비하시나요 출처 픽사베이 특히 올해는 여름 더위가 더 빨리 찾아 온 것 같습니다. 많이 내리는 비에 기온은 덥고 습도도 높고… 아무리 옷을 얇게 입어도 정말 힘드네요. 올해 무더운 여름을 무사히 보낼 수 있도록 에어컨을 

In [39]:
summarize(sentence[:2048], tokenizer, model.module, device, max_tokens, min_tokens, num_beams)

'장마 집중호우 태풍 등 올해 여름에도 앞으로 발생할 수 있는 잠재적 피해를 미리 대비해야겠습니다. 패션 플랫폼 에이블리는 올 여름 패션 트렌드 키워드로 F.R.E.E Focus on Y2K Ripped Jeans Cutout Tops Edge Point Emerging Knitwear trend 를 선정했습니다. 우리는 계절이나 상황 분위기나 목적에 따라 다양한 옷을 입고 변화하는 트렌드를 신경 쓰죠.'

In [32]:
len(summary)

296

In [40]:
model, tokenizer = get_model(model_names[2], device)

KETI-AIR-Downstream/long-ke-t5-base-summarization
Using 2 GPUs.


In [45]:
sentence[:1024]

'모빌리티 mobility . 최근 몇 년간 많이 들려오는 단어입니다. 한국어로 해석해보자면 ‘이동성’ 정도가 적당하겠네요. 그런데 말입니다. 어느 순간부터 자동차도 모빌리티 킥보드도 모빌리티 심지어 드론도 모빌리티라고 말합니다. 대체 기준이 뭘까요 무슨 뜻인지조차 헷갈리는데 아이러니하게도 지난 몇 년간 세계적으로 큰 성공을 거둔 스타 벤처 중 상당수는 모빌리티 기업이었습니다. ‘마치 유행어처럼 여기저기에서 쓰이고 있지만 도대체 무슨 뜻인지 어디부터 어디까지 모빌리티라고 부르는지 도무지 모르겠다 ’라는 분들을 위해 준비했습니다. 모빌리티 인사이트 를 통해 국내외에서 주목받는 다양한 모빌리티 기업과 서비스를 소개합니다. 우리에게 익숙한 차량호출 서비스부터 아직은 낯선 ‘마이크로 모빌리티’ ‘MaaS’ 모빌리티 산업의 꽃이라는 ‘자율 주행’ 등 모빌리티 인사이트가 국내외 사례 취합 분석해 어떤 의미를 담고 있는지 하나씩 알려 드립니다. 이번 여름은 또 어떻게 극복할 것인가 지난 주간 장마로 인해 여러 지역에서 많은 피해를 당했습니다. 지난 월요일에 중부지방에 쏟아진 국지성폭우로 수원 지역 중고차단지 내 차량 326대는 침수피해를 입었죠. 이외에도 호우로 인해 발생하는 산사태 주택 침수 농작물 피해 등은 우리 생활에 직접적인 영향을 미칩니다. 장마 집중호우 태풍 등 올해 여름에도 앞으로 발생할 수 있는 잠재적 피해를 미리 대비해야겠습니다. 그런데 여름철 문제는 하나 더 있습니다. 장마 후 찾아오는 무더운 더위죠. 최근 우리나라의 여름은 과거에 비교해 기온과 습도 보다 높아졌습니다. 그만큼 불쾌지수도 많이 상승했죠. 이제 7월의 시작점인데… 앞으로 찾아올 무더위를 생각하면 벌써부터 걱정을 떨칠 수가 없습니다. 막 시작한 뜨거운 여름 여러분은 어떻게 준비하시나요 출처 픽사베이 특히 올해는 여름 더위가 더 빨리 찾아 온 것 같습니다. 많이 내리는 비에 기온은 덥고 습도도 높고… 아무리 옷을 얇게 입어도 정말 힘드네요. 올해 무더운 여름을 무사히 보낼 수 있도록 에어컨을 

In [46]:
summarize(sentence[:1024], tokenizer, model.module, device, max_tokens, min_tokens, num_beams)

'최근 몇 년간 많이 들려오는 단어인 모빌리티는 자동차, 킥보드, 드론 등의 단어로 대체 기준이 무엇인지 헷갈리지만 지난 몇 년 간 세계적으로 큰 성공을 거둔 스타 벤처 중 상당수가 모빌 리티 기업이었다.. \'모빌리 티 인사이트\'를 통해 국내외에서 주목받는 다양한 모빌 기업과 서비스를 소개한다. "모빌 리디티 산업의 꽃이라는 자율 주행" 등 모빌 인사이트가 국내외 사례 취합 분석해 어떤 의미를 담고 있는지 하나씩 알려 드립니다.'

In [82]:
model_names = ['digit82/kobart-summarization', 'gogamza/kobart-summarization', 'ainize/kobart-news']

In [228]:
model, tokenizer = get_model(model_names[0], device)

KETI-AIR-Downstream/long-ke-t5-base-summarization
Using 2 GPUs.


In [80]:
summaries = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams)

0 1024
1024 2048
2048 3072
3072 4096
4096 5120


In [81]:
summaries

["모빌리티 인사이트는 지난 몇 년간 세계적으로 큰 성공을 거둔 스타 벤처 중 상당수를 모빌리언이라고 부르며 최근 몇 년간 많이 들려오는 단어인 '이동성'보다는 '모빌리티'라는 단어를 더 자주 사용한다.    는 모빌리스트 인사이트 를 통해 국내외에서 주목받는 다양한 모빌티 기업과 서비스를 소개하며 이번 여름은 또 어떻게 극복할 것인지를 알려주었다.  \ufeff  .   가맹문의  ‘자율 주행’ 등 다양한 사례를 취합 분석해 어떤 의미를 담고 있는지 하나씩 알려 드립니다.  ",
 "패션 플랫폼 '에이블리'는 올 여름 패션 트렌드 키워드로 F.R.E.E Focus on Y2K Ripped Jeans Cutout Tops Edge Point Emerging Knitwear trend 를 선정했다.    가을을 대비하기 위해 경기도에 위치한 아울렛에 다녀왔으며   여름을 대비하여  계절이나 상황 분위기나 목적에 따라 다양한 옷을 입고 변화하는 트렌드를 신경 쓰게 되었다.",
 'BMW는 올해 초 미국 라스베이거스에서 개최한 ‘2022 국제 전자제품 박람회 CES2022 ’에 참가해 전자잉크 기술을 활용해 마음대로 자동차 외장 색상을 바꿀 수 있는 ‘iX 플로우 Flow ’를 공개했는데, BMW는 전기장과 마이크로 캡슐에 특수 안료를 담은 수백만 개의 마이크로 캡틴이 들어있는 자동차 외관 색을 쉽게 바꿀 수 있다고 밝혔다.    BMW는 ‘202 국제 전자 제품 박람회 Consumer Electronics Show CES 2022 ’에서 자동차 색상을 쉽게 바꾸는 기술을 개발해 자동차에 적용한 기업이다. ',
 'BMW는 CES2022에서 차량 외관 색상을 검정색에서 흰색 흰색에서 검정색으로 변경하는 모습만 우선 공개했는데 이 차는 상온에서 하루 정도 지나면 자연적으로 작은 흠집을 스스로 복구할 수 있으며 드라이기로 열을 가하는 방식으로도 복구할수 있다고 밝혔다.    BMW는 2022년 버전의 iX 모델은 상온에서는 하루 정도 지나면 자연적으로 큰 흠집들을 스스

In [17]:
model, tokenizer = get_model(model_names[1], device)

gogamza/kobart-summarization


You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


Using 2 GPUs.


In [54]:
summaries = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams)

0 1024
1024 2048
2048 3072
3072 4096
4096 5120


In [55]:
summaries

["모빌리티 mobility. 최근 몇 년간 많이 들려오는 단어입니다.    한국어로 해석해보자면 '이동성' 정도가 적당하겠네요.   이 단어는 어느 순간부터 자동차도 모비리티 킥보드도 모릴리티 심지어 드론도모빌리티라고 말합니다.   다양한 모빌러 기업과 서비스를 소개하는 모빌리스트 인사이트 를 통해 국내외에서 주목받는 다양한 모가지 기업과 서비스를 선보이는데, 우리에게 익숙한 차량호출 서비스부터 아직은 낯선 ‘마이크로 모빌빌리티’ ‘MaaS’ 모빌리S 등 모빌트 인사이트가 국내외 사례 취합 분석해 어떤 의미를 담고 있는지 하나씩 알려 드립니다.   ‘마치 유행어처럼 여기저기에서 쓰이고 있지만 도대체 무슨 무슨 무슨 뜻인지 어디부터 어디까지 모빌피라고 부르는지 도무지 모르겠다 ’라는 분들을 위해 준비했습니다. ",
 '여름 내내 집에서만 생활할 수는 없잖아요. 사무실로 출근하기 위해 집을 나서 쨍쨍한 햇빛 속을 걸어야 하죠.    여름을 대비하기 위해 경기도에 위치한 아울렛에 다녀왔고, 개인적으로 옷을 자주 구매하지 않습니다. 옷 종류도 많고 소재도 천차만별이라 고르기 쉽지 않고 패션 트렌드는 왜 이렇게 자주 바뀌는지 모르겠네요. 트렌드를 따라가기 쉽지 않습니다. 그래도 이왕 사는 옷인데 기왕이면 잘 어울리고 보기 좋은 것으로 골라야겠죠.',
 "픽 픽사베이 자동차 도색에 드는 비용과 시간을 생각하면 쉽지 않은 결정이죠.    자동차 색상을 바꿀 수 있는 'iX 플로우 Flow '를 공개하였는데   BMW는 올해 초 미국 라스베이거스에서 개최한 ‘2022 국제 전자제품 박람회 Consumer Electronics Show CES2022 ’에 참가해 전자잉크 기술을 활용해 마음대로 자동차 외장 색상을 바꾸는 수 있는 ‘iX플로우 ’를 공개하였습니다.",
 'BMW는 CES2022에서 차량 외관 색상을 검정색에서 흰색 흰색에서 검정색으로 변경하는 모습만 우선 공개하였고 아직 검은색과 흰색 두 가지 색상 변경만 시연했는데 하지만 현재 전자잉크 기술로 표현할 수 있는

In [56]:
merged_summaries = "".join(summaries)

In [57]:
merged_summaries

"모빌리티 mobility. 최근 몇 년간 많이 들려오는 단어입니다.    한국어로 해석해보자면 '이동성' 정도가 적당하겠네요.   이 단어는 어느 순간부터 자동차도 모비리티 킥보드도 모릴리티 심지어 드론도모빌리티라고 말합니다.   다양한 모빌러 기업과 서비스를 소개하는 모빌리스트 인사이트 를 통해 국내외에서 주목받는 다양한 모가지 기업과 서비스를 선보이는데, 우리에게 익숙한 차량호출 서비스부터 아직은 낯선 ‘마이크로 모빌빌리티’ ‘MaaS’ 모빌리S 등 모빌트 인사이트가 국내외 사례 취합 분석해 어떤 의미를 담고 있는지 하나씩 알려 드립니다.   ‘마치 유행어처럼 여기저기에서 쓰이고 있지만 도대체 무슨 무슨 무슨 뜻인지 어디부터 어디까지 모빌피라고 부르는지 도무지 모르겠다 ’라는 분들을 위해 준비했습니다. 여름 내내 집에서만 생활할 수는 없잖아요. 사무실로 출근하기 위해 집을 나서 쨍쨍한 햇빛 속을 걸어야 하죠.    여름을 대비하기 위해 경기도에 위치한 아울렛에 다녀왔고, 개인적으로 옷을 자주 구매하지 않습니다. 옷 종류도 많고 소재도 천차만별이라 고르기 쉽지 않고 패션 트렌드는 왜 이렇게 자주 바뀌는지 모르겠네요. 트렌드를 따라가기 쉽지 않습니다. 그래도 이왕 사는 옷인데 기왕이면 잘 어울리고 보기 좋은 것으로 골라야겠죠.픽 픽사베이 자동차 도색에 드는 비용과 시간을 생각하면 쉽지 않은 결정이죠.    자동차 색상을 바꿀 수 있는 'iX 플로우 Flow '를 공개하였는데   BMW는 올해 초 미국 라스베이거스에서 개최한 ‘2022 국제 전자제품 박람회 Consumer Electronics Show CES2022 ’에 참가해 전자잉크 기술을 활용해 마음대로 자동차 외장 색상을 바꾸는 수 있는 ‘iX플로우 ’를 공개하였습니다.BMW는 CES2022에서 차량 외관 색상을 검정색에서 흰색 흰색에서 검정색으로 변경하는 모습만 우선 공개하였고 아직 검은색과 흰색 두 가지 색상 변경만 시연했는데 하지만 현재 전자잉크 기술로 표현할 수 있는 색은 무려 4 096색에 달

In [58]:
len(merged_summaries)

1870

In [59]:
summarize(merged_summaries, tokenizer, model.module, device, max_tokens, min_tokens, num_beams)

'모빌리스트 인사이트 를 통해 국내외에서 주목받는 다양한 모가지 기업과 서비스를 선보이는데, 우리에게 익숙한 차량호출 서비스부터 아직은 낯선 ‘마이크로 모빌빌리티’ ‘MaaS’ 모빌리S 등 모빌트 인사이트가 국내외 사례 취합 분석해 어떤 의미를 담고 있는지 하나씩 알려 드립니다.    ‘마치 유행어처럼 여기저 여기저기에서 쓰이고 있지만 도대체 무슨 무슨 무슨 뜻인지 어디부터 어디까지 모빌피라고 부르는지 도무지 모르겠다 ’라는 분들을 위해 준비했습니다.'

In [60]:
model, tokenizer = get_model(model_names[2], device)

ainize/kobart-news


You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


Using 2 GPUs.


In [61]:
summaries = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams)

0 1024
1024 2048
2048 3072
3072 4096
4096 5120


In [62]:
summaries

["모빌리티 인사이트에서는 '마이크로 모빌리티', 'MaaS', '자율 주행' 등과 같이 국내외 사례 취합 분석을 통해 모토리티가 국내외 의미를 담고 있는지 알려주며 다가오는 여름을 어떻게 극복하고 어떻게 극복할 것인지 알려준다.    \n\n\n  \n [기자 인터뷰에서는 지난 주간 장마로 인해 여러 지역에서 많은 피해를 당했으며 호우로 인한 산사태 주택 침수 농작물 피해 등 우리 생활에 직접적인 영향을 미치고 있는 여름철 문제를 어떻게 극복해야겠습니다. 그런데  올해 여름에도 앞으로 발생할 수 있는 잠재적 피해를 어떻게 대비해야겠습니다. \n지기보다 더 빨리 찾아오는 무더위를 어떻게 극복하시나 하면 출처 픽사베이   그리고 올해 여름을 무사히 보낼 수 있도록 에어컨을 새로 장만해서 준비하수겠습니다.",
 "패션 플랫폼 '에이블리'는 올 여름 패션 트렌드로  F.R.E.E Focus on Y2K Ripped Jeans Cutout Tops Edge Point Emerging Knitwear trend를 선정했는데 이 사실을 미리 알았더라면 옷을 살 때 더욱 신중했을 텐데 아쉽다고 했다.    차후 자동차 역시 내 생활이나 모습을 드러내는 수단 중 하나인 셈이다.",
 "BMW는 전기장과 마이크로 캡슐을 이용해 외관 색을 바꿀 수 있는 'iX 플로우 Flow'를 공개했는데 이는 전기 자극을 준 후 다음 전기 자극이 주기 전까지 초절전 모드를 유지하고 전기를 유지하며 전기를 이용해 전기를 이용하여 색상을 바꾸는 방식으로 전력을 많이 소모하지 않는 것으로 알려졌다.   .   \n\n .   차 안 색을  버튼 한번 눌러 바로 바꿀 수 있다면 어떨까요 그게 무슨 소리냐고 생각할 수 있다면 좋겠다 꿈 외국 자동차 기업 BMW는",
 'BMW는 CES2022에서 차량 외관 색상을 검정색에서 흰색 흰색에서 검정색으로 변경하는 모습만 공개한 가운데, 자동차 색상 변경 기술에 이어 스크래치를 스스로 수선하는 기술도 개발하여 2022년 버전의 iX모델은 상온에서 하루 정도 

In [64]:
model_names = ['noahkim/KoT5_news_summarization', 'psyche/KoT5-summarization', 
               'KETI-AIR-Downstream/long-ke-t5-base-summarization'] #, 'ainize/kobart-news']

In [65]:
model, tokenizer = get_model(model_names[0], device)

noahkim/KoT5_news_summarization
Using 2 GPUs.


In [66]:
summaries = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams)

0 1024
1024 2048
2048 3072
3072 4096
4096 5120


In [67]:
summaries

['지난 몇 년간 세계적으로 큰 성공을 거둔 스타 벤처 중 상당수는 모빌리티 기업이었으며 우리에게 익숙한 차량호출 서비스부터 아직은 낯선 ‘마이크로 모빌리티’, MaaS, 자율 주행 등 모빌리티인사이트가 국내외 사례 취합 분석해 어떤 의미를 담고 있는지 하나씩 알려 주고 장마 후 찾아오는 무더운 더위를 무사히 보낼 수 있도록 에어컨을 새로 장만했다.',
 '패션 플랫폼 ‘에이블리’는 올 여름 패션 트렌드 키워드로 F.R.E.E Focus on Y2K Ripped Jeans Cutout Tops Edge Point Emerging Knitwear trend 를 선정했는데, 이는 2000년대 초반에 유행했던 찢어진 청바지와 컷아웃 스타일 포인트 살리기 니트 소재 옷 등을 의미하며, 패션은 나를 드러내는 수단 중 하나이기 때문에 계절이나 상황 분위기나 목적에 따라 다양한 옷을 입고 변화하는 트렌드를 신경 쓴다.',
 "BMW는 올해 초 미국 라스베이거스에서 개최한 ‘2022 국제 전자제품 박람회 Consumer Electronics Show CES2022’에 참가해 전자잉크 기술을 활용해 마음대로 자동차 외장 색상을 바꿀 수 있는 'iX 플로우 Flow'를 공개했는데, 이 방식은 전력을 많이 소모하지 않으며 색깔을 변경할 때 전기 자극을 준 이후 다음 전기를 주기 전까지 초절전 모드를 유지하며 전동기를 이용해 원하는 색을 보여준다.",
 'BMW는 CES2022에서 차량 외관 색상을 검정색에서 흰색 흰색에서 검정색으로 변경하는 모습만 우선 공개했는데, 이 그릴만의 특별한 능력으로 ‘셀프힐링 Self healing �’ 기술을 개발해 자동차에 적용했으며, 아직 크게 파손된 상태에서 다음날 다시 멀쩡해지는 SF영화 수준의 기술은 아스트랄 수준이라고 밝혔다.',
 '자동차 외형 색상을 마음대로 바꾸고 자동차 스스로 상처를 복구할 수 있는 셀프힐링 기술은 전 세계에서 여러 첨단 기술을 연구개발하고 있기 때문에 상용화 및 현실화 가능성은 무척 농후한 것으로 판단되며, 자동차

In [229]:
model, tokenizer = get_model(model_names[1], device)

gogamza/kobart-summarization


You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


Using 2 GPUs.


In [69]:
summaries = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams)

0 1024
1024 2048
2048 3072
3072 4096
4096 5120


In [70]:
summaries

['장마 집중호우 태풍 등 올해 여름에도 앞으로 발생할 수 있는 잠재적 피해를 미리 대비해야겠습니다. 그런데 여름철 문제는 하나 더 있습니다. 장마 후 찾아오는 무더운 더위죠. 많이 내리는 비에 기온은 덥고 습도도 높고... 아무리 옷을 얇게 입어도 정말 힘드네요. 올해 무더운 여름을 무사히 보낼 수 있도록 에어컨을 새로 장만했습니다. 마치 유행어처럼 여기저기서 쓰이고 있지만 도대체 무슨 뜻인지 어디부터 어디까지 모빌리티라고 부르는지 도무지 모르겠다 라는 분들을 위해 준비했습니다.',
 '패션 플랫폼 에이블리는 올 여름 패션 트렌드 키워드로 F.R.E.E Focus on Y2K Ripped Jeans Cutout Tops Edge Point Emerging Knitwear trend 를 선정했습니다. 매년 패션 트렌드는 바뀌지만 우리 집 옷장 속 옷에도 별로 변화는 없네요. 이렇듯 우리는 계절이나 상황 분위기나 목적에 따라 다양한 옷을 입고 변화하는 트렌드를 신경 쓰죠. 패션은 나를 드러내는 수단 중 하나이기 때문일 겁니다.',
 'BMW는 올해 초 미국 라스베이거스에서 개최한 2022 국제 전자제품 박람회 Consumer Electronics Show CES2022 에 참가해 전자잉크 기술을 활용해 마음대로 자동차 외장 색상을 바꿀 수 있는 iX 플로우 Flow 를 공개했습니다. BMW는 iX 플로워 외관을 정밀하게 재단한 래핑으로 감쌌는데 이 래핑에는 특수 안료를 담은 수백만 개의 마이크로 캡슐이 들어 있습니다.',
 'BMW는 CES2022에서 차량 외관 색상을 검정색에서 흰색 흰색에서 검정색으로 변경하는 모습만 우선 공개했습니다. 하지만 현재 전자잉크 기술로 표현할 수 있는 색은 무려 4 096색에 달합니다. BMW는 자동차 색상 변경 기술에 이어 스크래치를 스스로 수선하는 기술도 개발해 자동차에 적용했습니다. BMW의 iX는 상온에서 하루 정도 지나면 자연적으로 작은 흠집을 스스로 복구하죠. 드라이기로 열을 가하는 방식으로도 복구할 수 있습니다.',


In [230]:
model, tokenizer = get_model(model_names[], device)

In [72]:
summaries = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams)

0 1024




1024 2048
2048 3072
3072 4096
4096 5120


In [73]:
summaries

['최근 몇 년간 많이 들려오는 단어인 모빌리티는 자동차, 킥보드, 드론 등의 단어로 대체 기준이 무엇인지 헷갈리지만 지난 몇 년 간 세계적으로 큰 성공을 거둔 스타 벤처 중 상당수가 모빌 리티 기업이었다.. \'모빌리 티 인사이트\'를 통해 국내외에서 주목받는 다양한 모빌 기업과 서비스를 소개한다. "모빌 리디티 산업의 꽃이라는 자율 주행" 등 모빌 인사이트가 국내외 사례 취합 분석해 어떤 의미를 담고 있는지 하나씩 알려 드립니다.',
 '패션 플랫폼 에이블리는 계절이나 상황에 따라 다양한 옷을 입고 변화하는 트렌드를 신경 쓰는 올 여름 패션 트랜드 키워드로 찢어진 청바지와 컷아웃 스타일 포인트 살리기 니트 소재 옷 등을 선정하였다.. 이처럼 우리는 계절과 상황에 맞춰 옷을 다양하게 입고 바뀌는 스렌드에 신경을 쓰고 있다. 이에 따라 자동차도 때에 따라 옷을 갈아입을 수 없을까요. 물어보겠다.',
 '글로벌 자동차 기업 BMW는 올해 초 미국 라스베이거스에서 개최한 \'2022 국제 전자제품 박람회 등재 CES2022\'에 참가해 전자잉크 기술을 활용해 마음대로 자동차 외장 색상을 바꿀 수 있는 \'iX 플로우 Flow\'를 공개했는데, 이 래핑에는 특수 안료를 담은 수백만 개의 마이크로 캡슐이 들어 있다.. "색깔을 바꾸는 데 전기를 사용한해 전력 소모량을 걱정하실 수 있는데. 이 방식은 전력을 많이 소모하지 않습니다.',
 'BMW는 CES2022에서 차량 외관 색상을 검은색에서 흰색 흰색에서 검정색으로 변경하는 모습만 우선 공개했는데 전자잉크 기술로 표현할 수 있는 색은 무려 4 096색에 달한다.. BMW USA 유튜브 채널 현재 차량 차체에 폴리우레탄 소재를 코팅해 흠집을 예방하고 작은 데미지 정도는 어느 정도 스스로 복구할 수가 있는 것으로 알려졌다. .',
 "한국화학연구원이 자동차 표면에 발생한 흠집에 햇빛을 면 흠집이 사라지는 보호용 코팅 소재인 셀프힐링 소재를 개발했다고 발표했으며 자동차와 같은 전자·정보 기기 건축재료의 코팅 소재로 사용할

In [77]:
summaries = summarize_long_sentence_openai(sentence, 1024)

0 1024


In [86]:
df

Unnamed: 0,date,category,press,title,document,link,summary,openai_summary
0,2022-07-07 12:04:01,IT과학,동아일보,모빌리티 인사이트 기분 따라 옷을 바꿔 입는 자동차 자가 치유까지 한다,모빌리티 mobility . 최근 몇 년간 많이 들려오는 단어입니다. 한국어로 해석...,https://n.news.naver.com/mnews/article/020/000...,"모빌리티 인사이트에서는 지난 주간 장마로 인해 여러 지역에서 많은 피해를 입었고, ...","모빌리티는 이동성을 의미하며, 자동차부터 킥보드, 드론까지 다양한 이동 수단을 포함..."
1,2022-07-09 03:03:06,IT과학,동아일보,도심에 멸종위기종 돌아왔지만… “아프고 다쳐 구조하기 바빠요”,위클리 리포트 도심 야생동물과 ‘슬기로운 공존법’ 서울시 야생동물센터 하민종 수의사...,https://n.news.naver.com/mnews/article/020/000...,인 인구 950만의 대도시 서울에는 다양한 야생동물이 살고 있는데 그들과 공존하는 ...,서울시 야생동물센터에서는 도심에서 발견된 야생동물을 구조하고 치료하는 역할을 하고 ...
2,2022-07-05 18:10:52,economy,KBS,ET 대출 있으면 깎아준다…1주택·무주택자 건보료 ‘할인’,프로그램명 통합뉴스룸ET 코너명 호모 이코노미쿠스 방송시간 7월5일 화 17 50 ...,https://n.news.naver.com/mnews/article/056/001...,김현우 행복자산관리연구소장이 운영하는 통합뉴스룸ET가 오는 9월부터 달라지는 부분이...,프로그램 '통합뉴스룸ET'에서 김현우 행복자산관리연구소 소장이 건강보험료 개편에 대...
3,2022-07-04 07:30:00,economy,머니투데이,文정부에 10번 말했는데…저물가에 전기요금 올렸다면,편집자주 돈을 많이 번다는 이유로 세금을 더 물리고 가격이 너무 높다는 이유로 가격...,https://n.news.naver.com/mnews/article/008/000...,정부가유가가 급등락할때마다 널뛰던 한전의 실적을 보정하기 위해 문재인정부 시절 연료...,윤석열 정부 출범 후 한 달간 국회와 정부에서 나온 정책들은 시장적 포퓰리즘에 반하...
4,2022-07-04 14:55:03,IT과학,한겨레,70대 난청…귀에선 ‘유리컵 실로폰’ 같은 일이 벌어진다,한겨레21 나이 들수록 높은 소리 못 듣는 이유는 귀의 구조 때문 70살 넘으면 3...,https://n.news.naver.com/mnews/article/028/000...,이들이 나이가 들수록 고주파 소리를 듣는 능력이 손상돼 평균적으로 나이가 들수록 높...,노화로 인해 높은 소리를 잘 듣지 못하는 이유는 귀의 구조와 관련이 있다. 나이가 ...
...,...,...,...,...,...,...,...,...
95,2022-07-03 16:43:03,economy,매일경제,물가 뛸땐 부동산이 최고 아니라고 50년간 뉴욕 증시 통계 보니 월가월부,과거 인플레이션 급등 기간 美 산업별 주식 수익률 보니 에너지 18%·재료 16%씩...,https://n.news.naver.com/mnews/article/009/000...,미국 소비자물가지수 CPI가 전년 동기 대비 8.6% 급등하며 41년 만에 최고치를...,미국의 인플레이션 급등으로 주식시장이 혼란에 빠졌다. 이에 따라 투자자들은 실물 자...
96,2022-07-01 08:59:01,IT과학,ZDNet Korea,이기자의 게임픽 넥슨 하반기에도 바쁘다...신작에 인재채용까지,히트2 베일드엑스퍼트 카트드리프트 등 준비...대규모 채용 모집 실시 ·상반기 던전...,https://n.news.naver.com/mnews/article/092/000...,국내 1위 게임 사업자로 PC와 모바일에 이어 콘솔 등으로 사업 영역을 확장한 넥슨...,넥슨이 하반기 신작 출시와 인재 채용에 나선다. 게임 외에도 메타버스와 블록체인 신...
97,2022-07-05 18:14:03,economy,서울경제,年수익률 3%P 오르면 28년 뒤 1억差…쥐꼬리 퇴직연금 뗀다,연금부자 시대 온다 상 디폴트옵션發 92조 머니무브 미국 수익률 8.6%·濠 7.7...,https://n.news.naver.com/mnews/article/011/000...,국내 퇴직연금 가입자의 대다수는 아직도 연금 자산 대부분을 연 1 2% 수익률의 예...,퇴직연금 가입자들의 퇴직금 운용 수익률을 높이기 위해 도입되는 사전지정운용제도 디폴...
98,2022-07-03 06:01:02,economy,데일리안,이창용 언급한 ‘데이터’ 악화일로...한은 빅스텝 초읽기,기대인플레·물가 최고치 경신 무역수지 ‘적자’ 연말 금리 3% 시대 개막 전망......,https://n.news.naver.com/mnews/article/119/000...,이창용 한국은행 총재가 지난달 21일 물가안정 목표 점검 기자설명회에서 ‘빅스텝 한...,한국은행 총재 이창용은 데이터를 기반으로 금리 인상을 결정하겠다고 밝혔다. 최근 악...


In [94]:
df[df['press'].str.contains('매일경제')]

Unnamed: 0,date,category,press,title,document,link,summary,openai_summary
11,2022-07-05 06:07:01,IT과학,매일경제,구글러의 도전…느릴 순 있어도 늦은 건 없다,책 ‘계속 가봅시다 남는게 체력인데’ 발간한 로이스 김 정김경숙 구글 커뮤니케이션 ...,https://n.news.naver.com/mnews/article/009/000...,지 지천명 나이에 구글 본사에 도전해 본사 누글러 구글 신입사원 가 된 구글 글로벌...,로이스 김 정김경숙 구글 커뮤니케이션 디렉터는 50대에도 새로운 도전이 가능하다는 ...
17,2022-07-01 17:13:01,economy,매일경제,과일장수도 회사원도 해냈네…티끌 모아 꼬마빌딩 건물주,일반인 꼬마빌딩 투자 성공사례 부동산 자산 가격이 급등하며 꼬마빌딩 투자로 큰돈을 ...,https://n.news.naver.com/mnews/article/009/000...,저경제는 어렵게 돈을 모아 빌딩 주인이 된 이들의 성공 스토리와 실패 사례 등을 소...,부동산 가격 상승으로 꼬마빌딩 투자로 큰 돈을 벌어낸 사람들이 많아졌다. 일반인도 ...
18,2022-07-04 17:07:01,IT과학,매일경제,씹다 버린 껌이 타이어로...과학 만나 변신한 쓰레기들,쓰레기 재활용 넘어 자원 변신 과학자들 팔 걷어 美화학회 학술대회 깜짝 발표 상한 ...,https://n.news.naver.com/mnews/article/009/000...,스웨덴 3월 개최된 미국화학회 ACS 춘계학술대회에서 스웨덴 보로스대학 섬유공학 연...,과학자들이 쓰레기를 재활용하여 다양한 자원으로 변신시키는 연구를 진행하고 있다. 상...
22,2022-07-03 18:03:02,economy,매일경제,팬데믹에도 年14% 성장…소득 10만달러 이 나라의 기적,12.5%로 확 낮춘 법인세율 매력에 1700개 기업 투자 몰려 고용유연성 OECD...,https://n.news.naver.com/mnews/article/009/000...,한반도의 3분의 1에 불과한 영토를 갖고 있는 아일랜드는 12.5%라는 낮은 법인세...,아일랜드는 12.5%의 낮은 법인세율과 고용 유연성 등으로 다국적 기업들의 투자를 ...
25,2022-07-01 12:53:01,IT과학,매일경제,콘텐츠 핫뉴 컴투스 ‘백년전쟁’ 신규 협동전 보스 ‘미후왕’ 추가,컴투스 대표 송재준 이주환 는 실시간 전략 대전 게임 ‘서머너즈워 백년전쟁’의 ‘협...,https://n.news.naver.com/mnews/article/009/000...,컴투스 대표 송재준 이주환 는 실시간 전략 대전 게임 ‘서머너즈워 백년전쟁’의 ‘협...,컴투스는 '서머너즈워 백년전쟁'에 신규 보스 '미후왕'을 추가했다. 카카오게임즈는 ...
42,2022-07-01 16:49:01,IT과학,매일경제,콘텐츠 핫뉴 컴투스프로야구 팬들이 선정한 올스타전 가상 라인업 공개,컴투스 대표 송재준 이주환 는 ‘컴투스프로야구2022’ 이용자들이 선정한 올스타전 ...,https://n.news.naver.com/mnews/article/009/000...,컴투스는 ‘컴투스프로야구2022’ 공식 카페 이용자들을 대상으로 지난 2주간 설문을...,컴투스 대표 송재준 이주환은 '컴투스프로야구2022' 이용자들이 선정한 올스타전 가...
47,2022-07-01 19:21:01,economy,매일경제,집 대신 차 카푸어 욕하지 마세요…방콕 대신 차콕 사랑방 전쟁 왜몰랐을카,집보다 나은 디지털 사랑방 집콕보다 더 편리해진 차콕 콘티넨탈 성능 대신 콘텐츠 기...,https://n.news.naver.com/mnews/article/009/000...,자동차가 집보다 나은 디지털 사랑방 으로 진화하고 있는데 내연기관 차량보다 공간 활...,전기차와 자율주행 기술의 발전으로 자동차는 이동수단에서 생활공간으로 변화하고 있다....
75,2022-07-01 04:03:05,economy,매일경제,고객경험 귀하게 여기며 위드 디지로그 시대로,표준협회 서비스대상 발표 KB손보 명예의전당 헌정 롯데건설 21년 연속 대상 유영상...,https://n.news.naver.com/mnews/article/009/000...,1일표준협회는 1일 롯데호텔 서울 크리스탈볼룸에서 수상기업 임직원과 행사 관계자 등...,"2022 한국서비스대상 시상식에서 롯데건설이 21년 연속 종합대상을, KB손해보험은..."
77,2022-07-02 16:05:01,economy,매일경제,이렇게 깊은뜻이…무쏘후속 토레스 알면 감탄 숨겨진 대박 코드 왜몰랐을카,車 환경·역사·문화의 종합산물 한국 전통의 디자인 코드 적용 북두칠성·태극기에 숨겨...,https://n.news.naver.com/mnews/article/009/000...,한국차는 글로벌 시장에서 통하는 디자인을 만들다보니 우리 역사와 전통을 디자인에 반...,"자동차는 기술, 환경, 역사, 문화, 예술, 철학, 경제, 정치의 종합산물이다. 각..."
82,2022-07-01 17:47:01,economy,매일경제,단독 믿었던 중국마저…中기술굴기에 수출 막히고 FTA로 수입 늘고,5월 이어 두달째 對中적자 6월 수출 0.8% 줄어 129억弗 반도체 수출 11% ...,https://n.news.naver.com/mnews/article/009/000...,한 대중국 교역의 흑자 폭이 줄어들고 있는 것은 근본적으로 중국 산업과 기술이 한국...,"6월 한국의 중국 수출이 0.8% 감소한 129억7000만달러로, 반도체 수출은 1..."


In [95]:
df[df['press'].str.contains('한국경제')]

Unnamed: 0,date,category,press,title,document,link,summary,openai_summary
23,2022-07-10 12:32:01,IT과학,한국경제,위기 경보 곳곳서 포착…삼성전자 사실상 비상경영 체제 강경주의 IT카페,강경주의 IT카페 57회 올 하반기 반도체 경기 전망 매우 시끄러워져 애플·인텔·엔...,https://n.news.naver.com/mnews/article/015/000...,신종 코로나바이러스 감염 이후 메모리반도체 가격 하락 징후가 뚜렷해지는 것은 물론 ...,"반도체 산업에 위기 경보가 울리고 있다. 애플, 엔비디아, AMD 등이 주문량을 줄..."
29,2022-07-05 17:07:59,economy,한국경제TV,김기석 하나은행 부행장 오는 8월 모바일 종합 퇴직연금 관리 시스템 도입,300조원에 육박하는 퇴직연금 시장에 이달 12일부터 ‘디폴트옵션 이 도입된다. 디...,https://n.news.naver.com/mnews/article/215/000...,한국금융TV는 300조원에 육박하는 퇴직연금 시장에 이달 12일부터 ‘디폴트옵션’이...,이달 12일부터 300조원 규모의 퇴직연금 시장에 '디폴트옵션'이 도입된다. 이는 ...
34,2022-07-05 10:41:01,IT과학,한국경제,반도체 장비 받는데 2년 6개월 걸린다…속타는 삼성·SK,장비 리드타임 최대 30개월까지 늘어나 삼성전자 등 시설투자 이미 차질 빚는 중 장...,https://n.news.naver.com/mnews/article/015/000...,5일 글로벌 시장조사업체 트렌드포스에 따르면 ASML 램리서치 어플라이드머티리얼즈 ...,"반도체 장비 리드타임이 최대 30개월로 늘어나며, 삼성전자 등의 시설투자에 차질이 ..."
70,2022-07-01 18:32:53,economy,한국경제TV,중국으로 눈 돌리는 월가...테슬라는 매도 니오는 매수 GO WEST,돌아온 중국 앵커 글로벌 경제와 증시 기업에 대해 깊이 있게 분석하는 GO WEST...,https://n.news.naver.com/mnews/article/215/000...,중국은 플랫폼 규제 완화 대출우대금리 LPR 인하 승용차 취득세 감면 등의 각종 부...,미국 증시가 부진한 가운데 중국 증시는 반등세를 보이고 있어 전 세계 투자자들의 관...


In [96]:
df[df['press'].str.contains('서울경제')]

Unnamed: 0,date,category,press,title,document,link,summary,openai_summary
30,2022-07-04 15:29:01,economy,서울경제,시그널 후발주자 맘스터치 햄버거업계 MA서 급부상 배경은,딥서치 감가상각비 적어 현금 창출력 탁월 직영점 많은 버거킹 선매각 추진 불구 지연...,https://n.news.naver.com/mnews/article/011/000...,지난해 말 롯데리아를 제치고 매장 수에서 국내 최대가 된 맘스터치 1363개 의 매...,"맘스터치가 버거킹, KFC, 한국맥도날드 등과 함께 햄버거 프랜차이즈 시장의 인수·..."
33,2022-07-05 17:56:01,economy,서울경제,마트·골목상권 다 못살린 의무휴업…지자체에 자율성 줘야,다시 기업을 뛰게 하자 2부. 규제 주머니 OUT 9 이념의 덫에 걸린 유통산업발전...,https://n.news.naver.com/mnews/article/011/000...,201형 대형마트와 기업형슈퍼마켓 SSM 을 규제하는 유통산업발전법이 시행된 지 1...,유통산업발전법이 시행된 지 10년이 지나도록 대형마트와 기업형슈퍼마켓(SSM)에 대...
40,2022-07-05 10:52:02,economy,서울경제,열대야로 잠 못 드는 밤 공원에 가볼까…‘여름나기 좋은 서울 공원’ 10곳 추천,서울시 힐링명소 서울의 공원 10곳 선정 ‘남산공원 소나무힐링숲’ 등 월드컵공원 메...,https://n.news.naver.com/mnews/article/011/000...,"서울시는 숲캉스하기 좋은 '남산공원 소나무힐링숲', 소나무 숲 그늘 아래 시원하게 ...",서울시는 여름철 힐링을 위한 서울 공원 10곳을 선정했다. 이 중 '남산공원 소나무...
45,2022-07-02 08:31:01,economy,서울경제,2300선 깨진 코스피 당분간 반등 어려울 수도 다음주 증시 전망,코스피 장중 2290선까지 후퇴··· 삼전·SK하이닉스도 줄줄이 신저가 코스피 예상...,https://n.news.naver.com/mnews/article/011/000...,서울경제 인플레이션과 경기 침체에 대한 우려로 인해 이번 주 국내 증시는 장중 한때...,이번 주 코스피는 인플레이션과 경기 침체 우려로 급락했다. 미국 반도체 업체 마이크...
60,2022-07-08 07:01:11,IT과학,서울경제,간이식 수혜자도 복강경 수술…상처·합병증 줄여 삶의 질 향상,메디컬인사이드 홍석균 서울대병원 간담췌외과 교수 1988년 국내 첫 간이식 성공이래...,https://n.news.naver.com/mnews/article/011/000...,홍석균 서울대병원 간담췌외과 교수는 7일 생체간이식 활성화에 기여하고 싶다며 순수 ...,홍석균 서울대병원 간담췌외과 교수는 1988년 국내 첫 간이식 성공 이후 2500건...
89,2022-07-03 07:21:01,economy,서울경제,글로벌 폭락장서 나홀로 우뚝 中 증시…지금 들어가도 될까 선데이 머니카페,6월 상하이종합지수 6.8% 상승 중국 ETF 수익률 상위권 싹쓸이 당국 통화정책 ...,https://n.news.naver.com/mnews/article/011/000...,최근 미국발 금리 인상과 경기 침체에 대한 우려로 주요국 증시가 빠지고 있지만 전기...,6월 상하이종합지수가 6.8% 상승하며 중국 ETF가 수익률 상위권을 차지했다. 중...
91,2022-07-01 09:50:01,economy,서울경제,굳건한 입지의 힘… 지역 중심입지 프리미엄 고공행진,지역 주요 인프라 몰린 ‘중심 입지’ 우수한 문화 ·생활 · 교통여건 갖춰 지역 대...,https://n.news.naver.com/mnews/article/011/000...,우 주요 인프라가 한데 몰려 있는 메인입지의 경우 우수한 문화 · 생활여건은 물론 ...,"지역 중심입지의 가치가 높아지며, 주요 인프라가 몰린 곳에 대한 수요가 증가하고 있..."
97,2022-07-05 18:14:03,economy,서울경제,年수익률 3%P 오르면 28년 뒤 1억差…쥐꼬리 퇴직연금 뗀다,연금부자 시대 온다 상 디폴트옵션發 92조 머니무브 미국 수익률 8.6%·濠 7.7...,https://n.news.naver.com/mnews/article/011/000...,국내 퇴직연금 가입자의 대다수는 아직도 연금 자산 대부분을 연 1 2% 수익률의 예...,퇴직연금 가입자들의 퇴직금 운용 수익률을 높이기 위해 도입되는 사전지정운용제도 디폴...


In [97]:
df['category'].unique().tolist()

['IT과학', 'economy']

In [109]:
df2 = pd.read_csv('/home/osung/work/summary.0516/data/Naver_news_sum_train.csv')

In [110]:
df2

Unnamed: 0,date,category,press,title,document,link,summary
0,2022-07-03 17:14:37,economy,YTN,추경호 중기 수출지원 총력 무역금융 40조 확대,앵커 정부가 올해 하반기 우리 경제의 버팀목인 수출 확대를 위해 총력을 기울이기로 ...,https://n.news.naver.com/mnews/article/052/000...,"올해 상반기 우리나라 무역수지는 역대 최악인 103억 달러 적자를 기록한 가운데, ..."
1,2022-07-04 08:07:12,economy,아시아경제,해산물·주류 무제한 인터컨티넨탈 뷔페 여름 한정 페스타 연다,문어 랍스터 대게 갑오징어 새우 소라 등 해산물 활용 미국식 해물찜 시푸드 보일 준...,https://n.news.naver.com/mnews/article/277/000...,인터엑스 1층 뷔페 레스토랑 브래서리는 오는 6일부터 8월31일까지 쿨 섬머 페스타...
2,2022-07-05 18:01:01,IT과학,동아사이언스,한국인 생활 변화시킨 의사 마지막까지 영향력 컸던 과학자 이호왕 고려대 명예교수 소천,한탄바이러스 발견 노벨상 유력 후보로 자주 거론 한국을 대표하는 의학자이자 미생물학...,https://n.news.naver.com/mnews/article/584/000...,이 이호왕 고려대 명예교수는 바이러스의 병원체와 진단법 백신까지 모두 개발한 한국을...
3,2022-07-01 08:51:12,economy,뉴시스,에디슨이노 이승훈 제이스페이스 대표 사내이사 선임,기사내용 요약 우주발사체 사업 본격화 서울 뉴시스 김경택 기자 에디슨이노가 우주발사...,https://n.news.naver.com/mnews/article/003/001...,에디슨이노는 1일 임시주주총회를 통해 사명을 이노시스 로 변경하고 이승훈 제이스페이...
4,2022-07-01 16:11:01,economy,머니투데이,SK바사 해외 사업 조직 개편… 글로벌 탑티어 기업으로 성장 박차,SK바이오사이언스가 글로벌 사업의 고도화를 위해 조직 개편을 단행했다. SK바이오사...,https://n.news.naver.com/mnews/article/008/000...,SK바이오사이언스가 글로벌 사업의 고도화를 위해 기존 해외사업개발실을 백신사업뿐만 ...
...,...,...,...,...,...,...,...
22189,2022-07-04 15:26:03,economy,서울경제,“탄소중립 앞장” 대우조선 ESG위원회 신설,보고서 발간 등 지속가능경영 힘써 대우조선해양 통합보고서. 사진제공 대우조선해양 서...,https://n.news.naver.com/mnews/article/011/000...,4조선해양이 환경·사회·지배구조 ESG 경영 확대를 위해 ESG경영 추진을 위한 각...
22190,2022-07-01 16:34:03,economy,이데일리,신원종합개발 단기 차입금 증가 결정,이데일리 김소연 기자 신원종합개발 017000 은 단기 차입금 합계가 198억800...,https://n.news.naver.com/mnews/article/018/000...,1일종합개발은 신원종합개발 017000 은 단기 차입금 합계가 자기자본 대비 17....
22191,2022-07-05 18:20:18,economy,KBS,ET 고금리 학자금 대출 ‘저금리’로 외,경제 뉴스와 꼭 알아야 할 소식들을 픽 해서 전해드리는 박태원의 픽 첫 번째 키워드...,https://n.news.naver.com/mnews/article/056/001...,최금금리로 학자금 대출을 받았고 아직 갚을 대출금이 남아있다면 고금리로 갈아탈 수 ...
22192,2022-07-01 15:52:46,IT과학,블로터,SaaS 기업들이 과기정통부 SW고성장 클럽 확대·지속 외치는 이유,세종시에 위치한 과기정통부 청사. 사진 과기정통부 국내 SaaS 서비스형 소프트웨어...,https://n.news.naver.com/mnews/article/293/000...,S정보통신부 이하 과기정통부 가 2019년부터 시작한 SW 기업 지원 제도인 'SW...


In [112]:
df2['category'].unique().tolist()

['economy', 'IT과학']

In [111]:
df2['press'].unique().tolist()

['YTN ',
 '아시아경제 ',
 '동아사이언스 ',
 '뉴시스 ',
 '머니투데이 ',
 '경향신문 ',
 '전자신문 ',
 '한국경제TV ',
 '이데일리 ',
 '연합뉴스TV ',
 '연합뉴스 ',
 'SBS Biz ',
 '매일신문 ',
 'ZDNet Korea ',
 '데일리안 ',
 '조선일보 ',
 'MBN ',
 '국민일보 ',
 '조선비즈 ',
 '한국일보 ',
 '아이뉴스24 ',
 '머니S ',
 'KBS ',
 '노컷뉴스 ',
 '디지털데일리 ',
 'SBS ',
 '서울신문 ',
 '동아일보 ',
 '매일경제 ',
 '파이낸셜뉴스 ',
 '뉴스1 ',
 '헤럴드경제 ',
 '문화일보 ',
 '디지털타임스 ',
 '중앙일보 ',
 '더팩트 ',
 '매경이코노미 ',
 '블로터 ',
 '서울경제 ',
 '부산일보 ',
 '한겨레 ',
 '채널A ',
 '스포츠조선 ',
 '한국경제 ',
 '이코노미스트 ',
 '스포츠서울 ',
 '강원도민일보 ',
 '국제신문 ',
 '스포츠동아 ',
 '세계일보 ',
 '농민신문 ',
 '조세일보 ',
 '한경비즈니스 ',
 '오마이뉴스 ',
 '비즈니스워치 ',
 '시사저널 ',
 'JTBC ',
 '대구MBC ',
 'MBC ',
 '스포츠경향 ',
 '대전일보 ',
 'TV조선 ',
 '코메디닷컴 ',
 'OSEN ',
 '일간스포츠 ',
 'kbc광주방송 ',
 'JIBS ',
 '여성신문 ',
 '스포츠월드 ',
 '엑스포츠뉴스 ',
 '강원일보 ',
 '주간동아 ',
 '프레시안 ',
 '주간조선 ',
 '신동아 ',
 '주간경향 ',
 '전주MBC ',
 '미디어오늘 ',
 '중앙SUNDAY ']

In [129]:
df2_sel = df2[df2['press'].str.contains('매일경제|한국경제|서울경제')].reset_index(drop=True)

In [130]:
df2_sel

Unnamed: 0,date,category,press,title,document,link,summary
0,2022-07-01 09:06:47,economy,한국경제TV,씨티그룹 하반기 20% 넘게 오를 종목은 이것,미국 뉴욕증시가 52년 만에 최악의 상반기를 보낸 가운데 씨티그룹이 랠리가 기대되는...,https://n.news.naver.com/mnews/article/215/000...,30일 현지시간 CNBC에 따르면 씨티은행은 팩트셋 자료를 인용해 올해 안으로 20...
1,2022-07-01 04:03:10,economy,매일경제,신한라이프 고객의 라이프에 놀라움을 더하는 서비스 제공,2022 한국서비스대상 신한라이프는 라이프에 놀라움을 더하다 라는 브랜드 슬로건의 ...,https://n.news.naver.com/mnews/article/009/000...,신한라이프는 고객의 라이프에 놀라움을 더하다 라는 브랜드 슬로건의 의미에 맞게 고객...
2,2022-07-01 14:35:01,economy,매일경제,웹젠 ‘R2M’ 대만 공략 시동…현지 테스트 돌입,연내 홍콩·마카오 중화권 서비스 확장 웹젠 대표 김태영 이 모바일 MMORPG ‘R...,https://n.news.naver.com/mnews/article/009/000...,모바일 MMORPG ‘R2M’의 비공개 테스트를 시작하며 대만 시장 공략을 본격화한...
3,2022-07-05 20:06:21,economy,한국경제TV,쌍용차 토레스 출시…SUV 명가의 부활 뉴스현장,쌍용자동차가 정통 SUV 스포츠유틸리티차량 신차 토레스를 공식 출시했다. 쌍용차는 ...,https://n.news.naver.com/mnews/article/215/000...,쌍용자동차는 5일 인천 영종도 네스트 호텔에서 진행된 토레스 미디어 쇼케이스에서 정...
4,2022-07-05 14:04:01,IT과학,서울경제,집집마다 KT 기가지니 생길까…KT 올해 1000억 매출 가능,KT AI 스피커 기가지니 적용한 AI 아파트 매년 수주 2배씩 늘어 올해 100만...,https://n.news.naver.com/mnews/article/011/000...,KT는 분당사옥에서 'KT 디지코 스터디'를 열고 변화하는 주거환경에 맞춰 변화하는...
...,...,...,...,...,...,...,...
2589,2022-07-01 17:18:01,economy,한국경제,한 달만에 10%↓…상승세 꺾인 돼지고기값,정황근 농림축산식품부 장관 왼쪽 이 1일 이마트를 찾아 돼지고기 판매 코너를 둘러보...,https://n.news.naver.com/mnews/article/015/000...,급 축산물품질평가원에 따르면 돼지고기 제주 제외 평균 도매가격은 kg당 5318원으...
2590,2022-07-03 14:35:01,IT과학,서울경제,10년간 흘린 땀방울이 누리호 쏘아올린 저력,김승연 한화그룹 회장 개발 참여 임직원에 편지 80여명 각각 이름 담아 포상휴가와 ...,https://n.news.naver.com/mnews/article/011/000...,한 성공을 거뒀지만 현재 성공에 안주하지 말고 국가를 대표한다는 책임감하에 누리호 ...
2591,2022-07-01 07:05:02,economy,서울경제,수도권 레미콘 공장 멈춘다…운송 차주 오늘부터 파업,“운송비 27% 올려라” vs “9 10% 수준 적절” 명절상여 지원 등 합의 불발...,https://n.news.naver.com/mnews/article/011/000...,30일 관련 업계에 따르면 레미콘운송노동조합과 수도권 주요 레미콘 제조사들은 29일...
2592,2022-07-04 09:28:04,economy,한국경제TV,수도권 아파트 청약경쟁률 작년 30대 1→올해 13대 1,올해 상반기 수도권을 중심으로 아파트 청약 시장이 침체국면이다. 4일 리얼투데이 조...,https://n.news.naver.com/mnews/article/215/000...,4일 리얼투데이 조사에 따르면 올해 상반기 전국 아파트 공공·민간 사전청약 아파트는...


In [131]:
len(df2_sel)

2594

In [132]:
df2_sel['length'] = df2_sel['document'].str.len()

In [138]:
df2_sel = df2_sel.sort_values(by='length', ascending=False)

In [139]:
df2_sel

Unnamed: 0,date,category,press,title,document,link,summary,length
792,2022-07-07 18:41:01,IT과학,한국경제,우리가 미래의 스타 상반기 아기유니콘 60곳 살펴보니 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 편집자...,https://n.news.naver.com/mnews/article/015/000...,올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐고 업...,8656
1968,2022-07-05 08:23:01,economy,한국경제,성공한 VC의 투자 비법 종과 횡의 법칙을 적용하라 긱스,김기준 카카오벤처스 부사장 기고 이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱...,https://n.news.naver.com/mnews/article/015/000...,카경 긱스 Geeks 기고에서는 카카오벤처스를 국내 대표 VC로 이끈 김기준 부사장...,7056
1459,2022-07-10 09:35:01,IT과학,서울경제,방귀로 수소 에너지 만든다…그 현장 가봤습니다지구용,음식물쓰레기·축분에서 바이오메탄으로 그리고 그린 수소로 수소차 연료로 충전·외부 판...,https://n.news.naver.com/mnews/article/011/000...,K물쓰레기 처리 과정에서 나오는 메탄 등이 포함된 바이오가스는 탄소배출이 없는 재생...,5803
1997,2022-07-01 08:58:01,IT과학,한국경제,톱스타 맞먹는 몸값…1년에 10억 버는 모델 출생의 비밀 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 드라마...,https://n.news.naver.com/mnews/article/015/000...,인상인간 로지 인공지능 AI 스타트업에 다니는 20대 직장인 A씨는 ‘부캐 부캐릭터...,5464
750,2022-07-04 14:28:01,IT과학,한국경제,나 혼자 밤새운다고 회사 잘되진 않는다 여기어때 대표의 경영법 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 지난해...,https://n.news.naver.com/mnews/article/015/000...,지난해 5월 여행· 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자 ...,5299
...,...,...,...,...,...,...,...,...
2502,2022-07-03 17:11:02,economy,매일경제,포토 부산엑스포 유치 응원 나선 삼성,삼성전자가 부산광역시 내 삼성디지털프라자와 주요 백화점 내 삼성 매장 등 23곳에서...,https://n.news.naver.com/mnews/article/009/000...,삼성전자가 부산광역시 내 삼성디지털프라자와 주요 백화점 내 삼성 매장 등 23곳에서...,85
959,2022-07-06 17:10:01,economy,매일경제,포토 2300선 붕괴된 코스피,6일 코스피 지수가 49.77 포인트 하락한 2 292.01 로 장 마감을 한 가운...,https://n.news.naver.com/mnews/article/009/000...,6일 코스피 지수가 49.77 포인트 하락한 2 292.01 로 장 마감을 한 가...,74
2397,2022-07-04 17:25:06,economy,한국경제,포토 韓·日 경제인 한 자리에,전국경제인연합회와 일본 게이단렌은 4일 서울 여의도 전경련회관에서 한일재계회의를 열...,https://n.news.naver.com/mnews/article/015/000...,전국경제인연합회와 일본 게이단렌은 4일 서울 여의도 전경련회관에서 한일재계회의를 열...,73
676,2022-07-05 01:01:02,economy,한국경제,포토 ‘윤석열 경제팀’ 한자리에,추경호 부총리 겸 기획재정부 장관이 4일 서울 명동 은행회관에서 주재한 금융당국 조...,https://n.news.naver.com/mnews/article/015/000...,4경호 부총리 겸 기획재정부 추경호 장관이 4일 서울 명동 은행회관에서 부총리 ...,71


In [143]:
df2_final = df2_sel[df2_sel['length'] > 500].reset_index(drop=True)

In [176]:
df2_final

Unnamed: 0,date,category,press,title,document,link,summary,length
0,2022-07-07 18:41:01,IT과학,한국경제,우리가 미래의 스타 상반기 아기유니콘 60곳 살펴보니 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 편집자...,https://n.news.naver.com/mnews/article/015/000...,올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐고 업...,8656
1,2022-07-05 08:23:01,economy,한국경제,성공한 VC의 투자 비법 종과 횡의 법칙을 적용하라 긱스,김기준 카카오벤처스 부사장 기고 이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱...,https://n.news.naver.com/mnews/article/015/000...,카경 긱스 Geeks 기고에서는 카카오벤처스를 국내 대표 VC로 이끈 김기준 부사장...,7056
2,2022-07-10 09:35:01,IT과학,서울경제,방귀로 수소 에너지 만든다…그 현장 가봤습니다지구용,음식물쓰레기·축분에서 바이오메탄으로 그리고 그린 수소로 수소차 연료로 충전·외부 판...,https://n.news.naver.com/mnews/article/011/000...,K물쓰레기 처리 과정에서 나오는 메탄 등이 포함된 바이오가스는 탄소배출이 없는 재생...,5803
3,2022-07-01 08:58:01,IT과학,한국경제,톱스타 맞먹는 몸값…1년에 10억 버는 모델 출생의 비밀 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 드라마...,https://n.news.naver.com/mnews/article/015/000...,인상인간 로지 인공지능 AI 스타트업에 다니는 20대 직장인 A씨는 ‘부캐 부캐릭터...,5464
4,2022-07-04 14:28:01,IT과학,한국경제,나 혼자 밤새운다고 회사 잘되진 않는다 여기어때 대표의 경영법 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 지난해...,https://n.news.naver.com/mnews/article/015/000...,지난해 5월 여행· 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자 ...,5299
...,...,...,...,...,...,...,...,...
2259,2022-07-04 14:37:02,economy,한국경제,수협은행 최고 연 3.13.2% 이자주는 예적금 출시,신용카드 이벤트 결합시 최고 연 6.2% 금리 제공 Sh수협은행은 Sh플러스알파예금...,https://n.news.naver.com/mnews/article/015/000...,Sh수협은행은 Sh플러스알파예금 과 Sh플러스알파적금 상품을 출시한다고 4일 밝혔으...,504
2260,2022-07-05 16:03:01,economy,매일경제,한국동서발전 울산 이주 아프간 특별기여자 29가구에 서큘레이터 2대씩 전달,왼쪽부터 김영문 사장과 이정숙 울산동구건강다문화가족지원센터장 김종훈 울산동구청장이 ...,https://n.news.naver.com/mnews/article/009/000...,한국동서발전은 울산 동구지역에 정착한 아프가니스탄 특별기여자 29가구에 서큘레이터를...,504
2261,2022-07-06 16:46:20,economy,한국경제TV,라임사태 신한은행 업무 일부정지 3개월·과태료 57억원 부과,금융위원회가 라임자산운용 사모펀드의 환매 중단 사태와 관련해 펀드를 불완전 판매한 ...,https://n.news.naver.com/mnews/article/215/000...,금융위원회가 6일 정례회의에서 신한은행의 라임펀드 부당권유 등 불완전판매 투자 광고...,503
2262,2022-07-01 14:49:02,economy,서울경제,한국건설산업연구원 이충재 신임 원장 취임식 개최,서울경제 이충재 신임 한국건설산업연구원장이 “산업의 환경변화를 빠르게 연구에 반영하...,https://n.news.naver.com/mnews/article/011/000...,이충재 제9대 건산연 원장이 1일 서울 강남구 건설회관에서 취임식을 갖고산업의 환경...,501


In [177]:
len(df2_final)

2264

In [181]:
df2_final['press'] = df2_final['press'].str.rstrip()

In [182]:
df2_final.to_csv('/home/osung/work/summary.0516/data/Naver_news_sum_train_selected.csv', index=False)

In [145]:
df2_final.iloc[0].document

'이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 편집자주 지난해 말을 기준으로 국내 유니콘 기업은 18개사입니다. 국내에 3만 개 넘는 스타트업이 있는 점을 고려하면 바늘구멍도 이런 바늘구멍이 없습니다. 정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있습니다. 아기유니콘이 점점 자라 예비유니콘이 되고 예비유니콘이 자라 유니콘이 되기를 소망하면서 한경 긱스 Geeks 가 상반기 60개 아기유니콘을 소개합니다. 올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐다. 2020년 40개사 2021년 60개사가 선정된 바 있다. 중기부는 올 하반기에 40개사를 추가로 선정할 계획이다. 아기유니콘이 뭔데 중기부의 아기유니콘200 은 기업가치 1000억원 미만의 유망 스타트업 200개사를 발굴해 예비 유니콘 기업가치 1000억원 이상 1조원 미만 비상장사 으로 키우는 사업이다. 20억 100억원 사이의 투자 실적이 있는 회사 중 업력 7년 이내 스타트업이 자격 요건이다. 아기유니콘에 선정된 회사는 보조금 형태로 최대 3억원을 지원받는다. 또 기술보증기금과 연계해 최대 50억원의 특별보증 중소벤처기업진흥공단과 연계해 최대 100억원의 정책자금을 지원한다. 중소기업기술정보진흥원과 함께 중소기업 기술혁신개발 R D 사업으로 최대 20억원도 지원한다. 그밖에 국내외 홍보를 도와주고 후속 투자 유치를 위한 투자자를 매칭해주는 한편 규제 샌드박스를 지원하는 등 다방면의 지원사격이 제공된다. 올 상반기 선정된 60개사의 평균 업력은 5.1년으로 나타났다. 5년 이상 7년 미만이 29개사 48.3% 로 가장 많았다. 3년 이상 5년 미만 19개사 31.7% 3년 미만 12개사 20% 순이었다. 이들의 평균 매출은 약 46억원인데 60%가 매출 25억원 미만이다. 평균 직원 수는 36명 투자유치 금액은 약 38억원이다. 업종별로는 정보통신기술 ICT 과 데이터·네트워크·인공지능 AI 기반 플랫폼 분야 스타트

In [187]:
#df2_final.to_csv('/home/osung/work/summary.0516/data/Naver_news_sum_train_selected_psyche_summary.csv', index=False)

In [183]:
model_names = ['psyche/KoT5-summarization', 'gogamza/kobart-summarization',
               'KETI-AIR-Downstream/long-ke-t5-base-summarization'] #, 'ainize/kobart-news']

In [266]:
model_names = ['psyche/KoT5-summarization', 'KETI-AIR-Downstream/long-ke-t5-base-summarization', 'gogamza/kobart-summarization']

In [190]:
for model_name in model_names :
    model, tokenizer = get_model(model_name, device)

    summaries = []
    for sentence in tqdm(df2_final.document) :
        summary = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams)
        merged = "".join(summary)
        summaries.append(merged)
        
    df2_final[model_name] = summaries

KETI-AIR-Downstream/long-ke-t5-base-summarization
Using 2 GPUs.


100%|█████████████████████████████████████| 2264/2264 [1:48:37<00:00,  2.88s/it]


gogamza/kobart-summarization


You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


Using 2 GPUs.


 52%|████████████████████▏                  | 1169/2264 [31:21<29:22,  1.61s/it]


In [191]:
df2_final

Unnamed: 0,date,category,press,title,document,link,summary,length,psyche/KoT5-summarization,KETI-AIR-Downstream/long-ke-t5-base-summarization
0,2022-07-07 18:41:01,IT과학,한국경제,우리가 미래의 스타 상반기 아기유니콘 60곳 살펴보니 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 편집자...,https://n.news.naver.com/mnews/article/015/000...,올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐고 업...,8656,올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐다. ...,"정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있는데, 올..."
1,2022-07-05 08:23:01,economy,한국경제,성공한 VC의 투자 비법 종과 횡의 법칙을 적용하라 긱스,김기준 카카오벤처스 부사장 기고 이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱...,https://n.news.naver.com/mnews/article/015/000...,카경 긱스 Geeks 기고에서는 카카오벤처스를 국내 대표 VC로 이끈 김기준 부사장...,7056,카카오의 투자 전문 계열사인 카카오벤처스를 국내 대표 VC로 이끈 김기준 부사장이 ...,벤처캐피털 VC은 급변하는 시장에서 성공한 VC의 변하지 않은 투자 원칙으로 누구나...
2,2022-07-10 09:35:01,IT과학,서울경제,방귀로 수소 에너지 만든다…그 현장 가봤습니다지구용,음식물쓰레기·축분에서 바이오메탄으로 그리고 그린 수소로 수소차 연료로 충전·외부 판...,https://n.news.naver.com/mnews/article/011/000...,K물쓰레기 처리 과정에서 나오는 메탄 등이 포함된 바이오가스는 탄소배출이 없는 재생...,5803,음쓰처리장과 바이오수소 생산 판매 충전까지 한꺼번에 다 되는 충주바이오그린수소충전소...,충주시 고등기술연구원 기업들이 손잡고 지은 충주바이오그린수소충전소는 KTX 충주역에...
3,2022-07-01 08:58:01,IT과학,한국경제,톱스타 맞먹는 몸값…1년에 10억 버는 모델 출생의 비밀 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 드라마...,https://n.news.naver.com/mnews/article/015/000...,인상인간 로지 인공지능 AI 스타트업에 다니는 20대 직장인 A씨는 ‘부캐 부캐릭터...,5464,요즘 CF나 드라마 SNS 등을 달구고 있는 신 인류 AI휴먼 에 대한 내용입니다....,"AI 인간의 활약상과 제작 방식을 한경 스 에 실린 기사를 보면, 멀쩡한 배우나 모..."
4,2022-07-04 14:28:01,IT과학,한국경제,나 혼자 밤새운다고 회사 잘되진 않는다 여기어때 대표의 경영법 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 지난해...,https://n.news.naver.com/mnews/article/015/000...,지난해 5월 여행· 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자 ...,5299,지난해 5월 여행 · 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자...,지난해 5월 여행 · 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자...
...,...,...,...,...,...,...,...,...,...,...
2259,2022-07-04 14:37:02,economy,한국경제,수협은행 최고 연 3.13.2% 이자주는 예적금 출시,신용카드 이벤트 결합시 최고 연 6.2% 금리 제공 Sh수협은행은 Sh플러스알파예금...,https://n.news.naver.com/mnews/article/015/000...,Sh수협은행은 Sh플러스알파예금 과 Sh플러스알파적금 상품을 출시한다고 4일 밝혔으...,504,4일 Sh수협은행은 수협은행의 첫 정기예금 고객 또는 펀드 신규·자동이체 실적 등을...,Sh수협은행은 4일 1인당 최대 5억원 한도의 12개월 만기 상품인 Sh플러스알파예...
2260,2022-07-05 16:03:01,economy,매일경제,한국동서발전 울산 이주 아프간 특별기여자 29가구에 서큘레이터 2대씩 전달,왼쪽부터 김영문 사장과 이정숙 울산동구건강다문화가족지원센터장 김종훈 울산동구청장이 ...,https://n.news.naver.com/mnews/article/009/000...,한국동서발전은 울산 동구지역에 정착한 아프가니스탄 특별기여자 29가구에 서큘레이터를...,504,한국동서발전은 5일 오전 11시 울산 동구청장실에서 아프가니스탄 특별기여자 29가구...,한국동서발전은 5일 오전 11시 울산 동구청장실에서 아프가니스탄 특별기여자 29가구...
2261,2022-07-06 16:46:20,economy,한국경제TV,라임사태 신한은행 업무 일부정지 3개월·과태료 57억원 부과,금융위원회가 라임자산운용 사모펀드의 환매 중단 사태와 관련해 펀드를 불완전 판매한 ...,https://n.news.naver.com/mnews/article/215/000...,금융위원회가 6일 정례회의에서 신한은행의 라임펀드 부당권유 등 불완전판매 투자 광고...,503,금융위원회는 6일 정례회의에서 신한은행의 라임펀드 부당권유 등 불완전판매 투자 광고...,금융위는 6일 정례회의에서 라임자산운용 사모펀드의 환매 중단 사태와 관련해 펀드를 ...
2262,2022-07-01 14:49:02,economy,서울경제,한국건설산업연구원 이충재 신임 원장 취임식 개최,서울경제 이충재 신임 한국건설산업연구원장이 “산업의 환경변화를 빠르게 연구에 반영하...,https://n.news.naver.com/mnews/article/011/000...,이충재 제9대 건산연 원장이 1일 서울 강남구 건설회관에서 취임식을 갖고산업의 환경...,501,이충재 신임 한국건설산업연구원장은 1일 오전 서울 강남구 건설회관에서 취임식을 갖고...,서울경제 이충재 신임 한국건설산업연구원장이 1일 오전 서울 강남구 건설회관에서 취임...


In [223]:
df2_final.to_csv('/home/osung/work/summary.0516/data/Naver_news_sum_train_summary_final.csv', index=False)

In [216]:
len(df2_final.document)

2264

In [222]:
df2_final.document[10]

'새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이. 출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠. 자율성이 없어요. 기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다. 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다. 우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다. 게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다. ◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다. 최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다. 이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다. 올해 정부 부처가 대학과 출연연·기업 

In [224]:
df2_final['psyche/KoT5-summarization'][10]

'대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다. 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다. 우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다. 주요 R D로 전체 R D 예산의 약 80%를 차지하는 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다.2019년 7월 일본의 반도체·디스플레이 분야 소재·부품·장비 수출규제 2020년 초 코로나19 사태로 관련 R D 예산이 크게 늘었기 때문이다. 여기에 연구자가 직접 R D 과제를 기획해 제안하는 연구자 주도 기초연구 예산이 문재인 정부에서 1조 2599억 원에서 2조 5000억 원까지 2배나 늘어난 것도 R D 예산 증가 요인으로 꼽힌다. 하지만 내년에는 R D 예산은 2018년 이후 5년 만에 다시 1%대로 급감하게 됐다. 정부출연연구기관은 필요한 R D 예산을 제대로 확보하지 못하거나 정부의 간섭과 규제가 심해 아우성이다. 특히 추경호 부총리 겸 기재부 장관이 최근 공공기관 혁신은 더 이상 미룰 수 없는 과제라고 강조하면서 내년 출연연 예산 증가율이 겨우 2% 선에 그치고 인력 충원에도 제동이 걸렸다.연구 현장에서는 윤석열 정부가 반도체와 원전만을 강조하는 바람에 다른 분야의 R D 과제를 제안할 때 반도체를 끼워넣어야 과제를 수주할 수 있다는 자조 섞인 얘기까지 나오고 있다. 현재 25개 과학기술 출연연의 경우 PBS 비중이 평균적으로 절반 정도에 달해 고유의 국가 임무형 연구에 충실하기 힘들다는 지적이 나온다. 대학의 경우에도 지방교육재정교부금으로 초중고교에만 교육예산이 몰릴 뿐 대학 예산 지원이 부족한 데 대해 한목소리로 불만을 제기하고 있다. 85조 원가량의 교육예산 중 70%가량이 초중고교에 이중고교에만 을 집중해야 한다며 주 52시간제나

In [226]:
df2_final['KETI-AIR-Downstream/long-ke-t5-base-summarization'][10]

'정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있는데, 최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 예산은 올해보다 불과 1.7% 늘었으며, 이 예산은 과학기술자문회의가 심의하는 주요 RD로 전체 예산의 약 80%를 차지하는 것으로 나타났다.과학기술 R D 예산 증가율이 문재인 정부 들어 급증해 2019년 4.4%를 기점으로 2020년 18.0% 2021년 13.1% 2022년 8.8%를 기록하며 4년 전에 비해 절반가량 늘어났다.. 정부출연연구기관은 필요한 예산을 제대로 확보하지 못하거나 정부의 간섭과 규제가 심해 아우성이다. 추경호 부총리 겸 기재부 장관이 최근 “공공기관 혁신은 더 이상 미룰 수 없는 과제”라고 강조하면서 내년 출연연 예산증가율이 겨우 2% 선에 그치고 인력 충원에도 제동이 걸렸다.출연연은 국가전략기술의 최전선에서 역할을 해야 한다며 예산을 받아도 자체적으로 투자 우선순위도 정할 수 없다고 호소했지만 공공기관 관리를 맡고 있는 기재부에 어필하고 있으나 여의치 않다는 것이다.. . 또 다른 출연연 원장은 경직된 규제가 발목을 잡고 있다고 했다.. 다. 또 기초과학계의 한 인사는 기초과학 쪽에도 신경을 써달라고 읍소하고 있다고 털어놓았다. 이는 R D 포퓰리즘에 편승하지 않고서는 제대로 연구비를 수주하기 힘들다는 위기의식이 깔려 있다.윤 대통령은 5월 10일 취임식에서 "자유를 강조한 뒤 양극화 등을 해결하기 위해 \'빠른 성장\'이 필요하다"고 밝혔으며, 중소·벤처기업들도 볼멘소리를 하고 있다.. 중소기업들은 R D 과제에 적극 응모하고 있는데 추천 대상이 된 RD 과제마저 집행이 보류돼 답답하다고 하소연했다. 윤대통령은 \'과학기술 선도 국가\' 비전을 제시하며 과학기술 중시 국정 운영을 약속하였고, \'디지털 플랫폼 정부\', 민관 과학기술위원회 신설, 미래 선도 연구 10년 이상 지원, 청년 과학인 도전과 기회의 장 마련 등을 약속했다한국의

새 정부의 과학기술 R&D 예산 증가율이 내년에 1.7%로 급감하며, 연구 현장에서는 실망감이 커지고 있다. 출연연과 대학 등의 연구 현장 규제와 간섭 타파 노력이 부족하며, 예산 지원이 부족한 대학의 연구개발 R&D에 대한 우려가 커지고 있다. 새 정부의 과학기술 육성 비전과 전략, 로드맵이 뚜렷이 보이지 않아, 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 어려울 것으로 보인다. 이에 따라, 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 소외될 우려가 있다.2018년 19조 7000억 원이던 과학기술 R&D 예산이 2022년까지 절반 가량 증가했다. 이는 문재인 정부 들어서부터 예산 증가율이 급증하며, 일본의 반도체·디스플레이 분야 수출규제와 코로나19 사태로 R&D 예산이 크게 늘어난 결과이다. 또한, '연구자 주도 기초연구' 예산이 2배 늘어난 것도 증가 요인으로 꼽힌다. 그러나 2023년에는 예산 증가율이 1%대로 급감하게 되었다. 지역 R&D 지원 예산은 감소했지만, 10대 국가전략기술 분야의 R&D 예산과 과학기술 인재 양성 예산은 증가했다. 이에 따라 각 부처에 지출 구조 조정을 유도해 절감한 예산을 주요 정책 분야와 신규 사업에 재투자했다.출연연은 인력과 예산 증액이 필요하며, 자체적으로 투자 우선순위를 정할 수 없다. 경직된 규제와 연구과제수주시스템 PBS에 대한 혁신 움직임이 없다. 기초과학 분야도 예산 증가가 필요하며, 반도체 등에 신경을 쓰는 것은 이해하지만, 중장기적으로 기초과학 예산을 늘리고 효율적 집행을 바란다. 연구 현장에서는 반도체와 원전만을 강조하는 바람에 다른 분야의 R D 과제를 제안할 때 반도체를 끼워넣어야 과제를 수주할 수 있다는 자조 섞인 얘기가 나온다. 출연연의 경우 PBS 비중이 평균적으로 절반 정도에 달해 고유의 국가 임무형 연구에 충실하기 힘들다는 지적이다. 대학 예산 지원이 부족한 데 대해 불만을 제기하고 있다. 이다.초중고생에게는 1인당 1000만 원이 넘는 지원이 이루어지지만, 대학생은 1인당 50만 원에 그친다. 학령인구 감소에도 불구하고 지방교육재정교부금 제도로 초중고 예산은 계속 증가하고 있으며, 지난 5년간 31조 원이 불용 처리되었다. 대학 등록금은 14년째 동결되어 대학들의 어려움이 가중되고 있다. 중소·벤처기업들은 한정된 예산으로 인해 R&D 과제 집행이 보류되는 상황에 불만을 표현하고 있다. 정부는 내년에 기업 R&D 지원 사업 예산으로 1조 5700억 원을 배정하였지만, 중소·벤처·스타트업이 체감하기까지는 시간이 필요하다. 윤 대통령은 과학기술 중시 국정 운영을 약속하였으나, 이를 실현하는데 우려의 목소리가 나오고 있다.과학, 기술, 혁신이 성장의 핵심이지만, 한국의 잠재성장률은 2030-2060년에 OECD 회원국 중 최저 수준으로 떨어질 수 있다. 인구절벽, 국가채무 증가, 과학기술 컨트롤타워 미비, 바이오·AI·수소 등 국가전략기술 분야 소외, 대학과 출연연에 대한 간섭과 규제, 기업가 정신 부재 등이 문제다. 이를 해결하기 위해선 과학기술 컨트롤타워를 정립하고, 도전적인 연구를 장려하는 생태계를 만들어야 한다는 의견이다.

In [None]:
# gogamza/kobart-summarization 모델이 불안정 하므로 100개 단위로 나눠서 처리


In [193]:
len(summaries)

1169

In [201]:
import numpy as np

In [202]:
np_summaries = np.array(summaries)

In [209]:
np_summaries.shape

(1169,)

In [195]:
import csv

In [215]:
with open('gogamza_summaries.txt', mode='w', encoding='utf-8') as file:
   
    for item in summaries :
        file.write(item + '\n')

In [214]:
summaries[2]

'현존하는 가장 깨끗한 에너지인 바이오수소에요. 정답은 수소. 현존 하는 가장 깨끗한 에너지가 현존 에너지로 가장 깨끗 에너지 지역에서 만들고 지역 내에서 소비··· 그레이 수소 와는 비교불가 수소차 실구매가 3000만원대 서울 부산 편도 한번 충전으로 OK 서울경제 음쓰 음식물쓰레기 덕분에 자동차를 굴릴 수 있다면...믿기세요 음쓰를 집어넣는 것만으로 달리는 자동차는 없을 테니 나름 좋을 것 같긴 한데 냄새 어쩔... 조금 머리를 굴려보자면 음쓰 뭔가로 바꿔야겠는데 정답이 정답인 수소 현존하고 가장 깨끗한 에너지를인 바이오 수소에요.음쓰가 바이오가스로 잘 만들어지려면 음쓰에 이상한 거 섞어 버리면 안 되겠죠 각종 일쓰류는 당연히 안 되고 음쓰로 헷갈리기 쉬운 대표적인 물질은 과일 씨앗류 복숭아 자두 씨 등 치킨 뼈 양파 껍질 파뿌리 커피가루 등등. 전부 일쓰로 버려주세요. end block start blokk ━ 수소라고 다 깨끗한 건 아냐 end locck 그리고 메탄가스를 수소추출기에 집어넣어서 수소를 뽑아내면 수소자동차 수소트럭 수소버스 연료로 쓸 수 있어요.수소를 만든 수소는 수소 전용 운반차인 튜브트레일러 TT 에 담아서 내다 팔기도 하고 이 곳 충전소에서 수소차 충전에 쓰이기도 하고 P.S ‘ 모든 수소 친환경 탄소배출 0 ’ 은 아니에요    어떻게 만드느냐에 따라서 달라요.   아래 내용 일독하시길 추천드려요.  요것만 알면 수소에 대해 아는 척 좀 할 수 있을 듯 start block 바이오 수소 그린 수소그린 수소  ‘그린’ ‘블루’ ‘그레이’로 친환경적인지를 분류하고 그에 따라 친환경적인지 분류. 그린이 친환경 1등 블루가 2등 그레이는 꼴등이에요. 1음식물 가축분뇨 같은 유기성폐기물에서 수소를 만들어내는 게 오늘의 주인공인 ‘바이오수소’. 쓰레기에서 뽑아내는 거고 생산 과정에서 탄소 배출이 없기 때문에 ‘그린수소’로 분류돼 2물을 전기분각 지역마다 자체적으로 바이오수소를 만들면 물류비가 적게 든다는 장점이 있어요.    ‘로컬 수소’ 

In [174]:
df2_sample

Unnamed: 0,date,category,press,title,document,link,summary,length,psyche/KoT5-summarization,gogamza/kobart-summarization,KETI-AIR-Downstream/long-ke-t5-base-summarization
0,2022-07-05 23:01:01,economy,서울경제,노바칩스 10TB 용량 SSD 국제표준 CC인증 획득...NVMe SSD로는 NIA...,국제표준 보안인증으로 미국정부에서도 승인한 보호 프로필 기반으로 인증 획득 국제CC...,https://n.news.naver.com/mnews/article/011/000...,국내바바칩스는 자사 컨트롤러 기반 솔리드 스테이트 드라이브 SSD 가 미국 국가안보...,1312,국내 플래시 컨트롤러 선도 기업 노바칩스 대표 김영관 는 자사 컨트롤러 기반 솔리드...,노바칩스 대표 김영관 는 자사 컨트롤러 기반 솔리드 스테이트 드라이브 SSD가 미국...,노바칩스가 국내기업 최초로 저장매체 SSD가 NIAP PCL에 등재된 것이 알려지며...
1,2022-07-05 08:22:01,economy,서울경제,키움證 LG화학 2분기 영업이익 시장 기대치 상회,키움증권 보고서 LG화학 목표주가 76만 원 올 2분기 영업이익 9000억 원 예상...,https://n.news.naver.com/mnews/article/011/000...,키움증권은 5일 LG화학에 대해 2분기 영업이익이 시장 기대치를 소폭 상회할 전망으...,950,키움증권은 5일 LG화학 051910 에 대해 2분기 영업이익이 시장 기대치를 소폭...,키움증권 보고서에 따르면 LG화학의 올해 2분기 영업이익은 9011억 원으로 시장 ...,LG화학 서울경제 키움증권은 5일 LG화학의 올해 2분기 영업이익은 9011억 원으...
2,2022-07-06 14:30:01,IT과학,매일경제,더벤처스 예비창업팀 15시간만에 시장 검증하세요,더벤처스 온라인 스프린트 출시 수료팀에 IR미팅·네트워킹 기회 더벤처스가 초기 창업...,https://n.news.naver.com/mnews/article/009/000...,더벤처스는 제품 개발에 어려움을 겪는 초기 또는 예비 창업팀이 아이디어 스케치부터 ...,744,더벤처스가 초기 창업자와 팀을 위해 아이디어 스케치부터 프로토타입 시제품 테스트까지...,더벤처스 온라인 스프린트 는 제품 개발에 어려움을 겪는 초기 또는 예비 창업팀이 아...,더벤처스가 초기 창업자와 팀을 위해 제품 개발에 어려움을 겪는 초기 또는 예비 창업...
3,2022-07-06 16:35:02,IT과학,매일경제,JS플레이 실시간 전략전투게임 ‘패스트블리츠’ 내년 출시 목표,6일 제이에스플레이 대표 최성용 는 실시간 전략 전투게임 ‘패스트블리츠’를 내년 출...,https://n.news.naver.com/mnews/article/009/000...,6일 제이에스플레이 대표 최성용은 내년 출시를 목표로 개발 중인 실시간 전략 전투게...,714,6일 제이에스플레이 대표 최성용 는 쿼터뷰 기반 실시간 5대5 PvP 게임인 패스트...,쿼터뷰 기반 실시간 5대5 PvP 게임인 ‘패스트블리츠’는 쿼터 쿼터비 쿼터브 기반...,제이에스플레이는 지난 2020년 쿼터뷰 기반 실시간 전략 전투게임 '패스트블리츠'의...
4,2022-07-04 10:19:01,economy,서울경제,건설공제조합 상반기 공제사업 실적 310억 초과… 역대 최대 실적,지난해 대비 16.3% 증가 서울경제 건설공제조합 이하 조합 이 올 상반기 공제사업...,https://n.news.naver.com/mnews/article/011/000...,서울경제 건설공제조합 이하 조합이 올해 상반기 공제사업 실적이 310억원을 넘겼다고...,665,서울경제 건설공제조합이 올 상반기 공제사업 실적이 310억원을 넘겼다고 4일 밝혔으...,서울경제 건설공제조합 이하 조합은 2012년 4월 보유공제 출범 이후 건설 관련 공...,2012년 4월 보유공제 출범 이후 건설 관련 공제 보험 시장에서 안정적인 성장 기...


In [173]:
df2_sample[model_names[0]]

0    국내 플래시 컨트롤러 선도 기업 노바칩스 대표 김영관 는 자사 컨트롤러 기반 솔리드...
1    키움증권은 5일 LG화학 051910 에 대해 2분기 영업이익이 시장 기대치를 소폭...
2    더벤처스가 초기 창업자와 팀을 위해 아이디어 스케치부터 프로토타입 시제품 테스트까지...
3    6일 제이에스플레이 대표 최성용 는 쿼터뷰 기반 실시간 5대5 PvP 게임인 패스트...
4    서울경제 건설공제조합이 올 상반기 공제사업 실적이 310억원을 넘겼다고 4일 밝혔으...
Name: psyche/KoT5-summarization, dtype: object

In [166]:
df2_sample.iloc[0][model_names[0]]

'국내 플래시 컨트롤러 선도 기업 노바칩스 대표 김영관 는 자사 컨트롤러 기반 솔리드 스테이트 드라이브 SSD 가 미국 국가안보국 NSA National Security Agency 산하 국가정보보증협회 NIAP 으로부터 국제공통평가기준 CC Common Criteria 인증을 획득했다고 밝혔다. 이번 인증은 국내에서만 사용할 수 있는 국내 CC인증과는 달리 한국을 비롯해 일본 싱가포르 말레이시아 미국 영국 등 CCRA 국제공통의료기준 상호인정협정 에 가입한 전세계 31개국에서 통용되는 인증이며 미국연방정부는 해당 인증을 획득한 제품에 대한 별도의 국가정보보증협회의 NIAC 보안인증제품리스트 PCL Product Compliant List 를 만들어서 PCL로 등재된 제품에 한해서만 연방정부프로젝트에 사용할 수 있도록 허용하는 수준 높은 보안인증이다.NIAP CC인증은 노바칩스 발전에 중요한 이정표가 될 것이며 앞으로도 동종업계최고 수준의 용량과 성능을 지원하는 혁신적인 제품을 개발하고 추후 출시될 신제품에도 보안 인증을 획득하여 사이버보안의 중요성이 높아지고 있는 시장 요구에 적극적으로 대응할 것이라고 말했다. 노바 칩스 김영관 대표는 "신뢰받는 고성능 컴퓨팅 구현이 필요한 고객사들을 위해서 앞으로도 계속해서 동종업계의 최고 수준의 용량을 지원하는 혁신적인 제품 개발 및 신제품 보안 인증 획득을 통해 사이버보안 시장의 중요성이 높아지는 시장 요구에 적극 대응할 것"이라고 말했다.'

In [167]:
df2_sample.iloc[1][model_names[0]]

'키움증권은 5일 LG화학 051910 에 대해 2분기 영업이익이 시장 기대치를 소폭 상회할 전망 이라며 투자의견 매수를 유지했고 목표주가는 기존 85만원에서 76만원으로 내려잡았다. 키움증권 보고서에 따르면 LG화학의 올해 2분기 영업익은 9011억 원으로 시장 기대치 8959억 원 를 소폭 웃돌 것으로 예상된다. 한편 LG화학은 2분기 전지소재부문 매출액은 1조1001억 원으로 전분기 대비 63% 이상 증가할 전망이다.'

In [162]:
df2_sample.iloc[1]['document']

'키움증권 보고서 LG화학 목표주가 76만 원 올 2분기 영업이익 9000억 원 예상 전지소재 부문 전분기 대비 63%↑ 양극재 양극재 판가 상승·증설 효과 사진 LG화학 서울경제 키움증권은 5일 LG화학 051910 에 대해 2분기 영업이익이 시장 기대치를 소폭 상회할 전망 이라며 투자의견 매수 를 유지했다. 목표주가는 기존 85만원에서 76만원으로 내려잡았다. 키움증권 보고서에 따르면 LG화학의 올해 2분기 영업이익은 9011억 원으로 시장 기대치 8959억 원 를 소폭 웃돌 것으로 예상된다. 석유화학부문 영업이익은 5315억 원으로 전분기 대비 16.3% 감소할 전망이다. 이동욱 키움증권 연구원은 NCC 나프타크래킹센터 부문이 경제성 악화로 가동률이 축소됐고 부타디엔 가격 급등으로 고무 고부가합성수지 ABS 의 수익성이 감소할 것으로 예상된다 라고 설명했다. 첨단소재부문 영업이익은 2006억 원으로 전분기 대비 30.3% 증가할 전망이다 이 연구원은 특히 전지소재는 하이니켈 제품군 판매 확대 양극재 판가 상승 및 증설 효과로 전분기 대비 큰 폭의 외형 증가 효과가 발생할 것으로 보인다 고 분석했다. 에너지솔루션 영업이익은 2008억원으로 전분기 대비 22.4% 감소할 것으로 예상된다. 이 연구원은 중국 원통형 고객사 생산 차질 등에 기인한다 며 다만 중국 및 유럽 주문자위탁생산 OEM 업체들의 가동률 개선으로 5 6월로 갈수록 실적이 개선된 것으로 추정된다 고 진단했다. 이 연구원은 첨단소재부문 내 전지소재뿐 아니라 유기발광다이오드 OLED ·반도체·엔지니어링 소재도 투자 및 제품 라인업이 확대되고 있다 며 중소형 OLED 블루 레스 호스트 등 양산 제품 라인업을 확장하고 있다 고 덧붙였다. 한편 LG화학의 2분기 전지소재부문 매출액은 1조1001억 원으로 전분기 대비 63% 이상 증가할 전망이다. 양극재 판가 상승과 함께 증설 효과가 2분기에 반영될 것으로 분석된다.'

In [231]:
model, tokenizer = get_model(model_names[1], device)

gogamza/kobart-summarization


You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


Using 2 GPUs.


In [232]:
sentence = df2_final.document[10]

In [233]:
sentence

'새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이. 출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠. 자율성이 없어요. 기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다. 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다. 우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다. 게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다. ◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다. 최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다. 이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다. 올해 정부 부처가 대학과 출연연·기업 

In [237]:
results = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams, verify=True)

0 1024
새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이. 출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠. 자율성이 없어요. 기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다. 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다. 우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다. 게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다. ◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다. 최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다. 이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다. 올해 정부 부처가 대학과 출

새 정부의 과학기술 R&D 예산 증가율이 내년에 1.7%로 급감하며, 연구 현장에서는 실망감이 커지고 있다. 출연연과 대학 등의 연구 현장 규제와 간섭 타파 노력이 부족하며, 예산 지원이 부족한 대학의 연구개발 R&D에 대한 우려가 커지고 있다. 새 정부의 과학기술 육성 비전과 전략, 로드맵이 뚜렷이 보이지 않아, 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 어려울 것으로 보인다. 이에 따라, 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 소외될 우려가 있다.

2018년 19조 7000억 원이던 과학기술 R&D 예산이 2022년까지 절반 가량 증가했다. 이는 문재인 정부 들어서부터 예산 증가율이 급증하며, 일본의 반도체·디스플레이 분야 수출규제와 코로나19 사태로 R&D 예산이 크게 늘어난 결과이다. 또한, '연구자 주도 기초연구' 예산이 2배 늘어난 것도 증가 요인으로 꼽힌다. 그러나 2023년에는 예산 증가율이 1%대로 급감하게 되었다. 지역 R&D 지원 예산은 감소했지만, 10대 국가전략기술 분야의 R&D 예산과 과학기술 인재 양성 예산은 증가했다. 이에 따라 각 부처에 지출 구조 조정을 유도해 절감한 예산을 주요 정책 분야와 신규 사업에 재투자했다.

출연연은 인력과 예산 증액이 필요하며, 자체적으로 투자 우선순위를 정할 수 없다. 경직된 규제와 연구과제수주시스템 PBS에 대한 혁신 움직임이 없다. 기초과학 분야도 예산 증가가 필요하며, 반도체 등에 신경을 쓰는 것은 이해하지만, 중장기적으로 기초과학 예산을 늘리고 효율적 집행을 바란다. 연구 현장에서는 반도체와 원전만을 강조하는 바람에 다른 분야의 R D 과제를 제안할 때 반도체를 끼워넣어야 과제를 수주할 수 있다는 자조 섞인 얘기가 나온다. 출연연의 경우 PBS 비중이 평균적으로 절반 정도에 달해 고유의 국가 임무형 연구에 충실하기 힘들다는 지적이다. 대학 예산 지원이 부족한 데 대해 불만을 제기하고 있다. 

이다.초중고생에게는 1인당 1000만 원이 넘는 지원이 이루어지지만, 대학생은 1인당 50만 원에 그친다. 학령인구 감소에도 불구하고 지방교육재정교부금 제도로 초중고 예산은 계속 증가하고 있으며, 지난 5년간 31조 원이 불용 처리되었다. 대학 등록금은 14년째 동결되어 대학들의 어려움이 가중되고 있다. 중소·벤처기업들은 한정된 예산으로 인해 R&D 과제 집행이 보류되는 상황에 불만을 표현하고 있다. 정부는 내년에 기업 R&D 지원 사업 예산으로 1조 5700억 원을 배정하였지만, 중소·벤처·스타트업이 체감하기까지는 시간이 필요하다. 윤 대통령은 과학기술 중시 국정 운영을 약속하였으나, 이를 실현하는데 우려의 목소리가 나오고 있다.과학, 기술, 혁신이 성장의 핵심이지만, 한국의 잠재성장률은 2030-2060년에 OECD 회원국 중 최저 수준으로 떨어질 수 있다. 인구절벽, 국가채무 증가, 과학기술 컨트롤타워 미비, 바이오·AI·수소 등 국가전략기술 분야 소외, 대학과 출연연에 대한 간섭과 규제, 기업가 정신 부재 등이 문제다. 이를 해결하기 위해선 과학기술 컨트롤타워를 정립하고, 도전적인 연구를 장려하는 생태계를 만들어야 한다는 의견이다.

In [240]:
nltk.download('punkt')

[nltk_data] Error loading punkt: <urlopen error [SSL:
[nltk_data]     CERTIFICATE_VERIFY_FAILED] certificate verify failed:
[nltk_data]     self signed certificate in certificate chain
[nltk_data]     (_ssl.c:1129)>


False

In [241]:
ss = sent_tokenize(sentence)

In [242]:
ss

['새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이.',
 '출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠.',
 '자율성이 없어요.',
 '기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다.',
 '글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다.',
 '우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다.',
 '게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다.',
 '◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다.',
 '최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다.',
 '이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예

In [246]:
sentences = []
merged = ""

chunk = 1024

for s in ss :
    if len(merged) + len(s) <= chunk :
        merged = merged + s
    else :
        sentences.append(merged)
        merged = ""
        
if len(merged) > 0 :
    sentences.append(merged)
    

In [259]:
def seperate_sentence(sentence, chunk) :
    ss = sent_tokenize(sentence)
    
    sentences = []
    merged = ""

    for s in ss :
        if len(merged) + len(s) <= chunk :
            merged = merged + s
        else :
            sentences.append(merged)
            merged = ""
        
    if len(merged) > 256 :
        sentences.append(merged)
    elif len(merged) > 0 :
        sentences[-1] = sentences[-1] + merged
        
    return sentences

In [247]:
sentences

['새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이.출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠.자율성이 없어요.기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다.글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다.우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다.게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다.◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다.최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다.이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다.올해 정부 부처가 대학과 출연연·기업 등에 지원하는 R

In [248]:
len(sentences)

5

In [250]:
for s in sentences :
    print(len(s))

1019
949
996
987
416


In [252]:
df2_final.document[0]

'이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 편집자주 지난해 말을 기준으로 국내 유니콘 기업은 18개사입니다. 국내에 3만 개 넘는 스타트업이 있는 점을 고려하면 바늘구멍도 이런 바늘구멍이 없습니다. 정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있습니다. 아기유니콘이 점점 자라 예비유니콘이 되고 예비유니콘이 자라 유니콘이 되기를 소망하면서 한경 긱스 Geeks 가 상반기 60개 아기유니콘을 소개합니다. 올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐다. 2020년 40개사 2021년 60개사가 선정된 바 있다. 중기부는 올 하반기에 40개사를 추가로 선정할 계획이다. 아기유니콘이 뭔데 중기부의 아기유니콘200 은 기업가치 1000억원 미만의 유망 스타트업 200개사를 발굴해 예비 유니콘 기업가치 1000억원 이상 1조원 미만 비상장사 으로 키우는 사업이다. 20억 100억원 사이의 투자 실적이 있는 회사 중 업력 7년 이내 스타트업이 자격 요건이다. 아기유니콘에 선정된 회사는 보조금 형태로 최대 3억원을 지원받는다. 또 기술보증기금과 연계해 최대 50억원의 특별보증 중소벤처기업진흥공단과 연계해 최대 100억원의 정책자금을 지원한다. 중소기업기술정보진흥원과 함께 중소기업 기술혁신개발 R D 사업으로 최대 20억원도 지원한다. 그밖에 국내외 홍보를 도와주고 후속 투자 유치를 위한 투자자를 매칭해주는 한편 규제 샌드박스를 지원하는 등 다방면의 지원사격이 제공된다. 올 상반기 선정된 60개사의 평균 업력은 5.1년으로 나타났다. 5년 이상 7년 미만이 29개사 48.3% 로 가장 많았다. 3년 이상 5년 미만 19개사 31.7% 3년 미만 12개사 20% 순이었다. 이들의 평균 매출은 약 46억원인데 60%가 매출 25억원 미만이다. 평균 직원 수는 36명 투자유치 금액은 약 38억원이다. 업종별로는 정보통신기술 ICT 과 데이터·네트워크·인공지능 AI 기반 플랫폼 분야 스타트

In [253]:
ss = seperate_sentence(df2_final.document[0], 1024)

In [254]:
ss

['이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다.편집자주 지난해 말을 기준으로 국내 유니콘 기업은 18개사입니다.국내에 3만 개 넘는 스타트업이 있는 점을 고려하면 바늘구멍도 이런 바늘구멍이 없습니다.정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있습니다.아기유니콘이 점점 자라 예비유니콘이 되고 예비유니콘이 자라 유니콘이 되기를 소망하면서 한경 긱스 Geeks 가 상반기 60개 아기유니콘을 소개합니다.올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐다.2020년 40개사 2021년 60개사가 선정된 바 있다.중기부는 올 하반기에 40개사를 추가로 선정할 계획이다.아기유니콘이 뭔데 중기부의 아기유니콘200 은 기업가치 1000억원 미만의 유망 스타트업 200개사를 발굴해 예비 유니콘 기업가치 1000억원 이상 1조원 미만 비상장사 으로 키우는 사업이다.20억 100억원 사이의 투자 실적이 있는 회사 중 업력 7년 이내 스타트업이 자격 요건이다.아기유니콘에 선정된 회사는 보조금 형태로 최대 3억원을 지원받는다.또 기술보증기금과 연계해 최대 50억원의 특별보증 중소벤처기업진흥공단과 연계해 최대 100억원의 정책자금을 지원한다.중소기업기술정보진흥원과 함께 중소기업 기술혁신개발 R D 사업으로 최대 20억원도 지원한다.그밖에 국내외 홍보를 도와주고 후속 투자 유치를 위한 투자자를 매칭해주는 한편 규제 샌드박스를 지원하는 등 다방면의 지원사격이 제공된다.올 상반기 선정된 60개사의 평균 업력은 5.1년으로 나타났다.5년 이상 7년 미만이 29개사 48.3% 로 가장 많았다.3년 이상 5년 미만 19개사 31.7% 3년 미만 12개사 20% 순이었다.이들의 평균 매출은 약 46억원인데 60%가 매출 25억원 미만이다.평균 직원 수는 36명 투자유치 금액은 약 38억원이다.업종별로는 정보통신기술 ICT 과 데이터·네트워크·인공지능 AI 기반 플랫폼 분야 스타트업이 27개사 45% 로 가장 많

In [255]:
for s in ss :
    print(len(s))

1001
1021
1000
993
1023
1003
986
1014
82


In [256]:
ss[-1]

'최근엔 사업자들을 대상으로 한 더낸세금 이라는 경정청구 플랫폼을 내놨다.그밖에 연예 매니지먼트 사업을 하는 리짐인터내셔널 도 명단에 이름을 올렸다.'

In [257]:
len(ss)

9

In [258]:
len(ss[-1])

82

In [260]:
ss[-2] = ss[-2] + ss[-1]

In [261]:
ss

['이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다.편집자주 지난해 말을 기준으로 국내 유니콘 기업은 18개사입니다.국내에 3만 개 넘는 스타트업이 있는 점을 고려하면 바늘구멍도 이런 바늘구멍이 없습니다.정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있습니다.아기유니콘이 점점 자라 예비유니콘이 되고 예비유니콘이 자라 유니콘이 되기를 소망하면서 한경 긱스 Geeks 가 상반기 60개 아기유니콘을 소개합니다.올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐다.2020년 40개사 2021년 60개사가 선정된 바 있다.중기부는 올 하반기에 40개사를 추가로 선정할 계획이다.아기유니콘이 뭔데 중기부의 아기유니콘200 은 기업가치 1000억원 미만의 유망 스타트업 200개사를 발굴해 예비 유니콘 기업가치 1000억원 이상 1조원 미만 비상장사 으로 키우는 사업이다.20억 100억원 사이의 투자 실적이 있는 회사 중 업력 7년 이내 스타트업이 자격 요건이다.아기유니콘에 선정된 회사는 보조금 형태로 최대 3억원을 지원받는다.또 기술보증기금과 연계해 최대 50억원의 특별보증 중소벤처기업진흥공단과 연계해 최대 100억원의 정책자금을 지원한다.중소기업기술정보진흥원과 함께 중소기업 기술혁신개발 R D 사업으로 최대 20억원도 지원한다.그밖에 국내외 홍보를 도와주고 후속 투자 유치를 위한 투자자를 매칭해주는 한편 규제 샌드박스를 지원하는 등 다방면의 지원사격이 제공된다.올 상반기 선정된 60개사의 평균 업력은 5.1년으로 나타났다.5년 이상 7년 미만이 29개사 48.3% 로 가장 많았다.3년 이상 5년 미만 19개사 31.7% 3년 미만 12개사 20% 순이었다.이들의 평균 매출은 약 46억원인데 60%가 매출 25억원 미만이다.평균 직원 수는 36명 투자유치 금액은 약 38억원이다.업종별로는 정보통신기술 ICT 과 데이터·네트워크·인공지능 AI 기반 플랫폼 분야 스타트업이 27개사 45% 로 가장 많

In [262]:
len(ss[-2])

1096

In [263]:
ss[-1]

'최근엔 사업자들을 대상으로 한 더낸세금 이라는 경정청구 플랫폼을 내놨다.그밖에 연예 매니지먼트 사업을 하는 리짐인터내셔널 도 명단에 이름을 올렸다.'

In [264]:
ss[-2]

'NFC 근거리 무선통신 기술을 활용해 터치 결제 솔루션을 내놓은 올링크 도 아기 유니콘으로 뽑혔다.NFC 태그를 통해 휴대전화에 보관된 정보를 다른 단말기로 전달하는 솔루션을 개발하는 회사다.세븐일레븐 이디아 CU 등에서 사용된다.중동의 오만에 진출해 주목받은 바 있다.핀테크 스타트업 웨이브릿지 는 퀀트 알고리즘을 기반으로 디지털 자산 투자 상품을 내놓은 회사다.전통 금융과 디지털 자산을 연결한다는 포부다.태블릿으로 식당 메뉴판을 만든 티오더 는 자영업자를 중심으로 각광받은 회사다.고객들이 자리에 앉아서 태블릿을 통해 메뉴를 주문하는 시스템을 고안했다.키오스크와는 달리 줄을 설 필요가 없다는 장점을 가졌다.또 종이 메뉴판을 줄여 친환경적이라는 설명이다.유아용 건강 음료 파파주스 를 만드는 프레쉬벨 은 독특한 사업 아이템으로 주목받았다.도라지나 수세미와 같은 천연 재료들을 쓰면서도 아이가 맛있게 먹을 수 있도록 했다.알토스벤처스의 러브콜을 받은 프리윌린 은 수학교육 스타트업이다.수학 학원에 문제은행 서비스인 매쓰플랫 을 제공한다.50만 개 이상의 문제가 등록돼 있는데 교과서 뿐만 아니라 시중 문제집과도 연동돼 있다.수학 학원이나 강사들을 대상으로 월 정기 구독결제 모델을 도입했다.학생 수 30명까지는 20만원 안팎의 금액을 받고 31명부터는 맞춤요금을 받는 식이다.헥슬란트 는 블록체인 기술을 가진 스타트업이다.웹3.0 지갑 구축을 도와주는 인프라 서비스인 옥텟 이 주요 서비스다.웹3.0 사업을 구상하는 회사들에게 블록체인과 관련된 고도의 지식이없더라도 간편하게 지갑 시스템과 입출금 보안 인프라를 구축할 수 있게 해준다는 설명이다.또 바리스타 로봇 아이스크림 로봇과 같은 F B에 특화된 로봇 자동화 서비스를 내놓은 로봇 스타트업 라운지랩 도 주목할 만하다는 평가다.그밖에 엠아이티 는 스마트팩토리 구축용 로봇 및 검사장비 소프트웨어를 개발하고 있다.혜움랩스 는 텍스테크 세금 기술 스타트업이다.소상공인과 중소기업들에 세무 컨설팅을 제공한다.전화나 실시간 채팅을 통해

In [268]:
sentence

'새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이. 출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠. 자율성이 없어요. 기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다. 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다. 우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다. 게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다. ◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다. 최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다. 이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다. 올해 정부 부처가 대학과 출연연·기업 

In [270]:
results = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams, verify=True)

새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이.출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠.자율성이 없어요.기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다.글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다.우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다.게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다.◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다.최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다.이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다.올해 정부 부처가 대학과 출연연·기업 등에 지원하는 R D

In [271]:
results

['정부의 과학기술 R D 예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산증가율도 2% 미만으로 낮은 인플레이션을 감안하면 실제 뒷걸음질 쳤다는 지적을 받는다.  \ufeff    2022년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고   \n   과기정통부 과학기술혁신본부가 기재부에 제출한 내년 과학기술R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다. ',
 'R D 예산 증가율은 2016년부터 2018년까지 1%대에 그치다가 문재인 정부 들어 급증해 2019년 4.4%를 기점으로 2020년 18.0% 2021년 13.1% 2022년 8.8%를 기록하였고 2019년 7월 일본의 반도체·디스플레이 분야 소재·부품·장비 수출규제 2020년 초 코로나19 사태로 관련 R D 예산이 크게 늘었기 때문이다.여기에 연구자가 직접 R D 과제를 기획해 제안하는 ‘연구자 주도 기초연구’ 예산이 문재인 정부에서 1조 2599억 원에서 2조 5000억 원까지 2배나 늘어난 것도 RD 예산 증가 요인으로 꼽힌다.',
 '기초과학계의 한 인사는 “정부의 R D 예산이 전체적으로 그리 늘지 않아 기초과학 분야에서도 어려움이 예상된다”며 “반도체나 원전 등도 중요하지만 기초과학 쪽에도 신경을 더 써달라고 읍소하고 있다”고 털어놓으며 정부가 당장은 글로벌 공급망 관리 현안으로 떠오른 반도체 등에 신경을 많이 쓰는 것을 충분히 이해하지만 중장기적 관점에서 기초과학 예산을 늘리고 효율적 집행이 가능하게 하면 좋겠다는 희망을 피력하며 기초과학 예산에 대한 혁신 움직임도 없다”고 전했다.  ',
 ' 벤처친환경 기술 벤처인 A사는 정부의 R D 과제에 응모해 지난 4월 중순 ‘추천 대상’이라고 통보를 받았으나 5월 중순 ‘한정된 예산으로 인해 기회를 드리지 못한다’는 통보를 다시 받았으나 다시 받은 ‘추천대상’ 이라는 통보를 받음에도 불구하고  A사는  ‘6월 1일 계약하겠다’는 연락을 받았으나  ‘ 6월30일까