In [1]:
import torch
import os
import openai

from transformers import AutoTokenizer, AutoModelForCausalLM, AutoModelForSeq2SeqLM
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration

import pandas as pd

from rouge_score import rouge_scorer
from tqdm import tqdm

In [2]:
import nltk
from nltk.tokenize import sent_tokenize
import math

In [3]:
def get_encode_length(tokenizer, sentence) :
    encoded = tokenizer(sentence, padding=True, truncation=False)

    return len(encoded.input_ids)

In [4]:
def get_encode_data(tokenizer, sentence):
    encoded_inputs = tokenizer(sentence, padding=True, truncation=False)
    input_ids = torch.tensor(encoded_inputs['input_ids'])
    attention_masks = torch.tensor(encoded_inputs['attention_mask'])

    return input_ids, attention_masks

In [5]:
def summarize(input_text, tokenizer, model, device, max_tokens=200, min_tokens=100, num_beams=2) :
    input_ids = tokenizer.encode(input_text, return_tensors="pt").to(device)

    # Generate Summary Text Ids
    summary_text_ids = model.generate(
        input_ids=input_ids,
        bos_token_id=model.config.bos_token_id,
        eos_token_id=model.config.eos_token_id,
        length_penalty=2.0,
        max_new_tokens=max_tokens,
        min_new_tokens=min_tokens,
        no_repeat_ngram_size=3,
        num_beams=num_beams,
    )

    response = tokenizer.decode(summary_text_ids[0], skip_special_tokens=True)

    #print(len(input_text), len(response))

    return response

In [6]:
def get_model(model_name, device, tokenizer=None) :

    print(model_name)

    if tokenizer is None :
      tokenizer = AutoTokenizer.from_pretrained(model_name)

    model = AutoModelForSeq2SeqLM.from_pretrained(model_name)


    # parallelization
    if torch.cuda.device_count() > 1:
        print(f'Using {torch.cuda.device_count()} GPUs.')

        model = torch.nn.DataParallel(model)

    return model.to(device), tokenizer

In [7]:
def summarize_openai(sentence) :
  openai.api_key = "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"

  system_message = "You are a friendly assistant. Respond using Korean language."
  prompt = "다음 문장을 200자로 짧게 요약해줘. 존대말을 사용하지 말고 ~이다. 로 끝내줘."

  messages = [
    {"role": "system", "content": system_message},
    {"role": "user", "content": prompt + sentence}
  ]

  response = openai.chat.completions.create(
            model="gpt-4", #3.5-turbo",
            messages=messages,
            temperature=0.0,  # 창의성을 조절하는 옵션
            #max_tokens=max_tokens,  # 답변의 최대 토큰 수 설정
           )

  return response.choices[0].message.content

In [8]:
def run_summarize(sentence, models, max_tokens=200, min_tokens=100, num_beams=2) :
    responses = []

    for model in models :
        print('==== ', model[2], ' ===')
        response = summarize(sentence, model[1], model[0], device, max_tokens, min_tokens, num_beams)
        print(response, '\n')

        responses.append(response)

    return responses

In [9]:
def evaluate_summary(reference, candidate) :
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
    scores = scorer.score(reference, candidate)

    return scores

In [10]:
def summarize(input_text, tokenizer, model, device, max_tokens=200, min_tokens=100, num_beams=2) :
    input_ids = tokenizer.encode(input_text, return_tensors="pt").to(device)

    # Generate Summary Text Ids
    summary_text_ids = model.generate(
        input_ids=input_ids,
        bos_token_id=model.config.bos_token_id,
        eos_token_id=model.config.eos_token_id,
        length_penalty=2.0,
        max_new_tokens=max_tokens,
        min_new_tokens=min_tokens,
        no_repeat_ngram_size=3,
        num_beams=num_beams,
        top_p=0.95, # 누적 확률이 top_p %인 후보집합에서만 생성
        top_k=50, # 확률 순위 top_k 밖의 sample은 제외
        do_sample=False #True
    )

    response = tokenizer.decode(summary_text_ids[0], skip_special_tokens=True)

    #print(len(input_text), len(response))

    return response

In [11]:
def seperate_sentence(sentence, chunk) :
    ss = sent_tokenize(sentence)
    
    sentences = []
    merged = ""

    for s in ss :
        if len(merged) + len(s) <= chunk :
            merged = merged + s
        else :
            sentences.append(merged)
            merged = ""
        
    if len(merged) > 256 :
        sentences.append(merged)
    elif len(merged) > 0 :
        sentences[-1] = sentences[-1] + merged
        
    return sentences

In [12]:
def summarize_long_sentence(sentence, chunk, tokenizer, model, device, max_tokens, min_tokens, num_beams, verify=False) :
    
    ss = seperate_sentence(sentence, chunk)
    summaries = []
    
    for s in ss :
        if verify == True :
            print(s)
        
        summary = summarize(s, tokenizer, model.module, device, max_tokens, min_tokens, num_beams)
        summaries.append(summary)

    return summaries

In [26]:
def summarize_long_sentence_openai(sentence, chunk) :
    
    ss = seperate_sentence(sentence, chunk)
    summaries = []
    
    for s in ss :
        if verify == True :
            print(s)
        
        summary = summarize_openai(s)
        summaries.append(summary)

    return summaries

In [13]:
openai.api_key = "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"
os.environ['CURL_CA_BUNDLE'] = '/home/osung/Downloads/kisti_cert.crt'

In [18]:
df = pd.read_csv('/home/osung/work/summary.0516/data/Naver_news_sum_train_selected.csv')

In [19]:
if torch.cuda.is_available():
    device = torch.device("cuda")
    print('available device: ', device)
else:
    device = torch.device("cpu")
    print('available device: ', device)

available device:  cuda


In [20]:
max_tokens = 200
min_tokens = 100
num_beams = 2

In [21]:
df

Unnamed: 0,date,category,press,title,document,link,summary,length
0,2022-07-07 18:41:01,IT과학,한국경제,우리가 미래의 스타 상반기 아기유니콘 60곳 살펴보니 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 편집자...,https://n.news.naver.com/mnews/article/015/000...,올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐고 업...,8656
1,2022-07-05 08:23:01,economy,한국경제,성공한 VC의 투자 비법 종과 횡의 법칙을 적용하라 긱스,김기준 카카오벤처스 부사장 기고 이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱...,https://n.news.naver.com/mnews/article/015/000...,카경 긱스 Geeks 기고에서는 카카오벤처스를 국내 대표 VC로 이끈 김기준 부사장...,7056
2,2022-07-10 09:35:01,IT과학,서울경제,방귀로 수소 에너지 만든다…그 현장 가봤습니다지구용,음식물쓰레기·축분에서 바이오메탄으로 그리고 그린 수소로 수소차 연료로 충전·외부 판...,https://n.news.naver.com/mnews/article/011/000...,K물쓰레기 처리 과정에서 나오는 메탄 등이 포함된 바이오가스는 탄소배출이 없는 재생...,5803
3,2022-07-01 08:58:01,IT과학,한국경제,톱스타 맞먹는 몸값…1년에 10억 버는 모델 출생의 비밀 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 드라마...,https://n.news.naver.com/mnews/article/015/000...,인상인간 로지 인공지능 AI 스타트업에 다니는 20대 직장인 A씨는 ‘부캐 부캐릭터...,5464
4,2022-07-04 14:28:01,IT과학,한국경제,나 혼자 밤새운다고 회사 잘되진 않는다 여기어때 대표의 경영법 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 지난해...,https://n.news.naver.com/mnews/article/015/000...,지난해 5월 여행· 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자 ...,5299
...,...,...,...,...,...,...,...,...
2259,2022-07-04 14:37:02,economy,한국경제,수협은행 최고 연 3.13.2% 이자주는 예적금 출시,신용카드 이벤트 결합시 최고 연 6.2% 금리 제공 Sh수협은행은 Sh플러스알파예금...,https://n.news.naver.com/mnews/article/015/000...,Sh수협은행은 Sh플러스알파예금 과 Sh플러스알파적금 상품을 출시한다고 4일 밝혔으...,504
2260,2022-07-05 16:03:01,economy,매일경제,한국동서발전 울산 이주 아프간 특별기여자 29가구에 서큘레이터 2대씩 전달,왼쪽부터 김영문 사장과 이정숙 울산동구건강다문화가족지원센터장 김종훈 울산동구청장이 ...,https://n.news.naver.com/mnews/article/009/000...,한국동서발전은 울산 동구지역에 정착한 아프가니스탄 특별기여자 29가구에 서큘레이터를...,504
2261,2022-07-06 16:46:20,economy,한국경제TV,라임사태 신한은행 업무 일부정지 3개월·과태료 57억원 부과,금융위원회가 라임자산운용 사모펀드의 환매 중단 사태와 관련해 펀드를 불완전 판매한 ...,https://n.news.naver.com/mnews/article/215/000...,금융위원회가 6일 정례회의에서 신한은행의 라임펀드 부당권유 등 불완전판매 투자 광고...,503
2262,2022-07-01 14:49:02,economy,서울경제,한국건설산업연구원 이충재 신임 원장 취임식 개최,서울경제 이충재 신임 한국건설산업연구원장이 “산업의 환경변화를 빠르게 연구에 반영하...,https://n.news.naver.com/mnews/article/011/000...,이충재 제9대 건산연 원장이 1일 서울 강남구 건설회관에서 취임식을 갖고산업의 환경...,501


In [22]:
model_names = ['psyche/KoT5-summarization', 'KETI-AIR-Downstream/long-ke-t5-base-summarization', 'gogamza/kobart-summarization']

In [27]:
for model_name in model_names :
    model, tokenizer = get_model(model_name, device)

    summaries = []
    for sentence in tqdm(df.document) :
        summary = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams)
        merged = "".join(summary)
        summaries.append(merged)
        
    df[model_name] = summaries

psyche/KoT5-summarization
Using 2 GPUs.


100%|█████████████████████████████████████| 2264/2264 [1:23:48<00:00,  2.22s/it]


KETI-AIR-Downstream/long-ke-t5-base-summarization
Using 2 GPUs.


100%|█████████████████████████████████████| 2264/2264 [1:32:59<00:00,  2.46s/it]


gogamza/kobart-summarization


You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


Using 2 GPUs.


100%|███████████████████████████████████████| 2264/2264 [39:35<00:00,  1.05s/it]


In [28]:
df

Unnamed: 0,date,category,press,title,document,link,summary,length,psyche/KoT5-summarization,KETI-AIR-Downstream/long-ke-t5-base-summarization,gogamza/kobart-summarization
0,2022-07-07 18:41:01,IT과학,한국경제,우리가 미래의 스타 상반기 아기유니콘 60곳 살펴보니 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 편집자...,https://n.news.naver.com/mnews/article/015/000...,올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐고 업...,8656,중기부의 아기유니콘200 은 기업가치 1000억원 미만의 유망 스타트업 200개사를...,정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있으며 예비...,올해 상반기 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개...
1,2022-07-05 08:23:01,economy,한국경제,성공한 VC의 투자 비법 종과 횡의 법칙을 적용하라 긱스,김기준 카카오벤처스 부사장 기고 이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱...,https://n.news.naver.com/mnews/article/015/000...,카경 긱스 Geeks 기고에서는 카카오벤처스를 국내 대표 VC로 이끈 김기준 부사장...,7056,카카오의 투자 전문 계열사인 카카오벤처스를 국내 대표 VC로 이끈 김기준 부사장이 ...,카카오벤처스를 국내 대표 VC로 이끈 김 부사장은 기술 스타트업에 투자할 때 무엇을...,카카오벤처의 투자 전문 계열사인 카카오벤처스를 국내 대표 VC로 이끈 김기준 부사장...
2,2022-07-10 09:35:01,IT과학,서울경제,방귀로 수소 에너지 만든다…그 현장 가봤습니다지구용,음식물쓰레기·축분에서 바이오메탄으로 그리고 그린 수소로 수소차 연료로 충전·외부 판...,https://n.news.naver.com/mnews/article/011/000...,K물쓰레기 처리 과정에서 나오는 메탄 등이 포함된 바이오가스는 탄소배출이 없는 재생...,5803,음쓰처리장과 바이오수소 생산 판매 충전까지 한꺼번에 다 되는 충주바이오그린수소충전소...,산업통상자원부는 충주시 고등기술연구원 기업들이 손잡고 지은 충주바이오그린수소충전소를...,수소현존하는 가장 깨끗한 에너지인 바이오수소에 정답은 수소.현존하고 가장 깨끗한 에...
3,2022-07-01 08:58:01,IT과학,한국경제,톱스타 맞먹는 몸값…1년에 10억 버는 모델 출생의 비밀 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 드라마...,https://n.news.naver.com/mnews/article/015/000...,인상인간 로지 인공지능 AI 스타트업에 다니는 20대 직장인 A씨는 ‘부캐 부캐릭터...,5464,인공지능 AI 스타트업에 다니는 20대 직장인 A씨는 부캐 부캐릭터 컨셉 매니저 로...,AI 인간의 활약상과 제작 방식을 한경 스 가 알아봤는데 AI 스타트업에 다니는 2...,AI 인간의 활약상과 제작 방식을 한경 긱스 Geeks 가 알아봤다. 가상인간...
4,2022-07-04 14:28:01,IT과학,한국경제,나 혼자 밤새운다고 회사 잘되진 않는다 여기어때 대표의 경영법 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 지난해...,https://n.news.naver.com/mnews/article/015/000...,지난해 5월 여행· 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자 ...,5299,지난해 5월 여행 · 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자...,지난해 5월 여행 · 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자...,한경 긱스 Geeks 가 정명훈 여기어때 대표를 만나 지난 1년간의 소회를 물으며 ...
...,...,...,...,...,...,...,...,...,...,...,...
2259,2022-07-04 14:37:02,economy,한국경제,수협은행 최고 연 3.13.2% 이자주는 예적금 출시,신용카드 이벤트 결합시 최고 연 6.2% 금리 제공 Sh수협은행은 Sh플러스알파예금...,https://n.news.naver.com/mnews/article/015/000...,Sh수협은행은 Sh플러스알파예금 과 Sh플러스알파적금 상품을 출시한다고 4일 밝혔으...,504,Sh수협은행은 Sh플러스알파예금과 Sh플러스 알파적금 상품을 출시한다고 4일 밝혔으...,4일 수협은행은 1인당 최대 5억원 한도의 12개월 만기 상품인 Sh플러스알파예금과...,Sh수협은행은 Sh플러알파예금 과 Sh플러스알파적금 상품을 출시한다고 4일 밝혔으며...
2260,2022-07-05 16:03:01,economy,매일경제,한국동서발전 울산 이주 아프간 특별기여자 29가구에 서큘레이터 2대씩 전달,왼쪽부터 김영문 사장과 이정숙 울산동구건강다문화가족지원센터장 김종훈 울산동구청장이 ...,https://n.news.naver.com/mnews/article/009/000...,한국동서발전은 울산 동구지역에 정착한 아프가니스탄 특별기여자 29가구에 서큘레이터를...,504,한국동서발전은 5일 오전 11시 울산 동구청장실에서 아프가니스탄 특별기여자 29가구...,한국동서발전은 5일 오전 11시 울산 동구청장실에서 아프가니스탄 특별기여자 29가구...,한국동동발전 한국동서발전이 5일 오전 11시 울산 동구청장실에서 사랑으로 전하는 무...
2261,2022-07-06 16:46:20,economy,한국경제TV,라임사태 신한은행 업무 일부정지 3개월·과태료 57억원 부과,금융위원회가 라임자산운용 사모펀드의 환매 중단 사태와 관련해 펀드를 불완전 판매한 ...,https://n.news.naver.com/mnews/article/215/000...,금융위원회가 6일 정례회의에서 신한은행의 라임펀드 부당권유 등 불완전판매 투자 광고...,503,금융위원회는 6일 정례회의에서 신한은행의 라임펀드 부당권유 등 불완전판매 투자 광고...,금융위는 정례회의에서 라임자산운용 사모펀드의 환매 중단 사태와 관련해 펀드를 불완전...,6일 정례금융금융위원회는 6일 정례회의에서 신한은행의 라임펀드 부당권유 등 불완전판...
2262,2022-07-01 14:49:02,economy,서울경제,한국건설산업연구원 이충재 신임 원장 취임식 개최,서울경제 이충재 신임 한국건설산업연구원장이 “산업의 환경변화를 빠르게 연구에 반영하...,https://n.news.naver.com/mnews/article/011/000...,이충재 제9대 건산연 원장이 1일 서울 강남구 건설회관에서 취임식을 갖고산업의 환경...,501,이충재 제9대 건산연 원장이 1일 오전 서울 강남구 건설회관에서 취임식을 갖고 산업...,이충재 신임 한국건설산업연구원장이 1일 오전 서울 강남구 건설회관에서 취임식을 갖고...,이충재 신임 한국건설산업연구원장이 1일 오전 서울 강남구 건설회관에서 취임식을 갖고...


In [29]:
df.to_csv('/home/osung/work/summary.0516/data/Naver_news_sum_train_selected_summaries.csv', index=False)

In [25]:
df.document[0]

'이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 편집자주 지난해 말을 기준으로 국내 유니콘 기업은 18개사입니다. 국내에 3만 개 넘는 스타트업이 있는 점을 고려하면 바늘구멍도 이런 바늘구멍이 없습니다. 정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있습니다. 아기유니콘이 점점 자라 예비유니콘이 되고 예비유니콘이 자라 유니콘이 되기를 소망하면서 한경 긱스 Geeks 가 상반기 60개 아기유니콘을 소개합니다. 올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐다. 2020년 40개사 2021년 60개사가 선정된 바 있다. 중기부는 올 하반기에 40개사를 추가로 선정할 계획이다. 아기유니콘이 뭔데 중기부의 아기유니콘200 은 기업가치 1000억원 미만의 유망 스타트업 200개사를 발굴해 예비 유니콘 기업가치 1000억원 이상 1조원 미만 비상장사 으로 키우는 사업이다. 20억 100억원 사이의 투자 실적이 있는 회사 중 업력 7년 이내 스타트업이 자격 요건이다. 아기유니콘에 선정된 회사는 보조금 형태로 최대 3억원을 지원받는다. 또 기술보증기금과 연계해 최대 50억원의 특별보증 중소벤처기업진흥공단과 연계해 최대 100억원의 정책자금을 지원한다. 중소기업기술정보진흥원과 함께 중소기업 기술혁신개발 R D 사업으로 최대 20억원도 지원한다. 그밖에 국내외 홍보를 도와주고 후속 투자 유치를 위한 투자자를 매칭해주는 한편 규제 샌드박스를 지원하는 등 다방면의 지원사격이 제공된다. 올 상반기 선정된 60개사의 평균 업력은 5.1년으로 나타났다. 5년 이상 7년 미만이 29개사 48.3% 로 가장 많았다. 3년 이상 5년 미만 19개사 31.7% 3년 미만 12개사 20% 순이었다. 이들의 평균 매출은 약 46억원인데 60%가 매출 25억원 미만이다. 평균 직원 수는 36명 투자유치 금액은 약 38억원이다. 업종별로는 정보통신기술 ICT 과 데이터·네트워크·인공지능 AI 기반 플랫폼 분야 스타트

In [191]:
df2_final

Unnamed: 0,date,category,press,title,document,link,summary,length,psyche/KoT5-summarization,KETI-AIR-Downstream/long-ke-t5-base-summarization
0,2022-07-07 18:41:01,IT과학,한국경제,우리가 미래의 스타 상반기 아기유니콘 60곳 살펴보니 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 편집자...,https://n.news.naver.com/mnews/article/015/000...,올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐고 업...,8656,올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐다. ...,"정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있는데, 올..."
1,2022-07-05 08:23:01,economy,한국경제,성공한 VC의 투자 비법 종과 횡의 법칙을 적용하라 긱스,김기준 카카오벤처스 부사장 기고 이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱...,https://n.news.naver.com/mnews/article/015/000...,카경 긱스 Geeks 기고에서는 카카오벤처스를 국내 대표 VC로 이끈 김기준 부사장...,7056,카카오의 투자 전문 계열사인 카카오벤처스를 국내 대표 VC로 이끈 김기준 부사장이 ...,벤처캐피털 VC은 급변하는 시장에서 성공한 VC의 변하지 않은 투자 원칙으로 누구나...
2,2022-07-10 09:35:01,IT과학,서울경제,방귀로 수소 에너지 만든다…그 현장 가봤습니다지구용,음식물쓰레기·축분에서 바이오메탄으로 그리고 그린 수소로 수소차 연료로 충전·외부 판...,https://n.news.naver.com/mnews/article/011/000...,K물쓰레기 처리 과정에서 나오는 메탄 등이 포함된 바이오가스는 탄소배출이 없는 재생...,5803,음쓰처리장과 바이오수소 생산 판매 충전까지 한꺼번에 다 되는 충주바이오그린수소충전소...,충주시 고등기술연구원 기업들이 손잡고 지은 충주바이오그린수소충전소는 KTX 충주역에...
3,2022-07-01 08:58:01,IT과학,한국경제,톱스타 맞먹는 몸값…1년에 10억 버는 모델 출생의 비밀 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 드라마...,https://n.news.naver.com/mnews/article/015/000...,인상인간 로지 인공지능 AI 스타트업에 다니는 20대 직장인 A씨는 ‘부캐 부캐릭터...,5464,요즘 CF나 드라마 SNS 등을 달구고 있는 신 인류 AI휴먼 에 대한 내용입니다....,"AI 인간의 활약상과 제작 방식을 한경 스 에 실린 기사를 보면, 멀쩡한 배우나 모..."
4,2022-07-04 14:28:01,IT과학,한국경제,나 혼자 밤새운다고 회사 잘되진 않는다 여기어때 대표의 경영법 긱스,이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 지난해...,https://n.news.naver.com/mnews/article/015/000...,지난해 5월 여행· 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자 ...,5299,지난해 5월 여행 · 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자...,지난해 5월 여행 · 여가 플랫폼인 여기어때 가 수장을 새롭게 선임하겠다고 발표하자...
...,...,...,...,...,...,...,...,...,...,...
2259,2022-07-04 14:37:02,economy,한국경제,수협은행 최고 연 3.13.2% 이자주는 예적금 출시,신용카드 이벤트 결합시 최고 연 6.2% 금리 제공 Sh수협은행은 Sh플러스알파예금...,https://n.news.naver.com/mnews/article/015/000...,Sh수협은행은 Sh플러스알파예금 과 Sh플러스알파적금 상품을 출시한다고 4일 밝혔으...,504,4일 Sh수협은행은 수협은행의 첫 정기예금 고객 또는 펀드 신규·자동이체 실적 등을...,Sh수협은행은 4일 1인당 최대 5억원 한도의 12개월 만기 상품인 Sh플러스알파예...
2260,2022-07-05 16:03:01,economy,매일경제,한국동서발전 울산 이주 아프간 특별기여자 29가구에 서큘레이터 2대씩 전달,왼쪽부터 김영문 사장과 이정숙 울산동구건강다문화가족지원센터장 김종훈 울산동구청장이 ...,https://n.news.naver.com/mnews/article/009/000...,한국동서발전은 울산 동구지역에 정착한 아프가니스탄 특별기여자 29가구에 서큘레이터를...,504,한국동서발전은 5일 오전 11시 울산 동구청장실에서 아프가니스탄 특별기여자 29가구...,한국동서발전은 5일 오전 11시 울산 동구청장실에서 아프가니스탄 특별기여자 29가구...
2261,2022-07-06 16:46:20,economy,한국경제TV,라임사태 신한은행 업무 일부정지 3개월·과태료 57억원 부과,금융위원회가 라임자산운용 사모펀드의 환매 중단 사태와 관련해 펀드를 불완전 판매한 ...,https://n.news.naver.com/mnews/article/215/000...,금융위원회가 6일 정례회의에서 신한은행의 라임펀드 부당권유 등 불완전판매 투자 광고...,503,금융위원회는 6일 정례회의에서 신한은행의 라임펀드 부당권유 등 불완전판매 투자 광고...,금융위는 6일 정례회의에서 라임자산운용 사모펀드의 환매 중단 사태와 관련해 펀드를 ...
2262,2022-07-01 14:49:02,economy,서울경제,한국건설산업연구원 이충재 신임 원장 취임식 개최,서울경제 이충재 신임 한국건설산업연구원장이 “산업의 환경변화를 빠르게 연구에 반영하...,https://n.news.naver.com/mnews/article/011/000...,이충재 제9대 건산연 원장이 1일 서울 강남구 건설회관에서 취임식을 갖고산업의 환경...,501,이충재 신임 한국건설산업연구원장은 1일 오전 서울 강남구 건설회관에서 취임식을 갖고...,서울경제 이충재 신임 한국건설산업연구원장이 1일 오전 서울 강남구 건설회관에서 취임...


In [223]:
df2_final.to_csv('/home/osung/work/summary.0516/data/Naver_news_sum_train_summary_final.csv', index=False)

In [216]:
len(df2_final.document)

2264

In [222]:
df2_final.document[10]

'새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이. 출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠. 자율성이 없어요. 기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다. 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다. 우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다. 게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다. ◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다. 최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다. 이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다. 올해 정부 부처가 대학과 출연연·기업 

In [224]:
df2_final['psyche/KoT5-summarization'][10]

'대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다. 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다. 우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다. 주요 R D로 전체 R D 예산의 약 80%를 차지하는 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다.2019년 7월 일본의 반도체·디스플레이 분야 소재·부품·장비 수출규제 2020년 초 코로나19 사태로 관련 R D 예산이 크게 늘었기 때문이다. 여기에 연구자가 직접 R D 과제를 기획해 제안하는 연구자 주도 기초연구 예산이 문재인 정부에서 1조 2599억 원에서 2조 5000억 원까지 2배나 늘어난 것도 R D 예산 증가 요인으로 꼽힌다. 하지만 내년에는 R D 예산은 2018년 이후 5년 만에 다시 1%대로 급감하게 됐다. 정부출연연구기관은 필요한 R D 예산을 제대로 확보하지 못하거나 정부의 간섭과 규제가 심해 아우성이다. 특히 추경호 부총리 겸 기재부 장관이 최근 공공기관 혁신은 더 이상 미룰 수 없는 과제라고 강조하면서 내년 출연연 예산 증가율이 겨우 2% 선에 그치고 인력 충원에도 제동이 걸렸다.연구 현장에서는 윤석열 정부가 반도체와 원전만을 강조하는 바람에 다른 분야의 R D 과제를 제안할 때 반도체를 끼워넣어야 과제를 수주할 수 있다는 자조 섞인 얘기까지 나오고 있다. 현재 25개 과학기술 출연연의 경우 PBS 비중이 평균적으로 절반 정도에 달해 고유의 국가 임무형 연구에 충실하기 힘들다는 지적이 나온다. 대학의 경우에도 지방교육재정교부금으로 초중고교에만 교육예산이 몰릴 뿐 대학 예산 지원이 부족한 데 대해 한목소리로 불만을 제기하고 있다. 85조 원가량의 교육예산 중 70%가량이 초중고교에 이중고교에만 을 집중해야 한다며 주 52시간제나

In [226]:
df2_final['KETI-AIR-Downstream/long-ke-t5-base-summarization'][10]

'정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있는데, 최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 예산은 올해보다 불과 1.7% 늘었으며, 이 예산은 과학기술자문회의가 심의하는 주요 RD로 전체 예산의 약 80%를 차지하는 것으로 나타났다.과학기술 R D 예산 증가율이 문재인 정부 들어 급증해 2019년 4.4%를 기점으로 2020년 18.0% 2021년 13.1% 2022년 8.8%를 기록하며 4년 전에 비해 절반가량 늘어났다.. 정부출연연구기관은 필요한 예산을 제대로 확보하지 못하거나 정부의 간섭과 규제가 심해 아우성이다. 추경호 부총리 겸 기재부 장관이 최근 “공공기관 혁신은 더 이상 미룰 수 없는 과제”라고 강조하면서 내년 출연연 예산증가율이 겨우 2% 선에 그치고 인력 충원에도 제동이 걸렸다.출연연은 국가전략기술의 최전선에서 역할을 해야 한다며 예산을 받아도 자체적으로 투자 우선순위도 정할 수 없다고 호소했지만 공공기관 관리를 맡고 있는 기재부에 어필하고 있으나 여의치 않다는 것이다.. . 또 다른 출연연 원장은 경직된 규제가 발목을 잡고 있다고 했다.. 다. 또 기초과학계의 한 인사는 기초과학 쪽에도 신경을 써달라고 읍소하고 있다고 털어놓았다. 이는 R D 포퓰리즘에 편승하지 않고서는 제대로 연구비를 수주하기 힘들다는 위기의식이 깔려 있다.윤 대통령은 5월 10일 취임식에서 "자유를 강조한 뒤 양극화 등을 해결하기 위해 \'빠른 성장\'이 필요하다"고 밝혔으며, 중소·벤처기업들도 볼멘소리를 하고 있다.. 중소기업들은 R D 과제에 적극 응모하고 있는데 추천 대상이 된 RD 과제마저 집행이 보류돼 답답하다고 하소연했다. 윤대통령은 \'과학기술 선도 국가\' 비전을 제시하며 과학기술 중시 국정 운영을 약속하였고, \'디지털 플랫폼 정부\', 민관 과학기술위원회 신설, 미래 선도 연구 10년 이상 지원, 청년 과학인 도전과 기회의 장 마련 등을 약속했다한국의

새 정부의 과학기술 R&D 예산 증가율이 내년에 1.7%로 급감하며, 연구 현장에서는 실망감이 커지고 있다. 출연연과 대학 등의 연구 현장 규제와 간섭 타파 노력이 부족하며, 예산 지원이 부족한 대학의 연구개발 R&D에 대한 우려가 커지고 있다. 새 정부의 과학기술 육성 비전과 전략, 로드맵이 뚜렷이 보이지 않아, 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 어려울 것으로 보인다. 이에 따라, 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 소외될 우려가 있다.2018년 19조 7000억 원이던 과학기술 R&D 예산이 2022년까지 절반 가량 증가했다. 이는 문재인 정부 들어서부터 예산 증가율이 급증하며, 일본의 반도체·디스플레이 분야 수출규제와 코로나19 사태로 R&D 예산이 크게 늘어난 결과이다. 또한, '연구자 주도 기초연구' 예산이 2배 늘어난 것도 증가 요인으로 꼽힌다. 그러나 2023년에는 예산 증가율이 1%대로 급감하게 되었다. 지역 R&D 지원 예산은 감소했지만, 10대 국가전략기술 분야의 R&D 예산과 과학기술 인재 양성 예산은 증가했다. 이에 따라 각 부처에 지출 구조 조정을 유도해 절감한 예산을 주요 정책 분야와 신규 사업에 재투자했다.출연연은 인력과 예산 증액이 필요하며, 자체적으로 투자 우선순위를 정할 수 없다. 경직된 규제와 연구과제수주시스템 PBS에 대한 혁신 움직임이 없다. 기초과학 분야도 예산 증가가 필요하며, 반도체 등에 신경을 쓰는 것은 이해하지만, 중장기적으로 기초과학 예산을 늘리고 효율적 집행을 바란다. 연구 현장에서는 반도체와 원전만을 강조하는 바람에 다른 분야의 R D 과제를 제안할 때 반도체를 끼워넣어야 과제를 수주할 수 있다는 자조 섞인 얘기가 나온다. 출연연의 경우 PBS 비중이 평균적으로 절반 정도에 달해 고유의 국가 임무형 연구에 충실하기 힘들다는 지적이다. 대학 예산 지원이 부족한 데 대해 불만을 제기하고 있다. 이다.초중고생에게는 1인당 1000만 원이 넘는 지원이 이루어지지만, 대학생은 1인당 50만 원에 그친다. 학령인구 감소에도 불구하고 지방교육재정교부금 제도로 초중고 예산은 계속 증가하고 있으며, 지난 5년간 31조 원이 불용 처리되었다. 대학 등록금은 14년째 동결되어 대학들의 어려움이 가중되고 있다. 중소·벤처기업들은 한정된 예산으로 인해 R&D 과제 집행이 보류되는 상황에 불만을 표현하고 있다. 정부는 내년에 기업 R&D 지원 사업 예산으로 1조 5700억 원을 배정하였지만, 중소·벤처·스타트업이 체감하기까지는 시간이 필요하다. 윤 대통령은 과학기술 중시 국정 운영을 약속하였으나, 이를 실현하는데 우려의 목소리가 나오고 있다.과학, 기술, 혁신이 성장의 핵심이지만, 한국의 잠재성장률은 2030-2060년에 OECD 회원국 중 최저 수준으로 떨어질 수 있다. 인구절벽, 국가채무 증가, 과학기술 컨트롤타워 미비, 바이오·AI·수소 등 국가전략기술 분야 소외, 대학과 출연연에 대한 간섭과 규제, 기업가 정신 부재 등이 문제다. 이를 해결하기 위해선 과학기술 컨트롤타워를 정립하고, 도전적인 연구를 장려하는 생태계를 만들어야 한다는 의견이다.

In [None]:
# gogamza/kobart-summarization 모델이 불안정 하므로 100개 단위로 나눠서 처리


In [193]:
len(summaries)

1169

In [201]:
import numpy as np

In [202]:
np_summaries = np.array(summaries)

In [209]:
np_summaries.shape

(1169,)

In [195]:
import csv

In [215]:
with open('gogamza_summaries.txt', mode='w', encoding='utf-8') as file:
   
    for item in summaries :
        file.write(item + '\n')

In [214]:
summaries[2]

'현존하는 가장 깨끗한 에너지인 바이오수소에요. 정답은 수소. 현존 하는 가장 깨끗한 에너지가 현존 에너지로 가장 깨끗 에너지 지역에서 만들고 지역 내에서 소비··· 그레이 수소 와는 비교불가 수소차 실구매가 3000만원대 서울 부산 편도 한번 충전으로 OK 서울경제 음쓰 음식물쓰레기 덕분에 자동차를 굴릴 수 있다면...믿기세요 음쓰를 집어넣는 것만으로 달리는 자동차는 없을 테니 나름 좋을 것 같긴 한데 냄새 어쩔... 조금 머리를 굴려보자면 음쓰 뭔가로 바꿔야겠는데 정답이 정답인 수소 현존하고 가장 깨끗한 에너지를인 바이오 수소에요.음쓰가 바이오가스로 잘 만들어지려면 음쓰에 이상한 거 섞어 버리면 안 되겠죠 각종 일쓰류는 당연히 안 되고 음쓰로 헷갈리기 쉬운 대표적인 물질은 과일 씨앗류 복숭아 자두 씨 등 치킨 뼈 양파 껍질 파뿌리 커피가루 등등. 전부 일쓰로 버려주세요. end block start blokk ━ 수소라고 다 깨끗한 건 아냐 end locck 그리고 메탄가스를 수소추출기에 집어넣어서 수소를 뽑아내면 수소자동차 수소트럭 수소버스 연료로 쓸 수 있어요.수소를 만든 수소는 수소 전용 운반차인 튜브트레일러 TT 에 담아서 내다 팔기도 하고 이 곳 충전소에서 수소차 충전에 쓰이기도 하고 P.S ‘ 모든 수소 친환경 탄소배출 0 ’ 은 아니에요    어떻게 만드느냐에 따라서 달라요.   아래 내용 일독하시길 추천드려요.  요것만 알면 수소에 대해 아는 척 좀 할 수 있을 듯 start block 바이오 수소 그린 수소그린 수소  ‘그린’ ‘블루’ ‘그레이’로 친환경적인지를 분류하고 그에 따라 친환경적인지 분류. 그린이 친환경 1등 블루가 2등 그레이는 꼴등이에요. 1음식물 가축분뇨 같은 유기성폐기물에서 수소를 만들어내는 게 오늘의 주인공인 ‘바이오수소’. 쓰레기에서 뽑아내는 거고 생산 과정에서 탄소 배출이 없기 때문에 ‘그린수소’로 분류돼 2물을 전기분각 지역마다 자체적으로 바이오수소를 만들면 물류비가 적게 든다는 장점이 있어요.    ‘로컬 수소’ 

In [174]:
df2_sample

Unnamed: 0,date,category,press,title,document,link,summary,length,psyche/KoT5-summarization,gogamza/kobart-summarization,KETI-AIR-Downstream/long-ke-t5-base-summarization
0,2022-07-05 23:01:01,economy,서울경제,노바칩스 10TB 용량 SSD 국제표준 CC인증 획득...NVMe SSD로는 NIA...,국제표준 보안인증으로 미국정부에서도 승인한 보호 프로필 기반으로 인증 획득 국제CC...,https://n.news.naver.com/mnews/article/011/000...,국내바바칩스는 자사 컨트롤러 기반 솔리드 스테이트 드라이브 SSD 가 미국 국가안보...,1312,국내 플래시 컨트롤러 선도 기업 노바칩스 대표 김영관 는 자사 컨트롤러 기반 솔리드...,노바칩스 대표 김영관 는 자사 컨트롤러 기반 솔리드 스테이트 드라이브 SSD가 미국...,노바칩스가 국내기업 최초로 저장매체 SSD가 NIAP PCL에 등재된 것이 알려지며...
1,2022-07-05 08:22:01,economy,서울경제,키움證 LG화학 2분기 영업이익 시장 기대치 상회,키움증권 보고서 LG화학 목표주가 76만 원 올 2분기 영업이익 9000억 원 예상...,https://n.news.naver.com/mnews/article/011/000...,키움증권은 5일 LG화학에 대해 2분기 영업이익이 시장 기대치를 소폭 상회할 전망으...,950,키움증권은 5일 LG화학 051910 에 대해 2분기 영업이익이 시장 기대치를 소폭...,키움증권 보고서에 따르면 LG화학의 올해 2분기 영업이익은 9011억 원으로 시장 ...,LG화학 서울경제 키움증권은 5일 LG화학의 올해 2분기 영업이익은 9011억 원으...
2,2022-07-06 14:30:01,IT과학,매일경제,더벤처스 예비창업팀 15시간만에 시장 검증하세요,더벤처스 온라인 스프린트 출시 수료팀에 IR미팅·네트워킹 기회 더벤처스가 초기 창업...,https://n.news.naver.com/mnews/article/009/000...,더벤처스는 제품 개발에 어려움을 겪는 초기 또는 예비 창업팀이 아이디어 스케치부터 ...,744,더벤처스가 초기 창업자와 팀을 위해 아이디어 스케치부터 프로토타입 시제품 테스트까지...,더벤처스 온라인 스프린트 는 제품 개발에 어려움을 겪는 초기 또는 예비 창업팀이 아...,더벤처스가 초기 창업자와 팀을 위해 제품 개발에 어려움을 겪는 초기 또는 예비 창업...
3,2022-07-06 16:35:02,IT과학,매일경제,JS플레이 실시간 전략전투게임 ‘패스트블리츠’ 내년 출시 목표,6일 제이에스플레이 대표 최성용 는 실시간 전략 전투게임 ‘패스트블리츠’를 내년 출...,https://n.news.naver.com/mnews/article/009/000...,6일 제이에스플레이 대표 최성용은 내년 출시를 목표로 개발 중인 실시간 전략 전투게...,714,6일 제이에스플레이 대표 최성용 는 쿼터뷰 기반 실시간 5대5 PvP 게임인 패스트...,쿼터뷰 기반 실시간 5대5 PvP 게임인 ‘패스트블리츠’는 쿼터 쿼터비 쿼터브 기반...,제이에스플레이는 지난 2020년 쿼터뷰 기반 실시간 전략 전투게임 '패스트블리츠'의...
4,2022-07-04 10:19:01,economy,서울경제,건설공제조합 상반기 공제사업 실적 310억 초과… 역대 최대 실적,지난해 대비 16.3% 증가 서울경제 건설공제조합 이하 조합 이 올 상반기 공제사업...,https://n.news.naver.com/mnews/article/011/000...,서울경제 건설공제조합 이하 조합이 올해 상반기 공제사업 실적이 310억원을 넘겼다고...,665,서울경제 건설공제조합이 올 상반기 공제사업 실적이 310억원을 넘겼다고 4일 밝혔으...,서울경제 건설공제조합 이하 조합은 2012년 4월 보유공제 출범 이후 건설 관련 공...,2012년 4월 보유공제 출범 이후 건설 관련 공제 보험 시장에서 안정적인 성장 기...


In [173]:
df2_sample[model_names[0]]

0    국내 플래시 컨트롤러 선도 기업 노바칩스 대표 김영관 는 자사 컨트롤러 기반 솔리드...
1    키움증권은 5일 LG화학 051910 에 대해 2분기 영업이익이 시장 기대치를 소폭...
2    더벤처스가 초기 창업자와 팀을 위해 아이디어 스케치부터 프로토타입 시제품 테스트까지...
3    6일 제이에스플레이 대표 최성용 는 쿼터뷰 기반 실시간 5대5 PvP 게임인 패스트...
4    서울경제 건설공제조합이 올 상반기 공제사업 실적이 310억원을 넘겼다고 4일 밝혔으...
Name: psyche/KoT5-summarization, dtype: object

In [166]:
df2_sample.iloc[0][model_names[0]]

'국내 플래시 컨트롤러 선도 기업 노바칩스 대표 김영관 는 자사 컨트롤러 기반 솔리드 스테이트 드라이브 SSD 가 미국 국가안보국 NSA National Security Agency 산하 국가정보보증협회 NIAP 으로부터 국제공통평가기준 CC Common Criteria 인증을 획득했다고 밝혔다. 이번 인증은 국내에서만 사용할 수 있는 국내 CC인증과는 달리 한국을 비롯해 일본 싱가포르 말레이시아 미국 영국 등 CCRA 국제공통의료기준 상호인정협정 에 가입한 전세계 31개국에서 통용되는 인증이며 미국연방정부는 해당 인증을 획득한 제품에 대한 별도의 국가정보보증협회의 NIAC 보안인증제품리스트 PCL Product Compliant List 를 만들어서 PCL로 등재된 제품에 한해서만 연방정부프로젝트에 사용할 수 있도록 허용하는 수준 높은 보안인증이다.NIAP CC인증은 노바칩스 발전에 중요한 이정표가 될 것이며 앞으로도 동종업계최고 수준의 용량과 성능을 지원하는 혁신적인 제품을 개발하고 추후 출시될 신제품에도 보안 인증을 획득하여 사이버보안의 중요성이 높아지고 있는 시장 요구에 적극적으로 대응할 것이라고 말했다. 노바 칩스 김영관 대표는 "신뢰받는 고성능 컴퓨팅 구현이 필요한 고객사들을 위해서 앞으로도 계속해서 동종업계의 최고 수준의 용량을 지원하는 혁신적인 제품 개발 및 신제품 보안 인증 획득을 통해 사이버보안 시장의 중요성이 높아지는 시장 요구에 적극 대응할 것"이라고 말했다.'

In [167]:
df2_sample.iloc[1][model_names[0]]

'키움증권은 5일 LG화학 051910 에 대해 2분기 영업이익이 시장 기대치를 소폭 상회할 전망 이라며 투자의견 매수를 유지했고 목표주가는 기존 85만원에서 76만원으로 내려잡았다. 키움증권 보고서에 따르면 LG화학의 올해 2분기 영업익은 9011억 원으로 시장 기대치 8959억 원 를 소폭 웃돌 것으로 예상된다. 한편 LG화학은 2분기 전지소재부문 매출액은 1조1001억 원으로 전분기 대비 63% 이상 증가할 전망이다.'

In [162]:
df2_sample.iloc[1]['document']

'키움증권 보고서 LG화학 목표주가 76만 원 올 2분기 영업이익 9000억 원 예상 전지소재 부문 전분기 대비 63%↑ 양극재 양극재 판가 상승·증설 효과 사진 LG화학 서울경제 키움증권은 5일 LG화학 051910 에 대해 2분기 영업이익이 시장 기대치를 소폭 상회할 전망 이라며 투자의견 매수 를 유지했다. 목표주가는 기존 85만원에서 76만원으로 내려잡았다. 키움증권 보고서에 따르면 LG화학의 올해 2분기 영업이익은 9011억 원으로 시장 기대치 8959억 원 를 소폭 웃돌 것으로 예상된다. 석유화학부문 영업이익은 5315억 원으로 전분기 대비 16.3% 감소할 전망이다. 이동욱 키움증권 연구원은 NCC 나프타크래킹센터 부문이 경제성 악화로 가동률이 축소됐고 부타디엔 가격 급등으로 고무 고부가합성수지 ABS 의 수익성이 감소할 것으로 예상된다 라고 설명했다. 첨단소재부문 영업이익은 2006억 원으로 전분기 대비 30.3% 증가할 전망이다 이 연구원은 특히 전지소재는 하이니켈 제품군 판매 확대 양극재 판가 상승 및 증설 효과로 전분기 대비 큰 폭의 외형 증가 효과가 발생할 것으로 보인다 고 분석했다. 에너지솔루션 영업이익은 2008억원으로 전분기 대비 22.4% 감소할 것으로 예상된다. 이 연구원은 중국 원통형 고객사 생산 차질 등에 기인한다 며 다만 중국 및 유럽 주문자위탁생산 OEM 업체들의 가동률 개선으로 5 6월로 갈수록 실적이 개선된 것으로 추정된다 고 진단했다. 이 연구원은 첨단소재부문 내 전지소재뿐 아니라 유기발광다이오드 OLED ·반도체·엔지니어링 소재도 투자 및 제품 라인업이 확대되고 있다 며 중소형 OLED 블루 레스 호스트 등 양산 제품 라인업을 확장하고 있다 고 덧붙였다. 한편 LG화학의 2분기 전지소재부문 매출액은 1조1001억 원으로 전분기 대비 63% 이상 증가할 전망이다. 양극재 판가 상승과 함께 증설 효과가 2분기에 반영될 것으로 분석된다.'

In [231]:
model, tokenizer = get_model(model_names[1], device)

gogamza/kobart-summarization


You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


Using 2 GPUs.


In [232]:
sentence = df2_final.document[10]

In [233]:
sentence

'새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이. 출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠. 자율성이 없어요. 기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다. 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다. 우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다. 게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다. ◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다. 최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다. 이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다. 올해 정부 부처가 대학과 출연연·기업 

In [237]:
results = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams, verify=True)

0 1024
새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이. 출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠. 자율성이 없어요. 기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다. 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다. 우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다. 게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다. ◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다. 최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다. 이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다. 올해 정부 부처가 대학과 출

새 정부의 과학기술 R&D 예산 증가율이 내년에 1.7%로 급감하며, 연구 현장에서는 실망감이 커지고 있다. 출연연과 대학 등의 연구 현장 규제와 간섭 타파 노력이 부족하며, 예산 지원이 부족한 대학의 연구개발 R&D에 대한 우려가 커지고 있다. 새 정부의 과학기술 육성 비전과 전략, 로드맵이 뚜렷이 보이지 않아, 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 어려울 것으로 보인다. 이에 따라, 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 소외될 우려가 있다.

2018년 19조 7000억 원이던 과학기술 R&D 예산이 2022년까지 절반 가량 증가했다. 이는 문재인 정부 들어서부터 예산 증가율이 급증하며, 일본의 반도체·디스플레이 분야 수출규제와 코로나19 사태로 R&D 예산이 크게 늘어난 결과이다. 또한, '연구자 주도 기초연구' 예산이 2배 늘어난 것도 증가 요인으로 꼽힌다. 그러나 2023년에는 예산 증가율이 1%대로 급감하게 되었다. 지역 R&D 지원 예산은 감소했지만, 10대 국가전략기술 분야의 R&D 예산과 과학기술 인재 양성 예산은 증가했다. 이에 따라 각 부처에 지출 구조 조정을 유도해 절감한 예산을 주요 정책 분야와 신규 사업에 재투자했다.

출연연은 인력과 예산 증액이 필요하며, 자체적으로 투자 우선순위를 정할 수 없다. 경직된 규제와 연구과제수주시스템 PBS에 대한 혁신 움직임이 없다. 기초과학 분야도 예산 증가가 필요하며, 반도체 등에 신경을 쓰는 것은 이해하지만, 중장기적으로 기초과학 예산을 늘리고 효율적 집행을 바란다. 연구 현장에서는 반도체와 원전만을 강조하는 바람에 다른 분야의 R D 과제를 제안할 때 반도체를 끼워넣어야 과제를 수주할 수 있다는 자조 섞인 얘기가 나온다. 출연연의 경우 PBS 비중이 평균적으로 절반 정도에 달해 고유의 국가 임무형 연구에 충실하기 힘들다는 지적이다. 대학 예산 지원이 부족한 데 대해 불만을 제기하고 있다. 

이다.초중고생에게는 1인당 1000만 원이 넘는 지원이 이루어지지만, 대학생은 1인당 50만 원에 그친다. 학령인구 감소에도 불구하고 지방교육재정교부금 제도로 초중고 예산은 계속 증가하고 있으며, 지난 5년간 31조 원이 불용 처리되었다. 대학 등록금은 14년째 동결되어 대학들의 어려움이 가중되고 있다. 중소·벤처기업들은 한정된 예산으로 인해 R&D 과제 집행이 보류되는 상황에 불만을 표현하고 있다. 정부는 내년에 기업 R&D 지원 사업 예산으로 1조 5700억 원을 배정하였지만, 중소·벤처·스타트업이 체감하기까지는 시간이 필요하다. 윤 대통령은 과학기술 중시 국정 운영을 약속하였으나, 이를 실현하는데 우려의 목소리가 나오고 있다.과학, 기술, 혁신이 성장의 핵심이지만, 한국의 잠재성장률은 2030-2060년에 OECD 회원국 중 최저 수준으로 떨어질 수 있다. 인구절벽, 국가채무 증가, 과학기술 컨트롤타워 미비, 바이오·AI·수소 등 국가전략기술 분야 소외, 대학과 출연연에 대한 간섭과 규제, 기업가 정신 부재 등이 문제다. 이를 해결하기 위해선 과학기술 컨트롤타워를 정립하고, 도전적인 연구를 장려하는 생태계를 만들어야 한다는 의견이다.

In [240]:
nltk.download('punkt')

[nltk_data] Error loading punkt: <urlopen error [SSL:
[nltk_data]     CERTIFICATE_VERIFY_FAILED] certificate verify failed:
[nltk_data]     self signed certificate in certificate chain
[nltk_data]     (_ssl.c:1129)>


False

In [241]:
ss = sent_tokenize(sentence)

In [242]:
ss

['새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이.',
 '출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠.',
 '자율성이 없어요.',
 '기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다.',
 '글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다.',
 '우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다.',
 '게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다.',
 '◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다.',
 '최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다.',
 '이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예

In [246]:
sentences = []
merged = ""

chunk = 1024

for s in ss :
    if len(merged) + len(s) <= chunk :
        merged = merged + s
    else :
        sentences.append(merged)
        merged = ""
        
if len(merged) > 0 :
    sentences.append(merged)
    

In [259]:
def seperate_sentence(sentence, chunk) :
    ss = sent_tokenize(sentence)
    
    sentences = []
    merged = ""

    for s in ss :
        if len(merged) + len(s) <= chunk :
            merged = merged + s
        else :
            sentences.append(merged)
            merged = ""
        
    if len(merged) > 256 :
        sentences.append(merged)
    elif len(merged) > 0 :
        sentences[-1] = sentences[-1] + merged
        
    return sentences

In [247]:
sentences

['새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이.출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠.자율성이 없어요.기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다.글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다.우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다.게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다.◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다.최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다.이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다.올해 정부 부처가 대학과 출연연·기업 등에 지원하는 R

In [248]:
len(sentences)

5

In [250]:
for s in sentences :
    print(len(s))

1019
949
996
987
416


In [252]:
df2_final.document[0]

'이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다. 편집자주 지난해 말을 기준으로 국내 유니콘 기업은 18개사입니다. 국내에 3만 개 넘는 스타트업이 있는 점을 고려하면 바늘구멍도 이런 바늘구멍이 없습니다. 정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있습니다. 아기유니콘이 점점 자라 예비유니콘이 되고 예비유니콘이 자라 유니콘이 되기를 소망하면서 한경 긱스 Geeks 가 상반기 60개 아기유니콘을 소개합니다. 올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐다. 2020년 40개사 2021년 60개사가 선정된 바 있다. 중기부는 올 하반기에 40개사를 추가로 선정할 계획이다. 아기유니콘이 뭔데 중기부의 아기유니콘200 은 기업가치 1000억원 미만의 유망 스타트업 200개사를 발굴해 예비 유니콘 기업가치 1000억원 이상 1조원 미만 비상장사 으로 키우는 사업이다. 20억 100억원 사이의 투자 실적이 있는 회사 중 업력 7년 이내 스타트업이 자격 요건이다. 아기유니콘에 선정된 회사는 보조금 형태로 최대 3억원을 지원받는다. 또 기술보증기금과 연계해 최대 50억원의 특별보증 중소벤처기업진흥공단과 연계해 최대 100억원의 정책자금을 지원한다. 중소기업기술정보진흥원과 함께 중소기업 기술혁신개발 R D 사업으로 최대 20억원도 지원한다. 그밖에 국내외 홍보를 도와주고 후속 투자 유치를 위한 투자자를 매칭해주는 한편 규제 샌드박스를 지원하는 등 다방면의 지원사격이 제공된다. 올 상반기 선정된 60개사의 평균 업력은 5.1년으로 나타났다. 5년 이상 7년 미만이 29개사 48.3% 로 가장 많았다. 3년 이상 5년 미만 19개사 31.7% 3년 미만 12개사 20% 순이었다. 이들의 평균 매출은 약 46억원인데 60%가 매출 25억원 미만이다. 평균 직원 수는 36명 투자유치 금액은 약 38억원이다. 업종별로는 정보통신기술 ICT 과 데이터·네트워크·인공지능 AI 기반 플랫폼 분야 스타트

In [253]:
ss = seperate_sentence(df2_final.document[0], 1024)

In [254]:
ss

['이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다.편집자주 지난해 말을 기준으로 국내 유니콘 기업은 18개사입니다.국내에 3만 개 넘는 스타트업이 있는 점을 고려하면 바늘구멍도 이런 바늘구멍이 없습니다.정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있습니다.아기유니콘이 점점 자라 예비유니콘이 되고 예비유니콘이 자라 유니콘이 되기를 소망하면서 한경 긱스 Geeks 가 상반기 60개 아기유니콘을 소개합니다.올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐다.2020년 40개사 2021년 60개사가 선정된 바 있다.중기부는 올 하반기에 40개사를 추가로 선정할 계획이다.아기유니콘이 뭔데 중기부의 아기유니콘200 은 기업가치 1000억원 미만의 유망 스타트업 200개사를 발굴해 예비 유니콘 기업가치 1000억원 이상 1조원 미만 비상장사 으로 키우는 사업이다.20억 100억원 사이의 투자 실적이 있는 회사 중 업력 7년 이내 스타트업이 자격 요건이다.아기유니콘에 선정된 회사는 보조금 형태로 최대 3억원을 지원받는다.또 기술보증기금과 연계해 최대 50억원의 특별보증 중소벤처기업진흥공단과 연계해 최대 100억원의 정책자금을 지원한다.중소기업기술정보진흥원과 함께 중소기업 기술혁신개발 R D 사업으로 최대 20억원도 지원한다.그밖에 국내외 홍보를 도와주고 후속 투자 유치를 위한 투자자를 매칭해주는 한편 규제 샌드박스를 지원하는 등 다방면의 지원사격이 제공된다.올 상반기 선정된 60개사의 평균 업력은 5.1년으로 나타났다.5년 이상 7년 미만이 29개사 48.3% 로 가장 많았다.3년 이상 5년 미만 19개사 31.7% 3년 미만 12개사 20% 순이었다.이들의 평균 매출은 약 46억원인데 60%가 매출 25억원 미만이다.평균 직원 수는 36명 투자유치 금액은 약 38억원이다.업종별로는 정보통신기술 ICT 과 데이터·네트워크·인공지능 AI 기반 플랫폼 분야 스타트업이 27개사 45% 로 가장 많

In [255]:
for s in ss :
    print(len(s))

1001
1021
1000
993
1023
1003
986
1014
82


In [256]:
ss[-1]

'최근엔 사업자들을 대상으로 한 더낸세금 이라는 경정청구 플랫폼을 내놨다.그밖에 연예 매니지먼트 사업을 하는 리짐인터내셔널 도 명단에 이름을 올렸다.'

In [257]:
len(ss)

9

In [258]:
len(ss[-1])

82

In [260]:
ss[-2] = ss[-2] + ss[-1]

In [261]:
ss

['이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스 에 게재된 기사입니다.편집자주 지난해 말을 기준으로 국내 유니콘 기업은 18개사입니다.국내에 3만 개 넘는 스타트업이 있는 점을 고려하면 바늘구멍도 이런 바늘구멍이 없습니다.정부는 스타트업을 유니콘으로 키우기 위해 아기유니콘 육성사업을 시행하고 있습니다.아기유니콘이 점점 자라 예비유니콘이 되고 예비유니콘이 자라 유니콘이 되기를 소망하면서 한경 긱스 Geeks 가 상반기 60개 아기유니콘을 소개합니다.올해 상반기 중소벤처기업부 소관 아기유니콘으로 선정된 60개 스타트업이 공개됐다.2020년 40개사 2021년 60개사가 선정된 바 있다.중기부는 올 하반기에 40개사를 추가로 선정할 계획이다.아기유니콘이 뭔데 중기부의 아기유니콘200 은 기업가치 1000억원 미만의 유망 스타트업 200개사를 발굴해 예비 유니콘 기업가치 1000억원 이상 1조원 미만 비상장사 으로 키우는 사업이다.20억 100억원 사이의 투자 실적이 있는 회사 중 업력 7년 이내 스타트업이 자격 요건이다.아기유니콘에 선정된 회사는 보조금 형태로 최대 3억원을 지원받는다.또 기술보증기금과 연계해 최대 50억원의 특별보증 중소벤처기업진흥공단과 연계해 최대 100억원의 정책자금을 지원한다.중소기업기술정보진흥원과 함께 중소기업 기술혁신개발 R D 사업으로 최대 20억원도 지원한다.그밖에 국내외 홍보를 도와주고 후속 투자 유치를 위한 투자자를 매칭해주는 한편 규제 샌드박스를 지원하는 등 다방면의 지원사격이 제공된다.올 상반기 선정된 60개사의 평균 업력은 5.1년으로 나타났다.5년 이상 7년 미만이 29개사 48.3% 로 가장 많았다.3년 이상 5년 미만 19개사 31.7% 3년 미만 12개사 20% 순이었다.이들의 평균 매출은 약 46억원인데 60%가 매출 25억원 미만이다.평균 직원 수는 36명 투자유치 금액은 약 38억원이다.업종별로는 정보통신기술 ICT 과 데이터·네트워크·인공지능 AI 기반 플랫폼 분야 스타트업이 27개사 45% 로 가장 많

In [262]:
len(ss[-2])

1096

In [263]:
ss[-1]

'최근엔 사업자들을 대상으로 한 더낸세금 이라는 경정청구 플랫폼을 내놨다.그밖에 연예 매니지먼트 사업을 하는 리짐인터내셔널 도 명단에 이름을 올렸다.'

In [264]:
ss[-2]

'NFC 근거리 무선통신 기술을 활용해 터치 결제 솔루션을 내놓은 올링크 도 아기 유니콘으로 뽑혔다.NFC 태그를 통해 휴대전화에 보관된 정보를 다른 단말기로 전달하는 솔루션을 개발하는 회사다.세븐일레븐 이디아 CU 등에서 사용된다.중동의 오만에 진출해 주목받은 바 있다.핀테크 스타트업 웨이브릿지 는 퀀트 알고리즘을 기반으로 디지털 자산 투자 상품을 내놓은 회사다.전통 금융과 디지털 자산을 연결한다는 포부다.태블릿으로 식당 메뉴판을 만든 티오더 는 자영업자를 중심으로 각광받은 회사다.고객들이 자리에 앉아서 태블릿을 통해 메뉴를 주문하는 시스템을 고안했다.키오스크와는 달리 줄을 설 필요가 없다는 장점을 가졌다.또 종이 메뉴판을 줄여 친환경적이라는 설명이다.유아용 건강 음료 파파주스 를 만드는 프레쉬벨 은 독특한 사업 아이템으로 주목받았다.도라지나 수세미와 같은 천연 재료들을 쓰면서도 아이가 맛있게 먹을 수 있도록 했다.알토스벤처스의 러브콜을 받은 프리윌린 은 수학교육 스타트업이다.수학 학원에 문제은행 서비스인 매쓰플랫 을 제공한다.50만 개 이상의 문제가 등록돼 있는데 교과서 뿐만 아니라 시중 문제집과도 연동돼 있다.수학 학원이나 강사들을 대상으로 월 정기 구독결제 모델을 도입했다.학생 수 30명까지는 20만원 안팎의 금액을 받고 31명부터는 맞춤요금을 받는 식이다.헥슬란트 는 블록체인 기술을 가진 스타트업이다.웹3.0 지갑 구축을 도와주는 인프라 서비스인 옥텟 이 주요 서비스다.웹3.0 사업을 구상하는 회사들에게 블록체인과 관련된 고도의 지식이없더라도 간편하게 지갑 시스템과 입출금 보안 인프라를 구축할 수 있게 해준다는 설명이다.또 바리스타 로봇 아이스크림 로봇과 같은 F B에 특화된 로봇 자동화 서비스를 내놓은 로봇 스타트업 라운지랩 도 주목할 만하다는 평가다.그밖에 엠아이티 는 스마트팩토리 구축용 로봇 및 검사장비 소프트웨어를 개발하고 있다.혜움랩스 는 텍스테크 세금 기술 스타트업이다.소상공인과 중소기업들에 세무 컨설팅을 제공한다.전화나 실시간 채팅을 통해

In [268]:
sentence

'새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이. 출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠. 자율성이 없어요. 기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다. 글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다. 우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다. 게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다. ◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다. 최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다. 이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다. 올해 정부 부처가 대학과 출연연·기업 

In [270]:
results = summarize_long_sentence(sentence, 1024, tokenizer, model, device, max_tokens, min_tokens, num_beams, verify=True)

새 정부 과학기술 R D 예산 실제론 뒷걸음질 과기 R D예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산 증가율도 2% 불과 산학연 대선 때 내세웠던 과학기술강국’ 비전 실종 지적 출연연·대학 등 연구 현장 규제·간섭 타파 노력도 부족 정부의 R D 예산 증가율 추이.출처 과기정통부 서울경제 고광본 선임기자 “대선 때 윤석열 대통령이 ‘과학기술 중심 국정 운영’을 표방해 기대가 컸는데 요즘 연구 현장에서는 실망감이 커지고 있습니다.” 과학기술협회장 “국가 연구소들은 예산을 받아도 투자 우선순위도 정할 수 없죠.자율성이 없어요.기획재정부가 너무 타이트하게 관리합니다.” 정부출연연구기관 원장 “지방교육재정교부금 제도로 초중고에는 예산 지원이 많아 불용금도 많은데 정작 연구개발 R D 을 하는 대학은 예산이 부족합니다.” 대학 총장 윤석열 정부가 출범한 지 2개월 가까이 된 요즘 과학기술계에서 나오는 하소연과 호소다.글로벌 기술 패권 전쟁과 잠재성장률 하락세에 대응하기 위한 새 정부의 과학기술 육성 비전과 전략·로드맵이 뚜렷이 보이지 않는다는 지적이다.우선 내년도 과학기술 예산 증가율은 1%대에 그쳐 높은 인플레이션을 감안하면 실제로는 뒷걸음질 쳤다는 지적을 받는다.게다가 국가전략기술 육성도 반도체와 원자력발전 등에 초점을 맞추는 바람에 다른 전략기술 분야는 기술 개발과 인력 양성 측면에서 자칫 소외되는 것 아니냐는 우려의 목소리도 나온다.◇내년 과기 R D 예산 물가 감안하면 뒷걸음질 정부의 과학기술 R D 예산 증가율이 최근 몇 년 새 두 자릿수를 기록하다가 내년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고 있다.최근 과학기술정보통신부 과학기술혁신본부가 기재부에 제출한 내년 과학기술 R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다.이 예산은 과학기술자문회의가 심의하는 ‘주요 R D’로 전체 R D 예산의 약 80%를 차지한다.올해 정부 부처가 대학과 출연연·기업 등에 지원하는 R D

In [271]:
results

['정부의 과학기술 R D 예산 증가율 두자릿수에서 내년 1.7%로 급감 기초연구 제자리걸음···출연연 예산증가율도 2% 미만으로 낮은 인플레이션을 감안하면 실제 뒷걸음질 쳤다는 지적을 받는다.  \ufeff    2022년에는 큰 폭으로 줄어 과학기술계의 염려가 커지고   \n   과기정통부 과학기술혁신본부가 기재부에 제출한 내년 과학기술R D 예산은 24조 6601억 원으로 올해 24조 2363억 원 보다 불과 1.7% 늘었다. ',
 'R D 예산 증가율은 2016년부터 2018년까지 1%대에 그치다가 문재인 정부 들어 급증해 2019년 4.4%를 기점으로 2020년 18.0% 2021년 13.1% 2022년 8.8%를 기록하였고 2019년 7월 일본의 반도체·디스플레이 분야 소재·부품·장비 수출규제 2020년 초 코로나19 사태로 관련 R D 예산이 크게 늘었기 때문이다.여기에 연구자가 직접 R D 과제를 기획해 제안하는 ‘연구자 주도 기초연구’ 예산이 문재인 정부에서 1조 2599억 원에서 2조 5000억 원까지 2배나 늘어난 것도 RD 예산 증가 요인으로 꼽힌다.',
 '기초과학계의 한 인사는 “정부의 R D 예산이 전체적으로 그리 늘지 않아 기초과학 분야에서도 어려움이 예상된다”며 “반도체나 원전 등도 중요하지만 기초과학 쪽에도 신경을 더 써달라고 읍소하고 있다”고 털어놓으며 정부가 당장은 글로벌 공급망 관리 현안으로 떠오른 반도체 등에 신경을 많이 쓰는 것을 충분히 이해하지만 중장기적 관점에서 기초과학 예산을 늘리고 효율적 집행이 가능하게 하면 좋겠다는 희망을 피력하며 기초과학 예산에 대한 혁신 움직임도 없다”고 전했다.  ',
 ' 벤처친환경 기술 벤처인 A사는 정부의 R D 과제에 응모해 지난 4월 중순 ‘추천 대상’이라고 통보를 받았으나 5월 중순 ‘한정된 예산으로 인해 기회를 드리지 못한다’는 통보를 다시 받았으나 다시 받은 ‘추천대상’ 이라는 통보를 받음에도 불구하고  A사는  ‘6월 1일 계약하겠다’는 연락을 받았으나  ‘ 6월30일까