In [7]:
import os
import openai
import pandas as pd
from dotenv import load_dotenv
import tiktoken

# .env 파일 로드
load_dotenv()

# .env 파일에서 OPENAI_API_KEY 가져오기
openai.api_key = os.getenv("OPENAI_API_KEY")

def read_concatenate_news(file_path):
    news = pd.read_csv(file_path, delimiter='\t', header=None, names=['text'])
    concatenated_text = news['text'].str.cat(sep=' ')
    return concatenated_text

def encoding_getter(encoding_type: str):
    return tiktoken.encoding_for_model(encoding_type)

def tokenizer(string: str, encoding_type: str) -> list:
    encoding = encoding_getter(encoding_type)
    #print (encoding)
    tokens = encoding.encode(string)
    return tokens

def token_counter(string: str, encoding_type: str) -> int:
    num_tokens = len(tokenizer(string, encoding_type))
    return num_tokens




In [8]:
file_path = '오늘날씨_naver_news_texts.txt'
text=read_concatenate_news(file_path)

# prompt="여기에 글자를 입력해볼께 제발 잘 됐으면 좋겠다."
num_tokens=token_counter(text,"gpt-3.5-turbo")
print("토큰 수:"+str(num_tokens))

토큰 수:2760


In [35]:
import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("OPENAI_API_KEY"),
)

def summarize_news(query):
    GPT_MODEL = "gpt-3.5-turbo"
    
    messages = [
        {"role": "system", "content": "You're the best summarizer. You have to show the right summary of the news. 모든 대답은 한글로."},
        {"role": "user", "content": f"뉴스에 대한 결과야. 요약설명해 {query}"}
    ]

    response = client.chat.completions.create(
        model=GPT_MODEL,
        messages=messages,
        temperature=0
    )

    response_message = response.choices[0].message.content
    return response_message

query = input("뉴스에 대한 결과를 요약해보세요: ")
result = summarize_news(query)
print(result)


오늘은 북극발 추위로 인해 추윗병에 걸릴 위험이 커지고 있으며, 서울은 영하 9.4도, 대관령은 영하 12.5도, 대전과 안동은 영하 6도 안팎까지 기온이 떨어지고 있습니다. 체감 온도는 이보다 4~6도 정도 낮으며, 외출 시 목도리나 장갑 등을 착용해 체온 유지에 신경써야 합니다. 서해안과 제주도에는 여전히 폭설이 이어지고 있으며, 내일 아침에는 제주 산간에 최고 30cm 이상, 호남 서해안에도 10cm가 넘는 눈이 더 내려 쌓일 것으로 예상됩니다. 크리스마스 이브인 일요일에는 전국적으로 눈이 올 것으로 예상되며, 추위는 점차 누그러지고 예년 이 맘때 날씨로 회복될 것으로 전해졌습니다.


In [9]:
##test
import torch
from transformers import PreTrainedTokenizerFast
from transformers import BartForConditionalGeneration

tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-summarization')
model = BartForConditionalGeneration.from_pretrained('gogamza/kobart-summarization')

text = "과거를 떠올려보자. 방송을 보던 우리의 모습을. 독보적인 매체는 TV였다. 온 가족이 둘러앉아 TV를 봤다. 간혹 가족들끼리 뉴스와 드라마, 예능 프로그램을 둘러싸고 리모컨 쟁탈전이 벌어지기도  했다. 각자 선호하는 프로그램을 ‘본방’으로 보기 위한 싸움이었다. TV가 한 대인지 두 대인지 여부도 그래서 중요했다. 지금은 어떤가. ‘안방극장’이라는 말은 옛말이 됐다. TV가 없는 집도 많다. 미디어의 혜 택을 누릴 수 있는 방법은 늘어났다. 각자의 방에서 각자의 휴대폰으로, 노트북으로, 태블릿으로 콘텐츠 를 즐긴다."

raw_input_ids = tokenizer.encode(text)
input_ids = [tokenizer.bos_token_id] + raw_input_ids + [tokenizer.eos_token_id]

summary_ids = model.generate(torch.tensor([input_ids]))
tokenizer.decode(summary_ids.squeeze().tolist(), skip_special_tokens=True)


Downloading tokenizer.json:   0%|          | 0.00/682k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Downloading added_tokens.json:   0%|          | 0.00/4.00 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BartTokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


Downloading model.safetensors:   0%|          | 0.00/496M [00:00<?, ?B/s]






'TV가 없는 집도 많아지고 미디어의 혜 택을 누릴 수 있는 방법은 늘어났다.'

In [None]:
text = "과거를 떠올려보자. 방송을 보던 우리의 모습을. 독보적인 매체는 TV였다. 온 가족이 둘러앉아 TV를 봤다. 간혹 가족들끼리 뉴스와 드라마, 예능 프로그램을 둘러싸고 리모컨 쟁탈전이 벌어지기도  했다. 각자 선호하는 프로그램을 ‘본방’으로 보기 위한 싸움이었다. TV가 한 대인지 두 대인지 여부도 그래서 중요했다. 지금은 어떤가. ‘안방극장’이라는 말은 옛말이 됐다. TV가 없는 집도 많다. 미디어의 혜 택을 누릴 수 있는 방법은 늘어났다. 각자의 방에서 각자의 휴대폰으로, 노트북으로, 태블릿으로 콘텐츠 를 즐긴다."

raw_input_ids = tokenizer.encode(text)
input_ids = [tokenizer.bos_token_id] + raw_input_ids + [tokenizer.eos_token_id]

summary_ids = model.generate(torch.tensor([input_ids]))
tokenizer.decode(summary_ids.squeeze().tolist(), skip_special_tokens=True)
