In [2]:
import os
os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
import re
import nltk
import os

class Summarizer:
    def __init__(self, model_dir="lcw99/t5-base-korean-text-summary"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_dir)
        self.model = AutoModelForSeq2SeqLM.from_pretrained(model_dir)
        self.max_input_length = 2048

    def summarize(self, text, max_length=128):
        inputs = self.tokenizer([text], max_length=self.max_input_length,
                                truncation=True, return_tensors="pt", padding=True)
        output = self.model.generate(
            **inputs, num_beams=16, do_sample=False, min_length=1, max_length=max_length)
        decoded = self.tokenizer.batch_decode(
            output, skip_special_tokens=True)[0]
        return nltk.sent_tokenize(decoded.strip())[0]


def remove_parentheses_content(text: str) -> str:
    # 괄호쌍: (), [], <>, 〈〉, 《》
    pattern = r'[\(\[\<〈《][^)\]\>〉》]*[\)\]\>〉》]'
    cleaned = re.sub(pattern, '', text)
    return re.sub(r'\s{2,}', ' ', cleaned).strip()

korean_sentences = [
    # 5단어
    "오늘 날씨가 참 좋다.",
    # 6단어
    "나는 어제 친구와 영화를 봤다.",
    # 7단어
    "오늘 아침에 일찍 일어나서 운동을 했다.",
    # 8단어
    "학교 도서관에서 책을 빌려 읽고 숙제를 했다.",
    # 9단어
    "점심시간에 동료들과 함께 맛있는 점심을 먹었다.",
    # 10단어
    "주말에는 가족과 함께 공원에서 산책을 즐겼다.",
    # 11단어
    "저녁에는 친구와 함께 카페에 가서 차를 마셨다.",
    # 12단어
    "오늘 수업에서 배운 내용을 집에서 복습하고 정리했다.",
    # 13단어
    "날씨가 좋아서 아침부터 공원에 가서 자전거를 탔다.",
    # 14단어
    "어제 영화관에서 친구들과 재미있는 영화를 보고 저녁을 먹었다.",
    # 15단어
    "오늘 아침 일찍 일어나서 운동하고 샤워한 뒤 학교에 갔다.",
    # 16단어
    "주말에 가족과 함께 여행을 떠나기 위해 미리 숙소를 예약했다.",
    # 17단어
    "오늘 점심시간에 동료들과 함께 식당에 가서 맛있는 음식을 먹었다.",
    # 18단어
    "이번 시험을 대비하기 위해 매일 조금씩 공부하고 문제를 풀어보았다.",
    # 19단어
    "주말에는 친구들과 함께 공원에서 자전거를 타며 즐거운 시간을 보냈다.",
    # 20단어
    "오늘 아침 일찍 일어나 운동을 하고 샤워한 뒤 학교에 가서 수업을 들었다."
]


summarizer = Summarizer()

for i, sentence in enumerate(korean_sentences):
    print(i+1, ": "summarizer.summarize(sentence))

  from .autonotebook import tqdm as notebook_tqdm


날씨가 참 좋다.
친구와 영화를 본 나는 친구와 영화를 봤다.
아침에 일찍 일어나서 운동을 했고 오늘 아침에 일찍 일어나서 운동을 했다.
학교 도서관에서 책을 빌려 읽고 숙제를 하고 학교 도서관에서 책을 빌려 읽고 숙제를 했다.
동료들과 함께 맛있는 점심을 먹었다.
주말에는 가족과 함께 공원에서 산책을 즐겼다.
친구와 함께 카페에 가서 차를 마시고 저녁에는 친구와 함께 카페에 가서 차를 마셨다.
수업에서 배운 내용을 집에서 복습하고 정리했다.
날씨가 좋아서 아침부터 공원에 가서 자전거를 탔다.


KeyboardInterrupt: 