# **사용자가 텍스트를 입력하면 요약해 주는 역할관련 논문 및 사이트**
# **BERTSUM 모델**
**추출적 요약**
- BERTSUM 모델은 BERT 아키텍처를 확장하여 각 문장을 요약에 포함할지 여부를 결정하는 분류 레이어를 추가합니다. 이 모델은 문서 수준의 문맥을 효과적으로 캡처하여 CNN/DailyMail과 같은 데이터셋에서 최첨단 성능을 보여주고 있음
 - https://ar5iv.labs.arxiv.org/html/1908.08345
 - https://paperswithcode.com/paper/fine-tune-bert-for-extractive-summarization

**생성적 요약**
- 생성적 요약의 경우 BERTSUM은 사전 훈련된 BERT 인코더와 무작위로 초기화된 변환기 디코더를 조합하여 사용
- 이를 통해 원본 텍스트에서 직접 가져오지 않은 문구로 요약을 생성 가능
 - https://ar5iv.labs.arxiv.org/html/1908.08345
 - https://deeplearninganalytics.org/text-summarization/

# **관련 논문 및 리소스**
**1. "Text Summarization with Pretrained Encoders"**
- 이 논문은 사전 훈련된 인코더를 사용하여 텍스트 요약을 수행하는 방법을 설명
- BERT를 사용한 요약의 구체적인 방법론과 실험 결과
 - https://arxiv.org/abs/1908.08345
**2. "Recent Progress on Text Summarisation Based on BERT and GPT"**
- 이 논문은 BERT 및 GPT 기반의 텍스트 요약의 최근 발전을 설명
- BERTSUM 모델의 성능과 다양한 데이터셋에 대한 적용 사례를 포함
 - https://link.springer.com/article/10.1007/s00138-021-01116-2
**3."Performance Study on Extractive Text Summarization Using BERT Models"**
- 이 연구는 BERT 모델의 다양한 변종을 사용한 추출적 텍스트 요약 성능을 실험하고 평가
- 이 논문에서는 "SqueezeBERTSum"이라는 경량화된 요약 모델
 - https://www.mdpi.com/2078-2489/13/2/67

# **데이터셋**
- AI허브
 - 문서요약 텍스트
   - https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=97
 - 요약문 및 레포트 생성 데이터
   - https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=582
 - 한국어 대화 요약
   - https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=117
 - 도서자료 요약
   - https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=93

# **그외 사이트의 데이터**
 - Korean NLP Tutorial
   - https://github.com/Seokii/Korean_NLP_Tutorial



# **관련 및 참고 코드 사이트**
- Study ML
 - https://seokii.tistory.com/145


# **데이터 및 코드**
 - 한국어 문서 요약 AI 경진대회
  - https://dacon.io/competitions/official/235673/data

# **요일별 작업 정리 및 수정 할 것들**
 - 24년 07월 24일 수요일

**각 코드의 번호 및 이름 적어 놨음**
 - 예시
 - 2.필요한 라이브러리 임포트
 - 하단에 코드 작성
 - import pandas as pd

**1. 테스트 진행사항**
 - '10. 사용자 입력을 통한 요약 수행'
 - 테스트 중
 - 오류 발생하여 수정중
   - '3. 시드 및 하이퍼파라미터 설정'에서 에포크, 배치 수정 예정
   - '9. 학습 및 평가' 다시 학습 예정
   - 출력 되는 부분 수정 예정

**2. 테스트로 한 파일**
 - valid_original 1.json
 - train_original 1.json

**3. 오류가 있는 코드 수정 및 그외 코드 수정 / 주석 추가**
 - '3. 시드 및 하이퍼파라미터 설정'
  - RANDOM_SEED = 42
  - pl.seed_everything(RANDOM_SEED)
  - MAX_TOKEN_COUNT = 512
  - N_EPOCHS = 10 => 에포크 수를 20으로 늘릴 예정
  - BATCH_SIZE = 4 => 배치 크기를 8로 늘릴 예정

 - '9. 학습 및 평가'
   - 학습을 다시 할 예정
   - test_acc: 0.16666666666666666 avg_test_loss: tensor(1.3301)
 - '10. 사용자 입력을 통한 요약 수행'오류 내용
   - Error: The file summarizer_model.pt was not found. Please check the path and try again.
   - 요약할 텍스트를 입력하세요: 인공지능은 인간의 지능을 모방한 컴퓨터 시스템을 의미합니다. 최근 몇 년 동안 인공지능 기술은 비약적으로 발전하였으며, 많은 분야에서 활용되고 있습니다. 예를 들어, 자율주행차, 의료 진단, 금융 예측 등 다양한 산업에서 인공지능이 사용되고 있습니다. 이러한 기술 발전은 우리의 생활을 크게 변화시키고 있습니다.
   - 요약 결과: tensor([0.4462])
 - 주석 추후에 추가 예정
   - 자세한 설명이 필요한 부분들 추가 예정
   - 공부가 필요한 부분도 주석 추가 예정

# **테스트 할 문장 입력 예시 5가지**
 - 그 외에 필요하거나 추가적으로 다른 문장으로 테스트 할 예정

**입력 예시 1**
 - 인공지능은 인간의 지능을 모방한 컴퓨터 시스템을 의미합니다. 최근 몇 년 동안 인공지능 기술은 비약적으로 발전하였으며, 많은 분야에서 활용되고 있습니다. 예를 들어, 자율주행차, 의료 진단, 금융 예측 등 다양한 산업에서 인공지능이 사용되고 있습니다. 이러한 기술 발전은 우리의 생활을 크게 변화시키고 있습니다.

**입력 예시2**
 - 머신러닝은 데이터에서 패턴을 학습하고 예측을 수행하는 알고리즘의 한 종류입니다. 머신러닝의 주요 응용 분야로는 음성 인식, 이미지 분류, 자연어 처리 등이 있습니다. 특히 딥러닝은 복잡한 데이터 패턴을 학습하는 데 뛰어난 성능을 보여주고 있어 많은 연구와 산업에서 주목받고 있습니다.

**입력 예시 3**
 - 코로나19 팬데믹은 전 세계에 큰 영향을 미쳤습니다. 많은 나라들이 봉쇄 조치를 취하고, 비대면 업무와 온라인 수업이 일상화되었습니다. 백신 개발과 접종이 진행되면서 점차 정상화의 길을 걷고 있지만, 변이 바이러스의 등장으로 여전히 주의가 필요합니다. 이와 함께, 코로나19는 우리의 사회적, 경제적 구조에 많은 변화를 가져왔습니다.

**입력 예시 4**
 - 기후 변화는 지구 환경에 심각한 영향을 미치고 있습니다. 온실가스 배출로 인한 지구 온난화가 가속화되면서 해수면 상승, 이상 기후 현상, 생태계 파괴 등이 발생하고 있습니다. 이를 해결하기 위해서는 국제적인 협력과 지속 가능한 발전 노력이 필요합니다. 또한, 개인의 환경 보호 실천도 중요합니다.

**입력 예시 5**
 - 최근 연구에 따르면, 충분한 수면은 건강에 매우 중요합니다. 수면 부족은 심혈관 질환, 당뇨병, 비만 등 여러 건강 문제를 일으킬 수 있습니다. 하루 7-8시간의 양질의 수면을 취하는 것이 권장됩니다. 이를 위해 규칙적인 수면 습관을 유지하고, 전자기기 사용을 줄이는 등의 노력이 필요합니다.

# **1. 필요한 라이브러리 설치**

In [None]:
!pip install transformers
!pip install torch
!pip install sentencepiece
!pip install datasets
!pip install transformers torch sklearn pandas
!pip install pyngrok
!pip install matplotlib-venn
!apt-get -qq install -y libfluidsynth1
!pip install pytorch_lightning
!pip install torchmetrics
!pip install pytorch-lightning
!pip install kss
!pip install pytorch-lightning
!pip install torchmetrics

Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (14.1 MB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl (731.7 MB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch)
  Using cached nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl (410.6 MB)
Collecting nvidia-cufft-cu12==11.0.2.54 (from torch)
  Using cached nvidia_cufft_cu12-11.0.2.54-py3-none-manylinux1_x86_64.whl (121.6 MB)
Collecting nvidia-curand-cu12==10.3.2.106 (from torch)
  Using cached nvidia_curand_cu12-10.3.2.106-py3-none-manylinux1_x86_64.whl (56.5 MB)
Collectin

Collecting sklearn
  Downloading sklearn-0.0.post12.tar.gz (2.6 kB)
  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mpython setup.py egg_info[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m See above for output.
  
  [1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.
  Preparing metadata (setup.py) ... [?25l[?25herror
[1;31merror[0m: [1mmetadata-generation-failed[0m

[31m×[0m Encountered error while generating package metadata.
[31m╰─>[0m See above for output.

[1;35mnote[0m: This is an issue with the package mentioned above, not pip.
[1;36mhint[0m: See above for details.
Collecting pyngrok
  Downloading pyngrok-7.2.0-py3-none-any.whl (22 kB)
[31mERROR: Operation cancelled by user[0m[31m
[0mTraceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/pip/_vendor/pkg_resources/__init__.py", line 3108, in _dep_map
    return self.__dep_map
  

# **2. 필요한 라이브러리 임포트**

In [None]:
import math
import pandas as pd
import numpy as np
from tqdm.auto import tqdm

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

import torch.optim as optim

from transformers import BertModel, BertTokenizer, AdamW, get_linear_schedule_with_warmup
from torch.nn.init import xavier_uniform_

import pytorch_lightning as pl
from torchmetrics.functional import accuracy, f1_score, auroc
from pytorch_lightning.callbacks import ModelCheckpoint, EarlyStopping
from pytorch_lightning.loggers import TensorBoardLogger

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, multilabel_confusion_matrix

import seaborn as sns
from pylab import rcParams
import matplotlib.pyplot as plt
from matplotlib import rc

import kss

# Colab에서 matplotlib 설정
%matplotlib inline
%config InlineBackend.figure_format='retina'

ModuleNotFoundError: No module named 'pytorch_lightning'

# **3. 시드 및 하이퍼파라미터 설정**

In [None]:
RANDOM_SEED = 42
pl.seed_everything(RANDOM_SEED)

MAX_TOKEN_COUNT = 512
N_EPOCHS = 10
BATCH_SIZE = 4

NameError: name 'pl' is not defined

# **4. 데이터셋 로드 및 전처리**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
import json

DATA_TRAIN_PATH = '/content/train_original 1.json'
DATA_TEST_PATH = '/content/valid_original 1.json'

def load_json(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8-sig', errors='ignore') as f:
            data = f.read()
    except UnicodeDecodeError:
        with open(file_path, 'r', encoding='latin-1', errors='ignore') as f:
            data = f.read()
    return data

def parse_json(data):
    try:
        return json.loads(data)
    except json.JSONDecodeError as e:
        print(f"JSON 디코딩 오류: {e}")
        return None

def print_json_structure(data, num_items=5):
    for i, doc in enumerate(data):
        if i >= num_items:
            break
        print(json.dumps(doc, indent=2, ensure_ascii=False))

# JSON 파일을 로드하고 파싱
train_data = load_json(DATA_TRAIN_PATH)
test_data = load_json(DATA_TEST_PATH)

train_json = parse_json(train_data)
test_json = parse_json(test_data)

if train_json is None or test_json is None:
    raise ValueError("JSON 파일을 파싱하는 데 실패했습니다.")

print("Train JSON 데이터 구조:")
print_json_structure(train_json['documents'])

print("Test JSON 데이터 구조:")
print_json_structure(test_json['documents'])

# pandas를 사용하여 DataFrame으로 변환
try:
    df = pd.DataFrame(train_json['documents'])
    df = df.dropna()
    test_df = pd.DataFrame(test_json['documents'])
    test_df = test_df.dropna()
    print("pandas로 JSON 파일을 성공적으로 로드했습니다.")
except ValueError as e:
    print(f"pandas JSON 로드 오류: {e}")
    raise

print(df.head())  # 데이터 구조 확인

# 학습 데이터와 검증 데이터로 분할
train_df, val_df = train_test_split(df, test_size=0.05)
train_df = train_df.reset_index(drop=True)
val_df = val_df.reset_index(drop=True)

# 데이터 다운사이즈 (테스트용)
downsize = 2000
train_df = train_df[:downsize]
test_df = test_df[:downsize//10]
val_df = val_df[:downsize//10]

# 데이터 전처리 함수
def preprocess_data(data):
    outs = []
    for i, doc in data.iterrows():
        line = []
        # 키 이름이 다를 경우 수정
        line.append(doc.get('media_name', ''))
        line.append(doc.get('id', ''))
        para = []
        for sent in doc.get('text', []):
            for s in sent:
                para.append(s.get('sentence', ''))
        line.append(para)
        line.append(doc.get('abstractive', [''])[0])
        line.append(doc.get('extractive', []))
        a = doc.get('extractive', [])
        if len(a) < 3 or a[0] is None or a[1] is None or a[2] is None:
            continue
        outs.append(line)
    outs_df = pd.DataFrame(outs)
    outs_df.columns = ['media', 'id', 'article_original', 'abstractive', 'extractive']
    return outs_df

# 전처리된 데이터
train_df = preprocess_data(train_df)
test_df = preprocess_data(test_df)
val_df = preprocess_data(val_df)

Train JSON 데이터 구조:
{
  "id": "100004",
  "category": "일반행정",
  "size": "small",
  "char_count": 377,
  "publish_date": "19841226",
  "title": "부당노동행위구제재심판정취소",
  "text": [
    [
      {
        "index": 0,
        "sentence": "원고가 소속회사의 노동조합에서 분규가 발생하자 노조활동을 구실로 정상적인 근무를 해태하고,",
        "highlight_indices": ""
      },
      {
        "index": 1,
        "sentence": "노조조합장이 사임한 경우,",
        "highlight_indices": ""
      },
      {
        "index": 2,
        "sentence": "노동조합규약에 동 조합장의 직무를 대행할 자를 규정해 두고 있음에도 원고 자신이 주동하여 노조자치수습대책위원회를 구성하여 그 위원장으로 피선되어 근무시간중에도 노조활동을 벌여 운수업체인 소속회사의 업무에 지장을 초래하고",
        "highlight_indices": "8,9;68,69"
      },
      {
        "index": 3,
        "sentence": "종업원들에게도 나쁜 영향을 끼쳐 소속회사가 취업규칙을 위반하고",
        "highlight_indices": ""
      },
      {
        "index": 4,
        "sentence": "고의로 회사업무능률을 저해하였으며 회사업무상의 지휘명령에 위반하였음을 이유로 원고를 징계해고 하였다면,",
        "highlight_indices": "0,3"
      },
      {
        "index": 5,
        "sentence": "이는 원고의 노동조합 활동과는 관계

# **5. BERT 모델과 토크나이저 로드**

In [None]:
BERT_MODEL_NAME = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(BERT_MODEL_NAME)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

# **6. 데이터셋 클래스 정의**

In [None]:
class SummDataset(Dataset):
    def __init__(self, data: pd.DataFrame, tokenizer: BertTokenizer, max_token_len: int = 512):
        self.tokenizer = tokenizer
        self.data = data
        self.max_token_len = max_token_len

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index: int):
        data_row = self.data.iloc[index]
        tokenlist = []
        for sent in data_row.article_original:
            tokenlist.append(tokenizer(
                text = sent,
                add_special_tokens = True))

        src = []  # 토크나이징 된 전체 문단
        labels = []  # 요약문에 해당하면 1, 아니면 0으로 문장수 만큼 생성
        segs = []  # 각 토큰에 대해 홀수번째 문장이면 0, 짝수번째 문장이면 1을 매핑
        clss = []  # [CLS] 토큰의 포지션값을 지정

        odd = 0
        for tkns in tokenlist:
            if odd > 1 : odd = 0
            clss = clss + [len(src)]
            src = src + tkns['input_ids']
            segs = segs + [odd] * len(tkns['input_ids'])
            if tokenlist.index(tkns) in data_row.extractive:
                labels = labels + [1]
            else:
                labels = labels + [0]
            odd += 1

            # 문장 길이 제한 (truncation)
            if len(src) == MAX_TOKEN_COUNT:
                break
            elif len(src) > MAX_TOKEN_COUNT:
                src = src[:self.max_token_len - 1] + [src[-1]]
                segs = segs[:self.max_token_len]
                break

        # 패딩 (padding)
        if len(src) < MAX_TOKEN_COUNT:
            src = src + [0]*(self.max_token_len - len(src))
            segs = segs + [0]*(self.max_token_len - len(segs))

        if len(clss) < MAX_TOKEN_COUNT:
            clss = clss + [-1]*(self.max_token_len - len(clss))
        if len(labels) < MAX_TOKEN_COUNT:
            labels = labels + [0]*(self.max_token_len - len(labels))

        return dict(
            src = torch.tensor(src),
            segs = torch.tensor(segs),
            clss = torch.tensor(clss),
            labels= torch.FloatTensor(labels)
        )

# **7. 데이터 모듈 정의**

In [None]:
class SummDataModule(pl.LightningDataModule):
    def __init__(self, train_df, test_df, val_df, tokenizer, batch_size=1, max_token_len=512):
        super().__init__()
        self.batch_size = batch_size
        self.train_df = train_df
        self.test_df = test_df
        self.val_df = val_df
        self.tokenizer = tokenizer
        self.max_token_len = max_token_len

    def setup(self, stage=None):
        self.train_dataset = SummDataset(self.train_df, self.tokenizer, self.max_token_len)
        self.test_dataset = SummDataset(self.test_df, self.tokenizer, self.max_token_len)
        self.val_dataset = SummDataset(self.val_df, self.tokenizer, self.max_token_len)

    def train_dataloader(self):
        return DataLoader(self.train_dataset, batch_size=self.batch_size, shuffle=True, num_workers=0)

    def val_dataloader(self):
        return DataLoader(self.test_dataset, batch_size=self.batch_size, num_workers=0)

    def test_dataloader(self):
        return DataLoader(self.val_dataset, batch_size=self.batch_size, num_workers=0)

data_module = SummDataModule(train_df, test_df, val_df, tokenizer, batch_size=BATCH_SIZE, max_token_len=MAX_TOKEN_COUNT)


# **8. 모델 클래스 정의**

In [None]:
class Summarizer(pl.LightningModule):
    def __init__(self, n_training_steps=None, n_warmup_steps=0):
        super(Summarizer, self).__init__()
        self.max_pos = 512
        self.bert = BertModel.from_pretrained('bert-base-uncased')
        self.ext_layer = ExtTransformerEncoder()
        self.n_training_steps = n_training_steps
        self.n_warmup_steps = n_warmup_steps
        self.loss = nn.BCELoss(reduction='none')
        self.train_outputs = []
        self.val_outputs = []
        self.test_outputs = []

        for p in self.ext_layer.parameters():
            if p.dim() > 1:
                xavier_uniform_(p)

    def forward(self, src, segs, clss, labels=None):
        mask_src = ~(src == 0)
        mask_cls = ~(clss == -1)
        top_vec = self.bert(src, token_type_ids=segs, attention_mask=mask_src)
        top_vec = top_vec.last_hidden_state
        sents_vec = top_vec[torch.arange(top_vec.size(0)).unsqueeze(1), clss]
        sents_vec = sents_vec * mask_cls[:, :, None].float()
        sent_scores = self.ext_layer(sents_vec, mask_cls).squeeze(-1)

        loss = 0
        if labels is not None:
            loss = self.loss(sent_scores, labels)
            loss = (loss * mask_cls.float()).sum() / len(labels)

        return loss, sent_scores

    def step(self, batch):
        src = batch['src']
        labels = batch.get('labels', None)
        segs = batch['segs']
        clss = batch['clss']
        loss, sent_scores = self(src, segs, clss, labels)
        return loss, sent_scores, labels

    def training_step(self, batch, batch_idx):
        loss, sent_scores, labels = self.step(batch)
        self.train_outputs.append({"loss": loss, "predictions": sent_scores, "labels": labels})
        self.log("train_loss", loss, prog_bar=True, logger=True)
        return {"loss": loss, "predictions": sent_scores, "labels": labels}

    def validation_step(self, batch, batch_idx):
        loss, sent_scores, labels = self.step(batch)
        self.val_outputs.append({"loss": loss, "predictions": sent_scores, "labels": labels})
        self.log("val_loss", loss, prog_bar=True, logger=True)
        return {"loss": loss, "predictions": sent_scores, "labels": labels}

    def test_step(self, batch, batch_idx):
        loss, sent_scores, labels = self.step(batch)
        self.test_outputs.append({"loss": loss, "predictions": sent_scores, "labels": labels})
        self.log("test_loss", loss, prog_bar=True, logger=True)
        return {"loss": loss, "predictions": sent_scores, "labels": labels}

    def acc_loss(self, outputs):
        total_loss = 0
        hit_cnt = 0
        for outp in outputs:
            labels = outp['labels'].cpu()
            predictions, idxs = outp['predictions'].cpu().sort()
            loss = outp['loss'].cpu()
            for label, idx in zip(labels, idxs):
                for i in range(min(3, len(idx))):
                    if label[idx[-i-1]] == 1:
                        hit_cnt += 1
            total_loss += loss
        avg_loss = total_loss / len(outputs)
        acc = hit_cnt / (3 * len(outputs) * labels.size(1)) if labels.size(1) > 0 else 0
        return acc, avg_loss

    def on_train_epoch_end(self):
        acc, avg_loss = self.acc_loss(self.train_outputs)
        print('acc:', acc, 'avg_loss:', avg_loss)
        self.log('avg_train_loss', avg_loss, prog_bar=True, logger=True)
        self.train_outputs.clear()

    def on_validation_epoch_end(self):
        acc, avg_loss = self.acc_loss(self.val_outputs)
        print('val_acc:', acc, 'avg_val_loss:', avg_loss)
        self.log('avg_val_loss', avg_loss, prog_bar=True, logger=True)
        self.val_outputs.clear()

    def on_test_epoch_end(self):
        acc, avg_loss = self.acc_loss(self.test_outputs)
        print('test_acc:', acc, 'avg_test_loss:', avg_loss)
        self.log('avg_test_loss', avg_loss, prog_bar=True, logger=True)
        self.test_outputs.clear()

    def configure_optimizers(self):
        optimizer = AdamW(self.parameters(), lr=2e-5)
        steps_per_epoch = len(train_df) // BATCH_SIZE
        total_training_steps = steps_per_epoch * N_EPOCHS
        scheduler = get_linear_schedule_with_warmup(
            optimizer,
            num_warmup_steps=self.n_warmup_steps,
            num_training_steps=total_training_steps
        )
        return [optimizer], [scheduler]

# **9. 학습 및 평가**

In [None]:
model = Summarizer(
    n_training_steps=len(train_df) // batch_size * N_EPOCHS,
    n_warmup_steps=100
)

trainer = pl.Trainer(
    max_epochs=N_EPOCHS,
    accelerator='gpu' if torch.cuda.is_available() else 'cpu',
    devices=1 if torch.cuda.is_available() else None,
    log_every_n_steps=10
)

trainer.fit(model, data_module)
trainer.test(model, datamodule=data_module)

INFO:pytorch_lightning.utilities.rank_zero:GPU available: True (cuda), used: True
INFO:pytorch_lightning.utilities.rank_zero:TPU available: False, using: 0 TPU cores
INFO:pytorch_lightning.utilities.rank_zero:HPU available: False, using: 0 HPUs
INFO:pytorch_lightning.accelerators.cuda:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]
INFO:pytorch_lightning.callbacks.model_summary:
  | Name      | Type                  | Params | Mode 
------------------------------------------------------------
0 | bert      | BertModel             | 109 M  | eval 
1 | ext_layer | ExtTransformerEncoder | 11.0 M | train
2 | loss      | BCELoss               | 0      | train
------------------------------------------------------------
120 M     Trainable params
0         Non-trainable params
120 M     Total params
482.050   Total estimated model params size (MB)


Sanity Checking: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.6190)


/usr/local/lib/python3.10/dist-packages/pytorch_lightning/loops/fit_loop.py:298: The number of training batches (1) is smaller than the logging interval Trainer(log_every_n_steps=10). Set a lower value for log_every_n_steps if you want to see logs for the training epoch.


Training: |          | 0/? [00:00<?, ?it/s]

Validation: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.6190)
acc: 0.16666666666666666 avg_loss: tensor(1.7151, grad_fn=<DivBackward0>)


Validation: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.6104)
acc: 0.16666666666666666 avg_loss: tensor(1.5241, grad_fn=<DivBackward0>)


Validation: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.5925)
acc: 0.16666666666666666 avg_loss: tensor(1.8368, grad_fn=<DivBackward0>)


Validation: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.5674)
acc: 0.16666666666666666 avg_loss: tensor(2.1859, grad_fn=<DivBackward0>)


Validation: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.5375)
acc: 0.16666666666666666 avg_loss: tensor(0.9396, grad_fn=<DivBackward0>)


Validation: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.4993)
acc: 0.16666666666666666 avg_loss: tensor(2.6526, grad_fn=<DivBackward0>)


Validation: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.4562)
acc: 0.16666666666666666 avg_loss: tensor(1.0405, grad_fn=<DivBackward0>)


Validation: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.4090)
acc: 0.16666666666666666 avg_loss: tensor(1.3334, grad_fn=<DivBackward0>)


Validation: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.3666)
acc: 0.16666666666666666 avg_loss: tensor(2.7028, grad_fn=<DivBackward0>)


Validation: |          | 0/? [00:00<?, ?it/s]

val_acc: 0.16666666666666666 avg_val_loss: tensor(1.3237)
acc: 0.16666666666666666 avg_loss: tensor(0.7806, grad_fn=<DivBackward0>)


INFO:pytorch_lightning.utilities.rank_zero:`Trainer.fit` stopped: `max_epochs=10` reached.
INFO:pytorch_lightning.accelerators.cuda:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Testing: |          | 0/? [00:00<?, ?it/s]

test_acc: 0.16666666666666666 avg_test_loss: tensor(1.3301)


[{'test_loss': 1.3300960063934326, 'avg_test_loss': 1.3300960063934326}]

# **10. 사용자 입력을 통한 요약 수행**

In [None]:
# 모델과 토크나이저 로드
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 미리 학습된 모델을 로드 (학습된 가중치 파일 경로를 지정)
model = Summarizer()

# 가중치 파일 경로를 정확하게 설정합니다.
pretrained_model_path = 'summarizer_model.pt'  # 여기에 실제 가중치 파일 경로를 입력하세요

try:
    model.load_state_dict(torch.load(pretrained_model_path, map_location=torch.device('cpu')))
    model.eval()
except FileNotFoundError:
    print(f"Error: The file {pretrained_model_path} was not found. Please check the path and try again.")
    exit(1)

# 사용자 입력 받기
user_input = input("요약할 텍스트를 입력하세요: ")

# 요약 수행 함수 정의
def summarize_text(text):
    tokenized_text = tokenizer.encode(text, return_tensors='pt', max_length=512, truncation=True)
    segs = torch.zeros_like(tokenized_text)  # BERT 모델의 세그먼트 인덱스 (모두 0으로 설정)
    clss = torch.tensor([i for i, token in enumerate(tokenized_text[0]) if token == tokenizer.cls_token_id]).unsqueeze(0)  # CLS 토큰 인덱스
    mask_src = tokenized_text != tokenizer.pad_token_id  # 입력 토큰 마스크
    mask_cls = clss != -1  # CLS 토큰 마스크

    with torch.no_grad():
        top_vec = model.bert(tokenized_text, token_type_ids=segs, attention_mask=mask_src).last_hidden_state
        sents_vec = top_vec[torch.arange(top_vec.size(0)).unsqueeze(1), clss]
        sents_vec = sents_vec * mask_cls.unsqueeze(-1).float()
        sent_scores = model.ext_layer(sents_vec, mask_cls).squeeze(-1)

    return sent_scores

# 요약 결과 출력
summary_scores = summarize_text(user_input)
print("요약 결과:", summary_scores)

Error: The file summarizer_model.pt was not found. Please check the path and try again.
요약할 텍스트를 입력하세요: 인공지능은 인간의 지능을 모방한 컴퓨터 시스템을 의미합니다. 최근 몇 년 동안 인공지능 기술은 비약적으로 발전하였으며, 많은 분야에서 활용되고 있습니다. 예를 들어, 자율주행차, 의료 진단, 금융 예측 등 다양한 산업에서 인공지능이 사용되고 있습니다. 이러한 기술 발전은 우리의 생활을 크게 변화시키고 있습니다.
요약 결과: tensor([0.4462])
