# **사용자가 텍스트를 입력하면 요약해 주는 역할관련 논문 및 사이트**
# **BERTSUM 모델**
**추출적 요약**
- BERTSUM 모델은 BERT 아키텍처를 확장하여 각 문장을 요약에 포함할지 여부를 결정하는 분류 레이어를 추가합니다. 이 모델은 문서 수준의 문맥을 효과적으로 캡처하여 CNN/DailyMail과 같은 데이터셋에서 최첨단 성능을 보여주고 있음
 - https://ar5iv.labs.arxiv.org/html/1908.08345
 - https://paperswithcode.com/paper/fine-tune-bert-for-extractive-summarization

**생성적 요약**
- 생성적 요약의 경우 BERTSUM은 사전 훈련된 BERT 인코더와 무작위로 초기화된 변환기 디코더를 조합하여 사용
- 이를 통해 원본 텍스트에서 직접 가져오지 않은 문구로 요약을 생성 가능
 - https://ar5iv.labs.arxiv.org/html/1908.08345
 - https://deeplearninganalytics.org/text-summarization/

# **관련 논문 및 리소스**
**1. "Text Summarization with Pretrained Encoders"**
- 이 논문은 사전 훈련된 인코더를 사용하여 텍스트 요약을 수행하는 방법을 설명
- BERT를 사용한 요약의 구체적인 방법론과 실험 결과
 - https://arxiv.org/abs/1908.08345
**2. "Recent Progress on Text Summarisation Based on BERT and GPT"**
- 이 논문은 BERT 및 GPT 기반의 텍스트 요약의 최근 발전을 설명
- BERTSUM 모델의 성능과 다양한 데이터셋에 대한 적용 사례를 포함
 - https://link.springer.com/article/10.1007/s00138-021-01116-2
**3."Performance Study on Extractive Text Summarization Using BERT Models"**
- 이 연구는 BERT 모델의 다양한 변종을 사용한 추출적 텍스트 요약 성능을 실험하고 평가
- 이 논문에서는 "SqueezeBERTSum"이라는 경량화된 요약 모델
 - https://www.mdpi.com/2078-2489/13/2/67

# **데이터셋**
- AI허브
 - 문서요약 텍스트
   - https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=97
 - 요약문 및 레포트 생성 데이터
   - https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=582
 - 한국어 대화 요약
   - https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=117
 - 도서자료 요약
   - https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=93

# **그외 사이트의 데이터**
 - Korean NLP Tutorial
   - https://github.com/Seokii/Korean_NLP_Tutorial



# **관련 및 참고 코드 사이트**
- Study ML
 - https://seokii.tistory.com/145


# **데이터 및 코드**
 - 한국어 문서 요약 AI 경진대회
  - https://dacon.io/competitions/official/235673/data

# **요일별 작업 정리 및 수정 할 것들**
 - 24년 07월 31일 수요일
  - '9. 학습 및 평가' 에러 계속하여 수정 중
  - 배치 수치 수정하면서 진행해보기

**개발 환경**
- colab _ T4 GPU / TPU V2
- python3

**각 코드의 번호 및 이름 적어 놨음**
 - 예시
 - 2.필요한 라이브러리 임포트
 - 하단에 코드 작성
 - import pandas as pd

**1. 테스트 진행사항**
- '9. 학습 및 평가'에서 메세지가 뜨거나 멈춤
  - 사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다.
- 배치 수치 수정하면서 진행해보기
    - 시작 수치 256

**2. 테스트로 한 파일**
 - valid_original 1.json
  - 크기 약 8.9MB
 - train_original 1.json
  - 크기 약 86MB

**3. 오류가 있는 코드 수정 및 그외 코드 수정**
- 배치 값 수정
  - 8에서 256으로 변경하여 시작
  - 결과값에 따라 수정 예정
- 에포치 값 수정
  - 20에서 10으로 수정
- '9. 학습 및 평가'에서 특이점
  1. GPU진행
  - 1차 테스트
    - 20분 이상 학습 중간에 갑자기 중단됨

  - 2차 테스트
    - 배치사이즈 _ 256으로 진행
    - 에러 메세지
    - OutOfMemoryError: CUDA out of memory. Tried to allocate 19.18 GiB. GPU
      - 배치 사이즈 256에서 128으로 수정

  - 3차 테스트
    - 배치사이즈 _ 128으로 진행
    - 에러 메세지
    - OutOfMemoryError: CUDA out of memory. Tried to allocate 12.27 GiB. GPU
      - 배치 사이즈 128에서 64으로 수정
  
  - 4차 테스트
    - 배치사이즈 _ 64으로 진행
    - 에러 메세지
    - OutOfMemoryError: CUDA out of memory. Tried to allocate 6.14 GiB. GPU
      - 배치 사이즈 64에서 32으로 수정
  
  - 5차 테스트
    - 배치사이즈 _ 32으로 진행
    - 에러 메세지
    - OutOfMemoryError: CUDA out of memory. Tried to allocate 3.07 GiB. GPU
      - 배치 사이즈 32에서 16으로 수정
    
  - 6차 테스트
    - 배치사이즈 _ 16으로 진행
    - 에러 메세지
    - OutOfMemoryError: CUDA out of memory. Tried to allocate 1.54 GiB. GPU
      - 배치 사이즈 16에서 8으로 수정

  - 7차 테스트
    - 배치사이즈 _ 8으로 진행
    - 에러 메세지
    - OutOfMemoryError: CUDA out of memory. Tried to allocate 16.00 MiB. GPU

- **더 이상 낮추는 것은 아닌 것 같아 배치사이즈를 다시 256으로 올리고 해결 방안 찾는 중**

- **GPU 백엔드에 연결할 수 없음**

  **현재 Colab의 사용량 제한으로 인해 GPU에 연결할 수 없습니다.**


# **테스트 할 문장 입력 예시 5가지**
 - 그 외에 필요하거나 추가적으로 다른 문장으로 테스트 할 예정

**입력 예시 1**
 - 인공지능은 인간의 지능을 모방한 컴퓨터 시스템을 의미합니다. 최근 몇 년 동안 인공지능 기술은 비약적으로 발전하였으며, 많은 분야에서 활용되고 있습니다. 예를 들어, 자율주행차, 의료 진단, 금융 예측 등 다양한 산업에서 인공지능이 사용되고 있습니다. 이러한 기술 발전은 우리의 생활을 크게 변화시키고 있습니다.

**입력 예시2**
 - 머신러닝은 데이터에서 패턴을 학습하고 예측을 수행하는 알고리즘의 한 종류입니다. 머신러닝의 주요 응용 분야로는 음성 인식, 이미지 분류, 자연어 처리 등이 있습니다. 특히 딥러닝은 복잡한 데이터 패턴을 학습하는 데 뛰어난 성능을 보여주고 있어 많은 연구와 산업에서 주목받고 있습니다.

**입력 예시 3**
 - 코로나19 팬데믹은 전 세계에 큰 영향을 미쳤습니다. 많은 나라들이 봉쇄 조치를 취하고, 비대면 업무와 온라인 수업이 일상화되었습니다. 백신 개발과 접종이 진행되면서 점차 정상화의 길을 걷고 있지만, 변이 바이러스의 등장으로 여전히 주의가 필요합니다. 이와 함께, 코로나19는 우리의 사회적, 경제적 구조에 많은 변화를 가져왔습니다.

**입력 예시 4**
 - 기후 변화는 지구 환경에 심각한 영향을 미치고 있습니다. 온실가스 배출로 인한 지구 온난화가 가속화되면서 해수면 상승, 이상 기후 현상, 생태계 파괴 등이 발생하고 있습니다. 이를 해결하기 위해서는 국제적인 협력과 지속 가능한 발전 노력이 필요합니다. 또한, 개인의 환경 보호 실천도 중요합니다.

**입력 예시 5**
 - 최근 연구에 따르면, 충분한 수면은 건강에 매우 중요합니다. 수면 부족은 심혈관 질환, 당뇨병, 비만 등 여러 건강 문제를 일으킬 수 있습니다. 하루 7-8시간의 양질의 수면을 취하는 것이 권장됩니다. 이를 위해 규칙적인 수면 습관을 유지하고, 전자기기 사용을 줄이는 등의 노력이 필요합니다.

# **1. 필요한 라이브러리 설치**

In [1]:
!pip install transformers
!pip install torch
!pip install sentencepiece
!pip install datasets
!pip install transformers torch sklearn
!pip install pyngrok
!pip install matplotlib-venn
!apt-get -qq install -y libfluidsynth1
!pip install pytorch_lightning
!pip install torchmetrics
!pip install pytorch-lightning
!pip install kss
!pip install pytorch-lightning
!pip install torchmetrics
!pip install Summarizer
!pip install Summarizer
!pip install transformers

Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch)
  Using cached nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.0.2.54 (from torch)
  Using cached nvidia_cufft_cu12-11.0.2.54-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-curand-cu12==10.3.2.106 (from torch)
  Using cached nvidia_curand_cu12-10.3.2.106-py3-

# **2. 필요한 라이브러리 임포트**

In [2]:
# 표준 라이브러리 및 데이터 처리 라이브러리 임포트
import math
import pandas as pd
import numpy as np
from tqdm.auto import tqdm
import json

# PyTorch 및 관련 라이브러리 임포트
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
import torch.optim as optim

# Hugging Face Transformers 라이브러리 임포트
from transformers import BertModel, BertTokenizer, AdamW, BartTokenizer, BartForConditionalGeneration, get_linear_schedule_with_warmup
from torch.nn.init import xavier_uniform_

# PyTorch Lightning 및 관련 콜백, 로거 임포트
import pytorch_lightning as pl
from torchmetrics.functional import accuracy, f1_score, auroc
from pytorch_lightning.callbacks import ModelCheckpoint, EarlyStopping
from pytorch_lightning.loggers import TensorBoardLogger

# Scikit-learn 라이브러리 임포트
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, multilabel_confusion_matrix

# 데이터 시각화 라이브러리 임포트
import seaborn as sns
from pylab import rcParams
import matplotlib.pyplot as plt
from matplotlib import rc
import kss

# 추가 패키지 임포트
import nltk
import sentencepiece

# PyTorch 및 PyTorch Lightning에서 사용할 추가 라이브러리 임포트
import torch
import torch.nn as nn
import torch.nn.functional as F

# Colab에서 matplotlib 설정
%matplotlib inline
%config InlineBackend.figure_format='retina'

# **3. 시드 및 하이퍼파라미터 설정**

In [38]:
# 랜덤 시드를 설정하여 실험의 재현성을 확보
RANDOM_SEED = 42

# PyTorch Lightning에서 랜덤 시드를 설정
# 이는 모든 난수 생성기에 동일한 시드를 적용하여 재현성을 보장
pl.seed_everything(RANDOM_SEED)

# 최대 토큰 수를 설정
# 이는 입력 텍스트가 최대 512개의 토큰으로 잘리도록 함
MAX_TOKEN_COUNT = 512

# 학습 에포크 수를 설정
# 모델이 전체 데이터셋을 몇 번 반복해서 학습할지를 결정
N_EPOCHS = 10

# 배치 크기를 설정
# 한 번에 학습할 데이터 샘플의 수를 의미
BATCH_SIZE = 256
# 조금씩 올려보기_ 2배
# 안되면 반씩
# 문제 없을 시 진행

# 설정 값 설명
# RANDOM_SEED: 42는 흔히 사용되는 시드 값으로, 실험의 재현성을 보장하기 위해 사용됨
# MAX_TOKEN_COUNT: BERT 모델의 입력 크기 제한에 따라 512로 설정됨 / 이는 BERT의 최대 입력 토큰 수임
# N_EPOCHS: 20은 적절한 학습 시간과 과적합 방지 사이의 균형을 맞추기 위해 선택됨 / 데이터셋의 크기와 모델의 복잡성에 따라 조정될 수 있음
# BATCH_SIZE: 8은 GPU 메모리 한계를 고려하여 설정된 값 / 배치 크기는 학습 안정성과 속도에 영향을 미침

INFO:lightning_fabric.utilities.seed:Seed set to 42


# **4. 데이터셋 로드 및 전처리**

In [39]:
# 데이터셋 파일 경로 설정
DATA_TRAIN_PATH = '/content/train_original 1.json'
DATA_TEST_PATH = '/content/valid_original 1.json'

# JSON 파일을 로드하는 함수 정의
def load_json(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8-sig', errors='ignore') as f:
            data = f.read()
    except UnicodeDecodeError:
        with open(file_path, 'r', encoding='latin-1', errors='ignore') as f:
            data = f.read()
    return data

# JSON 데이터를 파싱하는 함수 정의
def parse_json(data):
    try:
        return json.loads(data)
    except json.JSONDecodeError as e:
        print(f"JSON 디코딩 오류: {e}")
        return None

# JSON 데이터의 구조를 출력하는 함수 정의
def print_json_structure(data, num_items=5):
    for i, doc in enumerate(data):
        if i >= num_items:
            break
        print(json.dumps(doc, indent=2, ensure_ascii=False))

# JSON 파일을 로드하고 파싱
train_data = load_json(DATA_TRAIN_PATH)
test_data = load_json(DATA_TEST_PATH)

train_json = parse_json(train_data)
test_json = parse_json(test_data)

# JSON 파싱 오류 확인
if train_json is None or test_json is None:
    raise ValueError("JSON 파일을 파싱하는 데 실패했습니다.")

# Train 데이터 구조 출력
print("Train JSON 데이터 구조:")
print_json_structure(train_json['documents'])

# Test 데이터 구조 출력
print("Test JSON 데이터 구조:")
print_json_structure(test_json['documents'])

# pandas를 사용하여 DataFrame으로 변환
try:
    df = pd.DataFrame(train_json['documents'])
    df = df.dropna()
    test_df = pd.DataFrame(test_json['documents'])
    test_df = test_df.dropna()
    print("pandas로 JSON 파일을 성공적으로 로드했습니다.")
except ValueError as e:
    print(f"pandas JSON 로드 오류: {e}")
    raise

# 데이터 구조 확인
print(df.head())

# 학습 데이터와 검증 데이터로 분할
train_df, val_df = train_test_split(df, test_size=0.05)
train_df = train_df.reset_index(drop=True)
val_df = val_df.reset_index(drop=True)

# 데이터 다운사이즈
downsize = 2000
train_df = train_df[:downsize]
test_df = test_df[:downsize//10]
val_df = val_df[:downsize//10]

# 데이터 전처리 함수 정의
def preprocess_data(data):
    outs = []
    for i, doc in data.iterrows():
        line = []
        # 키 이름이 다를 경우 수정
        line.append(doc.get('media_name', ''))
        line.append(doc.get('id', ''))
        para = []
        for sent in doc.get('text', []):
            for s in sent:
                para.append(s.get('sentence', ''))
        line.append(para)
        line.append(doc.get('abstractive', [''])[0])
        line.append(doc.get('extractive', []))
        a = doc.get('extractive', [])
        if len(a) < 3 or a[0] is None or a[1] is None or a[2] is None:
            continue
        outs.append(line)
    outs_df = pd.DataFrame(outs)
    outs_df.columns = ['media', 'id', 'article_original', 'abstractive', 'extractive']
    return outs_df

# 전처리된 데이터
train_df = preprocess_data(train_df)
test_df = preprocess_data(test_df)
val_df = preprocess_data(val_df)

Train JSON 데이터 구조:
{
  "id": "100004",
  "category": "일반행정",
  "size": "small",
  "char_count": 377,
  "publish_date": "19841226",
  "title": "부당노동행위구제재심판정취소",
  "text": [
    [
      {
        "index": 0,
        "sentence": "원고가 소속회사의 노동조합에서 분규가 발생하자 노조활동을 구실로 정상적인 근무를 해태하고,",
        "highlight_indices": ""
      },
      {
        "index": 1,
        "sentence": "노조조합장이 사임한 경우,",
        "highlight_indices": ""
      },
      {
        "index": 2,
        "sentence": "노동조합규약에 동 조합장의 직무를 대행할 자를 규정해 두고 있음에도 원고 자신이 주동하여 노조자치수습대책위원회를 구성하여 그 위원장으로 피선되어 근무시간중에도 노조활동을 벌여 운수업체인 소속회사의 업무에 지장을 초래하고",
        "highlight_indices": "8,9;68,69"
      },
      {
        "index": 3,
        "sentence": "종업원들에게도 나쁜 영향을 끼쳐 소속회사가 취업규칙을 위반하고",
        "highlight_indices": ""
      },
      {
        "index": 4,
        "sentence": "고의로 회사업무능률을 저해하였으며 회사업무상의 지휘명령에 위반하였음을 이유로 원고를 징계해고 하였다면,",
        "highlight_indices": "0,3"
      },
      {
        "index": 5,
        "sentence": "이는 원고의 노동조합 활동과는 관계

# **5. BERT 모델과 토크나이저 로드**

In [40]:
# BERT 모델 이름 설정
BERT_MODEL_NAME = 'bert-base-uncased'

# 사전 학습된 BERT 토크나이저 로드
tokenizer = BertTokenizer.from_pretrained(BERT_MODEL_NAME)

# 주석 설명
# BERT_MODEL_NAME: 'bert-base-uncased'는 소문자에 민감하지 않은 기본 BERT 모델을 의미
# BertTokenizer.from_pretrained: Hugging Face Transformers 라이브러리에서 사전 학습된 BERT 토크나이저를 로드
# 이 토크나이저는 BERT 모델과 일관되게 텍스트를 토큰으로 변환하는 데 사용

# **6. 데이터셋 클래스 정의**

In [41]:
class SummDataset(Dataset):
    def __init__(self, data: pd.DataFrame, tokenizer: BertTokenizer, max_token_len: int = 512):
        self.tokenizer = tokenizer
        self.data = data
        self.max_token_len = max_token_len
        self.vocab_size = tokenizer.vocab_size  # BERT 모델의 vocab_size 설정

    def __len__(self):
        return len(self.data)  # 데이터의 길이 반환

    def __getitem__(self, index: int):
        data_row = self.data.iloc[index]  # 주어진 인덱스의 데이터 행 가져오기
        tokenlist = []
        for sent in data_row.article_original:  # 각 문장을 토큰화
            tokens = self.tokenizer.encode(sent, add_special_tokens=True, truncation=True, max_length=self.max_token_len)
            tokens = [token if token < self.vocab_size else self.tokenizer.unk_token_id for token in tokens]  # 인덱스 범위 제한
            tokenlist.append(tokens)

        src = []  # 토크나이징 된 전체 문단
        labels = []  # 요약문에 해당하면 1, 아니면 0으로 문장수 만큼 생성
        segs = []  # 각 토큰에 대해 홀수번째 문장이면 0, 짝수번째 문장이면 1을 매핑
        clss = []  # [CLS] 토큰의 포지션값을 지정

        odd = 0
        for tkns in tokenlist:
            if odd > 1 : odd = 0
            clss = clss + [len(src)]
            src = src + tkns
            segs = segs + [odd] * len(tkns)
            if tokenlist.index(tkns) in data_row.extractive:
                labels = labels + [1]
            else:
                labels = labels + [0]
            odd += 1

            # 문장 길이 제한 (truncation)
            if len(src) >= self.max_token_len:
                src = src[:self.max_token_len - 1] + [self.tokenizer.sep_token_id]
                segs = segs[:self.max_token_len]
                break

        # 패딩 (padding)
        if len(src) < self.max_token_len:
            src = src + [self.tokenizer.pad_token_id] * (self.max_token_len - len(src))
            segs = segs + [0] * (self.max_token_len - len(segs))

        if len(clss) < self.max_token_len:
            clss = clss + [0] * (self.max_token_len - len(clss))  # 패딩 값을 0으로 변경
        if len(labels) < self.max_token_len:
            labels = labels + [0] * (self.max_token_len - len(labels))

        return dict(
            input_ids=torch.tensor(src, dtype=torch.long),  # 인덱스 범위 제한된 토큰 리스트를 텐서로 변환
            attention_mask=torch.tensor(segs, dtype=torch.long),  # attention mask를 텐서로 변환
            decoder_input_ids=torch.tensor(clss, dtype=torch.long),  # [CLS] 토큰 위치 리스트를 텐서로 변환
            labels=torch.tensor(labels, dtype=torch.long)  # 레이블 리스트를 LongTensor로 변환
        )

# **7. 데이터 모듈 정의**

In [42]:
class SummDataModule(pl.LightningDataModule):
    def __init__(self, train_df, test_df, val_df, tokenizer, batch_size=1, max_token_len=512):
        super().__init__()
        self.batch_size = batch_size
        self.train_df = train_df
        self.test_df = test_df
        self.val_df = val_df
        self.tokenizer = tokenizer
        self.max_token_len = max_token_len

    def setup(self, stage=None):
        self.train_dataset = SummDataset(self.train_df, self.tokenizer, self.max_token_len)  # 학습 데이터셋 설정
        self.test_dataset = SummDataset(self.test_df, self.tokenizer, self.max_token_len)  # 테스트 데이터셋 설정
        self.val_dataset = SummDataset(self.val_df, self.tokenizer, self.max_token_len)  # 검증 데이터셋 설정

    def train_dataloader(self):
        return DataLoader(self.train_dataset, batch_size=self.batch_size, shuffle=True, num_workers=0)  # 학습 데이터로더

    def val_dataloader(self):
        return DataLoader(self.test_dataset, batch_size=self.batch_size, num_workers=0)  # 검증 데이터로더

    def test_dataloader(self):
        return DataLoader(self.val_dataset, batch_size=self.batch_size, num_workers=0)  # 테스트 데이터로더

# 데이터 모듈 인스턴스 생성
data_module = SummDataModule(train_df, test_df, val_df, tokenizer, batch_size=BATCH_SIZE, max_token_len=MAX_TOKEN_COUNT)

# **8. 모델 클래스 정의**

In [43]:
class Summarizer(pl.LightningModule):
    def __init__(self, n_training_steps=None, n_warmup_steps=0):
        super(Summarizer, self).__init__()
        self.model_name = "facebook/bart-large-cnn"
        self.tokenizer = BartTokenizer.from_pretrained(self.model_name)
        self.model = BartForConditionalGeneration.from_pretrained(self.model_name)
        self.n_training_steps = n_training_steps
        self.n_warmup_steps = n_warmup_steps
        self.loss = nn.CrossEntropyLoss()

    def forward(self, input_ids, attention_mask, decoder_input_ids, labels=None):
        outputs = self.model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            decoder_input_ids=decoder_input_ids,
            labels=labels
        )
        return outputs.loss, outputs.logits

    def training_step(self, batch, batch_idx):
        input_ids = batch['input_ids']
        attention_mask = batch['attention_mask']
        decoder_input_ids = batch['decoder_input_ids']
        labels = batch['labels']

        # 입력값 검증
        assert torch.all(input_ids < self.model.config.vocab_size), "input_ids has out of range token"
        assert torch.all(input_ids >= 0), "input_ids has negative token"
        assert torch.all(decoder_input_ids < self.model.config.vocab_size), "decoder_input_ids has out of range token"
        assert torch.all(decoder_input_ids >= 0), "decoder_input_ids has negative token"

        loss, logits = self(input_ids, attention_mask, decoder_input_ids, labels)
        self.log("train_loss", loss, prog_bar=True, logger=True)
        return loss

    def validation_step(self, batch, batch_idx):
        input_ids = batch['input_ids']
        attention_mask = batch['attention_mask']
        decoder_input_ids = batch['decoder_input_ids']
        labels = batch['labels']

        # 입력값 검증
        assert torch.all(input_ids < self.model.config.vocab_size), "input_ids has out of range token"
        assert torch.all(input_ids >= 0), "input_ids has negative token"
        assert torch.all(decoder_input_ids < self.model.config.vocab_size), "decoder_input_ids has out of range token"
        assert torch.all(decoder_input_ids >= 0), "decoder_input_ids has negative token"

        loss, logits = self(input_ids, attention_mask, decoder_input_ids, labels)
        self.log("val_loss", loss, prog_bar=True, logger=True)
        return loss

    def test_step(self, batch, batch_idx):
        input_ids = batch['input_ids']
        attention_mask = batch['attention_mask']
        decoder_input_ids = batch['decoder_input_ids']
        labels = batch['labels']

        # 입력값 검증
        assert torch.all(input_ids < self.model.config.vocab_size), "input_ids has out of range token"
        assert torch.all(input_ids >= 0), "input_ids has negative token"
        assert torch.all(decoder_input_ids < self.model.config.vocab_size), "decoder_input_ids has out of range token"
        assert torch.all(decoder_input_ids >= 0), "decoder_input_ids has negative token"

        loss, logits = self(input_ids, attention_mask, decoder_input_ids, labels)
        self.log("test_loss", loss, prog_bar=True, logger=True)
        return loss

    def configure_optimizers(self):
        optimizer = AdamW(self.parameters(), lr=2e-5)
        steps_per_epoch = len(train_df) // BATCH_SIZE
        total_training_steps = steps_per_epoch * N_EPOCHS
        scheduler = get_linear_schedule_with_warmup(
            optimizer,
            num_warmup_steps=self.n_warmup_steps,
            num_training_steps=total_training_steps
        )
        return [optimizer], [scheduler]

# **9. 학습 및 평가**

In [44]:
# 모델 인스턴스 생성
model = Summarizer(
    n_training_steps=len(train_df) // BATCH_SIZE * N_EPOCHS,
    n_warmup_steps=100
)

# 트레이너 설정
trainer = pl.Trainer(
    max_epochs=N_EPOCHS,
    accelerator='gpu' if torch.cuda.is_available() else 'cpu',
    devices=1  # GPU 또는 CPU 장치 개수를 1로 설정
)

# 모델 학습
trainer.fit(model, data_module)

# 모델 평가
trainer.test(model, datamodule=data_module)

INFO:pytorch_lightning.utilities.rank_zero:GPU available: True (cuda), used: True
INFO:pytorch_lightning.utilities.rank_zero:TPU available: False, using: 0 TPU cores
INFO:pytorch_lightning.utilities.rank_zero:HPU available: False, using: 0 HPUs
INFO:pytorch_lightning.accelerators.cuda:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]
INFO:pytorch_lightning.callbacks.model_summary:
  | Name  | Type                         | Params | Mode 
---------------------------------------------------------------
0 | model | BartForConditionalGeneration | 406 M  | eval 
1 | loss  | CrossEntropyLoss             | 0      | train
---------------------------------------------------------------
406 M     Trainable params
0         Non-trainable params
406 M     Total params
1,625.162 Total estimated model params size (MB)


Sanity Checking: |          | 0/? [00:00<?, ?it/s]

Training: |          | 0/? [00:00<?, ?it/s]

OutOfMemoryError: CUDA out of memory. Tried to allocate 16.00 MiB. GPU 

# **10. 사용자 입력을 통한 요약 수행**

In [None]:
# 모델과 토크나이저 로드
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')

# 미리 학습된 모델을 로드 (학습된 가중치 파일 경로를 지정)
model = Summarizer()

# 가중치 파일 경로를 정확하게 설정합니다.
pretrained_model_path = 'summarizer_model.pt'  # 여기에 실제 가중치 파일 경로를 입력하세요

try:
    model.load_state_dict(torch.load(pretrained_model_path, map_location=torch.device('cpu')))
    model.eval()
except FileNotFoundError:
    print(f"Error: The file {pretrained_model_path} was not found. Please check the path and try again.")
    exit(1)

# 사용자 입력 받기
user_input = input("요약할 텍스트를 입력하세요: ")

# 요약 수행 함수 정의
def summarize_text(text):
    inputs = tokenizer(text, return_tensors='pt', max_length=512, truncation=True, padding='max_length')
    input_ids = inputs['input_ids']
    attention_mask = inputs['attention_mask']

    with torch.no_grad():
        summary_ids = model.model.generate(input_ids, attention_mask=attention_mask, max_length=150, num_beams=4, length_penalty=2.0, early_stopping=True)

    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
    return summary

# 요약 결과 출력
summary = summarize_text(user_input)

print("입력된 문장:", user_input)
print("요약 결과:", summary)

# 주석 설명
# tokenizer: BART 토크나이저를 로드
# model: Summarizer 모델을 로드하고 가중치 파일을 불러옴
# summarize_text: 입력 텍스트를 요약하는 함수
# 요약 결과 출력: 사용자 입력 텍스트와 요약 결과를 출력