In [1]:
try:
    from google.colab import drive
    drive.mount("/content/drive")
except:
    raise AssertionError()

Mounted at /content/drive


In [2]:
cd /content/drive/MyDrive/DeepLearning/KoBart/KoBART-summarization

/content/drive/MyDrive/DeepLearning/KoBart/KoBART-summarization


In [10]:
# Mecab 설치
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip3 install konlpy JPype1-py3
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

!echo "dicdir = /usr/local/lib/mecab/dic/mecab-ko-dic" | sudo tee -a /usr/local/etc/mecabrc

# mecab-python의 버전 오류로 인해 아래 패키지를 설치하면 코랩에서 Mecab을 사용가능
!pip install mecab-python3

0% [Working]            Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
0% [Waiting for headers] [Waiting for headers] [Waiting for headers] [Connecting to ppa.launchpadcon                                                                                                    Hit:2 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
0% [Waiting for headers] [Waiting for headers] [Connected to ppa.launchpadcontent.net (185.125.190.8                                                                                                    Hit:3 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
0% [Waiting for headers] [Waiting for headers] [Connected to ppa.launchpadcontent.net (185.125.190.8                                                                                                    Hit:4 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
0% [Waiting for headers] [Waiting for headers] [Connected to ppa.launchpadcont

In [11]:
# 정상 동작 확인
from konlpy.tag import Mecab

mecab = Mecab()

In [12]:
mecab.morphs('한글 형태소 분석기(미켑)로 테스트를 해보았습니다. 정상 설치 및 동작이 잘 됩니다.')

['한글',
 '형태소',
 '분석기',
 '(',
 '미',
 '켑',
 ')',
 '로',
 '테스트',
 '를',
 '해',
 '보',
 '았',
 '습니다',
 '.',
 '정상',
 '설치',
 '및',
 '동작',
 '이',
 '잘',
 '됩니다',
 '.']

In [13]:
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration


# 실제 Hugging Face 토큰으로 교체
# token = "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"

tokenizer = PreTrainedTokenizerFast.from_pretrained("gogamza/kobart-base-v1")
model = BartForConditionalGeneration.from_pretrained("gogamza/kobart-base-v1")

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


model.safetensors:   0%|          | 0.00/495M [00:00<?, ?B/s]

In [14]:
import pandas as pd

# 테스트 데이터셋 로드
test_data_path = '/content/drive/MyDrive/DeepLearning/KoBart/KoBART-summarization/data/test_100.tsv'
test_df = pd.read_csv(test_data_path, delimiter='\t')

In [15]:
!pip install rouge



In [16]:
from konlpy.tag import Mecab  # konlpy에서 Mecab 모듈 가져오기
from rouge import Rouge

# Mecab 초기화
mecab = Mecab()  # Mecab()을 사용하여 초기화

# 정확도 누적 변수 초기화
total_accuracy = {'rouge-1': 0.0, 'rouge-2': 0.0, 'rouge-l': 0.0}
results = []

def calculate_rouge(reference, generated_tokens):
    # 레퍼런스 텍스트를 mecab을 사용하여 토큰화
    reference_tokens = mecab.morphs(reference)

    # 토큰 목록을 문자열로 변환
    generated_summary = ' '.join(generated_tokens)
    reference_summary = ' '.join(reference_tokens)

    rouge = Rouge()
    scores = rouge.get_scores(generated_summary, reference_summary)

     # 'rouge-1'에 대한 F1 점수
    rouge_1_score = scores[0]['rouge-1']['f']
    # 'rouge-2'에 대한 F1 점수
    rouge_2_score = scores[0]['rouge-2']['f']
    # 'rouge-l'에 대한 F1 점수
    rouge_l_score = scores[0]['rouge-l']['f']

    return {'rouge-1': rouge_1_score, 'rouge-2': rouge_2_score, 'rouge-l': rouge_l_score}

# 테스트 데이터셋 순회
for index, row in test_df.iterrows():
    # 입력 텍스트를 토큰화하여 인코딩
    input_ids = tokenizer.encode(row['news'], return_tensors="pt", max_length=1024, truncation=True)

    # 모델을 사용하여 요약 생성
    summary_ids = model.generate(input_ids, max_length=110, min_length=20, length_penalty=2.0, num_beams=4, early_stopping=True)

    # 요약 결과 디코딩
    generated_summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

    # 모델이 생성한 요약 텍스트를 mecab을 사용하여 토큰화
    generated_tokens = mecab.morphs(generated_summary)

    # 정확도 계산 및 누적
    # accuracy = calculate_accuracy(row['summary'], generated_summary)
    # 정확도 계산을 ROUGE 스코어로 대체
    accuracy = calculate_rouge(row['summary'], generated_tokens)
    total_accuracy['rouge-1'] += accuracy['rouge-1']
    total_accuracy['rouge-2'] += accuracy['rouge-2']
    total_accuracy['rouge-l'] += accuracy['rouge-l']

    # 결과 저장
    results.append({
        'index': index,
        'actual_summary': row['summary'],
        'generated_summary': generated_summary,
        'generated_tokens': generated_tokens,  # 토큰화된 결과 저장
        'accuracy': accuracy
    })

    # 결과 출력
    print(f"Index: {index}")
    print(f"Actual Summary: {row['summary']}")
    print(f"Generated Summary: {generated_summary}")
    print(f"Accuracy (ROUGE-1): {accuracy['rouge-1']}")
    print(f"Accuracy (ROUGE-2): {accuracy['rouge-2']}")
    print(f"Accuracy (ROUGE-l): {accuracy['rouge-l']}")
    print("="*50)

# 평균 정확도 계산
average_accuracy = {
    'rouge-1': total_accuracy['rouge-1'] / len(test_df),
    'rouge-2': total_accuracy['rouge-2'] / len(test_df),
    'rouge-l': total_accuracy['rouge-l'] / len(test_df)
}

# 평균 정확도 출력
print("평균 ROUGE-1 스코어:", average_accuracy['rouge-1'])
print("평균 ROUGE-2 스코어:", average_accuracy['rouge-2'])
print("평균 ROUGE-l 스코어:", average_accuracy['rouge-l'])

Index: 0
Actual Summary: 태왕의 '성당 태왕아너스 메트로'모델하우스는 초역세권 입지와 변화하는 라이프스타일에 맞춘 혁신평면으로 오픈 당일부터 관람객의 줄이 이어지면서 관람객의 호평을 받았다.
Generated Summary: - ‘ ‘ 은 은 6개월 6개월 전 전매가능 기자 아파트 분양시장이 실수요자 중심으로 바뀌면서 초역세권 입지와 변화하는 변화 변화하는 라이프스타일에 맞춘 혁신평면이 아파트 선택에 미치는 영향 영향 영향 영향 영향력이 커지고 있다. 태왕이 지난 22일 공개한 ‘성당 태왕아방 태왕아너스 메트로’ 모델하우스를 찾은 방문객들은 초역세권 입지에다 혁신평면에 다시 한번 호평을 보냈다. 오픈 오픈 현 현 현 현 현 상 상 상 상 상 ‘ 모델 모델 모델 모델
Accuracy (ROUGE-1): 0.5384615338775888
Accuracy (ROUGE-2): 0.28148147725212624
Accuracy (ROUGE-l): 0.4999999954160504
Index: 1
Actual Summary: 최근 늘어나고 있는 집회시위에서 소음이 문제가 되고 있는데 현행 집회와 시위에 관한 법률에서는 소음을 규제하고 있으나 그 기준이 일반 시민이 느끼는 기준과 괴리감이 심해 집회인들은 자신들의  요구를 전달하기 위해 확성기 사용은 불가피하다고 주장하고 있고 대다수 주민들은 소음으로 인해 많은 불편함을 느끼고 있다.
Generated Summary: 박 옆 옆방에서 장난감 소리가 들려 온다. 가족 행사로 모 모 모 모 집에 온 조카의 반복되는 장난감 소음은 나의 단잠을 깨우기에 충분하다. 하물며 이른 새벽 아무리 방음이 잘 잘 잘 잘 잘 집이라도, 밖에서 들려 들려오는 노동가와 장송곡 소리를 그냥 넘어가기는 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 쉽지 것이다. 것이다. 것이다. 것이다. ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲
Accuracy (ROU