## Load Dataset

In [None]:
import pandas as pd
diary = pd.read_csv("diary_cleansing.csv")

In [None]:
diary.head()

Unnamed: 0,diary,summary,hashtag
0,아침 일찍 일어나서 운동복을 입고 운동을 시작했다.처음에는 조금 어색하고 귀찮은 감...,매일 규칙적인 운동 습관을 만들기 위해 노력한 하루였다. 다양한 운동을 시도하며 체...,#매일운동 #규칙적운동 #건강한삶 #체력향상 #운동습관
1,아침에는 건강한 식단으로 시작하기 위해 곡물과 채소가 풍부한 식사를 준비했다.신선한...,건강한 식습관을 채택하고 유지하기 위해 노력한 하루였다. 곡물과 채소를 중심으로 균...,#건강한식습관 #식단관리 #영양균형 #천천히식사 #건강한삶
2,언어 학습 앱을 다운로드하고 기초부터 차근차근 공부했다.알파벳과 발음부터 시작하여 ...,새로운 언어를 배우기 위해 꾸준한 학습과 실전 연습을 통해 언어 실력을 향상시키는 ...,#새로운언어배우기 #언어학습 #꾸준한노력 #언어실력향상 #자신감키우기
3,"먼저, 관련 서적과 온라인 자료를 찾아 읽으며 기초 지식을 쌓았다.이해가 어려운 개...",새로운 기술이나 도메인에 대해 공부하여 전문성을 향상시키는 노력을 하루 동안 기록했다.,#전문성향상 #새로운기술공부 #지식습득 #실전경험 #꾸준한학습
4,일어나서부터 긴장과 설렘이 가득한 마음으로 시험장에 도착했어요.시험 시작 전에는 복...,오늘은 자격증 취득을 통해 전문가 레벨의 업무 능력을 갖추기 위한 시험을 보았어요....,#자격증취득 #전문가능력 #노력과학습 #자부심 #발전


In [None]:
!pip install transformers --upgrade




[notice] A new release of pip is available: 23.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
from datasets import load_dataset
diary_dataset = load_dataset("csv", data_files = "diary_cleansing.csv")

In [None]:
diary_dataset

DatasetDict({
    train: Dataset({
        features: ['diary', 'summary', 'hashtag'],
        num_rows: 3121
    })
})

In [None]:
# diary열 제거
diary_dataset = diary_dataset.remove_columns('diary')

In [None]:
# Split train, test
from datasets import DatasetDict

num_total = len(diary_dataset['train'])
num_train = int(num_total * 0.9)

# Shuffle
torch.manual_seed(42)
dariy_dataset = diary_dataset["train"].shuffle(seed = 42)

diary_dataset = DatasetDict({
    "train": diary_dataset['train'].select(list(range(num_train))),
    "test": diary_dataset['train'].select(list(range(num_train, num_total)))
})
diary_dataset

DatasetDict({
    train: Dataset({
        features: ['summary', 'hashtag'],
        num_rows: 2808
    })
    test: Dataset({
        features: ['summary', 'hashtag'],
        num_rows: 313
    })
})

In [None]:
import torch
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

In [None]:
device

device(type='cuda')

## Summarization

In [None]:
from transformers import (
    AutoTokenizer,
    BartForConditionalGeneration,
    Seq2SeqTrainingArguments,
    Seq2SeqTrainer,
    DataCollatorForSeq2Seq,
    EarlyStoppingCallback
)
from tokenizers import Tokenizer
from typing import Dict, List, Optional
from torch.utils.data import Dataset

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from IPython.display import display
from typing import Dict

In [None]:
# Load Model and Tokenize
model_name = "gogamza/kobart-summarization"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


In [None]:
max_input_length = 150
max_target_length = 50

def preprocess_function(ex):
  model_inputs = tokenizer(ex['summary'], max_length = max_input_length, padding = 'max_length', truncation = True)

  # 타겟을 위한 토크나이저 설정
  with tokenizer.as_target_tokenizer():
    labels = tokenizer(ex['hashtag'], max_length = max_target_length, padding = 'max_length', truncation = True)
  model_inputs['labels'] = labels['input_ids']
  return model_inputs

In [None]:
tokenized_dataset = diary_dataset.map(preprocess_function)

Map:   0%|          | 0/2808 [00:00<?, ? examples/s]



In [None]:
tokenized_dataset

DatasetDict({
    train: Dataset({
        features: ['summary', 'hashtag', 'input_ids', 'attention_mask', 'labels'],
        num_rows: 2808
    })
    test: Dataset({
        features: ['summary', 'hashtag', 'input_ids', 'attention_mask', 'labels'],
        num_rows: 313
    })
})

In [None]:
tokenized_dataset = tokenized_dataset.remove_columns(diary_dataset['train'].column_names)

In [None]:
tokenized_dataset

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 2808
    })
    test: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 313
    })
})

In [None]:
# Train data max input tokens
max(len(x) for x in tokenized_dataset['train']['input_ids'])

150

In [None]:
# Test data max input tokens
max(len(x) for x in tokenized_dataset['test']['input_ids'])

150

In [None]:
# Train data max output tokens
max(len(x) for x in tokenized_dataset['train']['labels'])

50

In [None]:
# Test data max output tokens
max(len(x) for x in tokenized_dataset['test']['labels'])

50

In [None]:
from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer = tokenizer)

## Metrics : Rouge score

In [None]:
!pip install rouge-score




[notice] A new release of pip is available: 23.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
from rouge_score import rouge_scorer

rouge_score = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rouge3', 'rougeL'], use_stemmer=True)

In [None]:
#from datasets import load_metric
#rouge_score = load_metric('rouge')

  rouge_score = load_metric('rouge')
You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this metric from the next major release of `datasets`.


In [None]:
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens = True)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    rouge_output = rouge_score.compute(predictions=decoded_preds, references=decoded_labels)
    return rouge_output

## Train

In [None]:
!pip install ipywidgets




[notice] A new release of pip is available: 23.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [None]:
batch_size = 8
epochs = 1
logging_steps = len(tokenized_dataset['train']) // batch_size
model_path = "C:/Users/user/Documents/EWHA/log/log/modelling/"

training_args = Seq2SeqTrainingArguments(
    output_dir=model_path,
    overwrite_output_dir=True,
    evaluation_strategy = 'steps',
    learning_rate = 5.6e-5,
    weight_decay = 0.01,
    num_train_epochs=epochs,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    save_steps=1000,
    warmup_steps=300,
    prediction_loss_only=True,
    predict_with_generate = True,
    save_total_limit=3,
    load_best_model_at_end=True,
    push_to_hub = True
    )

early_stopping_callback = EarlyStoppingCallback(early_stopping_patience=3, early_stopping_threshold=0)

trainer = Seq2SeqTrainer(
    model = model,
    args = training_args,
    data_collator = data_collator,
    callbacks=[early_stopping_callback],
    train_dataset = tokenized_dataset['train'],
    eval_dataset = tokenized_dataset['test'],
    compute_metrics=compute_metrics
)

In [None]:
trainer.train()

Step,Training Loss,Validation Loss


TrainOutput(global_step=351, training_loss=2.3390308173633367, metrics={'train_runtime': 39.891, 'train_samples_per_second': 70.392, 'train_steps_per_second': 8.799, 'total_flos': 250801754112000.0, 'train_loss': 2.3390308173633367, 'epoch': 1.0})

In [None]:
evaluation_results = trainer.evaluate()

In [None]:
evaluation_results

{'eval_loss': 0.7358332872390747,
 'eval_runtime': 1.1979,
 'eval_samples_per_second': 261.28,
 'eval_steps_per_second': 33.39,
 'epoch': 1.0}

In [None]:
trainer.save_model(model_path)

In [None]:
# trainer.push_to_hub(commit_message="Training complete", tags="summarization")

In [None]:
test_df = tokenized_dataset['test'].to_pandas()

In [None]:
test_df.head()

Unnamed: 0,input_ids,attention_mask,labels
0,"[14745, 9776, 16871, 14275, 14978, 15042, 1953...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[234, 17136, 15042, 15522, 23782, 11280, 12037..."
1,"[14745, 14860, 16568, 14363, 19820, 26790, 200...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[234, 11280, 11373, 13599, 23782, 18686, 12024..."
2,"[14745, 14860, 14232, 24208, 16358, 15236, 135...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[234, 10795, 24678, 24015, 23782, 16708, 23782..."
3,"[14745, 15071, 15000, 16112, 14818, 9120, 1620...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[234, 11280, 9115, 9120, 11471, 13388, 23782, ..."
4,"[14745, 15071, 14641, 15211, 14167, 16389, 141...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[234, 11280, 15302, 22969, 23782, 12060, 11467..."


In [None]:
tokenized_dataset['test']

Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 313
})

In [None]:
rouge_score.compute(predictions = [tag], references = [label])

{'rouge1': AggregateScore(low=Score(precision=0.0, recall=0.0, fmeasure=0.0), mid=Score(precision=0.0, recall=0.0, fmeasure=0.0), high=Score(precision=0.0, recall=0.0, fmeasure=0.0)),
 'rouge2': AggregateScore(low=Score(precision=0.0, recall=0.0, fmeasure=0.0), mid=Score(precision=0.0, recall=0.0, fmeasure=0.0), high=Score(precision=0.0, recall=0.0, fmeasure=0.0)),
 'rougeL': AggregateScore(low=Score(precision=0.0, recall=0.0, fmeasure=0.0), mid=Score(precision=0.0, recall=0.0, fmeasure=0.0), high=Score(precision=0.0, recall=0.0, fmeasure=0.0)),
 'rougeLsum': AggregateScore(low=Score(precision=0.0, recall=0.0, fmeasure=0.0), mid=Score(precision=0.0, recall=0.0, fmeasure=0.0), high=Score(precision=0.0, recall=0.0, fmeasure=0.0))}

In [None]:
rouge_score.compute(predictions = [tokenizer.tokenize(tag)], references = [tokenizer.tokenize(label)])

{'rouge1': AggregateScore(low=Score(precision=0.0, recall=0.0, fmeasure=0.0), mid=Score(precision=0.0, recall=0.0, fmeasure=0.0), high=Score(precision=0.0, recall=0.0, fmeasure=0.0)),
 'rouge2': AggregateScore(low=Score(precision=0.0, recall=0.0, fmeasure=0.0), mid=Score(precision=0.0, recall=0.0, fmeasure=0.0), high=Score(precision=0.0, recall=0.0, fmeasure=0.0)),
 'rougeL': AggregateScore(low=Score(precision=0.0, recall=0.0, fmeasure=0.0), mid=Score(precision=0.0, recall=0.0, fmeasure=0.0), high=Score(precision=0.0, recall=0.0, fmeasure=0.0)),
 'rougeLsum': AggregateScore(low=Score(precision=0.0, recall=0.0, fmeasure=0.0), mid=Score(precision=0.0, recall=0.0, fmeasure=0.0), high=Score(precision=0.0, recall=0.0, fmeasure=0.0))}

In [None]:
rouge_score.score('The quick brown fox jumps over the lazy dog',
                      'The quick brown dog jumps on the log.')

{'rouge1': Score(precision=0.75, recall=0.6666666666666666, fmeasure=0.7058823529411765),
 'rouge2': Score(precision=0.2857142857142857, recall=0.25, fmeasure=0.26666666666666666),
 'rouge3': Score(precision=0.16666666666666666, recall=0.14285714285714285, fmeasure=0.15384615384615383),
 'rougeL': Score(precision=0.625, recall=0.5555555555555556, fmeasure=0.5882352941176471)}

In [None]:
tag

'#가족과의관계 #성인으로서의변화 #소중한순간 #소통과소통 #소중한순간'

In [None]:
label

'#가족과의관계 #성인으로서의변화 #소통 #서로의이해 #가족사랑'

In [None]:
input_ids = torch.tensor(test_df['input_ids'][0]).unsqueeze(0).to(device)
label_ids = torch.tensor(test_df['labels'][0]).unsqueeze(0).to(device)
tag_ids = model.generate(input_ids = input_ids,
                                    bos_token_id = model.config.bos_token_id,
                                    eos_token_id = model.config.eos_token_id,
                                    length_penalty = 2.0,
                                    max_length = 50,
                                    num_beams = 2)
tag = tokenizer.decode(tag_ids[0], skip_special_tokens = True)
label = tokenizer.decode(label_ids[0], skip_special_tokens = True)
rouge_output = rouge_score.score(tag, label)
rouge_output

{'rouge1': Score(precision=0.0, recall=0.0, fmeasure=0.0),
 'rouge2': Score(precision=0.0, recall=0.0, fmeasure=0.0),
 'rouge3': Score(precision=0.0, recall=0.0, fmeasure=0.0),
 'rougeL': Score(precision=0, recall=0, fmeasure=0)}

In [None]:
input_ids = torch.tensor(test_df['input_ids'][0]).unsqueeze(0).to(device)
label_ids = torch.tensor(test_df['labels'][0]).unsqueeze(0).to(device)
tag_ids = model.generate(input_ids = input_ids,
                                    bos_token_id = model.config.bos_token_id,
                                    eos_token_id = model.config.eos_token_id,
                                    length_penalty = 2.0,
                                    max_length = 50,
                                    num_beams = 2)
tag = tokenizer.decode(tag_ids[0], skip_special_tokens = True)
label = tokenizer.decode(label_ids[0], skip_special_tokens = True)
rouge_output = rouge_score.score(tag, label)
rouge_output

In [1]:
!pip install bert_score

Collecting bert_score
  Downloading bert_score-0.3.13-py3-none-any.whl (61 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/61.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.1/61.1 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: bert_score
Successfully installed bert_score-0.3.13


In [2]:
import numpy as np
import bert_score

In [3]:
def bertScore(original, reference):
  original = " ".join(original.split("#")) # 해시태그 제거 후 측정
  reference = " ".join(reference.split("#"))
  orig = [original]
  ref = [reference]
  P,R,F = bert_score.score(orig, ref, lang='ko')
  return np.round((float(F[0])+float(P[0])+float(R[0]))/3, 3)

In [None]:
import nltk
from nltk.translate.bleu_score import corpus_bleu

In [30]:
sent1 = '#가족과의관계 #성인으로서의변화 #소중한순간 #소통과소통 #소중한순간'
sent2 = '#가족과의관계 #성인으로서의변화 #소통 #서로의이해 #가족사랑'
# .835

In [31]:
sent3 = '#성달함과계획 #성장과발전 #가족과의연결 #소중한인연'
sent4 = '#성숙함 #앞으로의계획 #목표 #노력과성장 #가족과의연결 #새로운도전'
# .819

In [38]:
sent3 = '#사과 #배 #과일 #맛있어'
sent4 = '#쇼핑몰 #바지 #의류 #바보'
bertScore(sent3, sent4)

0.679

0.814

In [24]:
# 실제 문장들과 예측된 문장들
references = ['나는 사과를 좋아한다', '그는 개를 키운다']
candidates = ['나는 바나나를 좋아한다', '그는 고양이를 키운다']

# BERT 점수 계산
P, R, F1 = bert_score.score(candidates, references, lang='ko')


In [25]:
P,R,F = bert_score.score([" ".join(sent1.split("#")), " ".join(sent3.split("#"))], [" ".join(sent2.split("#")), " ".join(sent4.split("#"))], lang='ko')

In [27]:
P

tensor([0.8284, 0.8284])

In [26]:
np.round((float(F[0])+float(P[0])+float(R[0]))/3, 3)


0.819

In [None]:
label

'#가족과의관계 #성인으로서의변화 #소통 #서로의이해 #가족사랑'

In [None]:
tag

'#가족과의관계 #성인으로서의변화 #소중한순간 #소통과소통 #소중한순간'

In [None]:
def compute_rouge(originial_text, references):
    hypotheses = diary_summary(original_text)
    rouge_output = rouge_score.compute(hypotheses, references)
    return rouge_output


def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens = True)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    rouge_output = rouge_score.compute(predictions=decoded_preds, references=decoded_labels)
    return rouge_output

In [None]:
# 테스트할 문장
test_sentence = "명절을 맞아 고향에 돌아와 가족과 함께 보낸 특별하고 따뜻한 하루였다. 가족의 사랑과 고향의 소중함을 깨달았다."

# 입력 문장을 토큰화하여 인코딩
input_ids = tokenizer.encode(test_sentence, return_tensors="pt").to(device)

# 모델에 입력 전달하여 디코딩
output = model.generate(input_ids)

# 디코딩된 출력을 토크나이저를 사용하여 텍스트로 변환
decoded_output = tokenizer.decode(output[0], skip_special_tokens=True)

# 결과 출력
print("입력 문장:", test_sentence)
print("모델 출력:", decoded_output)

입력 문장: 명절을 맞아 고향에 돌아와 가족과 함께 보낸 특별하고 따뜻한 하루였다. 가족의 사랑과 고향의 소중함을 깨달았다.
모델 출력: #명절 #귀향 #특별한하루 #가족사랑 #소중한시간


In [None]:
def make_tag(text, label):
  # 입력 문장을 토큰화하여 인코딩
  input_ids = tokenizer.encode(text, return_tensors="pt").to(device)

  # 모델에 입력 전달하여 디코딩
  output = model.generate(input_ids).to(device)

  # 디코딩된 출력을 토크나이저를 사용하여 텍스트로 변환
  decoded_output = tokenizer.decode(output[0], skip_special_tokens=True)

  # 결과 출력
  print("입력 문장:", text,'\n')
  print("모델 출력:", decoded_output,'\n')
  print("정답 레이블:", label)

In [None]:
make_tag(diary_dataset['test']['summary'][0], diary_dataset['test']['hashtag'][0])



입력 문장: 20대 후반에서는 가족과의 관계가 성인으로서의 변화를 경험하게 되었어요. 서로의 시간과 관심을 존중하며 소통하는 것이 중요하다는 것을 깨달았고, 가족과의 소중한 순간들을 더욱 소중히 여기고자 다짐했어요. 

모델 출력: #가족대화의변화 #소중한순간 #소통과소통 #소중한순 

정답 레이블: #가족과의관계 #성인으로서의변화 #소통 #서로의이해 #가족사랑


In [None]:
make_tag(diary_dataset['test']['summary'][1], diary_dataset['test']['hashtag'][1])

입력 문장: 20대를 마무리하며 얻은 성숙함과 앞으로의 계획에 대해 생각하게 되었어요. 명확한 목표를 가지고 꾸준한 노력과 성장을 통해 개인적인 발전과 사회적인 영향력을 키우고자 하며, 가족과의 연결과 소중한 인간관계를 소중히 여기고 새로운 도전과 경험을 통해 더 나은 미래를 향해 나아가고 싶어요. 

모델 출력: #성달함과계획 #성장과발전 #가족과의연결 #소중한인 

정답 레이블: #성숙함 #앞으로의계획 #목표 #노력과성장 #가족과의연결 #새로운도전
