# Import & Install

In [None]:
import json
import pandas as pd
import os
from transformers import AutoConfig, AutoTokenizer, AutoModelForSeq2SeqLM, Seq2SeqTrainingArguments, Seq2SeqTrainer, DataCollatorForSeq2Seq, EarlyStoppingCallback, AutoModel
from datasets import load_dataset, load_metric, Dataset
import re
import nltk
import torch
import numpy as np
from tqdm import tqdm

In [None]:
!pip install datasets
!pip install transformers
!pip install rouge-score 
!pip install nltk
!pip install sentencepiece

In [None]:
nltk.download('punkt')

# Make data

"회의록" 카테고리 : 13,600개

https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=582

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!gdown --id 1NQDo-Z5jJXSu4ApYPxnrlRVrsdMhML18
# https://drive.google.com/file/d/1NQDo-Z5jJXSu4ApYPxnrlRVrsdMhML18/view?usp=share_link

In [None]:
!unzip -q /content/20per.zip

In [None]:
len(os.listdir('/content/20per'))

In [None]:
def jsonload(fname, encoding="utf-8"):
    with open(fname, encoding=encoding) as f:
        j = json.load(f)

    return j

In [None]:
file_lst = os.listdir('/content/20per')
path = '/content/20per/'

In [None]:
dic = {'context':[], 'summary':[]}


for i in file_lst:
    data = jsonload(path + i)
    ## 전처리 
    context = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)`\'…》\”\“\’·\\n]', ' ', data['Meta(Refine)']['passage'])
    summary = data['Annotation']['summary1']

    dic['context'].append(context)
    dic['summary'].append(summary)

len(dic['context']), len(dic['summary'])


In [None]:
df = pd.DataFrame(dic)
df.to_csv('/content/drive/MyDrive/메인프로젝트/Summarization/minutes_13600.csv', encoding = 'utf-8')

In [None]:
eval_df = pd.read_csv('/content/drive/MyDrive/메인프로젝트/Summarization/minutes_13600.csv', sep = ',', index_col=0).iloc[13600-1360:]
eval_df.to_csv('/content/drive/MyDrive/메인프로젝트/Summarization/eval_1360.csv', encoding = 'utf-8')

# Add Data

"시사" 카테고리 : 7,641개

https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=591

In [None]:
!gdown --id 1FFY_UaWZEdyFm0Xth4w8Nsyooc5Va7Ql
!gdown --id 1cWO4X0Y0brIItbAADIfHQUi8dEnuoKTD

In [None]:
!unzip -q /content/방송대본1_20per.zip
!unzip -q /content/방송대본2_20per.zip

In [None]:
len(os.listdir('/content/방송대본1_20per')), len(os.listdir('/content/방송대본2_20per'))

(6791, 850)

In [None]:
def jsonload(fname, encoding="utf-8"):
    with open(fname, encoding=encoding) as f:
        j = json.load(f)

    return j

In [None]:
file_lst2 = os.listdir('/content/방송대본1_20per')
path2 = '/content/방송대본1_20per/'

file_lst3 = os.listdir('/content/방송대본2_20per')
path3 = '/content/방송대본2_20per/'

In [None]:
dic2 = {'context':[], 'summary':[]}

for i in file_lst2:
    data2 = jsonload(path2 + i)

    context = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)`\'…》\”\“\’·\\n]', ' ', data2['Meta']['passage'])
    summary = data2['Annotation']['Summary3']

    # print(sample)
    dic2['context'].append(context)
    dic2['summary'].append(summary)

len(dic2['context']), len(dic2['summary'])

(6791, 6791)

In [None]:
dic3 = {'context':[], 'summary':[]}

for i in file_lst3:
    data3 = jsonload(path3 + i)

    context = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)`\'…》\”\“\’·\\n]', ' ', data3['Meta']['passage'])
    summary = data3['Annotation']['Summary3']

    dic3['context'].append(context)
    dic3['summary'].append(summary)

len(dic3['context']), len(dic3['summary'])

(850, 850)

In [None]:
new1 = pd.DataFrame(dic2)
new2 = pd.DataFrame(dic3)

new = new1.append(new2)
len(new)

7641

In [None]:
final_df = df.append(new)
len(final_df)

19881

In [None]:
final_df.to_csv('/content/drive/MyDrive/메인프로젝트/Summarization/train_19881.csv', encoding = 'utf-8')

# Load Model & Tokenizer & Metric

In [None]:
from huggingface_hub import notebook_login

notebook_login()

# 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 

Token is valid.
Your token has been saved in your configured git credential helpers (store).
Your token has been saved to /root/.huggingface/token
Login successful


In [None]:
# from huggingface_hub import notebook_login, create_repo
# create_repo("hyorea1/KoT5-test", token="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")

In [None]:
repo_name = "KoT5-test-add-data-from5ep-continue"

In [None]:
model_name = 'hyorea1/KoT5-test-add-data-from5ep-continue'
metric_name = 'rouge'

In [None]:
config = AutoConfig.from_pretrained(model_name)

Downloading:   0%|          | 0.00/759 [00:00<?, ?B/s]

In [None]:
del config.label2id
del config.id2label
del config.task_specific_params

# config.max_position_embeddings=2050

In [None]:
config

T5Config {
  "_name_or_path": "hyorea1/KoT5-test-add-data-from5ep-continue",
  "architectures": [
    "T5ForConditionalGeneration"
  ],
  "d_ff": 3072,
  "d_kv": 64,
  "d_model": 768,
  "decoder_start_token_id": 0,
  "dense_act_fn": "relu",
  "dropout_rate": 0.1,
  "eos_token_id": 1,
  "feed_forward_proj": "relu",
  "initializer_factor": 1.0,
  "is_encoder_decoder": true,
  "is_gated_act": false,
  "layer_norm_epsilon": 1e-06,
  "model_type": "t5",
  "n_positions": 512,
  "num_decoder_layers": 12,
  "num_heads": 12,
  "num_layers": 12,
  "output_past": true,
  "pad_token_id": 0,
  "relative_attention_max_distance": 128,
  "relative_attention_num_buckets": 32,
  "torch_dtype": "float32",
  "transformers_version": "4.25.1",
  "use_cache": true,
  "vocab_size": 32128
}

In [None]:
model = AutoModelForSeq2SeqLM.from_pretrained(model_name, config=config)
tokenizer = AutoTokenizer.from_pretrained(model_name)
metric = load_metric(metric_name)

Downloading:   0%|          | 0.00/892M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.59k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.88M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

  metric = load_metric(metric_name)


Downloading builder script:   0%|          | 0.00/2.16k [00:00<?, ?B/s]

# Declare Functions

In [None]:
# prefix = ""
prefix = "summarize: "

max_input_length = 1026
max_target_length = 514

def preprocess_function(examples):
    inputs = [prefix + doc for doc in examples["context"]]
    model_inputs = tokenizer(inputs, max_length=max_input_length, truncation=True)

    # Setup the tokenizer for targets
    with tokenizer.as_target_tokenizer():
        labels = tokenizer(examples["summary"], max_length=max_target_length, truncation=True)

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

In [None]:
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
    # Replace -100 in the labels as we can't decode them.
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    
    # Rouge expects a newline after each sentence
    decoded_preds = ["\n".join(nltk.sent_tokenize(pred.strip())) for pred in decoded_preds]
    decoded_labels = ["\n".join(nltk.sent_tokenize(label.strip())) for label in decoded_labels]
    
    result = metric.compute(predictions=decoded_preds, references=decoded_labels, use_stemmer=True)
    # Extract a few results
    result = {key: value.mid.fmeasure * 100 for key, value in result.items()}
    
    # Add mean generated length
    prediction_lens = [np.count_nonzero(pred != tokenizer.pad_token_id) for pred in predictions]
    result["gen_len"] = np.mean(prediction_lens)
    
    return {k: round(v, 4) for k, v in result.items()}

# Load Data

In [None]:
train_df = pd.read_csv('/content/drive/MyDrive/메인프로젝트/Summarization/train_19881.csv', index_col = 0)
eval_df = pd.read_csv('/content/drive/MyDrive/메인프로젝트/Summarization/eval_1360.csv', index_col = 0)

In [None]:
train_df = train_df.reset_index().drop(['index'], axis = 1)
eval_df = eval_df.reset_index().drop(['index'], axis = 1)

eval_df

Unnamed: 0,context,summary
0,경대수 위원] 농촌경제연구원이 그렇게 연구가 정확하고 잘 굴러갔으면 지금 농정이 ...,농림축산식품부장관은 시장의 수요와 공급에 의해 결정되는 쌀의 목표가격이 부족해서 고...
1,한국방송공사사장후보자 고대영] 지금 저희가 갖고 있는 지역방송 기능들이 현재의 미...,강 위원은 국내의 왜곡된 유통시장 구조와 열악한 환경으로 인해 유명 애니메이션 제작...
2,위원장 황진하] 송영근 위원 수고하셨습니다 추가질의할 분 이제 안 계시지요 ...,진 위원은 공청회에서 국회의원들이 진술인을 초청해 놓고 말 조심하라고 얘기하거나 이...
3,진술인 박형욱] 개별적인 면허 자격 조건과 관련해서 분명히 정신적으로 심각한 상황...,박 진술인은 개별적인 면화·자격 조건을 심각한 상황일 때 제한을 할 필요가 있지만 ...
4,해양수산부장관 유기준] 그게 진실 화해를 위한 과거사정리위원회의 신정훈 위원...,신 위원은 위원회의 조직과 운영에 관한 사항은 대통령령으로 정하게 되어 있는데 유 ...
...,...,...
1355,국토교통부장관 서승환] 철도부지를 이용하는 행복주택의 경우는 보금자리주택하고 기본...,조 위원은 경제민주화의 정의 중 대기업 횡포라는 부분이 있다고 말했다.
1356,보건복지부장관 정진엽] 예 그렇게 하겠습니다 안철수 위원] 아울러 메르스 대...,안 위원은 메르스 대응 실태에 대한 감사 결과 역학조사관들이 징계 대상에 포함됐으며...
1357,농림수산식품부장관 서규용] 예 홍문표 위원] 그다음에 수리시설 개보수사업 한...,홍 위원은 장관과 농수산 간부들에게 전투적인 자세로 농업과 농촌의 예산 확보에 총력...
1358,농림축산식품부장관 이동필] 거듭 말씀드립니다마는 에이펙스에서 온 회신을 요약하는 ...,이 농림축산식품부장관은 에이펙스에서 온 회신을 요약할 때 그대로 전달되지 않았다는 ...


In [None]:
train_dataset = Dataset.from_pandas(train_df).shuffle(seed=100)
eval_dataset = Dataset.from_pandas(eval_df).shuffle(seed=100)

In [None]:
# split_ratio = 0.1
# train_dataset = Dataset.from_pandas(train_df).shuffle(seed=100)
# eval_dataset = Dataset.from_pandas(eval_df).train_test_split(split_ratio, seed=100)['test']

In [None]:
print(train_dataset)
print(eval_dataset)

Dataset({
    features: ['context', 'summary'],
    num_rows: 19881
})
Dataset({
    features: ['context', 'summary'],
    num_rows: 1360
})


In [None]:
train_dataset = train_dataset.map(preprocess_function, 
                                  batched=True, 
                                  num_proc=4, 
                                  remove_columns=train_dataset.column_names)

eval_dataset = eval_dataset.map(preprocess_function, 
                                batched=True, 
                                num_proc=4, 
                                remove_columns=eval_dataset.column_names)

     

#0:   0%|          | 0/5 [00:00<?, ?ba/s]



 

#1:   0%|          | 0/5 [00:00<?, ?ba/s]



 

#2:   0%|          | 0/5 [00:00<?, ?ba/s]



 

#3:   0%|          | 0/5 [00:00<?, ?ba/s]



      

#0:   0%|          | 0/1 [00:00<?, ?ba/s]

 

#1:   0%|          | 0/1 [00:00<?, ?ba/s]

 

#2:   0%|          | 0/1 [00:00<?, ?ba/s]

#3:   0%|          | 0/1 [00:00<?, ?ba/s]



In [None]:
print(train_dataset)
print(eval_dataset)

Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 19881
})
Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 1360
})


#Logging and WandB Configs

In [None]:
wandb.login()

In [None]:
output_dir = "./log"

In [None]:
%env WANDB_PROJECT=BART-Generative-Summarization
report_to="wandb"
run_name="2994-Samples-Augmented-to-150000-Samples"

# Training

In [None]:
num_train_epochs = 1

per_device_train_batch_size = 4
per_device_eval_batch_size = 4

gradient_accumulation_steps = 2

# es = EarlyStoppingCallback(early_stopping_patience=8)
save_total_limit = 3
data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model, padding=True)

In [None]:
training_args = Seq2SeqTrainingArguments(
    seed=100,

    output_dir=repo_name,
    # overwrite_output_dir=True, 

    num_train_epochs=num_train_epochs,
    learning_rate=2e-5,

    per_device_train_batch_size=per_device_train_batch_size,
    per_device_eval_batch_size=per_device_eval_batch_size,
    
    gradient_accumulation_steps=gradient_accumulation_steps,
    # fp16=True,

    save_total_limit=save_total_limit,
    save_strategy='steps',
    evaluation_strategy="steps",
    save_steps=800,
    eval_steps=800,

    logging_strategy='steps',
    logging_first_step=True,
    logging_steps= 1,

    weight_decay=0.01,

    lr_scheduler_type='cosine',
    warmup_ratio=0.1,

    metric_for_best_model='eval_rouge1',
    load_best_model_at_end=True,

    predict_with_generate=True,
    generation_max_length=512,
    generation_num_beams=5,
    push_to_hub=True
)

In [None]:
torch.cuda.empty_cache()

In [None]:
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics
    # callbacks=[es],
)

Cloning https://huggingface.co/hyorea1/KoT5-test-add-data-from5ep-continue into local empty directory.


Download file pytorch_model.bin:   0%|          | 3.43k/850M [00:00<?, ?B/s]

Download file training_args.bin:  98%|#########8| 3.44k/3.50k [00:00<?, ?B/s]

Download file runs/Dec17_15-35-36_84b790c14342/1671291348.861466/events.out.tfevents.1671291348.84b790c14342.8…

Download file runs/Dec17_15-35-36_84b790c14342/events.out.tfevents.1671291348.84b790c14342.84.0:   5%|5       …

Clean file training_args.bin:  29%|##8       | 1.00k/3.50k [00:00<?, ?B/s]

Clean file runs/Dec17_15-35-36_84b790c14342/1671291348.861466/events.out.tfevents.1671291348.84b790c14342.84.1…

Clean file runs/Dec17_15-35-36_84b790c14342/events.out.tfevents.1671291348.84b790c14342.84.0:   2%|1         |…

Clean file pytorch_model.bin:   0%|          | 1.00k/850M [00:00<?, ?B/s]

In [None]:
trainer.train()
# wandb.finish()

***** Running training *****
  Num examples = 19881
  Num Epochs = 10
  Instantaneous batch size per device = 4
  Total train batch size (w. parallel, distributed & accumulation) = 8
  Gradient Accumulation steps = 2
  Total optimization steps = 24850
  Number of trainable parameters = 222903552
You're using a T5TokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Step,Training Loss,Validation Loss,Rouge1,Rouge2,Rougel,Rougelsum,Gen Len
400,1.8765,1.169227,12.9173,3.2284,12.8068,12.7905,36.0191
800,1.7919,1.164955,12.3435,3.2828,12.2825,12.3109,35.0985
1200,1.4394,1.168141,12.5309,3.2394,12.3832,12.4318,35.1441
1600,1.0932,1.171184,12.0909,3.2391,11.9947,12.0667,35.1213
2000,1.1921,1.167438,11.899,2.9772,11.8669,11.9099,35.5507
2400,1.3764,1.166014,11.4176,2.9175,11.3757,11.4488,34.536
2800,1.5985,1.167727,11.7756,2.9012,11.7456,11.7619,34.9368
3200,1.5242,1.169914,11.91,3.117,11.8835,11.9332,34.7949
3600,1.638,1.170975,12.0769,3.1321,12.0183,12.0558,35.2507
4000,1.4988,1.169494,11.7684,3.1115,11.6161,11.6745,34.8493


***** Running Evaluation *****
  Num examples = 1360
  Batch size = 4
Saving model checkpoint to KoT5-test-add-data-from5ep-continue/checkpoint-400
Configuration saved in KoT5-test-add-data-from5ep-continue/checkpoint-400/config.json
Model weights saved in KoT5-test-add-data-from5ep-continue/checkpoint-400/pytorch_model.bin
tokenizer config file saved in KoT5-test-add-data-from5ep-continue/checkpoint-400/tokenizer_config.json
Special tokens file saved in KoT5-test-add-data-from5ep-continue/checkpoint-400/special_tokens_map.json
tokenizer config file saved in KoT5-test-add-data-from5ep-continue/tokenizer_config.json
Special tokens file saved in KoT5-test-add-data-from5ep-continue/special_tokens_map.json
***** Running Evaluation *****
  Num examples = 1360
  Batch size = 4
Saving model checkpoint to KoT5-test-add-data-from5ep-continue/checkpoint-800
Configuration saved in KoT5-test-add-data-from5ep-continue/checkpoint-800/config.json
Model weights saved in KoT5-test-add-data-from5ep-cont

Step,Training Loss,Validation Loss,Rouge1,Rouge2,Rougel,Rougelsum,Gen Len
400,1.8765,1.169227,12.9173,3.2284,12.8068,12.7905,36.0191
800,1.7919,1.164955,12.3435,3.2828,12.2825,12.3109,35.0985
1200,1.4394,1.168141,12.5309,3.2394,12.3832,12.4318,35.1441
1600,1.0932,1.171184,12.0909,3.2391,11.9947,12.0667,35.1213
2000,1.1921,1.167438,11.899,2.9772,11.8669,11.9099,35.5507
2400,1.3764,1.166014,11.4176,2.9175,11.3757,11.4488,34.536
2800,1.5985,1.167727,11.7756,2.9012,11.7456,11.7619,34.9368
3200,1.5242,1.169914,11.91,3.117,11.8835,11.9332,34.7949
3600,1.638,1.170975,12.0769,3.1321,12.0183,12.0558,35.2507
4000,1.4988,1.169494,11.7684,3.1115,11.6161,11.6745,34.8493


***** Running Evaluation *****
  Num examples = 1360
  Batch size = 4
Saving model checkpoint to KoT5-test-add-data-from5ep-continue/checkpoint-8400
Configuration saved in KoT5-test-add-data-from5ep-continue/checkpoint-8400/config.json
Model weights saved in KoT5-test-add-data-from5ep-continue/checkpoint-8400/pytorch_model.bin
tokenizer config file saved in KoT5-test-add-data-from5ep-continue/checkpoint-8400/tokenizer_config.json
Special tokens file saved in KoT5-test-add-data-from5ep-continue/checkpoint-8400/special_tokens_map.json
Deleting older checkpoint [KoT5-test-add-data-from5ep-continue/checkpoint-7600] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1360
  Batch size = 4


In [None]:
trainer.push_to_hub()

NameError: ignored

### Resume Training from CKPT

In [None]:
trainer.train('/content/KoT5-test/checkpoint-3200')
# wandb.finish()

Loading model from /content/KoT5-test/checkpoint-3200.
***** Running training *****
  Num examples = 12240
  Num Epochs = 10
  Instantaneous batch size per device = 4
  Total train batch size (w. parallel, distributed & accumulation) = 8
  Gradient Accumulation steps = 2
  Total optimization steps = 15300
  Number of trainable parameters = 222903552
  Continuing training from checkpoint, will skip to saved global_step
  Continuing training from epoch 2
  Continuing training from global step 3200
  Will skip the first 2 epochs then the first 280 batches in the first epoch. If this takes a lot of time, you can add the `--ignore_data_skip` flag to your launch command, but you will resume the training on data already seen by your model.


  0%|          | 0/280 [00:00<?, ?it/s]

Step,Training Loss,Validation Loss,Rouge1,Rouge2,Rougel,Rougelsum,Gen Len
3600,1.014,1.166601,11.6128,3.1918,11.5348,11.453,34.1853
4000,1.2737,1.171111,12.2584,2.9711,12.2113,12.1541,35.3162
4400,1.1664,1.162303,12.4344,3.221,12.3251,12.2923,34.5096


***** Running Evaluation *****
  Num examples = 1360
  Batch size = 4
Saving model checkpoint to KoT5-test/checkpoint-3600
Configuration saved in KoT5-test/checkpoint-3600/config.json
Model weights saved in KoT5-test/checkpoint-3600/pytorch_model.bin
tokenizer config file saved in KoT5-test/checkpoint-3600/tokenizer_config.json
Special tokens file saved in KoT5-test/checkpoint-3600/special_tokens_map.json
tokenizer config file saved in KoT5-test/tokenizer_config.json
Special tokens file saved in KoT5-test/special_tokens_map.json
Several commits (3) will be pushed upstream.
Deleting older checkpoint [KoT5-test/checkpoint-2400] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1360
  Batch size = 4
Saving model checkpoint to KoT5-test/checkpoint-4000
Configuration saved in KoT5-test/checkpoint-4000/config.json
Model weights saved in KoT5-test/checkpoint-4000/pytorch_model.bin
tokenizer config file saved in KoT5-test/checkpoint-4000/tokenizer_config.json
Special

Step,Training Loss,Validation Loss,Rouge1,Rouge2,Rougel,Rougelsum,Gen Len
3600,1.014,1.166601,11.6128,3.1918,11.5348,11.453,34.1853
4000,1.2737,1.171111,12.2584,2.9711,12.2113,12.1541,35.3162
4400,1.1664,1.162303,12.4344,3.221,12.3251,12.2923,34.5096
4800,1.0872,1.167721,12.6984,3.1725,12.5901,12.5768,34.5162
5200,0.9654,1.16221,12.2024,3.3137,12.1166,12.0733,33.7537


***** Running Evaluation *****
  Num examples = 1360
  Batch size = 4
Saving model checkpoint to KoT5-test/checkpoint-4800
Configuration saved in KoT5-test/checkpoint-4800/config.json
Model weights saved in KoT5-test/checkpoint-4800/pytorch_model.bin
tokenizer config file saved in KoT5-test/checkpoint-4800/tokenizer_config.json
Special tokens file saved in KoT5-test/checkpoint-4800/special_tokens_map.json
Deleting older checkpoint [KoT5-test/checkpoint-3600] due to args.save_total_limit
***** Running Evaluation *****
  Num examples = 1360
  Batch size = 4
Saving model checkpoint to KoT5-test/checkpoint-5200
Configuration saved in KoT5-test/checkpoint-5200/config.json
Model weights saved in KoT5-test/checkpoint-5200/pytorch_model.bin
tokenizer config file saved in KoT5-test/checkpoint-5200/tokenizer_config.json
Special tokens file saved in KoT5-test/checkpoint-5200/special_tokens_map.json
Deleting older checkpoint [KoT5-test/checkpoint-4000] due to args.save_total_limit


In [None]:
trainer.push_to_hub()

#Save Model

In [None]:
gdrive_path = '/content/drive/MyDrive/Data Science/알파코 딥러닝 부트캠프/프로젝트/AI 기반 회의 녹취록 요약 경진대회'
save_name = 'con2sum ainize-kobart-news 2994-Samples-Augmented-to-150000-Samples run 3 (from ckpt 187500)'

In [None]:
model.save_pretrained(f'{gdrive_path}/save/{save_name}')
tokenizer.save_pretrained(f'{gdrive_path}/save/{save_name}')

### Load Model

In [None]:
gdrive_path = '/content/drive/MyDrive/문서 요약'

In [None]:
# model = AutoModelForSeq2SeqLM.from_pretrained(f'{gdrive_path}/save')
# tokenizer = AutoTokenizer.from_pretrained(f'{gdrive_path}/save')

model = AutoModelForSeq2SeqLM.from_pretrained('hyorea1/KoT5-test')
tokenizer = AutoTokenizer.from_pretrained('hyorea1/KoT5-test')

# model = Wav2Vec2ForCTC.from_pretrained("/content/output/checkpoint-30/pytorch_model.bin",
#                                        config = '/content/output/checkpoint-30/config.json')

Downloading:   0%|          | 0.00/750 [00:00<?, ?B/s]

loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--hyorea1--KoT5-test/snapshots/2f403892fd775f56783328e2ec3de8b258bdbc63/config.json
Model config T5Config {
  "_name_or_path": "hyorea1/KoT5-test",
  "architectures": [
    "T5ForConditionalGeneration"
  ],
  "d_ff": 3072,
  "d_kv": 64,
  "d_model": 768,
  "decoder_start_token_id": 0,
  "dense_act_fn": "relu",
  "dropout_rate": 0.1,
  "eos_token_id": 1,
  "feed_forward_proj": "relu",
  "initializer_factor": 1.0,
  "is_encoder_decoder": true,
  "is_gated_act": false,
  "layer_norm_epsilon": 1e-06,
  "model_type": "t5",
  "n_positions": 512,
  "num_decoder_layers": 12,
  "num_heads": 12,
  "num_layers": 12,
  "output_past": true,
  "pad_token_id": 0,
  "relative_attention_max_distance": 128,
  "relative_attention_num_buckets": 32,
  "torch_dtype": "float32",
  "transformers_version": "4.25.1",
  "use_cache": true,
  "vocab_size": 32128
}



Downloading:   0%|          | 0.00/892M [00:00<?, ?B/s]

loading weights file pytorch_model.bin from cache at /root/.cache/huggingface/hub/models--hyorea1--KoT5-test/snapshots/2f403892fd775f56783328e2ec3de8b258bdbc63/pytorch_model.bin
All model checkpoint weights were used when initializing T5ForConditionalGeneration.

All the weights of T5ForConditionalGeneration were initialized from the model checkpoint at hyorea1/KoT5-test.
If your task is similar to the task the model of the checkpoint was trained on, you can already use T5ForConditionalGeneration for predictions without further training.


Downloading:   0%|          | 0.00/2.58k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.88M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

loading file spiece.model from cache at None
loading file tokenizer.json from cache at /root/.cache/huggingface/hub/models--hyorea1--KoT5-test/snapshots/2f403892fd775f56783328e2ec3de8b258bdbc63/tokenizer.json
loading file added_tokens.json from cache at None
loading file special_tokens_map.json from cache at /root/.cache/huggingface/hub/models--hyorea1--KoT5-test/snapshots/2f403892fd775f56783328e2ec3de8b258bdbc63/special_tokens_map.json
loading file tokenizer_config.json from cache at /root/.cache/huggingface/hub/models--hyorea1--KoT5-test/snapshots/2f403892fd775f56783328e2ec3de8b258bdbc63/tokenizer_config.json


In [None]:
per_device_train_batch_size = 1
per_device_eval_batch_size = 1
num_train_epochs = 10
es = EarlyStoppingCallback(early_stopping_patience=3)
data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model, padding=True)

In [None]:
training_args = Seq2SeqTrainingArguments(
    output_dir="./log",

    num_train_epochs=num_train_epochs,
    learning_rate=2e-5,

    per_device_train_batch_size=per_device_train_batch_size,
    # gradient_accumulation_steps=16,

    per_device_eval_batch_size=per_device_eval_batch_size,
    evaluation_strategy="epoch",

    save_strategy='epoch',
    save_total_limit=3,

    # fp16=True,

    weight_decay=0.01,
    # lr_scheduler_type='linear',
    # warmup_ratio=0.1,

    metric_for_best_model='eval_loss',
    load_best_model_at_end=True,

    predict_with_generate=True,
    # generation_max_length=512,
    # generation_num_beams=5,
)

PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).


In [None]:
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    tokenizer=tokenizer,
    data_collator=data_collator
)

In [None]:
test_path = '/content/drive/MyDrive/장기 프로젝트/문서 요약/test_df.csv'

test_df = pd.read_csv(test_path, index_col=False)
test_df.drop(['Unnamed: 0', 'id', 'title', 'region', 'agenda', 'total'], axis=1, inplace=True)
dataset = Dataset.from_pandas(test_df)

dataset = dataset.map(preprocess_function, batched=True)

In [None]:
summary = []

for pred in preds.predictions:
    pred = tokenizer.decode(pred, skip_special_tokens=True)
    summary.append(pred)

In [None]:
sample_path = '/content/drive/MyDrive/장기 프로젝트/문서 요약/sample_submission.csv'

result = pd.read_csv(sample_path)
result['summary'] = summary

result.to_csv('result_kobart-news_24만개_6.csv', index=False)

# Inference

In [None]:
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.25.1-py3-none-any.whl (5.8 MB)
[K     |████████████████████████████████| 5.8 MB 5.2 MB/s 
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[K     |████████████████████████████████| 7.6 MB 73.0 MB/s 
Collecting huggingface-hub<1.0,>=0.10.0
  Downloading huggingface_hub-0.11.1-py3-none-any.whl (182 kB)
[K     |████████████████████████████████| 182 kB 83.0 MB/s 
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.11.1 tokenizers-0.13.2 transformers-4.25.1


In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, PreTrainedTokenizerFast, BartForConditionalGeneration
import nltk
nltk.download('punkt')

# model_dir = "psyche/KoT5-summarization"

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Downloading:   0%|          | 0.00/2.52k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.88M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/742 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/892M [00:00<?, ?B/s]

In [None]:
max_input_length = 1026

def t5_summarize(text):
    model_dir = "hyorea1/KoT5-test-add-data-from5ep-continue"
    tokenizer = AutoTokenizer.from_pretrained(model_dir)
    model = AutoModelForSeq2SeqLM.from_pretrained(model_dir)

    inputs = ["summarize: " + text]

    inputs = tokenizer(inputs, max_length=max_input_length, truncation=True, return_tensors="pt")
    output = model.generate(**inputs, num_beams=2, do_sample=True, min_length=200, max_length=1024)
    decoded_output = tokenizer.batch_decode(output, skip_special_tokens=True)[0]
    predicted_title = nltk.sent_tokenize(decoded_output.strip())[0]

    return predicted_title 

In [None]:
# text = """마크롱 대통령은 15일(현지 시각) 2022 월드컵 준결승전 관람차 카타르에 다녀온 것과 관련, “전적으로 만족한다”고 했다. 마크롱 대통령은 이날 오전 유럽연합(EU) 정상회의가 열리는 벨기에 브뤼셀에서 취재진과 만나 이같이 말했다고 AFP통신 등이 보도했다. 마크롱 대통령은 “4년 전 월드컵에서도 프랑스를 응원하기 위해 러시아에 있었고, 이번에도 프랑스를 응원하기 위해 카타르에 있었다”고 했다. 마크롱 대통령은 18일 열리는 결승전도 현장에서 지켜볼 예정이다. 프랑스 내부에서는 카타르의 이주노동자 인권 침해, 성 소수자 탄압 등을 이유로 들며 마크롱 대통령이 카타르에 가서는 안 된다는 주장이 좌파 야당을 중심으로 제기됐다. 최근에는 카타르가 유럽 의회를 상대로 로비를 벌였다는 의혹까지 제기됐다. 마크롱 대통령은 카타르에서 기자들과 만나 “카타르가 이번 월드컵을 매우 잘 조직하고 있고 치안도 훌륭하다”며 “즐거움을 놓치지 말자”고 했다. 프랑스의 결승 상대인 아르헨티나의 리오넬 메시에 대해서는 “메시가 아르헨티나 국가대표팀에서 뛸 때보다 파리 생제르맹(PSG)에서 뛸 때가 더 좋다”고 했다. 그는 “프랑스는 경험이 많은 선수와 젊은 선수가 섞여있다. 조합이 정말 대단하다”고도 했다."""


text = """음 수고하셨습니다. 뭐 전에 내용이랑 크게 달라진 건 없네요. 근데 지금 개발 규모는 얼마나 되죠? 현재 그 내부인원하고 외주작업 이렇게 진행하고 있습니다. 내부는 인원이 몇 명이에요? 그렇게 많진 않습니다.  근데 저희가 현재 인원은 보충할 예정입니다. 그렇게 많지는 않다. 원래 사장님 회사가 무역회사라고 했잖아요. 네. 이번 사업이랑 성격이 다른데 추가인원 보충도 그렇고 리스크가 좀 있지 않아요? 그렇지는 않습니다. 저희가 이제 급변하는 트렌드에 맞춰서 회사를 유연하게 운영할 생각을 가지고 있습니다. 그래서 이번 국가사업을 통해서 좀 공격적으로 R&D를 할 생각입니다. 네 잘 알겠습니다. 뭐 더 질문 없으시죠? 그러면 수고들 하셨습니다. 그 전에 말씀드린 박람회 때는 어플 출시 가능하죠? 어 예 준 준비하겠습니다. 네 고생하셨습니다."""

#### 
# text = """에 어떤 말씀을 주실지 궁금합니다. 어느 분부터 말씀해 주시겠습니까? 학생? 오케이. 네, 대한민국 청년 중의 한 사람으로써 청년들의 이야기를 잘 전달하여 주고 싶다는 마음으로 참여하게 되었습니다. 네, 이번 교육대토론의 중요한 두 가지 기치는 경험과 공감이어야 한다고 생각했습니다. 청년들이 공통적으로 겪은 경험들이 있습니다. 저는 이 자리에서 저와 제 친구들이 겪은 경험을 가지고 이야기를 풀어내고자 합니다. 오늘 교육대토론은 특별히 청년 특집으로 기획되는 거잖아요. 청년들의 경험을 잘 듣고 여기에서 공감할 수 있는 자리가 마련되었으면 합니다. 네. 요즘 많은 청년들이 고민이 많다고 하잖아요? 저도 역시 그렇고요. 그래서 저는 크게 두 가지 의미를 두고 싶습니다. 먼저 첫번째로는 저뿐만 아니라 다른 청년분들께서. 그리고 두 번째로는 제가 가진 고민들이나 제가 가졌던 생각들을 정말 솔직하게 얘기할 수 있으면 좋겠습니다. 그럼에도 불구하고 제 주변에 있는 친구들 선후배님들의 얘기, 고민들을 함께 나누고 싶어서 나왔습니다. 오늘 토론을 통해서 대한민국 청년뿐만 아니라 대한민국의 미래가 좀 발전될 수 있는 계기가 되었으면 좋겠습니다. 지난 11년 간 청년 현장에서 무박 2일 엠티나 힐링 토크 등등을 통해서 현장에서 청년들을 많이 만났지만 이렇게 더 직접적으로 같이 경청하면서 단순히 추상적인 힐링."""

#### 학교폭력 정답 & stt
# text = """매주 토요일 이 시간에는 우리 교육을 어떻게 생각하십니까 라는 제목으로 한 시간 동안 이야기 나누는 시간 마련하고 있습니다.얼마 전 한 초등학교에서 6학년 학생 여자 담임 선생님을 폭행해서 충격을 준 사건이 있었습니다. 학교에서는 우발적인 사건으로 원만히 해결이 잘됐다 면서 해당 교육청에 보고했고 교육청 또한 현장 확인조차 하지 않은 채 사건은 종결됐다고 합니다. 하지만 가해 학생은 물론이고 학부모도 잘못을 인정했다고 합니다. 학교폭력 문제를 대처하는 우리 교육 현장의 한 단면이 아닐 수 없습니다. 학교폭력 사실 여러 유형으로 교육현장에 존재하고 있고 해마다 언급되고 이는 모든 교육주체들의 커다란 걱정거리입니다. 하지만 그럼에도 불구하고 근절되지 않는 이유는 무엇일까요 과연 해결방법은 없는 것일까. 오늘 네 분의 전문가 모시고 학교폭력의 문제점과 근절대책 함께 이야기 나눠보도록 하겠습니다. 이렇게 오늘 네 분 모시고 학교폭력에 관해서 한 시간 동안 여러 가지 말씀 나눠보기로 하겠는데요. 사실 학교폭력 하면은 뭐 어제오늘의 문제는 아닌 것 같습니다. 그만큼 단기간에 해결되지 않고 있는 어떻게 보면 아주 뿌리가 깊은 문제이기도 한 것 같은데요. 아무래도 학교 폭력에 대한 여러 가지 해결책이란 것을 찾으려면 먼저 지금 실태는 어떻고 원인은 어떤 것인지 여기에 관한 얘기부터 아마 좀 필요할 것 같습니다. 먼저 네 분께 최근에는 학력폭력 학교폭력의 실태. 요즘 아이들이 점점 학교폭력이 집단화되고 조직화 되고 연령이 낮아지고 있다는 거는 일단 심각한 상태인데요 저희들이 파악해 볼 때 아이들이 자책. 정치를 장난으로 또는 놀이 개념으로 하고 있다는게 가장 심각하고요. 또 사고가 발생했을 때 어른들의 대처하는 문제가 아이들끼리 한 장난으로 생각하고 가해자 부모 또한 장난인데 뭘 그렇게 하느냐라고. 두둔하면서부터 문제는 더 크게 재발할 수 있는 여지를 갖고 있더라고요. 또 한 가지는 이제 장난으로 하면서 그 집단에 어울리지 않으면 자신이 타격 대상이 될까봐 두려워서 아이들이 거기에 휩쓸리다 보니까 사고는 점점 크게 발생하고 있다는 문제 그런 것도 볼 수 있죠. 트렌드를 분석을 했습니다 그중에서 특이점 한 다섯 가지 정도만 조금 말씀드리면 먼저 여학생 폭력이 대단히 높은 속도로 증가되고 있고요. 여학생 폭력이라고 하면 여학생이 주체가 되는, 여학생이 직접적인 가해자의 입장에서요 전체 41.2%가 아 나타나고 있습니다."""
# text = """어 매주 토요일 이 시간에는 어 우리 교육은 어떻게 생각하십니까라는 제목으로 오 한시간 동안 이야기 나노는 시간 말은 하고 있습니다. 어 얼마 전 한 초등학교에서 요가한그나라 학생이 여자 담임 선생님을 복행해서 충격을 사건이 있었습니다. 으 학교에서는 오발적인 사건으로 원많이 해외 단다면서 해당 교욕적ᄋ이모고 굘청 동안 전장 확인조차하지 않은지 사건은 종결된다고 합니다. 어 하지만 하애학생은 물론이고 학부모도 잘못은 인정했다고 합니다. 어 학교 퐁경 문제를 대해처하는 우리 굑 현장에 한 단면이 아닐 수 없습니다. 어 학교 퐁젹 어 사실 여러 유형으로 교육현장에 존재하고 있고ᄋ, 어 해마다원급되고 있는 모든 교육주체들에 커달한 걱정거립니다. 어 하지만 그럼에도 불구하고 어 근절되지 않는 이유는 무엇일까요? ᄋ 과연해결 방법은 없는 것일까? 어 오늘 네번에 전문가 모시고 아 학교폭력에 문제점과 근전된지ᄋ 함께 이야기 나눠보도록 하겠습니다. 어 이렇게ᄉ월알 내븐 모시고 학교퐁력에 관해서 어 하 시간 동안 여러 가지 말씀나눠보기로 하겠는데요. 어ᄋ 사실뭐 학교폭력 하마는 뭐 어제 오늘에 문제는아닌 거 같습니다. 어 그만큼 뭐 단기간에 해결되지 않고 있는 어떻게 보면ᅳᆫ 아주 뽀리가기은  ᄋ한 거 같은데요. 어 아무래도학교폭력을 한 뭐 여러 가지 뭐 해ᄀᆫ지 이런 거를 사주라면은ᄋ. 먼저 지그 실대르 어떠고 원인은 어떤 것인지 여기에 관한 아이할 거 가ᄋ먼저 내보아 죄견에가 학역ᅩᆼ역 학교폭력에 그이 어ᄋ. 요즘 아이들이 점점ᄋ 그 학교 폭력이 진단하지이고 조직화디고 연정이 낮아지고 있다는 거는 일단 심각한 상태인데요. 저희들이 ᄋ마 화ᅡᆨ해볼 때 아이들이 이 자체러ᄋᆯ 장난으로는근 놀이 개념으ᄅᆯ 하고 있다는 게 가장 심각하구요. 아도 사고가 발생했을 때 ᄋ 어른들이 대체하는 문제가 아 아이들끼리 한 장난으로 생각하고 과외제품을어또 한 장난인데 뭘 그렇게 하느냐라고 ᄋ 어 두든하면서부터ᄋ 문제는 더 크게 어 재발할 수 있는 여지를 갖고 있드라구요. 그데 ᅩ한가지는 이제ᄋ 장난으로 하면서 그 집단에 올리지 않으면 자신이 ᄋ나 타격대상이 될까 봐 드려워서 아이들이 거기 힘들디다 보니까 사고는 점점 크게 바생하ᅥ하고 있다는 문제 그런 것도 보ᅥᆯ 수 있지ᄋ지에서 ᅵ조 .여학생ᄋᄋ학생폭력이라고 하는 여학생 주체가 되는, 그 여학생이 직접적인 이제 가잔 집저있어요 저 ᅵᆫ제 사실 점이그지ᅳᆷ가하고 있습니다."""


# text = """어 재서안거 제주도를 중심으로 많은 눈이 오고 있습니다. 충남과 호난 그리고 제주도에 대설 튿고 내려준 가운데 군산 말도에는 40센티미터 가까운 눈이 왔는데요. 내일까지 제주산갈이 30센ᄐ미터 이상 전복서이한거 제주도 중산간 애도 15세대미더 이상에 큰눈이 더 올 것으로 보입니다ᄋ. 차강 한파도 이어지고 있습니다. 중과 경복을 중심으로 한파 틉고 내려진 가운데 현재서울 욘 영화 11점사도 바암에 불어서 제가 본도는 16점 8도까지 내려가면서 올겨들어서 가장 좋습니다. 오늘 종일 보언에 신경 써주시길 바랍니다. 날씨 전화드렸습니다. 아"""

In [None]:
def split_paragraph(text):
  sen_lst = text.split(".")[:-1]
  sen_point = []
  for i in sen_lst:
    sen_point.append(i + ".")
    
  return sen_point

sen_point = split_paragraph(text)
sen_point

['음 수고하셨습니다.',
 ' 뭐 전에 내용이랑 크게 달라진 건 없네요.',
 ' 근데 지금 개발 규모는 얼마나 되죠? 현재 그 내부인원하고 외주작업 이렇게 진행하고 있습니다.',
 ' 내부는 인원이 몇 명이에요? 그렇게 많진 않습니다.',
 ' 근데 저희가 현재 인원은 보충할 예정입니다.',
 ' 그렇게 많지는 않다.',
 ' 원래 사장님 회사가 무역회사라고 했잖아요.',
 ' 네.',
 ' 이번 사업이랑 성격이 다른데 추가인원 보충도 그렇고 리스크가 좀 있지 않아요? 그렇지는 않습니다.',
 ' 저희가 이제 급변하는 트렌드에 맞춰서 회사를 유연하게 운영할 생각을 가지고 있습니다.',
 ' 그래서 이번 국가사업을 통해서 좀 공격적으로 R&D를 할 생각입니다.',
 ' 네 잘 알겠습니다.',
 ' 뭐 더 질문 없으시죠? 그러면 수고들 하셨습니다.',
 ' 그 전에 말씀드린 박람회 때는 어플 출시 가능하죠? 어 예.',
 ' 준 준비하겠습니다.',
 ' 네 고생하셨습니다.',
 ' 네 일어나셔도 돼요.',
 ' 끝난 끝난건가요? 그럼 좀 잘 좀 부탁드리겠습니다.',
 ' 잘 부탁 드리겠습니다.',
 ' 수고하셨습니다.']

In [None]:
def summary_every_three(sen_lst):
    count=0
    tmp = ""
    summary_lst = []

    for i in tqdm(range(0, len(sen_lst))):
        
        if i == len(sen_lst)-2  and tmp != "":
          summary_lst.append(t5_summarize(sen_lst[i] + sen_lst[i+1]))

        elif i == len(sen_lst)-1 and tmp != "":
          summary_lst.append(t5_summarize(sen_lst[i]))

          break

        if count == 3:
          summary = t5_summarize(tmp)
          summary_lst.append(summary)

          tmp=""
          count=0

        
        tmp += sen_lst[i]
        count += 1
        

    for i in tqdm(summary_lst):
      print("▪️", i)


In [None]:
summary_every_three(sen_point)

 95%|█████████▌| 19/20 [03:55<00:12, 12.42s/it]
100%|██████████| 8/8 [00:00<00:00, 21690.00it/s]

▪️ 개발 규모는 내부인원과 외주작업으로 진행하고 있습니다.
▪️ 인원이 그렇게 많지 않음에도 불구하고 저희가 보충할 예정이다.
▪️ 사장님이 무역회사라고 했던 게 이번 사업하고 성격이 다른데 추가인원 보충도 그렇고 리스크가 좀 있지 않나요?
▪️ 저희가 급변하는 트렌드에 맞춰서 회사를 유연하게 운영할 생각을 가지고 있습니다.
▪️ 박람회 때 어플을 출시할 수 있냐고 묻자 준 준비하겠다고 했다.
▪️ 잘 부탁드린다고요.
▪️ 네 고생하셨습니다.
▪️ 수고하셨습니다.



