In [5]:
import os
import re
import warnings

import pandas as pd
import numpy as np
import torch

from transformers import (
    AutoConfig, AutoTokenizer, 
    AutoModelForSeq2SeqLM, Seq2SeqTrainingArguments, Seq2SeqTrainer, DataCollatorForSeq2Seq, 
    AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
)

from datasets import load_metric, Dataset

import wandb
import nltk

os.environ["TOKENIZERS_PARALLELISM"] = "false"
warnings.filterwarnings('ignore')
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/jake/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [6]:
NGPU = torch.cuda.device_count()
NCPU = os.cpu_count()
NGPU, NCPU

(1, 16)

# Paths and Names

In [7]:
### paths and names

PROJECT_NAME = 'news-topic-keyphrase-generation-model-dev'
RUN_ID = 'v2_run_2'

DATA_PATH = 'data/preprocess_v2.pickle'

MODEL_CHECKPOINT = 'ainize/kobart-news'
model_name = re.sub(r'[/-]', r'_', MODEL_CHECKPOINT).lower()

METRIC_NAME = 'rouge'

NOTEBOOK_NAME = './train.ipynb'

ROOT_PATH = './'
SAVE_PATH = os.path.join(ROOT_PATH, '.log')

run_name = f'{model_name}_{RUN_ID}'
output_dir = os.path.join(SAVE_PATH, run_name)

print(run_name)
print(output_dir)

!mkdir -p {SAVE_PATH}

ainize_kobart_news_v2_run_2
./.log/ainize_kobart_news_v2_run_2


In [8]:
%env WANDB_PROJECT={PROJECT_NAME}
%env WANDB_NOTEBOOK_NAME={NOTEBOOK_PATH}
%env WANDB_LOG_MODEL=true
%env WANDB_WATCH=all
wandb.login()

env: WANDB_PROJECT=news-topic-keyphrase-generation-model-dev
env: WANDB_NOTEBOOK_NAME={NOTEBOOK_PATH}
env: WANDB_LOG_MODEL=true
env: WANDB_WATCH=all


True

# Training Args

In [9]:
report_to="wandb"

num_train_epochs = 30
per_device_train_batch_size = 8
per_device_eval_batch_size = 8
gradient_accumulation_steps = 1

optim = 'adamw_torch' # 'adamw_torch' or 'adamw_hf'

learning_rate = 3e-6 * NGPU
weight_decay = 0.01
adam_epsilon = 1e-8

lr_scheduler_type = 'cosine' # 'linear', 'cosine', 'cosine_with_restarts', 'polynomial', 'constant', 'constant_with_warmup'
warmup_ratio = 0

save_total_limit = 2

load_best_model_at_end = True
metric_for_best_model = 'eval_loss'

save_strategy = "epoch"
evaluation_strategy = "epoch"

logging_strategy = "steps"
logging_first_step = True 
logging_steps = int(500 / NGPU)

predict_with_generate=True
generation_max_length=128
# generation_num_beams=5

fp16 = False

# Model & Tokenizer & Metric

In [10]:
config = AutoConfig.from_pretrained(MODEL_CHECKPOINT)

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


In [11]:
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_CHECKPOINT, config=config)
tokenizer = AutoTokenizer.from_pretrained(MODEL_CHECKPOINT)
metric = load_metric(METRIC_NAME)

# Functions

In [12]:
prefix = "generate keyphrases: "

max_input_length = 512
max_target_length = 128

def preprocess_function(examples):
    inputs = [prefix + doc for doc in examples["input_text"]]
    model_inputs = tokenizer(inputs, max_length=max_input_length, truncation=True)

    labels = tokenizer(examples["target_text"], max_length=max_target_length, truncation=True)

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

In [13]:
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
    # Replace -100 in the labels as we can't decode them.
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    
    # Rouge expects a newline after each sentence
    decoded_preds = ["\n".join(nltk.sent_tokenize(pred.strip())) for pred in decoded_preds]
    decoded_labels = ["\n".join(nltk.sent_tokenize(label.strip())) for label in decoded_labels]
    
    result = metric.compute(predictions=decoded_preds, references=decoded_labels, use_stemmer=True)
    # Extract a few results
    result = {key: value.mid.fmeasure * 100 for key, value in result.items()}
    
    # Add mean generated length
    prediction_lens = [np.count_nonzero(pred != tokenizer.pad_token_id) for pred in predictions]
    result["gen_len"] = np.mean(prediction_lens)
    
    return {k: round(v, 4) for k, v in result.items()}

# Inputs and Labels

In [14]:
data_df = pd.read_pickle(DATA_PATH)

In [15]:
dataset = Dataset.from_pandas(data_df).shuffle(seed=100).train_test_split(0.2, seed=100)
train_dataset = dataset['train']
eval_dataset = dataset['test']

In [16]:
train_dataset = train_dataset.map(preprocess_function, 
                                  batched=True, 
                                  num_proc=NCPU, 
                                  remove_columns=train_dataset.column_names)

eval_dataset = eval_dataset.map(preprocess_function, 
                                batched=True, 
                                num_proc=NCPU, 
                                remove_columns=eval_dataset.column_names)
print(train_dataset)
print(eval_dataset)

Map (num_proc=16):   0%|          | 0/1268 [00:00<?, ? examples/s]

Map (num_proc=16):   0%|          | 0/317 [00:00<?, ? examples/s]

Dataset({
    features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
    num_rows: 1268
})
Dataset({
    features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
    num_rows: 317
})


In [17]:
tokenizer.decode(train_dataset['input_ids'][0])

'<s>generate keyphrases: 울산..영하권 추위, 체감온도 \'뚝\' 16일 울산시 남구 삼산동에서 시민들이 몸을 웅크린 채 출근길을 재촉하고 있다. 2021.2.16/뉴스1 © News1 윤일지 기자  조민주 기자 = 25일 울산은 기온이 급격히 떨어지고 바람이 강하게 불어 매우 춥겠다. 아침 최저기온은 영하 4도, 낮 최고기온은 1도로 예상된다. 울산에는 건조주의보와 강풍예비특보가 내려진 상태다. 특히 바람이 30~60km/h, 순간 최대 풍속 70km/h 이상으로 매우 강하게 불 것으로 전망된다. 울산앞바다에도 35~60km/h의 강풍이 불고 물결이 1.5~4m로 매우 높게 일겠다. 해안가에는 너울이 유입되면서 높은 물결이 백사장으로 강하게 밀려오고 갯바위를 넘는 곳이 있겠다. 미세먼지 농도는 \'좋음\' 수준으로 예보됐다. 기상청 관계자는 "날씨가 급격히 추워지면서 수도관이나 계량기 등 동파와 농작물, 양식장 냉해에 대비해 보온 유지가 필요하다"고 말했다. 또 "너울 발생 시 1.5m 내외의 물결에서도 해안가 안전사고가 발생할 수 있으니 해안가 접근을 자제하는 등 안전사고에 유의해야 한다"고 당부했다. minjuman@news1.kr</s>'

In [18]:
tokenizer.decode(train_dataset['labels'][0])

'<s>영하권,추위,체감온도,울산,강풍예비특보,건조주의보</s>'

# Train

In [19]:
training_args = Seq2SeqTrainingArguments(
    output_dir=output_dir,
    run_name=run_name,
    report_to=report_to,

    num_train_epochs=num_train_epochs,
    per_device_train_batch_size=per_device_train_batch_size,
    per_device_eval_batch_size=per_device_eval_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,

    optim=optim,

    learning_rate=learning_rate,
    weight_decay=weight_decay,
    adam_epsilon=adam_epsilon,

    lr_scheduler_type=lr_scheduler_type,
    warmup_ratio=warmup_ratio,

    save_total_limit=save_total_limit,

    load_best_model_at_end=load_best_model_at_end,
    metric_for_best_model=metric_for_best_model,

    save_strategy=save_strategy,
    evaluation_strategy=evaluation_strategy,

    logging_strategy=logging_strategy,
    logging_first_step=logging_first_step, 
    logging_steps=logging_steps,

    predict_with_generate=predict_with_generate,
    generation_max_length=generation_max_length,
    # generation_num_beams=generation_num_beams,

    fp16=fp16,
)

In [20]:
data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model, padding=True)

trainer = Seq2SeqTrainer(
    model=model,
    
    args=training_args,
    
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    
    tokenizer=tokenizer,
    data_collator=data_collator,
    
    compute_metrics=compute_metrics,
)

In [21]:
trainer.train()

You're using a PreTrainedTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Epoch,Training Loss,Validation Loss,Rouge1,Rouge2,Rougel,Rougelsum,Gen Len
1,5.8617,2.499431,14.4132,2.2802,14.1398,14.1155,30.2744
2,5.8617,2.045925,15.3825,2.5247,15.1336,15.1837,30.653
3,5.8617,1.885101,15.8858,3.1282,15.4788,15.4312,28.2744
4,2.4678,1.804188,16.6441,3.5401,16.1466,16.1096,28.3533
5,2.4678,1.763829,17.3286,3.3544,16.6206,16.6213,27.205
6,2.4678,1.740853,18.123,3.7855,17.4443,17.4422,27.1703
7,1.5643,1.728323,19.1269,4.334,18.3596,18.284,26.9148
8,1.5643,1.728065,19.8905,3.9296,18.8965,18.8979,26.8486
9,1.5643,1.71642,20.2067,4.1863,19.5638,19.533,26.0978
10,1.2959,1.716754,19.4958,4.0183,18.6293,18.6388,25.2208


TrainOutput(global_step=4770, training_loss=1.1574851648862508, metrics={'train_runtime': 2099.8261, 'train_samples_per_second': 18.116, 'train_steps_per_second': 2.272, 'total_flos': 8097747940638720.0, 'train_loss': 1.1574851648862508, 'epoch': 30.0})

In [22]:
keep = [
    'added_tokens.json',
    'config.json',
    'pytorch_model.bin',
    'special_tokens_map.json',
    'tokenizer.json',
    'tokenizer_config.json',
    'vocab.txt'
]

ckpts = os.listdir(output_dir)
for ckpt in ckpts:
    ckpt = os.path.join(output_dir, ckpt)
    for item in os.listdir(ckpt):
        if item not in keep:
            os.remove(os.path.join(ckpt, item))

# Generate

In [24]:
preds = trainer.predict(eval_dataset)

In [25]:
for data, pred in zip(eval_dataset, preds.predictions):
    context = tokenizer.decode(data['input_ids'], skip_special_tokens=True)
    summary = tokenizer.decode(data['labels'], skip_special_tokens=True)
    pred = tokenizer.decode(pred[2:], skip_special_tokens=True)
    # print(f'입력: {context}')
    print(f'정답: {summary}')
    print(f'예측: {pred}', end='\n\n')

정답: 남양유업,매매예약완결권,매각,대유홀딩스
예측: 남양유업 매각,출구 없는 싸움,남양유업,대유홀딩스,매각 작업,점입가경

정답: 글로벌 기업 ESG 리스크,전국경제인 연합회
예측: 전 ESG 리스크,한국·중국이 유럽보다 커,환경·사회 리스크,인도,홍콩,인도 등 아시아 기업,서스테이널리틱스 사이트,글로벌 기업 이에스지 리스크 맵

정답: 세레나 윌리엄스,3개월 만에,여자프로테니스 투어,승리,이탈리아 파르마,WTA 투어 에밀리아로마냐오픈,리사 피가토
예측: 세레나 윌리엄스,18세 피가토,WTA 투어 승리

정답: 유럽클럽대항전,'로베르트 레반도프스키',발롱도르,홀란드,MVP
예측: 레롱도르,레반도프스키,발롱도르,뮐러,MVP,이번 시즌,분데스리가,이벤트

정답: 이찬혁,뮤직 토크쇼,더 시즌즈-박재범의 드라이브
예측: 더 시즌즈,박재범,드라이브,신뮤직토크쇼,이찬혁,트로트인,박재범

정답: 50억클럽,화천대유,구속영장,곽상도,수사뉴시스검찰,권순일,재판거래의혹
예측: 화상도 전 국민의힘 의원,화천대유 50억 클럽,영장

정답: 식중독 주의보,식중독 발생,식중독 환자,식중독 예방
예측: 식중독 주의보,기온,식중독 예방,식중독 발생,14년 평균,1°C 오르면

정답: 페이쇼투 시장,시의원,정치인,브라질,스포츠,격투기
예측: 브라정 월드컵,브라질 시장,시정 비판 정치인,격투기,격투기

정답: 김건희,코미디,특검법
예측: 김동희 특검법,코미디,김건희 특검법,코미디

정답: 최정훈,잔나비,유희열의 스케치북
예측: 잔나비,최정훈,유희열의 스케치북,방송 녹화

정답: 지역22번째,대전 90대,확진자,신종 코로나 바이러스
예측: 대전대 확진자,17일 만에 숨져,미국 질병통제예방센터,신종 코로나바이러스

정답: 쇼골프타운 XGOLF,김포공항점,프로골퍼 김진아,비거리 늘리기,공개 레슨,23일 오후 2시,스피드 향상법
예측: 김골프타운,김진아,비거리 늘리기 공개 레슨

정답: 엘리엇 페이지,유방절제,성전환,눈물,오프라 컨버제이션,오프라 페이지,애플TV+
예측: 성방절제 수술,엘리엇 페이