In [1]:
magma_dir = '/home/ubuntu/magma/'
bucket_dir = '/home/ubuntu/s3/'
transformers_dir = '/home/ubuntu/transformers/'
cache_dir = bucket_dir+'.cache/'

## **Fine-tuning**

In [2]:
finetune_script = '"'+transformers_dir+'examples/seq2seq/finetune_trainer.py"'
eval_script = '"'+transformers_dir+'examples/seq2seq/run_eval.py"'

### **Config**

In [3]:
import sys
sys.path.insert(0, magma_dir)
import config

import torch
torch.manual_seed = config.SEED

import wandb
wandb.login()

project_name = 'finetune_para_wordembed'
%env WANDB_PROJECT=$project_name

Failed to query for notebook name, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable
[34m[1mwandb[0m: Currently logged in as: [33mmarcoabrate[0m (use `wandb login --relogin` to force relogin)


env: WANDB_PROJECT=finetune_para_wordembed


### Karger Books Para

In [4]:
model_name_or_path = 'sshleifer/distilbart-cnn-12-6'

In [5]:
data_dir = '"'+bucket_dir+'datasets/karger_books_para_wordembed/bart/st/"'

output_dir = '"'+bucket_dir+'fine-tuning/'+\
    model_name_or_path.replace('/', '?')+'_karger_books_para_wordembed_no_freeze_train/"'

log_dir = bucket_dir + '/logs'

In [6]:
from transformers import AutoConfig
model_config = AutoConfig.from_pretrained(model_name_or_path, use_cache=False)
model_config.min_length = config.ONE_BULLET_MIN_LEN
model_config.max_length = config.ONE_BULLET_MAX_LEN
model_config.length_penalty = config.LENGTH_PENALTY
model_config.no_repeat_ngram_size = config.NO_REPEAT_NGRAM_SIZE

model_config.task_specific_params['summarization']['min_length'] = config.ONE_BULLET_MIN_LEN
model_config.task_specific_params['summarization']['max_length'] = config.ONE_BULLET_MAX_LEN
model_config.task_specific_params['summarization']['length_penalty'] = config.LENGTH_PENALTY
model_config.task_specific_params['summarization']['no_repeat_ngram_size'] = config.NO_REPEAT_NGRAM_SIZE
model_config_dir = '"'+bucket_dir+'fine-tuning/'+\
    model_name_or_path.replace('/', '?')+'_config"'
model_config.save_pretrained(model_config_dir[1:-1])

##### Fine tune

In [13]:
model_name_or_path = output_dir[:-1] + 'checkpoint-325"'
model_name_or_path

'"/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/checkpoint-325"'

In [14]:
from transformers import AutoTokenizer
tok = AutoTokenizer.from_pretrained('sshleifer/distilbart-cnn-12-6', use_cache=False)
tok.save_pretrained(model_name_or_path[1:-1])

Downloading:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

('/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/checkpoint-325/tokenizer_config.json',
 '/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/checkpoint-325/special_tokens_map.json',
 '/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/checkpoint-325/vocab.json',
 '/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/checkpoint-325/merges.txt',
 '/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/checkpoint-325/added_tokens.json')

In [15]:
!python3 $finetune_script \
--model_name_or_path $model_name_or_path \
--config_name $model_config_dir \
--tokenizer_name $model_name_or_path \
--cache_dir $cache_dir \
--data_dir $data_dir \
--fp16 \
--learning_rate 3e-5 --label_smoothing 0.1 \
--freeze_embeds --freeze_encoder \
--sortish_sampler \
--task summarization \
--max_source_length 1024 \
--max_target_length $config.ONE_BULLET_MAX_LEN \
--val_max_target_length $config.ONE_BULLET_MAX_LEN \
--test_max_target_length $config.ONE_BULLET_MAX_LEN \
--do_train \
--num_train_epochs 5 \
--logging_steps 10 --save_steps 100 --save_total_limit 3 \
--per_device_train_batch_size 16 --per_device_eval_batch_size 16
--gradient_accumulation_steps 1 --eval_accumulation_steps 1 \
--do_eval --evaluation_strategy steps --eval_steps 25 --eval_beams 2 \
--metric_for_best_model rougeL --greater_is_better True \
--load_best_model_at_end \
--predict_with_generate \
--output_dir $output_dir \
--overwrite_output_dir \
--seed $config.SEED \
--run_name $output_dir

01/22/2021 11:53:54 - INFO - __main__ -   Training/evaluation parameters Seq2SeqTrainingArguments(output_dir='/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/', overwrite_output_dir=True, do_train=True, do_eval=True, do_predict=False, model_parallel=False, evaluation_strategy=<EvaluationStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=16, per_device_eval_batch_size=16, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=1, eval_accumulation_steps=None, learning_rate=3e-05, weight_decay=0.0, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=5.0, max_steps=-1, warmup_steps=0, logging_dir='runs/Jan22_11-53-54_ip-172-31-39-35', logging_first_step=False, logging_steps=10, save_steps=100, save_total_limit=3, no_cuda=False, seed=42, fp16=True, fp16_opt_level='O1', local_rank=-1, tpu_num_cores=None, tpu_metrics_debug=False, debug=False, datal

01/22/2021 11:54:50 - INFO - __main__ -   *** Train ***
[INFO|trainer.py:703] 2021-01-22 11:55:21,580 >> ***** Running training *****
[INFO|trainer.py:704] 2021-01-22 11:55:21,580 >>   Num examples = 2046
[INFO|trainer.py:705] 2021-01-22 11:55:21,580 >>   Num Epochs = 5
[INFO|trainer.py:706] 2021-01-22 11:55:21,580 >>   Instantaneous batch size per device = 16
[INFO|trainer.py:707] 2021-01-22 11:55:21,580 >>   Total train batch size (w. parallel, distributed & accumulation) = 16
[INFO|trainer.py:708] 2021-01-22 11:55:21,580 >>   Gradient Accumulation steps = 1
[INFO|trainer.py:709] 2021-01-22 11:55:21,580 >>   Total optimization steps = 640
[INFO|trainer.py:725] 2021-01-22 11:55:21,619 >>   Continuing training from checkpoint, will skip to saved global_step
[INFO|trainer.py:726] 2021-01-22 11:55:21,619 >>   Continuing training from epoch 2
[INFO|trainer.py:727] 2021-01-22 11:55:21,619 >>   Continuing training from global step 325
[INFO|trainer.py:730] 2021-01-22 11:55:21,619 >>   Will 

[INFO|configuration_utils.py:289] 2021-01-22 12:24:55,551 >> Configuration saved in /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/checkpoint-475/config.json
[INFO|modeling_utils.py:814] 2021-01-22 12:25:41,974 >> Model weights saved in /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/checkpoint-475/pytorch_model.bin
[INFO|trainer.py:1285] 2021-01-22 12:26:11,372 >> Deleting older checkpoint [/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/checkpoint-475] due to args.save_total_limit
{'loss': 1628.46650390625, 'learning_rate': 7.5e-06, 'epoch': 3.75}
                                                 {'loss': 1957.0677734375, 'learning_rate': 7.03125e-06, 'epoch': 3.828125}
 78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 500/640 [30:59<00:50,  2.77it/s][INFO|trainer.py:1412] 2021-01-22 12:26:22,375 >> ***** Running Evaluation *****
[INFO|trainer.py:1413] 2021-01-22 12:26:2

 89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 570/640 [46:25<00:32,  2.18it/s]{'loss': 1750.7443359375, 'learning_rate': 3.28125e-06, 'epoch': 4.453125}
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 575/640 [46:26<00:23,  2.79it/s][INFO|trainer.py:1412] 2021-01-22 12:41:49,677 >> ***** Running Evaluation *****
[INFO|trainer.py:1413] 2021-01-22 12:41:49,677 >>   Num examples = 266
[INFO|trainer.py:1414] 2021-01-22 12:41:49,677 >>   Batch size = 16

  0%|          | 0/17 [00:00<?, ?it/s][A
 12%|‚ñà‚ñè        | 2/17 [00:15<01:57,  7.81s/it][A
 18%|‚ñà‚ñä        | 3/17 [00:28<02:18,  9.89s/it][A
 24%|‚ñà‚ñà‚ñé       | 4/17 [00:44<02:36, 12.02s/it][A
 29%|‚ñà‚ñà‚ñâ       | 5/17 [01:05<03:02, 15.22s/it][A
 35%|‚ñà‚ñà‚ñà‚ñå      | 6/17 [01:12<02:18, 12.56s/it][A
 41%|‚ñà‚ñà‚ñà‚ñà      | 7/17 [01:21<01:55, 11.58s/it][A
 47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 8/17 [01:30<01:35, 10.66s/it][A
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 9/17 [01:47<01:39, 12.50s/it][A
 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 10/17 [01:56<01:20, 11.47s/it][A
 65%|‚ñ

[INFO|modeling_utils.py:1140] 2021-01-22 12:57:58,569 >> All model checkpoint weights were used when initializing BartForConditionalGeneration.

[INFO|modeling_utils.py:1149] 2021-01-22 12:57:58,569 >> All the weights of BartForConditionalGeneration were initialized from the model checkpoint at /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/checkpoint-275.
If your task is similar to the task the model of the checkpoint was trained on, you can already use BartForConditionalGeneration for predictions without further training.
{'epoch': 5.0}                                     
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 640/640 [1:02:35<00:00,  5.87s/it]
[INFO|trainer.py:1226] 2021-01-22 12:57:59,375 >> Saving model checkpoint to /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_train/
[INFO|configuration_utils.py:289] 2021-01-22 12:57:59,535 >> Configuration saved in /home/ubuntu/s3/fine-tuning/sshleifer?distilbar

##### Fine tune No Freeze

In [12]:
!python3 $finetune_script \
--model_name_or_path $model_name_or_path \
--config_name $model_config_dir \
--tokenizer_name $model_name_or_path \
--cache_dir $cache_dir \
--data_dir $data_dir \
--fp16 \
--learning_rate 3e-5 --label_smoothing 0.1 \
--freeze_embeds \
--sortish_sampler \
--task summarization \
--max_source_length 1024 \
--max_target_length $config.ONE_BULLET_MAX_LEN \
--val_max_target_length $config.ONE_BULLET_MAX_LEN \
--test_max_target_length $config.ONE_BULLET_MAX_LEN \
--do_train \
--num_train_epochs 5 \
--logging_steps 10 --save_steps 100 --save_total_limit 3 \
--per_device_train_batch_size 2 --per_device_eval_batch_size 2 \
--gradient_accumulation_steps 8 --eval_accumulation_steps 8 \
--do_eval --evaluation_strategy steps --eval_steps 25 --eval_beams 2 \
--metric_for_best_model rougeL --greater_is_better True \
--load_best_model_at_end \
--predict_with_generate \
--output_dir $output_dir \
--overwrite_output_dir \
--seed $config.SEED \
--run_name $output_dir

01/27/2021 14:12:25 - INFO - __main__ -   Training/evaluation parameters Seq2SeqTrainingArguments(output_dir='/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/', overwrite_output_dir=True, do_train=True, do_eval=True, do_predict=False, model_parallel=False, evaluation_strategy=<EvaluationStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=2, per_device_eval_batch_size=2, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=8, eval_accumulation_steps=8, learning_rate=3e-05, weight_decay=0.0, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=5.0, max_steps=-1, warmup_steps=0, logging_dir='runs/Jan27_14-12-25_ip-172-31-39-35', logging_first_step=False, logging_steps=10, save_steps=100, save_total_limit=3, no_cuda=False, seed=42, fp16=True, fp16_opt_level='O1', local_rank=-1, tpu_num_cores=None, tpu_metrics_debug=False, debug=False, 

01/27/2021 14:12:53 - INFO - __main__ -   *** Train ***
[INFO|trainer.py:703] 2021-01-27 14:12:53,602 >> ***** Running training *****
[INFO|trainer.py:704] 2021-01-27 14:12:53,602 >>   Num examples = 2046
[INFO|trainer.py:705] 2021-01-27 14:12:53,602 >>   Num Epochs = 5
[INFO|trainer.py:706] 2021-01-27 14:12:53,602 >>   Instantaneous batch size per device = 2
[INFO|trainer.py:707] 2021-01-27 14:12:53,602 >>   Total train batch size (w. parallel, distributed & accumulation) = 16
[INFO|trainer.py:708] 2021-01-27 14:12:53,602 >>   Gradient Accumulation steps = 8
[INFO|trainer.py:709] 2021-01-27 14:12:53,602 >>   Total optimization steps = 635
/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/
[INFO|integrations.py:371] 2021-01-27 14:12:53,606 >> Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
[34m[1mwandb[0m: Currently logged in as: [33mmarcoabrate[0m (use `wandb login --relogin` to f

 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 103/133 [01:39<00:29,  1.03it/s][A
 78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 104/133 [01:40<00:28,  1.03it/s][A
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 105/133 [01:41<00:28,  1.02s/it][A
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 106/133 [01:42<00:28,  1.06s/it][A
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 107/133 [01:43<00:26,  1.02s/it][A
 81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 108/133 [01:44<00:23,  1.06it/s][A
 82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 109/133 [01:45<00:19,  1.20it/s][A
 83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 110/133 [01:45<00:18,  1.23it/s][A
 83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 111/133 [01:46<00:18,  1.21it/s][A
 84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 112/133 [01:47<00:15,  1.37it/s][A
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 113/133 [01:47<00:14,  1.42it/s][A
 86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 114/133 [01:48<00:14,  1.31it/s][A
 86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 115/133 [01:49<00:13,  1.36it/s][A
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 116/133 [01:50<00:13,  1.27it/s][A
 88%|‚ñà‚ñà‚ñà‚ñà‚

 73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 97/133 [01:34<00:32,  1.10it/s][A
 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 98/133 [01:34<00:29,  1.20it/s][A
 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 99/133 [01:36<00:43,  1.27s/it][A
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 100/133 [01:37<00:39,  1.19s/it][A
 76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 101/133 [01:39<00:39,  1.24s/it][A
 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 102/133 [01:39<00:31,  1.03s/it][A
 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 103/133 [01:40<00:27,  1.08it/s][A
 78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 104/133 [01:41<00:24,  1.20it/s][A
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 105/133 [01:42<00:23,  1.19it/s][A
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 106/133 [01:43<00:26,  1.02it/s][A
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 107/133 [01:44<00:24,  1.06it/s][A
 81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 108/133 [01:44<00:20,  1.22it/s][A
 82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 109/133 [01:45<00:17,  1.35it/s][A
 83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 110/133 [01:46<00:17,  1.30it/s][A
 83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé 

 69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 92/133 [01:41<00:52,  1.28s/it][A
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 93/133 [01:42<00:51,  1.28s/it][A
 71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 94/133 [01:44<00:55,  1.41s/it][A
 71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 95/133 [01:45<00:46,  1.23s/it][A
 72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 96/133 [01:46<00:41,  1.13s/it][A
 73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 97/133 [01:46<00:36,  1.01s/it][A
 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 98/133 [01:47<00:31,  1.10it/s][A
 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 99/133 [01:49<00:43,  1.28s/it][A
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 100/133 [01:51<00:43,  1.31s/it][A
 76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 101/133 [01:51<00:35,  1.11s/it][A
 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 102/133 [01:52<00:31,  1.00s/it][A
 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 103/133 [01:53<00:27,  1.09it/s][A
 78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 104/133 [01:53<00:24,  1.21it/s][A
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 105/133 [01:54<00:25,  1.11it/s][A
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 106/133 [01:55<

 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 86/133 [01:20<00:43,  1.07it/s][A
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 87/133 [01:21<00:47,  1.04s/it][A
 66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 88/133 [01:22<00:50,  1.12s/it][A
 67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 89/133 [01:23<00:48,  1.09s/it][A
 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 90/133 [01:25<00:51,  1.19s/it][A
 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 91/133 [01:25<00:46,  1.10s/it][A
 69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 92/133 [01:28<00:59,  1.46s/it][A
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 93/133 [01:29<00:56,  1.41s/it][A
 71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 94/133 [01:30<00:46,  1.20s/it][A
 71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 95/133 [01:31<00:41,  1.08s/it][A
 72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 96/133 [01:31<00:37,  1.02s/it][A
 73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 97/133 [01:32<00:34,  1.04it/s][A
 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 98/133 [01:33<00:30,  1.15it/s][A
 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 99/133 [01:35<00:37,  1.11s/it][A
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 100/133 [01:36<00:39,  1.21s/it]

 57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 76/133 [01:23<00:48,  1.18it/s][A
 58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 77/133 [01:23<00:43,  1.30it/s][A
 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 78/133 [01:24<00:48,  1.13it/s][A
 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 79/133 [01:25<00:50,  1.06it/s][A
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 80/133 [01:26<00:49,  1.06it/s][A
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 81/133 [01:27<00:42,  1.22it/s][A
 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 82/133 [01:28<00:38,  1.34it/s][A
 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 83/133 [01:28<00:37,  1.32it/s][A
 63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 84/133 [01:29<00:35,  1.40it/s][A
 64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 85/133 [01:29<00:31,  1.54it/s][A
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 86/133 [01:32<00:59,  1.27s/it][A
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 87/133 [01:34<00:59,  1.30s/it][A
 66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 88/133 [01:34<00:49,  1.11s/it][A
 67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 89/133 [01:35<00:51,  1.17s/it][A
 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 90/133 [01:37<00:54,  1.28s/it][A
 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñ

 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 67/133 [01:17<01:13,  1.11s/it][A
 51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 68/133 [01:20<01:42,  1.58s/it][A
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 69/133 [01:22<01:49,  1.72s/it][A
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 70/133 [01:23<01:39,  1.59s/it][A
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 71/133 [01:24<01:31,  1.48s/it][A
 54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 72/133 [01:25<01:17,  1.27s/it][A
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 73/133 [01:26<01:06,  1.11s/it][A
 56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 74/133 [01:27<00:56,  1.05it/s][A
 56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 75/133 [01:27<00:56,  1.03it/s][A
 57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 76/133 [01:28<00:51,  1.10it/s][A
 58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 77/133 [01:29<00:45,  1.22it/s][A
 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 78/133 [01:29<00:41,  1.33it/s][A
 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 79/133 [01:32<01:09,  1.28s/it][A
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 80/133 [01:33<01:01,  1.17s/it][A
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 81/133 [01:33<00:49,  1.05it/s][A
 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 82/133 [01:34

 43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 57/133 [01:10<01:31,  1.20s/it][A
 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 58/133 [01:11<01:18,  1.05s/it][A
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 59/133 [01:12<01:21,  1.10s/it][A
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 60/133 [01:14<01:29,  1.23s/it][A
 46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 61/133 [01:16<01:50,  1.54s/it][A
 47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 62/133 [01:17<01:34,  1.34s/it][A
 47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 63/133 [01:18<01:23,  1.20s/it][A
 48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 64/133 [01:19<01:23,  1.21s/it][A
 49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 65/133 [01:20<01:19,  1.17s/it][A
 50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 66/133 [01:21<01:15,  1.12s/it][A
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 67/133 [01:23<01:31,  1.39s/it][A
 51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 68/133 [01:26<01:57,  1.81s/it][A
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 69/133 [01:27<01:35,  1.49s/it][A
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 70/133 [01:29<01:45,  1.68s/it][A
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 71/133 [01:30<01:33,  1.50s/it][A
 54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 72/133 [01:31<01:19,  1.30s/it][A


 37%|‚ñà‚ñà‚ñà‚ñã      | 49/133 [01:14<00:55,  1.51it/s][A
 38%|‚ñà‚ñà‚ñà‚ñä      | 50/133 [01:15<01:09,  1.20it/s][A
 38%|‚ñà‚ñà‚ñà‚ñä      | 51/133 [01:18<01:53,  1.39s/it][A
 39%|‚ñà‚ñà‚ñà‚ñâ      | 52/133 [01:19<02:00,  1.48s/it][A
 40%|‚ñà‚ñà‚ñà‚ñâ      | 53/133 [01:20<01:35,  1.19s/it][A
 41%|‚ñà‚ñà‚ñà‚ñà      | 54/133 [01:21<01:28,  1.12s/it][A
 41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 55/133 [01:21<01:16,  1.02it/s][A
 42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 56/133 [01:22<01:07,  1.14it/s][A
 43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 57/133 [01:25<01:46,  1.40s/it][A
 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 58/133 [01:26<01:38,  1.31s/it][A
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 59/133 [01:28<01:51,  1.51s/it][A
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 60/133 [01:29<01:34,  1.29s/it][A
 46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 61/133 [01:30<01:42,  1.42s/it][A
 47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 62/133 [01:31<01:29,  1.26s/it][A
 47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 63/133 [01:32<01:17,  1.11s/it][A
 48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 64/133 [01:33<01:15,  1.10s/it][A
 49%|‚ñà‚ñà‚ñà‚ñà‚ñâ

 31%|‚ñà‚ñà‚ñà       | 41/133 [00:58<01:25,  1.08it/s][A
 32%|‚ñà‚ñà‚ñà‚ñè      | 42/133 [01:00<01:41,  1.12s/it][A
 32%|‚ñà‚ñà‚ñà‚ñè      | 43/133 [01:02<02:08,  1.43s/it][A
 33%|‚ñà‚ñà‚ñà‚ñé      | 44/133 [01:03<02:00,  1.35s/it][A
 34%|‚ñà‚ñà‚ñà‚ñç      | 45/133 [01:04<01:47,  1.22s/it][A
 35%|‚ñà‚ñà‚ñà‚ñç      | 46/133 [01:05<01:32,  1.07s/it][A
 35%|‚ñà‚ñà‚ñà‚ñå      | 47/133 [01:06<01:20,  1.07it/s][A
 36%|‚ñà‚ñà‚ñà‚ñå      | 48/133 [01:06<01:08,  1.25it/s][A
 37%|‚ñà‚ñà‚ñà‚ñã      | 49/133 [01:06<00:56,  1.49it/s][A
 38%|‚ñà‚ñà‚ñà‚ñä      | 50/133 [01:07<00:59,  1.40it/s][A
 38%|‚ñà‚ñà‚ñà‚ñä      | 51/133 [01:08<01:03,  1.29it/s][A
 39%|‚ñà‚ñà‚ñà‚ñâ      | 52/133 [01:09<01:06,  1.23it/s][A
 40%|‚ñà‚ñà‚ñà‚ñâ      | 53/133 [01:10<01:05,  1.22it/s][A
 41%|‚ñà‚ñà‚ñà‚ñà      | 54/133 [01:11<01:10,  1.12it/s][A
 41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 55/133 [01:12<01:06,  1.17it/s][A
 42%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 56/133 [01:12<00:57,  1.33it/s][A
 43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 57/133 [01:

 24%|‚ñà‚ñà‚ñç       | 32/133 [00:44<01:57,  1.16s/it][A
 25%|‚ñà‚ñà‚ñç       | 33/133 [00:45<01:46,  1.07s/it][A
 26%|‚ñà‚ñà‚ñå       | 34/133 [00:45<01:40,  1.01s/it][A
 26%|‚ñà‚ñà‚ñã       | 35/133 [00:46<01:37,  1.01it/s][A
 27%|‚ñà‚ñà‚ñã       | 36/133 [00:47<01:25,  1.13it/s][A
 28%|‚ñà‚ñà‚ñä       | 37/133 [00:48<01:21,  1.18it/s][A
 29%|‚ñà‚ñà‚ñä       | 38/133 [00:48<01:13,  1.29it/s][A
 29%|‚ñà‚ñà‚ñâ       | 39/133 [00:50<01:51,  1.18s/it][A
 30%|‚ñà‚ñà‚ñà       | 40/133 [00:51<01:26,  1.08it/s][A
 31%|‚ñà‚ñà‚ñà       | 41/133 [00:52<01:24,  1.08it/s][A
 32%|‚ñà‚ñà‚ñà‚ñè      | 42/133 [00:54<01:52,  1.23s/it][A
 32%|‚ñà‚ñà‚ñà‚ñè      | 43/133 [00:56<02:11,  1.47s/it][A
 33%|‚ñà‚ñà‚ñà‚ñé      | 44/133 [00:57<02:16,  1.54s/it][A
 34%|‚ñà‚ñà‚ñà‚ñç      | 45/133 [00:58<01:52,  1.28s/it][A
 35%|‚ñà‚ñà‚ñà‚ñç      | 46/133 [00:59<01:36,  1.11s/it][A
 35%|‚ñà‚ñà‚ñà‚ñå      | 47/133 [00:59<01:22,  1.04it/s][A
 36%|‚ñà‚ñà‚ñà‚ñå      | 48/133 [01:00<01:08,  1.25it/s][A


 18%|‚ñà‚ñä        | 24/133 [00:37<02:28,  1.37s/it][A
 19%|‚ñà‚ñâ        | 25/133 [00:41<03:53,  2.16s/it][A
 20%|‚ñà‚ñâ        | 26/133 [00:44<04:05,  2.29s/it][A
 20%|‚ñà‚ñà        | 27/133 [00:45<03:42,  2.10s/it][A
 21%|‚ñà‚ñà        | 28/133 [00:46<03:00,  1.72s/it][A
 22%|‚ñà‚ñà‚ñè       | 29/133 [00:47<02:18,  1.33s/it][A
 23%|‚ñà‚ñà‚ñé       | 30/133 [00:50<03:06,  1.81s/it][A
 23%|‚ñà‚ñà‚ñé       | 31/133 [00:51<03:06,  1.83s/it][A
 24%|‚ñà‚ñà‚ñç       | 32/133 [00:53<03:05,  1.83s/it][A
 25%|‚ñà‚ñà‚ñç       | 33/133 [00:54<02:34,  1.54s/it][A
 26%|‚ñà‚ñà‚ñå       | 34/133 [00:57<03:24,  2.06s/it][A
 26%|‚ñà‚ñà‚ñã       | 35/133 [00:59<02:55,  1.79s/it][A
 27%|‚ñà‚ñà‚ñã       | 36/133 [00:59<02:24,  1.49s/it][A
 28%|‚ñà‚ñà‚ñä       | 37/133 [01:00<02:01,  1.26s/it][A
 29%|‚ñà‚ñà‚ñä       | 38/133 [01:01<01:41,  1.07s/it][A
 29%|‚ñà‚ñà‚ñâ       | 39/133 [01:03<02:10,  1.39s/it][A
 30%|‚ñà‚ñà‚ñà       | 40/133 [01:03<01:42,  1.11s/it][A
 31%|‚ñà‚ñà‚ñà       | 4

  9%|‚ñâ         | 12/133 [00:19<03:28,  1.72s/it][A
 10%|‚ñâ         | 13/133 [00:21<03:36,  1.81s/it][A
 11%|‚ñà         | 14/133 [00:22<03:03,  1.54s/it][A
 11%|‚ñà‚ñè        | 15/133 [00:24<03:06,  1.58s/it][A
 12%|‚ñà‚ñè        | 16/133 [00:26<03:03,  1.57s/it][A
 13%|‚ñà‚ñé        | 17/133 [00:26<02:28,  1.28s/it][A
 14%|‚ñà‚ñé        | 18/133 [00:28<02:55,  1.53s/it][A
 14%|‚ñà‚ñç        | 19/133 [00:30<02:53,  1.52s/it][A
 15%|‚ñà‚ñå        | 20/133 [00:31<02:38,  1.40s/it][A
 16%|‚ñà‚ñå        | 21/133 [00:32<02:38,  1.41s/it][A
 17%|‚ñà‚ñã        | 22/133 [00:33<02:21,  1.27s/it][A
 17%|‚ñà‚ñã        | 23/133 [00:35<02:25,  1.32s/it][A
 18%|‚ñà‚ñä        | 24/133 [00:36<02:21,  1.30s/it][A
 19%|‚ñà‚ñâ        | 25/133 [00:40<03:57,  2.20s/it][A
 20%|‚ñà‚ñâ        | 26/133 [00:42<03:43,  2.09s/it][A
 20%|‚ñà‚ñà        | 27/133 [00:44<03:27,  1.96s/it][A
 21%|‚ñà‚ñà        | 28/133 [00:44<02:40,  1.53s/it][A
 22%|‚ñà‚ñà‚ñè       | 29/133 [00:45<02:04,  1.19s/it]

  2%|‚ñè         | 2/133 [00:04<04:39,  2.13s/it][A
  2%|‚ñè         | 3/133 [00:04<03:15,  1.51s/it][A
  3%|‚ñé         | 4/133 [00:05<02:37,  1.22s/it][A
  4%|‚ñç         | 5/133 [00:06<02:00,  1.07it/s][A
  5%|‚ñç         | 6/133 [00:06<01:52,  1.13it/s][A
  5%|‚ñå         | 7/133 [00:08<02:07,  1.01s/it][A
  6%|‚ñå         | 8/133 [00:08<01:44,  1.20it/s][A
  7%|‚ñã         | 9/133 [00:08<01:22,  1.51it/s][A
  8%|‚ñä         | 10/133 [00:09<01:19,  1.55it/s][A
  8%|‚ñä         | 11/133 [00:11<02:20,  1.15s/it][A
  9%|‚ñâ         | 12/133 [00:13<02:51,  1.41s/it][A
 10%|‚ñâ         | 13/133 [00:16<03:26,  1.72s/it][A
 11%|‚ñà         | 14/133 [00:17<02:56,  1.48s/it][A
 11%|‚ñà‚ñè        | 15/133 [00:18<02:35,  1.32s/it][A
 12%|‚ñà‚ñè        | 16/133 [00:19<02:39,  1.36s/it][A
 13%|‚ñà‚ñé        | 17/133 [00:20<02:12,  1.14s/it][A
 14%|‚ñà‚ñé        | 18/133 [00:22<02:44,  1.43s/it][A
 14%|‚ñà‚ñç        | 19/133 [00:22<02:18,  1.22s/it][A
 15%|‚ñà‚ñå        | 20/13

 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 350/635 [1:03:49<04:33,  1.04it/s][INFO|trainer.py:1412] 2021-01-27 15:16:44,100 >> ***** Running Evaluation *****7507331378299122}
[INFO|trainer.py:1413] 2021-01-27 15:16:44,100 >>   Num examples = 266
[INFO|trainer.py:1414] 2021-01-27 15:16:44,100 >>   Batch size = 2


  0%|          | 0/133 [00:00<?, ?it/s][A
  2%|‚ñè         | 2/133 [00:06<06:53,  3.16s/it][A
  2%|‚ñè         | 3/133 [00:07<04:54,  2.26s/it][A
  3%|‚ñé         | 4/133 [00:07<03:30,  1.63s/it][A
  4%|‚ñç         | 5/133 [00:08<02:35,  1.21s/it][A
  5%|‚ñç         | 6/133 [00:09<02:29,  1.17s/it][A
  5%|‚ñå         | 7/133 [00:10<02:39,  1.27s/it][A
  6%|‚ñå         | 8/133 [00:11<02:05,  1.00s/it][A
  7%|‚ñã         | 9/133 [00:11<01:37,  1.28it/s][A
  8%|‚ñä         | 10/133 [00:12<01:39,  1.24it/s][A
  8%|‚ñä         | 11/133 [00:15<03:06,  1.53s/it][A
  9%|‚ñâ         | 12/133 [00:19<04:13,  2.10s/it][A
 10%|‚ñâ         | 13/133 [00:22<05:01,  2.52s/it][A
 11%|‚ñà        

 57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 360/635 [1:09:11<21:30,  4.69s/it]{'loss': 211.2912109375, 'learning_rate': 1.2992125984251968e-05, 'epoch': 2.8289345063538613}
 58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 370/635 [1:09:20<04:15,  1.04it/s]{'loss': 208.8566162109375, 'learning_rate': 1.2519685039370078e-05, 'epoch': 2.9071358748778104}
 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 375/635 [1:09:24<04:05,  1.06it/s][INFO|trainer.py:1412] 2021-01-27 15:22:19,650 >> ***** Running Evaluation *****
[INFO|trainer.py:1413] 2021-01-27 15:22:19,650 >>   Num examples = 266
[INFO|trainer.py:1414] 2021-01-27 15:22:19,650 >>   Batch size = 2

  0%|          | 0/133 [00:00<?, ?it/s][A
  2%|‚ñè         | 2/133 [00:06<07:20,  3.37s/it][A
  2%|‚ñè         | 3/133 [00:07<05:07,  2.37s/it][A
  3%|‚ñé         | 4/133 [00:08<03:34,  1.67s/it][A
  4%|‚ñç         | 5/133 [00:08<02:38,  1.23s/it][A
  5%|‚ñç         | 6/133 [00:09<02:30,  1.19s/it][A
  5%|‚ñå         | 7/133 [00:11<02:33,  1.22s/it][A
  6%|‚ñå         | 8/133 [00:11<02:03

[INFO|trainer.py:1285] 2021-01-27 15:27:11,388 >> Deleting older checkpoint [/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/checkpoint-275] due to args.save_total_limit
                                                     {'loss': 198.00308837890626, 'learning_rate': 1.204724409448819e-05, 'epoch': 2.9853372434017595}
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 390/635 [1:14:31<06:15,  1.53s/it]{'loss': 237.249951171875, 'learning_rate': 1.15748031496063e-05, 'epoch': 3.070381231671554}
 63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 400/635 [1:14:41<03:45,  1.04it/s][INFO|trainer.py:1412] 2021-01-27 15:27:36,105 >> ***** Running Evaluation *****
[INFO|trainer.py:1413] 2021-01-27 15:27:36,105 >>   Num examples = 266
[INFO|trainer.py:1414] 2021-01-27 15:27:36,105 >>   Batch size = 2


  0%|          | 0/133 [00:00<?, ?it/s][A
  2%|‚ñè         | 2/133 [00:04<05:23,  2.47s/it][A
  2%|‚ñè         | 3/133 [00:05<04:01,  1.86s/it][A
  3%|‚ñé         | 4/133 [00:06

[INFO|configuration_utils.py:289] 2021-01-27 15:30:22,879 >> Configuration saved in /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/checkpoint-400/config.json
[INFO|modeling_utils.py:814] 2021-01-27 15:31:23,309 >> Model weights saved in /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/checkpoint-400/pytorch_model.bin
[INFO|trainer.py:1285] 2021-01-27 15:32:30,352 >> Deleting older checkpoint [/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/checkpoint-300] due to args.save_total_limit
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 410/635 [1:19:44<16:59,  4.53s/it]{'loss': 196.30150146484374, 'learning_rate': 1.0629921259842519e-05, 'epoch': 3.2267839687194524}
 66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 420/635 [1:19:53<03:28,  1.03it/s]48031496063e-05, 'epoch': 3.304985337243402}
 67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 425/635 [1:19:57<03:07,  1.12it/s][INFO|trai

                                                 [A[INFO|trainer.py:1226] 2021-01-27 15:35:46,989 >> Saving model checkpoint to /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/checkpoint-425
[INFO|configuration_utils.py:289] 2021-01-27 15:35:47,135 >> Configuration saved in /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/checkpoint-425/config.json
[INFO|modeling_utils.py:814] 2021-01-27 15:36:31,170 >> Model weights saved in /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/checkpoint-425/pytorch_model.bin
[INFO|trainer.py:1285] 2021-01-27 15:37:42,280 >> Deleting older checkpoint [/home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/checkpoint-325] due to args.save_total_limit
 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 430/635 [1:24:52<1:14:27, 21.79s/it]{'loss': 188.52266845703124, 'learni

 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 127/133 [02:42<00:05,  1.03it/s][A
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 128/133 [02:43<00:04,  1.03it/s][A
 97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 129/133 [02:44<00:04,  1.16s/it][A
 98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 130/133 [02:46<00:03,  1.24s/it][A
 98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 131/133 [02:47<00:02,  1.30s/it][A
 99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 132/133 [02:48<00:01,  1.08s/it][A
                                                   A
 71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 450/635 [1:28:01<02:52,  1.07it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 133/133 [02:49<00:00,  1.04it/s][A
                                                 [A{'eval_loss': 265.541015625, 'eval_rouge1': 34.406, 'eval_rouge2': 15.1183, 'eval_rougeL': 27.7008, 'eval_rougeLsum': 28.6904, 'eval_gen_len': 36.9, 'epoch': 3.5395894428152492}
[INFO|trainer.py:1226] 2021-01-27 15:40:56,498 >> Saving model checkpoint to /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karge

 89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 118/133 [02:22<00:18,  1.20s/it][A
 89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 119/133 [02:23<00:13,  1.00it/s][A
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 120/133 [02:24<00:12,  1.03it/s][A
 91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 121/133 [02:25<00:11,  1.04it/s][A
 92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 122/133 [02:26<00:10,  1.04it/s][A
 92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 123/133 [02:27<00:11,  1.14s/it][A
 93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 124/133 [02:29<00:10,  1.21s/it][A
 94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 125/133 [02:29<00:08,  1.06s/it][A
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 126/133 [02:30<00:06,  1.08it/s][A
 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 127/133 [02:31<00:05,  1.11it/s][A
 96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 128/133 [02:32<00:04,  1.12it/s][A
 97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 129/133 [02:34<00:04,  1.17s/it][A
 98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 130/133 [02:37<00:05,  1.88s/it][A
 98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 131/133 [02:39<00:03, 

 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 107/133 [02:11<00:33,  1.30s/it][A
 81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 108/133 [02:12<00:29,  1.17s/it][A
 82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 109/133 [02:12<00:23,  1.01it/s][A
 83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 110/133 [02:13<00:18,  1.22it/s][A
 83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 111/133 [02:13<00:17,  1.27it/s][A
 84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 112/133 [02:14<00:13,  1.50it/s][A
 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 113/133 [02:15<00:17,  1.13it/s][A
 86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 114/133 [02:17<00:23,  1.24s/it][A
 86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 115/133 [02:18<00:19,  1.11s/it][A
 87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 116/133 [02:19<00:17,  1.04s/it][A
 88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 117/133 [02:22<00:24,  1.54s/it][A
 89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 118/133 [02:22<00:19,  1.30s/it][A
 89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 119/133 [02:23<00:15,  1.12s/it][A
 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 120/133 [02:24<00:13,  1.06s/it][A
 91%|‚ñà‚ñ

 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 98/133 [02:07<00:38,  1.11s/it][A
 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 99/133 [02:08<00:35,  1.05s/it][A
 75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 100/133 [02:10<00:41,  1.27s/it][A
 76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 101/133 [02:11<00:41,  1.30s/it][A
 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 102/133 [02:12<00:34,  1.12s/it][A
 77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 103/133 [02:12<00:29,  1.01it/s][A
 78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 104/133 [02:13<00:28,  1.01it/s][A
 79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 105/133 [02:15<00:35,  1.27s/it][A
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 106/133 [02:16<00:33,  1.24s/it][A
 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 107/133 [02:18<00:33,  1.27s/it][A
 81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 108/133 [02:19<00:29,  1.16s/it][A
 82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 109/133 [02:19<00:23,  1.02it/s][A
 83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 110/133 [02:20<00:18,  1.23it/s][A
 83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 111/133 [02:21<00:20,  1.06it/s][A
 84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚

 64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 85/133 [01:48<00:36,  1.33it/s][A
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 86/133 [01:55<02:13,  2.83s/it][A
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 87/133 [01:58<02:07,  2.76s/it][A
 66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 88/133 [01:59<01:37,  2.17s/it][A
 67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 89/133 [02:00<01:27,  2.00s/it][A
 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 90/133 [02:02<01:28,  2.07s/it][A
 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 91/133 [02:04<01:20,  1.93s/it][A
 69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 92/133 [02:06<01:23,  2.03s/it][A
 70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 93/133 [02:08<01:17,  1.95s/it][A
 71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 94/133 [02:09<01:03,  1.63s/it][A
 71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 95/133 [02:09<00:46,  1.23s/it][A
 72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 96/133 [02:10<00:40,  1.08s/it][A
 73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 97/133 [02:12<00:53,  1.49s/it][A
 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 98/133 [02:13<00:46,  1.32s/it][A
 74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 99/133 [02:15<00:44,  1.30s/it][A


 57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 76/133 [01:35<01:02,  1.10s/it][A
 58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 77/133 [01:35<00:57,  1.02s/it][A
 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 78/133 [01:36<00:54,  1.00it/s][A
 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 79/133 [01:38<01:06,  1.23s/it][A
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 80/133 [01:39<00:59,  1.12s/it][A
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 81/133 [01:40<00:57,  1.10s/it][A
 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 82/133 [01:41<00:52,  1.03s/it][A
 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 83/133 [01:41<00:42,  1.17it/s][A
 63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 84/133 [01:42<00:39,  1.24it/s][A
 64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 85/133 [01:43<00:38,  1.25it/s][A
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 86/133 [01:49<01:48,  2.32s/it][A
 65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 87/133 [01:51<01:41,  2.21s/it][A
 66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 88/133 [01:52<01:27,  1.95s/it][A
 67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 89/133 [01:53<01:12,  1.66s/it][A
 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 90/133 [01:54<01:06,  1.54s/it][A
 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñ

 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 67/133 [01:27<01:30,  1.37s/it][A
 51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 68/133 [01:29<01:49,  1.68s/it][A
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 69/133 [01:30<01:39,  1.55s/it][A
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 70/133 [01:32<01:31,  1.46s/it][A
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 71/133 [01:33<01:24,  1.37s/it][A
 54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 72/133 [01:34<01:14,  1.21s/it][A
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 73/133 [01:35<01:13,  1.22s/it][A
 56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 74/133 [01:37<01:19,  1.34s/it][A
 56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 75/133 [01:37<01:10,  1.21s/it][A
 57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 76/133 [01:38<01:01,  1.08s/it][A
 58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 77/133 [01:39<00:57,  1.02s/it][A
 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 78/133 [01:40<00:50,  1.09it/s][A
 59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 79/133 [01:42<01:03,  1.18s/it][A
 60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 80/133 [01:42<00:57,  1.09s/it][A
 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 81/133 [01:43<00:45,  1.14it/s][A
 62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 82/133 [01:44

 44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 58/133 [01:14<01:25,  1.14s/it][A
 44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 59/133 [01:15<01:29,  1.21s/it][A
 45%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 60/133 [01:16<01:20,  1.10s/it][A
 46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 61/133 [01:17<01:15,  1.05s/it][A
 47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 62/133 [01:18<01:11,  1.01s/it][A
 47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 63/133 [01:19<01:05,  1.08it/s][A
 48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 64/133 [01:19<00:59,  1.16it/s][A
 49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 65/133 [01:20<00:59,  1.13it/s][A
 50%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 66/133 [01:21<00:59,  1.13it/s][A
 50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 67/133 [01:24<01:31,  1.38s/it][A
 51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 68/133 [01:27<02:01,  1.87s/it][A
 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 69/133 [01:28<01:47,  1.68s/it][A
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 70/133 [01:29<01:37,  1.55s/it][A
 53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 71/133 [01:30<01:19,  1.28s/it][A
 54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 72/133 [01:30<01:06,  1.08s/it][A
 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 73/133 [01:31<01:02,  1.05s/it][

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 635/635 [2:06:33<00:00, 11.96s/it]
{'epoch': 4.9931573802541545}
[INFO|trainer.py:1226] 2021-01-27 16:19:28,352 >> Saving model checkpoint to /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/
[INFO|configuration_utils.py:289] 2021-01-27 16:19:28,542 >> Configuration saved in /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/config.json
[INFO|modeling_utils.py:814] 2021-01-27 16:20:11,523 >> Model weights saved in /home/ubuntu/s3/fine-tuning/sshleifer?distilbart-cnn-12-6_karger_books_para_wordembed_no_freeze_train/pytorch_model.bin
01/27/2021 16:20:11 - INFO - __main__ -   ***** train metrics *****
01/27/2021 16:20:11 - INFO - __main__ -     train_samples_per_second = -0.0
01/27/2021 16:20:11 - INFO - __main__ -     train_runtime = 7594.7549
01/27/2021 16:20:11 - INFO - __main__ -     train_n_ojbs = -1
01/27/2021 16:20:13 - INFO - __main__ -   ***

##### Evaluate

In [None]:
source_test_dir = data_dir[:-1] + '/test.source"'
reference_test_dir = data_dir[:-1] + '/test.target"'

save_dir = output_dir[:-1] + '/'+model_name_or_path.replace('/', '?')+'_test_karger_books_para.txt"'
score_dir = output_dir[:-1] + '/'+model_name_or_path.replace('/', '?')+'_test_karger_books_para.json"'

In [None]:
!python3 $eval_script \
$output_dir \
$source_test_dir \
$save_dir \
--reference_path $reference_test_dir \
--score_path $score_dir \
--task summarization \
--bs 2 \
--length_penalty $config.LENAGTH_PENALTY \
--no_repeat_ngram_size $config.NO_REPEAT_NGRAM_SIZE \
--num_beams $config.NUM_BEAMS \
--dump-args