In [1]:
import model as M
import evaluate as E
import config as CFG
import os
import torch

In [2]:
DATASETS = ["billsum", "big_patent", "scientific_papers"]

In [3]:
def train(hierarchical, loss_func, suffix='', separate=False):
    for DATASET in DATASETS:
        train_set = M.CustomDataset(os.path.join(CFG.DATASET_ROOT, DATASET, CFG.METHOD, 'train.tsv'), hierarchical=hierarchical)
        print(len(train_set))

        model = M.Siamese(separate)
        model.to(CFG.DEVICE)

        print("Training from", DATASET)
        M.train_model(model, train_set, loss_func=loss_func, shuffle=False)

        CKPT_PATH = os.path.join(CFG.RESULT_ROOT, DATASET, CFG.METHOD+suffix, "model.pth")
        if not os.path.exists(os.path.dirname(CKPT_PATH)):
            os.makedirs(os.path.dirname(CKPT_PATH))

        scorer = model.base_model
        torch.save(scorer.state_dict(), CKPT_PATH)

        del model
        torch.cuda.empty_cache()

In [4]:
def test(suffix='', separate=False):
    for DATASET in DATASETS:
        CKPT_PATH = os.path.join(CFG.RESULT_ROOT, DATASET, CFG.METHOD+suffix, "model.pth")
        scorer = M.Scorer(separate)
        scorer.load_state_dict(torch.load(CKPT_PATH, map_location=CFG.DEVICE))
        scorer.to(CFG.DEVICE)
        scorer.eval()

        E.evaluate_newsroom("human/newsroom/newsroom-human-eval.csv", os.path.join(CFG.RESULT_ROOT, DATASET, CFG.METHOD+suffix, "test_results_newsroom.tsv"), scorer)
        E.evaluate_realsumm("human/realsumm/realsumm_100.tsv", os.path.join(CFG.RESULT_ROOT, DATASET, CFG.METHOD+suffix, "test_results_realsumm.tsv"), scorer)
        E.evaluate_tac("human/tac/TAC2010_all.json", os.path.join(CFG.RESULT_ROOT, DATASET, CFG.METHOD+suffix, "test_results_tac.tsv"), scorer)

        del scorer
        torch.cuda.empty_cache()

In [None]:
## PrefScore (Marginal Loss + Hierarchical Negative Sampling)
train(hierarchical=False, loss_func='CrossEntropyLoss', separate=True)
test(separate=True)
## Marginal Loss + Non-Hierarchical Negative Sampling
# train(hierarchical=False, loss_func='MarginRankingLoss', suffix='_NonHier', separate=True)
# test(suffix='_NonHier', separate=True)

Hierarchichal False
64152


Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModel: ['cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.weight', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Training from billsum
CrossEntropyLoss 0.0 False


  6%|███████████▍                                                                                                                                                                            | 500/8019 [05:16<1:14:48,  1.68it/s]

Iteration 500, Loss 310.9037333641871


 12%|██████████████████████▊                                                                                                                                                                | 1000/8019 [10:31<1:22:38,  1.42it/s]

Iteration 1000, Loss 91.26994315616685


 19%|██████████████████████████████████▏                                                                                                                                                    | 1500/8019 [15:51<1:12:11,  1.51it/s]

Iteration 1500, Loss 64.05716127878966


 25%|█████████████████████████████████████████████▋                                                                                                                                         | 2000/8019 [21:10<1:09:34,  1.44it/s]

Iteration 2000, Loss 47.60946768372301


 31%|█████████████████████████████████████████████████████████                                                                                                                              | 2500/8019 [26:28<1:05:33,  1.40it/s]

Iteration 2500, Loss 42.88286442499779


 37%|█████████████████████████████████████████████████████████████████████▏                                                                                                                   | 3000/8019 [31:47<52:30,  1.59it/s]

Iteration 3000, Loss 42.393758238930076


 44%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 3500/8019 [37:05<47:45,  1.58it/s]

Iteration 3500, Loss 38.57741064306752


 50%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 4000/8019 [42:20<45:30,  1.47it/s]

Iteration 4000, Loss 39.01194706771289


 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 4500/8019 [47:36<39:40,  1.48it/s]

Iteration 4500, Loss 35.83862905691735


 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 5000/8019 [52:51<29:11,  1.72it/s]

Iteration 5000, Loss 31.69215666607391


 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 5500/8019 [58:08<25:21,  1.66it/s]

Iteration 5500, Loss 29.97926706274752


 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 6000/8019 [1:03:26<20:49,  1.62it/s]

Iteration 6000, Loss 32.352808361278576


 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 6500/8019 [1:08:44<16:18,  1.55it/s]

Iteration 6500, Loss 29.468219216401664


 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 7000/8019 [1:13:59<10:38,  1.60it/s]

Iteration 7000, Loss 24.144113672590635


 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 7500/8019 [1:19:14<05:43,  1.51it/s]

Iteration 7500, Loss 27.473694866528586


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 8000/8019 [1:24:29<00:12,  1.57it/s]

Iteration 8000, Loss 24.146784166067405


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8019/8019 [1:24:41<00:00,  1.58it/s]


Hierarchichal False
3568314


Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModel: ['cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.weight', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Training from big_patent
CrossEntropyLoss 0.0 False


  5%|█████████▏                                                                                                                                                                             | 500/10000 [04:36<1:30:56,  1.74it/s]

Iteration 500, Loss 349.03691397463314


 10%|██████████████████▏                                                                                                                                                                   | 1000/10000 [09:12<1:20:09,  1.87it/s]

Iteration 1000, Loss 109.69179349383708


 15%|███████████████████████████▎                                                                                                                                                          | 1500/10000 [13:49<1:20:24,  1.76it/s]

Iteration 1500, Loss 60.576754535099155


 20%|████████████████████████████████████▍                                                                                                                                                 | 2000/10000 [18:23<1:15:29,  1.77it/s]

Iteration 2000, Loss 45.90883550917632


 25%|█████████████████████████████████████████████▌                                                                                                                                        | 2500/10000 [23:00<1:06:51,  1.87it/s]

Iteration 2500, Loss 54.91767578019135


 30%|██████████████████████████████████████████████████████▌                                                                                                                               | 3000/10000 [27:36<1:02:33,  1.87it/s]

Iteration 3000, Loss 35.30714055406446


 35%|████████████████████████████████████████████████████████████████▍                                                                                                                       | 3500/10000 [32:13<58:55,  1.84it/s]

Iteration 3500, Loss 32.04773537779256


 40%|█████████████████████████████████████████████████████████████████████████▌                                                                                                              | 4000/10000 [36:51<53:55,  1.85it/s]

Iteration 4000, Loss 31.38309687071121


 45%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 4500/10000 [41:26<51:24,  1.78it/s]

Iteration 4500, Loss 19.000126472617474


 50%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 5000/10000 [46:02<45:41,  1.82it/s]

Iteration 5000, Loss 20.858543067861397


 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 5500/10000 [50:37<42:20,  1.77it/s]

Iteration 5500, Loss 30.899646186786388


 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 6000/10000 [55:14<38:18,  1.74it/s]

Iteration 6000, Loss 24.39836367439134


 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                | 6500/10000 [59:49<33:59,  1.72it/s]

Iteration 6500, Loss 22.951497653936464


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 7000/10000 [1:04:25<27:20,  1.83it/s]

Iteration 7000, Loss 18.80889314940254


 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 7500/10000 [1:09:00<23:55,  1.74it/s]

Iteration 7500, Loss 13.328948699828853


 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 8000/10000 [1:13:37<18:47,  1.77it/s]

Iteration 8000, Loss 12.318914804379027


 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 8500/10000 [1:18:13<13:48,  1.81it/s]

Iteration 8500, Loss 14.209337265678077


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 9000/10000 [1:22:49<08:49,  1.89it/s]

Iteration 9000, Loss 13.409312147323597


 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 9500/10000 [1:27:29<04:50,  1.72it/s]

Iteration 9500, Loss 18.0223304653729


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [1:32:04<00:00,  1.81it/s]


Iteration 10000, Loss 15.324970777733832
Hierarchichal False
913864


Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModel: ['cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.weight', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Training from scientific_papers
CrossEntropyLoss 0.0 False


  5%|█████████▏                                                                                                                                                                             | 500/10000 [05:16<1:37:43,  1.62it/s]

Iteration 500, Loss 342.0916799776951


 10%|██████████████████▏                                                                                                                                                                   | 1000/10000 [10:38<1:42:52,  1.46it/s]

Iteration 1000, Loss 114.76430422133225


 15%|███████████████████████████▎                                                                                                                                                          | 1500/10000 [15:57<1:29:18,  1.59it/s]

Iteration 1500, Loss 77.91041924948982


 20%|████████████████████████████████████▍                                                                                                                                                 | 2000/10000 [21:11<1:24:11,  1.58it/s]

Iteration 2000, Loss 60.136756528557385


 25%|█████████████████████████████████████████████▌                                                                                                                                        | 2500/10000 [26:29<1:36:44,  1.29it/s]

Iteration 2500, Loss 52.037433552934935


 30%|██████████████████████████████████████████████████████▌                                                                                                                               | 3000/10000 [31:49<1:13:19,  1.59it/s]

Iteration 3000, Loss 45.481794281744186


 35%|███████████████████████████████████████████████████████████████▋                                                                                                                      | 3500/10000 [37:09<1:02:31,  1.73it/s]

Iteration 3500, Loss 39.68581799406224


 40%|█████████████████████████████████████████████████████████████████████████▌                                                                                                              | 4000/10000 [42:28<57:34,  1.74it/s]

Iteration 4000, Loss 34.092505158600005


 45%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 4500/10000 [47:48<1:00:40,  1.51it/s]

Iteration 4500, Loss 51.38798423701074


 50%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 5000/10000 [53:06<58:34,  1.42it/s]

Iteration 5000, Loss 29.755291044041485


 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 5500/10000 [58:25<51:48,  1.45it/s]

Iteration 5500, Loss 30.545005814743817


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 6000/10000 [1:03:44<42:19,  1.58it/s]

Iteration 6000, Loss 34.73258230207993


 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 6500/10000 [1:09:02<39:37,  1.47it/s]

Iteration 6500, Loss 30.901517659910212


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 7000/10000 [1:14:17<34:38,  1.44it/s]

Iteration 7000, Loss 32.20157046648106


 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 7500/10000 [1:19:32<25:56,  1.61it/s]

Iteration 7500, Loss 19.91410603365188


 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 8000/10000 [1:24:51<22:49,  1.46it/s]

Iteration 8000, Loss 35.93437979757191


 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 8500/10000 [1:30:09<14:39,  1.70it/s]

Iteration 8500, Loss 28.02592479186369


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 9000/10000 [1:35:27<11:51,  1.40it/s]

Iteration 9000, Loss 25.7991170593737


 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 9500/10000 [1:40:45<04:58,  1.67it/s]

Iteration 9500, Loss 24.596738505403824


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [1:46:03<00:00,  1.57it/s]


Iteration 10000, Loss 28.065606197933747


Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModel: ['cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.weight', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModel: ['cls.predictions.transform.dense.bias', 'cls.seq_rela