PL: --adafactor option #6776

sshleifer · 2020-08-27T22:37:23Z

I used the "External LR" setup and verified that is saves a significant amount of memory on pegasus finetuning.

Happy to add to Trainer.

sshleifer · 2020-08-27T22:38:32Z

examples/lightning_base.py

@@ -137,7 +138,11 @@ def configure_optimizers(self):
                "weight_decay": 0.0,
            },
        ]
-        optimizer = AdamW(optimizer_grouped_parameters, lr=self.hparams.learning_rate, eps=self.hparams.adam_epsilon)
+        if self.hparams.adafactor:
+            optimizer = Adafactor(optimizer_grouped_parameters, lr=self.hparams.learning_rate, scale_parameter=False, relative_step=False)


I ignore the adam_epsilon clarg here, since the defaults are different. Could add a --adafactor_epsilon clarg, but I'll wait until somebody asks me to. So many clargs!

codecov · 2020-08-27T22:46:48Z

Codecov Report

Merging #6776 into master will decrease coverage by 0.99%.
The diff coverage is n/a.

@@            Coverage Diff             @@
##           master    #6776      +/-   ##
==========================================
- Coverage   78.47%   77.48%   -1.00%     
==========================================
  Files         157      157              
  Lines       28569    28569              
==========================================
- Hits        22420    22137     -283     
- Misses       6149     6432     +283

Impacted Files	Coverage Δ
src/transformers/modeling_reformer.py	`16.87% <0.00%> (-79.30%)`	⬇️
src/transformers/configuration_reformer.py	`21.62% <0.00%> (-78.38%)`	⬇️
src/transformers/modeling_tf_openai.py	`22.58% <0.00%> (-72.26%)`	⬇️
src/transformers/modeling_tf_flaubert.py	`24.53% <0.00%> (-63.81%)`	⬇️
src/transformers/modeling_marian.py	`60.00% <0.00%> (-30.00%)`	⬇️
src/transformers/tokenization_ctrl.py	`78.64% <0.00%> (-17.48%)`	⬇️
src/transformers/tokenization_xlm_roberta.py	`84.52% <0.00%> (-10.72%)`	⬇️
src/transformers/activations.py	`85.00% <0.00%> (-5.00%)`	⬇️
src/transformers/tokenization_dpr.py	`53.15% <0.00%> (-4.51%)`	⬇️
src/transformers/modeling_bart.py	`95.05% <0.00%> (-0.35%)`	⬇️
... and 14 more

Continue to review full report at Codecov.

Legend - Click here to learn more
Δ = absolute <relative> (impact), ø = not affected, ? = missing data
Powered by Codecov. Last update 42fddac...c769370. Read the comment docs.

sgugger

Thanks for adding this!

This reverts commit 1179f87.

PL: --adafactor option

33a850f

sshleifer requested review from LysandreJik and sgugger August 27, 2020 22:37

sshleifer commented Aug 27, 2020

View reviewed changes

style

c769370

sshleifer merged commit fb78a90 into huggingface:master Aug 28, 2020

sshleifer deleted the adafactor-option branch August 28, 2020 02:19

sgugger reviewed Aug 31, 2020

View reviewed changes

Zigur pushed a commit to Zigur/transformers that referenced this pull request Oct 26, 2020

PL: --adafactor option (huggingface#6776)

d325391

fabiocapsouza pushed a commit to fabiocapsouza/transformers that referenced this pull request Nov 15, 2020

PL: --adafactor option (huggingface#6776)

1179f87

fabiocapsouza added a commit to fabiocapsouza/transformers that referenced this pull request Nov 15, 2020

Revert "PL: --adafactor option (huggingface#6776)"

8bf3ca8

This reverts commit 1179f87.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PL: --adafactor option #6776

PL: --adafactor option #6776

sshleifer commented Aug 27, 2020 •

edited

Loading

sshleifer Aug 27, 2020 •

edited

Loading

codecov bot commented Aug 27, 2020

sgugger left a comment

PL: --adafactor option #6776

PL: --adafactor option #6776

Conversation

sshleifer commented Aug 27, 2020 • edited Loading

sshleifer Aug 27, 2020 • edited Loading

Choose a reason for hiding this comment

codecov bot commented Aug 27, 2020

Codecov Report

sgugger left a comment

Choose a reason for hiding this comment

sshleifer commented Aug 27, 2020 •

edited

Loading

sshleifer Aug 27, 2020 •

edited

Loading