feat: support auto_stop_method for SFTTrainer experiments #27

VassilisVassiliadis · 2025-09-05T10:35:08Z

This PR adds a new method for automatically stopping measurements that divides the training runtime of a measurement into 2 parts:

Warmup Phase: Contains the first few optimization steps which collectively require at least 60 seconds
Stable Phase: Contains the remaining optimization steps, for at least 120 seconds and at least 10 optimization steps.

The method then drops system metrics and training metrics (e.g. throughput) related to the Warmup phase. The final observed properties for measurements that use auto_stop_method=1 will only contain information from the Stable Phase.

VassilisVassiliadis · 2025-09-05T11:58:30Z

@danielelotito here's the PR for the auto-stop-method you developed

Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

…ameter Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

...tors/sfttrainer/ado_actuators/sfttrainer/wrapper_fms_hf_tuning/scripts/wrapper_sfttrainer.py

plugins/actuators/sfttrainer/ado_actuators/sfttrainer/experiments/common.py

Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

…eriments Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

...tors/sfttrainer/ado_actuators/sfttrainer/wrapper_fms_hf_tuning/scripts/wrapper_sfttrainer.py

Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

…ttrainer.py Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

AlessandroPomponio

LGTM thanks

VassilisVassiliadis added the ci This is related to CI label Sep 5, 2025

VassilisVassiliadis force-pushed the vv_add_support_for_auto_stop_method branch from 0721735 to f67ffe6 Compare September 5, 2025 11:03

VassilisVassiliadis assigned VassilisVassiliadis and danielelotito Sep 5, 2025

VassilisVassiliadis added 3 commits September 8, 2025 08:38

feat: support auto_stop_method for SFTTrainer experiments

563bbe1

Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

chore: fix linter errors

d22668d

Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

fix: the domain range and type of the auto_stop_method SFTTrainer par…

8ead4c8

…ameter Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

VassilisVassiliadis force-pushed the vv_add_support_for_auto_stop_method branch from 9e2d071 to 8ead4c8 Compare September 8, 2025 07:38

VassilisVassiliadis requested a review from AlessandroPomponio September 8, 2025 07:38

AlessandroPomponio reviewed Sep 8, 2025

View reviewed changes

VassilisVassiliadis added 3 commits September 8, 2025 09:15

docs: explain why local-rank 0 processes track duration of opt steps

1c95fd4

Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

refactor: use an enum for the values of auto_stop_method

0ad3d5b

Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

docs: update the documentation of auto_stop_method for SFTTrainer exp…

00379f4

…eriments Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

AlessandroPomponio reviewed Sep 8, 2025

View reviewed changes

...tors/sfttrainer/ado_actuators/sfttrainer/wrapper_fms_hf_tuning/scripts/wrapper_sfttrainer.py Outdated Show resolved Hide resolved

VassilisVassiliadis added 3 commits September 8, 2025 11:01

docs: add missing license header to constants.py

422dd1b

Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

refactor: homogenize the definition of auto_stop_method in wrapper_sf…

c66966f

…ttrainer.py Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

refactor: get rid of some duplicated code in a utility script

44e7627

Signed-off-by: Vassilis Vassiliadis <vassilis.vassiliadis@ibm.com>

AlessandroPomponio approved these changes Sep 8, 2025

View reviewed changes

VassilisVassiliadis added this pull request to the merge queue Sep 8, 2025

Merged via the queue into main with commit 6be963f Sep 8, 2025
16 checks passed

VassilisVassiliadis deleted the vv_add_support_for_auto_stop_method branch September 8, 2025 13:23

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

feat: support auto_stop_method for SFTTrainer experiments #27

feat: support auto_stop_method for SFTTrainer experiments #27

Uh oh!

VassilisVassiliadis commented Sep 5, 2025

Uh oh!

VassilisVassiliadis commented Sep 5, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

AlessandroPomponio left a comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

feat: support auto_stop_method for SFTTrainer experiments #27

feat: support auto_stop_method for SFTTrainer experiments #27

Uh oh!

Conversation

VassilisVassiliadis commented Sep 5, 2025

Uh oh!

VassilisVassiliadis commented Sep 5, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

AlessandroPomponio left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants