From c16b74df6ecc2ef9633411d89afa62acbfa29326 Mon Sep 17 00:00:00 2001
From: sayantan1410 <sayantan.sayanaldo@gmail.com>
Date: Wed, 7 Aug 2024 00:29:57 +0530
Subject: [PATCH 1/3] fix for lr scheduler in distributed training

---
 examples/text_to_image/train_text_to_image.py | 17 +++++++++++------
 1 file changed, 11 insertions(+), 6 deletions(-)

diff --git a/examples/text_to_image/train_text_to_image.py b/examples/text_to_image/train_text_to_image.py
index fa09671681b0..6cdf4d9626be 100644
--- a/examples/text_to_image/train_text_to_image.py
+++ b/examples/text_to_image/train_text_to_image.py
@@ -826,17 +826,22 @@ def collate_fn(examples):
     )
 
     # Scheduler and math around the number of training steps.
-    overrode_max_train_steps = False
-    num_update_steps_per_epoch = math.ceil(len(train_dataloader) / args.gradient_accumulation_steps)
+    # Check the PR https://github.com/huggingface/diffusers/pull/8312 for detailed explanation.
+    num_warmup_steps_for_scheduler = args.lr_warmup_steps * accelerator.num_processes
     if args.max_train_steps is None:
-        args.max_train_steps = args.num_train_epochs * num_update_steps_per_epoch
-        overrode_max_train_steps = True
+        len_train_dataloader_after_sharding = math.ceil(len(train_dataloader) / accelerator.num_processes)
+        num_update_steps_per_epoch = math.ceil(len_train_dataloader_after_sharding / args.gradient_accumulation_steps)
+        num_training_steps_for_scheduler = (
+            args.num_train_epochs * num_update_steps_per_epoch * accelerator.num_processes
+        )
+    else:
+        num_training_steps_for_scheduler = args.max_train_steps * accelerator.num_processes
 
     lr_scheduler = get_scheduler(
         args.lr_scheduler,
         optimizer=optimizer,
-        num_warmup_steps=args.lr_warmup_steps * accelerator.num_processes,
-        num_training_steps=args.max_train_steps * accelerator.num_processes,
+        num_warmup_steps=num_warmup_steps_for_scheduler,
+        num_training_steps=num_training_steps_for_scheduler,
     )
 
     # Prepare everything with our `accelerator`.

From cdda5e2fe63015332e4003d297b557431bb3f9f5 Mon Sep 17 00:00:00 2001
From: sayantan1410 <sayantan.sayanaldo@gmail.com>
Date: Wed, 7 Aug 2024 00:45:56 +0530
Subject: [PATCH 2/3] Fixed the recalculation of the total training step
 section

---
 examples/text_to_image/train_text_to_image.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/examples/text_to_image/train_text_to_image.py b/examples/text_to_image/train_text_to_image.py
index 6cdf4d9626be..8bd2292eb407 100644
--- a/examples/text_to_image/train_text_to_image.py
+++ b/examples/text_to_image/train_text_to_image.py
@@ -871,8 +871,14 @@ def collate_fn(examples):
 
     # We need to recalculate our total training steps as the size of the training dataloader may have changed.
     num_update_steps_per_epoch = math.ceil(len(train_dataloader) / args.gradient_accumulation_steps)
-    if overrode_max_train_steps:
-        args.max_train_steps = args.num_train_epochs * num_update_steps_per_epoch
+    if args.max_train_steps is None:
+            args.max_train_steps = args.num_train_epochs * num_update_steps_per_epoch
+            if num_training_steps_for_scheduler != args.max_train_steps * accelerator.num_processes:
+                logger.warning(
+                    f"The length of the 'train_dataloader' after 'accelerator.prepare' ({len(train_dataloader)}) does not match "
+                    f"the expected length ({len_train_dataloader_after_sharding}) when the learning rate scheduler was created. "
+                    f"This inconsistency may result in the learning rate scheduler not functioning properly."
+                )
     # Afterwards we recalculate our number of training epochs
     args.num_train_epochs = math.ceil(args.max_train_steps / num_update_steps_per_epoch)
 

From babaa372300aa7b9a1d9ea6b354006c3c51bdbd2 Mon Sep 17 00:00:00 2001
From: sayantan1410 <sayantan.sayanaldo@gmail.com>
Date: Thu, 8 Aug 2024 00:27:14 +0530
Subject: [PATCH 3/3] Fixed lint error

---
 examples/text_to_image/train_text_to_image.py | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/examples/text_to_image/train_text_to_image.py b/examples/text_to_image/train_text_to_image.py
index 8bd2292eb407..9af0de060e86 100644
--- a/examples/text_to_image/train_text_to_image.py
+++ b/examples/text_to_image/train_text_to_image.py
@@ -872,13 +872,13 @@ def collate_fn(examples):
     # We need to recalculate our total training steps as the size of the training dataloader may have changed.
     num_update_steps_per_epoch = math.ceil(len(train_dataloader) / args.gradient_accumulation_steps)
     if args.max_train_steps is None:
-            args.max_train_steps = args.num_train_epochs * num_update_steps_per_epoch
-            if num_training_steps_for_scheduler != args.max_train_steps * accelerator.num_processes:
-                logger.warning(
-                    f"The length of the 'train_dataloader' after 'accelerator.prepare' ({len(train_dataloader)}) does not match "
-                    f"the expected length ({len_train_dataloader_after_sharding}) when the learning rate scheduler was created. "
-                    f"This inconsistency may result in the learning rate scheduler not functioning properly."
-                )
+        args.max_train_steps = args.num_train_epochs * num_update_steps_per_epoch
+        if num_training_steps_for_scheduler != args.max_train_steps * accelerator.num_processes:
+            logger.warning(
+                f"The length of the 'train_dataloader' after 'accelerator.prepare' ({len(train_dataloader)}) does not match "
+                f"the expected length ({len_train_dataloader_after_sharding}) when the learning rate scheduler was created. "
+                f"This inconsistency may result in the learning rate scheduler not functioning properly."
+            )
     # Afterwards we recalculate our number of training epochs
     args.num_train_epochs = math.ceil(args.max_train_steps / num_update_steps_per_epoch)