Stops after 1000 steps #13

GuusDeKroon · 2022-09-29T20:47:39Z

Hi!
I've been having this issue where the program stops training at 1000 iters.
Everything else seems to be fine.

Here's the code output:

Another one bites the dust...

Traceback (most recent call last):
  File "main.py", line 852, in <module>
    trainer.test(model, data)
  File "C:\Users\Guus\miniconda3\envs\ldm\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 938, in test
    return self._call_and_handle_interrupt(self._test_impl, model, dataloaders, ckpt_path, verbose, datamodule)
  File "C:\Users\Guus\miniconda3\envs\ldm\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 723, in _call_and_handle_interrupt
    return trainer_fn(*args, **kwargs)
  File "C:\Users\Guus\miniconda3\envs\ldm\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 985, in _test_impl
    results = self._run(model, ckpt_path=self.ckpt_path)
  File "C:\Users\Guus\miniconda3\envs\ldm\lib\site-packages\pytorch_lightning\trainer\trainer.py", line 1160, in _run
    verify_loop_configurations(self)
  File "C:\Users\Guus\miniconda3\envs\ldm\lib\site-packages\pytorch_lightning\trainer\configuration_validator.py", line 46, in verify_loop_configurations
    __verify_eval_loop_configuration(trainer, model, "test")
  File "C:\Users\Guus\miniconda3\envs\ldm\lib\site-packages\pytorch_lightning\trainer\configuration_validator.py", line 197, in __verify_eval_loop_configuration
    raise MisconfigurationException(f"No `{loader_name}()` method defined to run `Trainer.{trainer_method}`.")
pytorch_lightning.utilities.exceptions.MisconfigurationException: No `test_dataloader()` method defined to run `Trainer.test`.

The text was updated successfully, but these errors were encountered:

Kallamamran · 2022-09-29T20:52:49Z

Do you have "max_training_steps = 1000"?
I don't get mine to run at all, so :/

GuusDeKroon · 2022-09-29T20:53:36Z

Nope, the max training steps is at 3000

djbielejeski · 2022-09-29T21:11:46Z

I've been seeing this too, looking into it right now.

djbielejeski · 2022-09-29T22:29:59Z

I tried removing the --no-test param, still get this error

Here comes the checkpoint...
Another one bites the dust...

Traceback (most recent call last):
  File "main.py", line 847, in <module>
    trainer.fit(model, data)
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/trainer/trainer.py", line 771, in fit
    self._fit_impl, model, train_dataloaders, val_dataloaders, datamodule, ckpt_path
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/trainer/trainer.py", line 723, in _call_and_handle_interrupt
    return trainer_fn(*args, **kwargs)
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/trainer/trainer.py", line 811, in _fit_impl
    results = self._run(model, ckpt_path=self.ckpt_path)
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/trainer/trainer.py", line 1236, in _run
    results = self._run_stage()
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/trainer/trainer.py", line 1323, in _run_stage
    return self._run_train()
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/trainer/trainer.py", line 1353, in _run_train
    self.fit_loop.run()
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/loops/base.py", line 204, in run
    self.advance(*args, **kwargs)
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/loops/fit_loop.py", line 266, in advance
    self._outputs = self.epoch_loop.run(self._data_fetcher)
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/loops/base.py", line 205, in run
    self.on_advance_end()
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/loops/epoch/training_epoch_loop.py", line 255, in on_advance_end
    self._run_validation()
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/loops/epoch/training_epoch_loop.py", line 311, in _run_validation
    self.val_loop.run()
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/loops/base.py", line 204, in run
    self.advance(*args, **kwargs)
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/loops/dataloader/evaluation_loop.py", line 155, in advance
    dl_outputs = self.epoch_loop.run(self._data_fetcher, dl_max_batches, kwargs)
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/loops/base.py", line 204, in run
    self.advance(*args, **kwargs)
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/loops/epoch/evaluation_epoch_loop.py", line 134, in advance
    self._on_evaluation_batch_end(output, **kwargs)
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/loops/epoch/evaluation_epoch_loop.py", line 267, in _on_evaluation_batch_end
    self.trainer._call_callback_hooks(hook_name, output, *kwargs.values())
  File "/opt/conda/lib/python3.7/site-packages/pytorch_lightning/trainer/trainer.py", line 1636, in _call_callback_hooks
    fn(self, self.lightning_module, *args, **kwargs)
  File "/workspace/Dreambooth-Stable-Diffusion/main.py", line 470, in on_validation_batch_end
    self.log_img(pl_module, batch, batch_idx, split="val")
  File "/workspace/Dreambooth-Stable-Diffusion/main.py", line 434, in log_img
    images = pl_module.log_images(batch, split=split, **self.log_images_kwargs)
  File "/opt/conda/lib/python3.7/site-packages/torch/autograd/grad_mode.py", line 27, in decorate_context
    return func(*args, **kwargs)
  File "/workspace/Dreambooth-Stable-Diffusion/ldm/models/diffusion/ddpm.py", line 1328, in log_images
    batch = batch[0]
KeyError: 0

1blackbar · 2022-09-29T22:35:49Z

Itsrunning fine here , past 1000 steps

djbielejeski · 2022-09-29T23:11:03Z

Pretty sure I found the issue. It is when writing an epoch, and the epoch size depends on your training_samples count and your regularization_images count. You can trigger this by going over 1 epoch. I think I found the spot in the code, testing it now.

djbielejeski · 2022-09-29T23:36:58Z

Fixed here

djbielejeski · 2022-09-29T23:37:13Z

At least my issue...

Repository owner deleted a comment from 1blackbar Sep 29, 2022

djbielejeski closed this as completed Sep 29, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Stops after 1000 steps #13

Stops after 1000 steps #13

GuusDeKroon commented Sep 29, 2022 •

edited

Loading

Kallamamran commented Sep 29, 2022

GuusDeKroon commented Sep 29, 2022

djbielejeski commented Sep 29, 2022

djbielejeski commented Sep 29, 2022

1blackbar commented Sep 29, 2022

djbielejeski commented Sep 29, 2022

djbielejeski commented Sep 29, 2022

djbielejeski commented Sep 29, 2022

Stops after 1000 steps #13

Stops after 1000 steps #13

Comments

GuusDeKroon commented Sep 29, 2022 • edited Loading

Kallamamran commented Sep 29, 2022

GuusDeKroon commented Sep 29, 2022

djbielejeski commented Sep 29, 2022

djbielejeski commented Sep 29, 2022

1blackbar commented Sep 29, 2022

djbielejeski commented Sep 29, 2022

djbielejeski commented Sep 29, 2022

djbielejeski commented Sep 29, 2022

GuusDeKroon commented Sep 29, 2022 •

edited

Loading