fix problem of dataparallel #155

bobchennan · 2018-05-04T17:54:04Z

Pytorch's default dataparallel try to split each element in input list to support multi-input.
In our case each element is a json object corresponding to one sample.
We want to split the list instead.

sw005320 · 2018-05-04T19:57:42Z

It seems to be good.
My only concern is where we should put class DataParallel(torch.nn.DataParallel):.
Actually you put it in asr_pytorch.py.
See class ChainerMultiProcessParallelUpdaterKaldi(training.updaters.MultiprocessParallelUpdater): in asr_chainer.py.
The multiple GPU related classes are in asr_chainer.py not in e2e_asr_attctc.py

bobchennan · 2018-05-04T20:23:57Z

OK, I changed it.

sw005320 · 2018-05-08T13:46:11Z

I have the following error

Traceback (most recent call last):
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/chainer/training/trainer.py", line 306, in run
    update()
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/chainer/training/updaters/standard_updater.py", line 149, in update
    self.update_core()
  File "/export/a08/shinji/201707e2e/espnet_dev2/src/asr/asr_pytorch.py", line 113, in update_core
    loss = 1. / self.num_gpu * self.model(x)
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/torch/nn/modules/module.py", line 357, in __call__
    result = self.forward(*input, **kwargs)
  File "/export/a08/shinji/201707e2e/espnet_dev2/src/asr/asr_pytorch.py", line 155, in forward
    outputs = self.parallel_apply(replicas, inputs, kwargs)
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/torch/nn/parallel/data_parallel.py", line 83, in parallel_apply
    return parallel_apply(replicas, inputs, kwargs, self.device_ids[:len(replicas)])
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/torch/nn/parallel/parallel_apply.py", line 24, in parallel_apply
    assert len(modules) == len(inputs)
Will finalize trainer extensions and updater before reraising the exception.
Traceback (most recent call last):
  File "/export/a08/shinji/201707e2e/espnet_dev2/egs/librispeech/asr1/../../../src/bin/asr_train.py", line 196, in <module>
    main()
  File "/export/a08/shinji/201707e2e/espnet_dev2/egs/librispeech/asr1/../../../src/bin/asr_train.py", line 190, in main
    train(args)
  File "/export/a08/shinji/201707e2e/espnet_dev2/src/asr/asr_pytorch.py", line 332, in train
    trainer.run()
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/chainer/training/trainer.py", line 320, in run
    six.reraise(*sys.exc_info())
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/chainer/training/trainer.py", line 306, in run
    update()
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/chainer/training/updaters/standard_updater.py", line 149, in update
    self.update_core()
  File "/export/a08/shinji/201707e2e/espnet_dev2/src/asr/asr_pytorch.py", line 113, in update_core
    loss = 1. / self.num_gpu * self.model(x)
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/torch/nn/modules/module.py", line 357, in __call__
    result = self.forward(*input, **kwargs)
  File "/export/a08/shinji/201707e2e/espnet_dev2/src/asr/asr_pytorch.py", line 155, in forward
    outputs = self.parallel_apply(replicas, inputs, kwargs)
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/torch/nn/parallel/data_parallel.py", line 83, in parallel_apply
    return parallel_apply(replicas, inputs, kwargs, self.device_ids[:len(replicas)])
  File "/export/a08/shinji/201707e2e/espnet_dev2/tools/venv/local/lib/python2.7/site-packages/torch/nn/parallel/parallel_apply.py", line 24, in parallel_apply
    assert len(modules) == len(inputs)
AssertionError

bobchennan added 5 commits May 4, 2018 13:52

fix problem of dataparallel

6dae981

Update e2e_asr_attctc_th.py

bc4febf

change xrange to range and add space

d4a35c5

Update asr_pytorch.py

ccb7f9e

Update e2e_asr_attctc_th.py

cb6deda

move dataparallel to asr_pytorch

791fee4

bobchennan added 2 commits May 4, 2018 16:25

change to range

67d536d

remove blank lines

f2e2e0a

sw005320 requested a review from ShigekiKarita May 5, 2018 12:42

bobchennan mentioned this pull request May 7, 2018

unexpected keyError during decoding #154

Closed

sw005320 merged commit f96d2a6 into espnet:master May 7, 2018

bobchennan mentioned this pull request May 10, 2018

Multiple GPU supports #104

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix problem of dataparallel #155

fix problem of dataparallel #155

bobchennan commented May 4, 2018 •

edited

sw005320 commented May 4, 2018

bobchennan commented May 4, 2018

sw005320 commented May 8, 2018

fix problem of dataparallel #155

fix problem of dataparallel #155

Conversation

bobchennan commented May 4, 2018 • edited

sw005320 commented May 4, 2018

bobchennan commented May 4, 2018

sw005320 commented May 8, 2018

bobchennan commented May 4, 2018 •

edited