AttributeError: module 'torch.distributed' has no attribute '_reduce_scatter_base' #52

pipiwawa · 2022-11-17T07:14:19Z

运行TSR_train.py 时出现错误
File "TSR_train.py", line 7, in
from src.TSR_trainer import TrainerConfig, TrainerForContinuousEdgeLine, TrainerForEdgeLineFinetune
File "D:\AIworkspace\ZITS_inpainting-main\src\TSR_trainer.py", line 14, in
from apex import amp
File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex_init_.py", line 27, in
from . import transformer
File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer_init_.py", line 4, in
from apex.transformer import pipeline_parallel
File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\pipeline_parallel_init_.py", line 1, in
from apex.transformer.pipeline_parallel.schedules import get_forward_backward_func
File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\pipeline_parallel\schedules_init_.py", line 3, in
from apex.transformer.pipeline_parallel.schedules.fwd_bwd_no_pipelining import (
File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\pipeline_parallel\schedules\fwd_bwd_no_pipelining.py", line 10, in
from apex.transformer.pipeline_parallel.schedules.common import Batch
File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\pipeline_parallel\schedules\common.py", line 14, in
from apex.transformer.tensor_parallel.layers import (
File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\tensor_parallel_init_.py", line 21, in
from apex.transformer.tensor_parallel.layers import (
File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\tensor_parallel\layers.py", line 32, in
from apex.transformer.tensor_parallel.mappings import (
File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\tensor_parallel\mappings.py", line 29, in
torch.distributed.reduce_scatter_tensor = torch.distributed._reduce_scatter_base
AttributeError: module 'torch.distributed' has no attribute '_reduce_scatter_base'
我的环境是 torch=1.9.0+cu111 cuda=11.1 ，请问作者如何解决？
谢谢

DQiaole · 2022-11-18T10:22:25Z

你好，
我没有遇到过这个问题。你可能得根据README.md重新安装一下环境。

Littlechickencub · 2023-02-17T12:50:21Z

运行TSR_train.py 时出现错误 File "TSR_train.py", line 7, in from src.TSR_trainer import TrainerConfig, TrainerForContinuousEdgeLine, TrainerForEdgeLineFinetune File "D:\AIworkspace\ZITS_inpainting-main\src\TSR_trainer.py", line 14, in from apex import amp File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex__init__.py", line 27, in from . import transformer File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer__init__.py", line 4, in from apex.transformer import pipeline_parallel File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\pipeline_parallel__init__.py", line 1, in from apex.transformer.pipeline_parallel.schedules import get_forward_backward_func File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\pipeline_parallel\schedules__init__.py", line 3, in from apex.transformer.pipeline_parallel.schedules.fwd_bwd_no_pipelining import ( File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\pipeline_parallel\schedules\fwd_bwd_no_pipelining.py", line 10, in from apex.transformer.pipeline_parallel.schedules.common import Batch File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\pipeline_parallel\schedules\common.py", line 14, in from apex.transformer.tensor_parallel.layers import ( File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\tensor_parallel__init__.py", line 21, in from apex.transformer.tensor_parallel.layers import ( File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\tensor_parallel\layers.py", line 32, in from apex.transformer.tensor_parallel.mappings import ( File "D:\Users\lcx\anaconda3\envs\train_env\lib\site-packages\apex\transformer\tensor_parallel\mappings.py", line 29, in torch.distributed.reduce_scatter_tensor = torch.distributed._reduce_scatter_base AttributeError: module 'torch.distributed' has no attribute '_reduce_scatter_base' 我的环境是 torch=1.9.0+cu111 cuda=11.1 ，请问作者如何解决？谢谢

我和你一样的问题，也是按照要求安装的环境，你解决了吗？

DQiaole closed this as completed Dec 12, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AttributeError: module 'torch.distributed' has no attribute '_reduce_scatter_base' #52

AttributeError: module 'torch.distributed' has no attribute '_reduce_scatter_base' #52

pipiwawa commented Nov 17, 2022

DQiaole commented Nov 18, 2022

Littlechickencub commented Feb 17, 2023

AttributeError: module 'torch.distributed' has no attribute '_reduce_scatter_base' #52

AttributeError: module 'torch.distributed' has no attribute '_reduce_scatter_base' #52

Comments

pipiwawa commented Nov 17, 2022

DQiaole commented Nov 18, 2022

Littlechickencub commented Feb 17, 2023