Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

RuntimeError: [1] is setting up NCCL communicator and retreiving ncclUniqueId from [0] via c10d key-value store by key '0', but store->get('0') got error: Broken pipe #221

Closed
WhXmURandom opened this issue Nov 8, 2023 · 15 comments
Labels
good first issue Good for newcomers

Comments

@WhXmURandom
Copy link

nccl
@WhXmURandom
Copy link
Author

重新安装与cuda11.1版本对应的torch后,又出现新的报错。
api

@cdliang11
Copy link
Collaborator

重新安装与cuda11.1版本对应的torch后,又出现新的报错。 api

把实验路径删了,或者注释掉以下代码试试:

if checkpoint is None:
exit(1)

@WhXmURandom
Copy link
Author

把modeldir删掉了,现在卡在这里十多分钟,是正常的吗?
11

@WhXmURandom
Copy link
Author

仍然报错
2

@WhXmURandom
Copy link
Author

使用单gpu的时候可以运行,多gpu就跑不动

@cdliang11
Copy link
Collaborator

看起来是nccl的问题

@cdliang11
Copy link
Collaborator

dist.init_process_group(backend='nccl')

换成gloo试试

@WhXmURandom
Copy link
Author

换成gloo似乎也不行
微信图片_20231109101517

@WhXmURandom
Copy link
Author

应该是卡在了dist.barrier(device_ids=[gpu])

@WhXmURandom
Copy link
Author

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

@cdliang11 cdliang11 added the good first issue Good for newcomers label Nov 9, 2023
@wcqy-ye
Copy link

wcqy-ye commented Jan 31, 2024

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

请问是在哪个脚本加入这个呢 我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行
企业微信截图_17066959961284

@WhXmURandom
Copy link
Author

NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

请问是在哪个脚本加入这个呢 我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行 企业微信截图_17066959961284

@wcqy-ye
Copy link

wcqy-ye commented Feb 1, 2024

NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

请问是在哪个脚本加入这个呢 我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行 企业微信截图_17066959961284

好像还是不行 并且我尝试zhi只使用一个gpu,还是会报错
image
并且很奇怪的是像是刚刚运行就错误了 请问您有什么想法或者知道怎么做吗
企业微信截图_1706779076569

@WhXmURandom
Copy link
Author

NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

请问是在哪个脚本加入这个呢 我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行 企业微信截图_17066959961284

好像还是不行 并且我尝试zhi只使用一个gpu,还是会报错 image 并且很奇怪的是像是刚刚运行就错误了 请问您有什么想法或者知道怎么做吗 企业微信截图_1706779076569

你把exp_dir删除再运行

@wcqy-ye
Copy link

wcqy-ye commented Feb 3, 2024

NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

请问是在哪个脚本加入这个呢 我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行 企业微信截图_17066959961284

好像还是不行 并且我尝试zhi只使用一个gpu,还是会报错 image 并且很奇怪的是像是刚刚运行就错误了 请问您有什么想法或者知道怎么做吗 企业微信截图_1706779076569

你把exp_dir删除再运行

好的 万分感谢 解决了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
good first issue Good for newcomers
Projects
None yet
Development

No branches or pull requests

3 participants