RuntimeError: [1] is setting up NCCL communicator and retreiving ncclUniqueId from [0] via c10d key-value store by key '0', but store->get('0') got error: Broken pipe #221

WhXmURandom · 2023-11-08T12:01:53Z

WhXmURandom · 2023-11-08T15:12:35Z

重新安装与cuda11.1版本对应的torch后，又出现新的报错。

cdliang11 · 2023-11-08T15:15:12Z

重新安装与cuda11.1版本对应的torch后，又出现新的报错。

把实验路径删了，或者注释掉以下代码试试：

wespeaker/wespeaker/bin/train.py

Lines 60 to 61 in 6550a2a

    
           if checkpoint is None: 
        
               exit(1)

WhXmURandom · 2023-11-08T15:33:45Z

把modeldir删掉了，现在卡在这里十多分钟，是正常的吗？

WhXmURandom · 2023-11-08T15:49:52Z

仍然报错

WhXmURandom · 2023-11-08T16:07:36Z

使用单gpu的时候可以运行，多gpu就跑不动

cdliang11 · 2023-11-09T01:22:25Z

看起来是nccl的问题

cdliang11 · 2023-11-09T02:00:27Z

wespeaker/wespeaker/bin/train.py

Line 52 in 6550a2a

dist.init_process_group(backend='nccl')

换成gloo试试

WhXmURandom · 2023-11-09T02:15:36Z

换成gloo似乎也不行

WhXmURandom · 2023-11-09T07:13:01Z

应该是卡在了dist.barrier(device_ids=[gpu])

WhXmURandom · 2023-11-09T07:20:48Z

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

wcqy-ye · 2024-01-31T10:07:18Z

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

请问是在哪个脚本加入这个呢我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行

WhXmURandom · 2024-01-31T10:16:49Z

NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

请问是在哪个脚本加入这个呢我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行

wcqy-ye · 2024-02-01T09:18:49Z

NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

请问是在哪个脚本加入这个呢我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行

好像还是不行并且我尝试zhi只使用一个gpu，还是会报错

并且很奇怪的是像是刚刚运行就错误了请问您有什么想法或者知道怎么做吗

WhXmURandom · 2024-02-01T09:58:58Z

NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

请问是在哪个脚本加入这个呢我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行

好像还是不行并且我尝试zhi只使用一个gpu，还是会报错并且很奇怪的是像是刚刚运行就错误了请问您有什么想法或者知道怎么做吗

你把exp_dir删除再运行

wcqy-ye · 2024-02-03T09:41:38Z

NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \

在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了

请问是在哪个脚本加入这个呢我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行

好像还是不行并且我尝试zhi只使用一个gpu，还是会报错并且很奇怪的是像是刚刚运行就错误了请问您有什么想法或者知道怎么做吗

你把exp_dir删除再运行

好的万分感谢解决了

WhXmURandom closed this as completed Nov 9, 2023

cdliang11 added the good first issue Good for newcomers label Nov 9, 2023

JiJiJiang mentioned this issue Feb 4, 2024

单机多卡训练报错问题 #271

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

RuntimeError: [1] is setting up NCCL communicator and retreiving ncclUniqueId from [0] via c10d key-value store by key '0', but store->get('0') got error: Broken pipe #221

RuntimeError: [1] is setting up NCCL communicator and retreiving ncclUniqueId from [0] via c10d key-value store by key '0', but store->get('0') got error: Broken pipe #221

WhXmURandom commented Nov 8, 2023

WhXmURandom commented Nov 8, 2023

cdliang11 commented Nov 8, 2023

WhXmURandom commented Nov 8, 2023

WhXmURandom commented Nov 8, 2023

WhXmURandom commented Nov 8, 2023

cdliang11 commented Nov 9, 2023

cdliang11 commented Nov 9, 2023

WhXmURandom commented Nov 9, 2023

WhXmURandom commented Nov 9, 2023

WhXmURandom commented Nov 9, 2023

wcqy-ye commented Jan 31, 2024 •

edited

Loading

WhXmURandom commented Jan 31, 2024

wcqy-ye commented Feb 1, 2024

WhXmURandom commented Feb 1, 2024

wcqy-ye commented Feb 3, 2024

RuntimeError: [1] is setting up NCCL communicator and retreiving ncclUniqueId from [0] via c10d key-value store by key '0', but store->get('0') got error: Broken pipe #221

RuntimeError: [1] is setting up NCCL communicator and retreiving ncclUniqueId from [0] via c10d key-value store by key '0', but store->get('0') got error: Broken pipe #221

Comments

WhXmURandom commented Nov 8, 2023

WhXmURandom commented Nov 8, 2023

cdliang11 commented Nov 8, 2023

WhXmURandom commented Nov 8, 2023

WhXmURandom commented Nov 8, 2023

WhXmURandom commented Nov 8, 2023

cdliang11 commented Nov 9, 2023

cdliang11 commented Nov 9, 2023

WhXmURandom commented Nov 9, 2023

WhXmURandom commented Nov 9, 2023

WhXmURandom commented Nov 9, 2023

wcqy-ye commented Jan 31, 2024 • edited Loading

WhXmURandom commented Jan 31, 2024

wcqy-ye commented Feb 1, 2024

WhXmURandom commented Feb 1, 2024

wcqy-ye commented Feb 3, 2024

wcqy-ye commented Jan 31, 2024 •

edited

Loading