运行run_rm.sh报错 RuntimeError: CUDA error: device-side assert triggered #23

Candy555 · 2023-06-19T06:17:32Z

基于llama13B 运行 run_rm.sh报错如下数据集用的test.json也不行，单机多卡的环境下报错
../aten/src/ATen/native/cuda/Indexing.cu:1146: indexSelectLargeIndex: block: [420,0,0], thread: [29,0,0] Assertion srcIndex < srcSelectDimSize failed.
../aten/src/ATen/native/cuda/Indexing.cu:1146: indexSelectLargeIndex: block: [420,0,0], thread: [30,0,0] Assertion srcIndex < srcSelectDimSize failed.
../aten/src/ATen/native/cuda/Indexing.cu:1146: indexSelectLargeIndex: block: [420,0,0], thread: [31,0,0] Assertion srcIndex < srcSelectDimSize failed.

RuntimeError: CUDA error: device-side assert triggered
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.

The text was updated successfully, but these errors were encountered:

shibing624 · 2023-06-19T08:31:27Z

for llama, set pad_token_id = 0, later i will fix it.

Candy555 added the bug Something isn't working label Jun 19, 2023

shibing624 closed this as completed Jul 28, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

运行run_rm.sh报错 RuntimeError: CUDA error: device-side assert triggered #23

运行run_rm.sh报错 RuntimeError: CUDA error: device-side assert triggered #23

Candy555 commented Jun 19, 2023

shibing624 commented Jun 19, 2023 •

edited

Loading

运行run_rm.sh报错 RuntimeError: CUDA error: device-side assert triggered #23

运行run_rm.sh报错 RuntimeError: CUDA error: device-side assert triggered #23

Comments

Candy555 commented Jun 19, 2023

shibing624 commented Jun 19, 2023 • edited Loading

shibing624 commented Jun 19, 2023 •

edited

Loading