-
Notifications
You must be signed in to change notification settings - Fork 5.5k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
本地跑cpu版本多线程问题 #5280
Comments
你好,为了更好的明确问题, 请提供更多的信息, 包括具体的训练速度, 网络配置文件, 训练数据的格式等。 谢谢 |
你好, 这里的图片没有显示, 麻烦贴上对应的代码等文本信息, 便于大家搜索,谢谢 |
cpu占有率相关信息如下: 运行这个示例的脚本如下: |
我这边也碰到了类似的问题。今天更新到最新版本后,就出现了。
目前cpu使用情况 装最新版本的时候出现过这个错 另外,还有个问题,我始终没有试出来,单机多线程和单机单线程,在运行时间上有什么差别,batch_size,学习率都调整过,但是始终没看到效果。但至少之前cpu使用率是上去了。 |
上面的两个情况,可以看到CPU0的利用率已经完全满了, 建议的处理方法:使用linux 参考: |
我贴的那个不能算完全满吧,CPU0,90%左右,最高也就93% @typhoonzero 设置亲和到2的情况。除了这个任务,没有其他任务大量占用资源的 Cpu0 : 90.7%us, 2.3%sy, 0.0%ni, 6.6%id, 0.0%wa, 0.0%hi, 0.3%si, 0.0%st |
@windy444 第二个CPU占用情况中, 如果没有其他的任务,CPU0也有很高的占用率。 另外也可以试试是否是reader成为了训练瓶颈,使用 |
Hi @windy444 ,可以看下是不是reader的部分消耗的CPU(Python程序只占一个Core) 可以尝试使用Python的Profile工具:https://docs.python.org/2/library/profile.html |
@typhoonzero 我用了下buffered,但是实际时长差不了太多。不知道是不是用错了。 另外,发现我即使用一个线程跑,也是很多核被占用。用24个核的话,情况和这个差不多。 |
@windy444 用法是正确的, |
@typhoonzero 空闲时刻CPU情况 bufsize加大后 top - 17:58:02 up 427 days, 4:03, 10 users, load average: 5.02, 5.60, 5.06 |
Hi @windy444 , 可以看下 |
@Yancey1989 trainer_count=2 |
@windy444 类似这样的 trainer_count=1 %Cpu0 : 76.5 us, 1.3 sy, 0.0 ni, 20.2 id, 2.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu1 : 0.0 us, 0.3 sy, 0.0 ni, 99.7 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu3 : 18.9 us, 0.3 sy, 0.0 ni, 80.1 id, 0.7 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu4 : 0.0 us, 0.3 sy, 0.0 ni, 99.7 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu5 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu6 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu7 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu8 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu9 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu10 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu11 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu12 : 4.3 us, 0.7 sy, 0.0 ni, 94.7 id, 0.0 wa, 0.0 hi, 0.3 si, 0.0 st
%Cpu13 : 3.0 us, 0.7 sy, 0.0 ni, 96.3 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu14 : 0.7 us, 1.3 sy, 0.0 ni, 98.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu15 : 0.3 us, 0.7 sy, 0.0 ni, 99.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu16 : 0.7 us, 0.3 sy, 0.0 ni, 99.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu17 : 1.3 us, 0.7 sy, 0.0 ni, 98.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu18 : 13.0 us, 1.3 sy, 0.0 ni, 85.7 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu19 : 2.0 us, 2.3 sy, 0.0 ni, 95.3 id, 0.0 wa, 0.0 hi, 0.3 si, 0.0 st
%Cpu20 : 13.6 us, 1.3 sy, 0.0 ni, 85.1 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu21 : 3.3 us, 1.7 sy, 0.0 ni, 95.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu22 : 2.6 us, 0.7 sy, 0.0 ni, 96.4 id, 0.0 wa, 0.0 hi, 0.3 si, 0.0 st
%Cpu23 : 98.3 us, 0.0 sy, 0.0 ni, 1.3 id, 0.0 wa, 0.0 hi, 0.3 si, 0.0 st
KiB Mem : 26404276+total, 57028208 free, 25900816 used, 18111374+buff/cache
KiB Swap: 975868 total, 0 free, 975868 used. 23048297+avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
15099 root 20 0 2066412 651536 49528 R 100.0 0.2 0:07.46 python train.py -y 0 --model_arch 0 --class_num=2 --num_passes=100 --num_workers=1 trainer_count=2
|
@Yancey1989 PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND trainer_count=2 PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND |
请问之前是什么版本?@windy444 |
根据gdb的调试情况来看,即使 (gdb) info thread
Id Target Id Frame
* 1 Thread 0x7f915f7d8700 (LWP 51) "python" __memset_avx2 () at ../sysdeps/x86_64/multiarch/memset-avx2.S:161
2 Thread 0x7f9147652700 (LWP 79) "python" runtime.futex () at /usr/local/go/src/runtime/sys_linux_amd64.s:423
3 Thread 0x7f9147e53700 (LWP 80) "python" runtime.futex () at /usr/local/go/src/runtime/sys_linux_amd64.s:423
4 Thread 0x7f9148654700 (LWP 81) "python" runtime.futex () at /usr/local/go/src/runtime/sys_linux_amd64.s:423
5 Thread 0x7f9148e55700 (LWP 82) "python" runtime.futex () at /usr/local/go/src/runtime/sys_linux_amd64.s:423
6 Thread 0x7f911b34b700 (LWP 83) "python" runtime.futex () at /usr/local/go/src/runtime/sys_linux_amd64.s:423
7 Thread 0x7f9111254780 (LWP 84) "python" 0x00007f911b3e4bd6 in _INTERNAL_25_______src_kmp_barrier_cpp_34128d84::__kmp_hyper_barrier_release(barrier_type, kmp_info*, int, int, int, void*) () from /usr/local/lib/libiomp5.so
8 Thread 0x7f9110e53800 (LWP 85) "python" 0x00007f911b3e4c61 in _INTERNAL_25_______src_kmp_barrier_cpp_34128d84::__kmp_hyper_barrier_release(barrier_type, kmp_info*, int, int, int, void*) () from /usr/local/lib/libiomp5.so
9 Thread 0x7f9110a52880 (LWP 86) "python" 0x00007f915f0c07f7 in sched_yield () at ../sysdeps/unix/syscall-template.S:84
10 Thread 0x7f9110651900 (LWP 87) "python" 0x00007f911b3e4c61 in _INTERNAL_25_______src_kmp_barrier_cpp_34128d84::__kmp_hyper_barrier_release(barrier_type, kmp_info*, int, int, int, void*) () from /usr/local/lib/libiomp5.so
11 Thread 0x7f90e3ffc980 (LWP 88) "python" 0x00007f911b3e4c68 in _INTERNAL_25_______src_kmp_barrier_cpp_34128d84::__kmp_hyper_barrier_release(barrier_type, kmp_info*, int, int, int, void*) () from /usr/local/lib/libiomp5.so
12 Thread 0x7f90e3bfba00 (LWP 89) "python" 0x00007f911b3e4cc2 in _INTERNAL_25_______src_kmp_barrier_cpp_34128d84::__kmp_hyper_barrier_release(barrier_type, kmp_info*, int, int, int, void*) () from /usr/local/lib/libiomp5.so
13 Thread 0x7f90e37faa80 (LWP 90) "python" 0x00007f915f0c07f7 in sched_yield () at ../sysdeps/unix/syscall-template.S:84
14 Thread 0x7f90e33f9b00 (LWP 91) "python" 0x00007f911b3e4c5c in _INTERNAL_25_______src_kmp_barrier_cpp_34128d84::__kmp_hyper_barrier_release(barrier_type, kmp_info*, int, int, int, void*) () from /usr/local/lib/libiomp5.so
... 和 @luotao1 沟通后得知mkl会自动用满CPU来优化计算性能,所以
应该是mkl自动做的性能优化。 |
如果默认iomp是开启的,是否可以设置iomp的线程数加速训练呢?或者如何关闭iomp,然后使用trainer_count加速? |
用MKL加速的时候,需要设置一下环境变量,以达到最好的加速效果:
|
这些环境变量要和 |
综合了下 @CAOYUHUI 和 @windy444 的问题,大致看起来就是没有绑core导致。
|
谢谢 @tensor-tang 的详细回答。还有几个疑问:
|
|
@CAOYUHUI 和 @windy444 : 请先使用如下脚本来绑核和设置最优的MKL_NUM_THREADS和OMP_NUM_THREADS。linux本地环境或docker环境均可以:
下载上述脚本存为:
这是在我的服务器上运行的结果:
之后, @tensor-tang 会在源代码中加入上述功能。 |
@luotao1 我测试了下上述脚本,在我的脚本执行 sh cpu_configure.sh ${TRAINER_COUNT}
python train.py \
--train_data_path /home/work/zhaoyijin/video-recsys-model/dssm/train_data_dir/train/train \
--test_data_path /home/work/zhaoyijin/video-recsys-model/dssm/test_data_dir/test/test \
--dic_path /home/work/zhaoyijin/video-recsys-model/dssm/dict_data_dir/feature_dict \
--batch_size 1000 \
--num_passes 17 \
--model_type 0 \
--share_network_between_source_target FALSE \
--share_embed FALSE \
--dnn_dims 512,216,216,216,128 \
--num_workers ${TRAINER_COUNT} \
--use_gpu FALSE \
--class_num 2 \
--model_output_prefix ./output_model/ \
--num_batches_to_log 1 TRAINER_COUNT=24时: ****** CPU Information ******
Logical CPU Number : 32
Physical CPU Number : 2
CPU Core Number : 8
Hyper Threading(HT) : ON
********** Settings *********
Trainer Count : 24
OMP_NUM_THREADS : 1
MKL_NUM_THREADS : 1
top - 15:24:26 up 437 days, 1:30, 10 users, load average: 4.59, 3.52, 3.02
Tasks: 615 total, 3 running, 612 sleeping, 0 stopped, 0 zombie
Cpu0 : 96.4%us, 3.6%sy, 0.0%ni, 0.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu1 : 13.6%us, 50.7%sy, 0.0%ni, 35.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu2 : 14.3%us, 49.7%sy, 0.0%ni, 36.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu3 : 14.9%us, 49.3%sy, 0.0%ni, 35.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu4 : 14.3%us, 49.7%sy, 0.3%ni, 35.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu5 : 14.2%us, 49.7%sy, 0.3%ni, 35.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu6 : 14.6%us, 49.3%sy, 0.0%ni, 36.1%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu7 : 14.6%us, 49.3%sy, 0.0%ni, 36.1%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu8 : 13.3%us, 50.8%sy, 0.0%ni, 35.9%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu9 : 14.0%us, 50.2%sy, 0.3%ni, 35.5%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu10 : 14.6%us, 49.8%sy, 0.0%ni, 35.5%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu11 : 14.9%us, 49.3%sy, 0.0%ni, 35.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu12 : 14.5%us, 49.8%sy, 0.0%ni, 35.6%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu13 : 14.2%us, 49.7%sy, 0.0%ni, 36.1%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu14 : 14.6%us, 49.5%sy, 0.0%ni, 35.9%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu15 : 15.3%us, 49.2%sy, 0.0%ni, 35.5%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu16 : 0.3%us, 0.3%sy, 0.0%ni, 99.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu17 : 0.3%us, 0.7%sy, 0.0%ni, 99.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu18 : 0.3%us, 1.3%sy, 0.7%ni, 97.6%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu19 : 0.3%us, 0.0%sy, 0.3%ni, 99.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu20 : 0.3%us, 0.7%sy, 0.7%ni, 98.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu21 : 0.3%us, 0.3%sy, 0.3%ni, 99.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu22 : 0.0%us, 0.3%sy, 0.7%ni, 99.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu23 : 0.3%us, 0.0%sy, 0.0%ni, 99.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu24 : 1.0%us, 1.4%sy, 0.7%ni, 97.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu25 : 1.0%us, 1.7%sy, 0.3%ni, 97.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu26 : 0.3%us, 1.0%sy, 0.0%ni, 98.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu27 : 0.7%us, 1.0%sy, 0.0%ni, 98.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu28 : 0.3%us, 2.0%sy, 0.0%ni, 97.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu29 : 0.3%us, 1.0%sy, 0.0%ni, 98.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu30 : 0.3%us, 1.4%sy, 1.0%ni, 97.0%id, 0.0%wa, 0.0%hi, 0.3%si, 0.0%st
Cpu31 : 0.3%us, 1.0%sy, 0.0%ni, 98.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st TRAINER_COUNT=1时: ****** CPU Information ******
Logical CPU Number : 32
Physical CPU Number : 2
CPU Core Number : 8
Hyper Threading(HT) : ON
********** Settings *********
Trainer Count : 1
OMP_NUM_THREADS : 32
MKL_NUM_THREADS : 32
top - 15:27:10 up 437 days, 1:32, 10 users, load average: 2.46, 3.05, 2.93
Tasks: 613 total, 2 running, 611 sleeping, 0 stopped, 0 zombie
Cpu0 : 91.7%us, 7.9%sy, 0.0%ni, 0.0%id, 0.0%wa, 0.0%hi, 0.3%si, 0.0%st
Cpu1 : 15.9%us, 40.7%sy, 0.3%ni, 43.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu2 : 16.2%us, 40.9%sy, 0.0%ni, 42.9%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu3 : 15.7%us, 41.0%sy, 0.3%ni, 43.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu4 : 15.8%us, 40.9%sy, 0.0%ni, 43.2%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu5 : 15.9%us, 41.1%sy, 0.0%ni, 43.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu6 : 15.9%us, 41.4%sy, 0.3%ni, 42.4%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu7 : 15.4%us, 41.3%sy, 0.3%ni, 43.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu8 : 15.1%us, 41.8%sy, 0.3%ni, 42.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu9 : 14.8%us, 42.0%sy, 0.3%ni, 43.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu10 : 15.1%us, 41.8%sy, 0.3%ni, 42.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu11 : 14.8%us, 42.4%sy, 0.3%ni, 42.4%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu12 : 15.6%us, 41.7%sy, 0.0%ni, 42.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu13 : 15.2%us, 41.7%sy, 0.0%ni, 43.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu14 : 15.2%us, 42.1%sy, 0.0%ni, 42.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu15 : 15.9%us, 41.1%sy, 0.0%ni, 43.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu16 : 0.0%us, 0.7%sy, 1.0%ni, 98.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu17 : 0.7%us, 1.0%sy, 0.0%ni, 98.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu18 : 0.3%us, 3.0%sy, 1.3%ni, 95.4%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu19 : 0.3%us, 1.3%sy, 0.7%ni, 97.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu20 : 0.0%us, 0.3%sy, 0.3%ni, 99.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu21 : 0.0%us, 0.7%sy, 0.0%ni, 99.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu22 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu23 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu24 : 0.3%us, 0.0%sy, 0.0%ni, 99.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu25 : 0.7%us, 2.3%sy, 0.7%ni, 96.4%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu26 : 0.3%us, 1.7%sy, 0.3%ni, 97.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu27 : 0.3%us, 1.7%sy, 0.7%ni, 97.4%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu28 : 0.7%us, 1.0%sy, 0.0%ni, 98.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu29 : 0.3%us, 1.0%sy, 0.0%ni, 98.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Cpu30 : 0.0%us, 0.7%sy, 0.3%ni, 98.7%id, 0.0%wa, 0.0%hi, 0.3%si, 0.0%st
Cpu31 : 0.7%us, 1.0%sy, 0.0%ni, 98.3%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st 两者cpu占用率没有什么区别,请帮忙看看,我使用的是否正确,谢谢。 |
应该是你设置的变量没有生效, 你可以在加 paddle train前面加 |
@luotao1 你好,我尝试了cpu_configure.sh那个脚本。运行脚本后训练,第一次尝试trainer_count=4,用htop查看cpu情况,发现确实运行了多个cpu,感觉多线程是生效了。但是后续再尝试训练,htop发现依旧占用着同一个cpu。 麻烦帮忙看看是什么情况,十分感谢~ |
在脚本里面的echo输出是正常的,但是我说的是在你的paddle train前面加echo。
请先确定这个是否正确,谢谢 |
@tensor-tang 你好,运行echo $OMP_NUM_THREADS输出为空。 |
谢谢,那就证明脚本里面的环境变量确实没有生效。 需要使用 或者使用最新的paddle编译安装也可以,脚本的功能已经集成了,不需要自己配置也可以了。 |
请问后续的训练,trainer_count依然是4?@CAOYUHUI |
@luotao1 后来设置的trainer_count=8。 |
请问用的paddle是什么版本的? |
@luotao1 用的是v2,pip安装的。 |
pip安装的是最新版本的paddle,还是0.10.0版本的呢? |
@luotao1 是0.10.0的 |
如果更换了trainer_count的数量,得重新运行下脚本。重新运行脚本后,htop仍然是一个cpu么? |
Closing due to low activity. Feel free to reopen it. |
DSSM的示例代码
设置了trainer_count=32
但是训练过程中cpu使用情况显示并没有多线程。
训练速度很很慢,求解答。
The text was updated successfully, but these errors were encountered: