Depend on pytorch and cuda
git clone --recursive https://github.com/l1351868270/LD_mma.git
or
git clone https://github.com/l1351868270/LD_mma.git
git submodule update --init --recursive
cd mma
python setup.py install
GPU上的Profiling分为两类:
- 对系统整体(CPU&GPU)执行情况进行Profile,判断性能瓶颈是位于CPU还是GPU上,并考虑CPU&GPU之间的同步开销
- 对GPU Kernel进行Profile,以找到Kernel的潜在优化点
g++ -pg
-pg: profiler gprof
-O2 -O3 会inline函数
gprof
nsys profile python ./ld_mma/tests/cublas_matmul_test.py
ncu -f --set full -o lsl1 python ./ld_mma/tests/cublas_matmul_test.py