Help compiler exploit hanging-node symmetries by reduced reg loads #13000

kronbichler · 2021-11-27T20:11:33Z

This is a pure performance optimization: The current vectorized code path of the hanging-node evaluation routines exploits the symmetry in shape functions between the two subface interpolation matrices. However, we leave it up to the compiler to actually exploit this by fewer memory-register moves, which is not done for high degrees as there are too many loads in between the two places where the data is re-used (whereas at least clang-13 does the optimization for p=3, so I did not notice immediately). Hence, make the loop explicit, similar to what we do in

dealii/include/deal.II/matrix_free/tensor_product_kernels.h

Lines 1155 to 1160 in 43550bc

    
           in0 = in[stride * ind]; 
        
           in1 = in[stride * (mm - 1 - ind)]; 
        
           res0 += val0 * in0; 
        
           res1 += val1 * in0; 
        
           res0 += val1 * in1; 
        
           res1 += val0 * in1;

Help compiler exploit hanging-node symmetries by reduced reg loads

3471dbe

kronbichler added Reviewed and ready to merge Matrix-free ready to test and removed Reviewed and ready to merge labels Nov 27, 2021

peterrum approved these changes Nov 27, 2021

View reviewed changes

peterrum added the Reviewed and ready to merge label Nov 27, 2021

kronbichler merged commit 52b85b2 into dealii:master Nov 28, 2021

kronbichler deleted the improve_mf_kernel branch November 28, 2021 09:50

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Help compiler exploit hanging-node symmetries by reduced reg loads #13000

Help compiler exploit hanging-node symmetries by reduced reg loads #13000

kronbichler commented Nov 27, 2021

	in0 = in[stride * ind];
	in1 = in[stride * (mm - 1 - ind)];
	res0 += val0 * in0;
	res1 += val1 * in0;
	res0 += val1 * in1;
	res1 += val0 * in1;

Help compiler exploit hanging-node symmetries by reduced reg loads #13000

Help compiler exploit hanging-node symmetries by reduced reg loads #13000

Conversation

kronbichler commented Nov 27, 2021