11
11
mul_1x1_neon:
12
12
vshl.u64 d2 , d16 , # 8 @ q1 - q3 are slided
13
13
14
- vmull.p8 q0 , d16 , d17 @ a·bb
14
+ vmull.p8 q0 , d16 , d17 @ a·bb
15
15
vshl.u64 d4 , d16 , # 16
16
- vmull.p8 q1 , d2 , d17 @ a<< 8 ·bb
16
+ vmull.p8 q1 , d2 , d17 @ a<< 8 ·bb
17
17
vshl.u64 d6 , d16 , # 24
18
- vmull.p8 q2 , d4 , d17 @ a<< 16 ·bb
18
+ vmull.p8 q2 , d4 , d17 @ a<< 16 ·bb
19
19
vshr.u64 d2 , # 8
20
- vmull.p8 q3 , d6 , d17 @ a<< 24 ·bb
20
+ vmull.p8 q3 , d6 , d17 @ a<< 24 ·bb
21
21
vshl.u64 d3 , # 24
22
22
veor d0 , d2
23
23
vshr.u64 d4 , # 16
@@ -132,20 +132,20 @@ bn_GF2m_mul_2x2:
132
132
133
133
vmov d16 , d18
134
134
vmov d17 , d19
135
- bl mul_1x1_neon @ a1·b1
135
+ bl mul_1x1_neon @ a1·b1
136
136
vmov d22 , d0
137
137
138
138
vmov d16 , d20
139
139
vmov d17 , d21
140
- bl mul_1x1_neon @ a0·b0
140
+ bl mul_1x1_neon @ a0·b0
141
141
vmov d23 , d0
142
142
143
143
veor d16 , d20 , d18
144
144
veor d17 , d21 , d19
145
145
veor d20 , d23 , d22
146
- bl mul_1x1_neon @ (a0 + a1)·(b0 + b1)
146
+ bl mul_1x1_neon @ (a0 + a1)·(b0 + b1)
147
147
148
- veor d0 , d20 @ (a0 + a1)·(b0 + b1) - a0·b0 - a1·b1
148
+ veor d0 , d20 @ (a0 + a1)·(b0 + b1) - a0·b0 - a1·b1
149
149
vshl.u64 d1 , d0 , # 32
150
150
vshr.u64 d0 , d0 , # 32
151
151
veor d23 , d1
@@ -165,7 +165,7 @@ bn_GF2m_mul_2x2:
165
165
mov r12 , # 7 << 2
166
166
sub sp , sp , # 32 @ allocate tab [ 8 ]
167
167
168
- bl mul_1x1_ialu @ a1·b1
168
+ bl mul_1x1_ialu @ a1·b1
169
169
str r5 ,[ r10 , # 8 ]
170
170
str r4 ,[ r10 , # 12 ]
171
171
@@ -175,13 +175,13 @@ bn_GF2m_mul_2x2:
175
175
eor r2 , r2 , r1
176
176
eor r0 , r0 , r3
177
177
eor r1 , r1 , r2
178
- bl mul_1x1_ialu @ a0·b0
178
+ bl mul_1x1_ialu @ a0·b0
179
179
str r5 ,[ r10 ]
180
180
str r4 ,[ r10 , # 4 ]
181
181
182
182
eor r1 , r1 , r2
183
183
eor r0 , r0 , r3
184
- bl mul_1x1_ialu @ (a1 + a0)·(b1 + b0)
184
+ bl mul_1x1_ialu @ (a1 + a0)·(b1 + b0)
185
185
ldmia r10 , {r6 - r9 }
186
186
eor r5 , r5 , r4
187
187
eor r4 , r4 , r7
0 commit comments