astojanov · richardstartin · Dec 31, 2017
diff --git a/src/ch/ethz/acl/ngen/mmm/BenchMMM.scala b/src/ch/ethz/acl/ngen/mmm/BenchMMM.scala
@@ -31,18 +31,26 @@ class BenchMMM extends Bench.ForkedTime {
   performance of "MMM" config (
     exec.minWarmupRuns -> 100,
     exec.maxWarmupRuns -> 100,
-    exec.independentSamples -> 1
+    exec.independentSamples -> 1,
+    exec.jvmflags -> List("-XX:-TieredCompilation", // ensure C2 is actually used
+                          "-XX:CompileThreshold=100" // the paper claims to set this
+    )
   ) in {
-    measure method "jMMM.blocked (JVM implementation)" in {
+    measure method "jMMM.fast (JVM implementation)" in {
       using(argsMMM) in {
-        case (a, b, c, size) => MMM.jMMM.blocked(a, b, c, size)
+        case (a, b, c, size) => MMM.jMMM.fast(a, b, c, size)
       }
     }
     measure method "nMMM.blocked (LMS generated)" in {
       using(argsMMM) in {
         case (a, b, c, size) => MMM.nMMM.blocked(a, b, c, size)
       }
     }
+    measure method "jMMM.blocked (JVM implementation)" in {
+      using(argsMMM) in {
+        case (a, b, c, size) => MMM.jMMM.blocked(a, b, c, size)
+      }
+    }
     measure method "jMMM.baseline (JVM implementation)" in {
       using(argsMMM) in {
         case (a, b, c, size) => MMM.jMMM.baseline(a, b, c, size)

diff --git a/src/ch/ethz/acl/ngen/mmm/JMMM.java b/src/ch/ethz/acl/ngen/mmm/JMMM.java
@@ -1,5 +1,7 @@
 package ch.ethz.acl.ngen.mmm;
 
+import java.util.Arrays;
+
 public class JMMM {
     //
     // Baseline implementation of a Matrix-Matrix-Multiplication
@@ -36,4 +38,28 @@ public void blocked(float[] a, float[] b, float[] c, int n) {
         }
     }
 
+    public void fast(float[] a, float[] b, float[] c, int n) {
+        float[] bBuffer = new float[n];
+        float[] cBuffer = new float[n];
+        int in = 0;
+        for (int i = 0; i < n; ++i) {
+            int kn = 0;
+            for (int k = 0; k < n; ++k) {
+                float aik = a[in + k];
+                System.arraycopy(b, kn, bBuffer, 0, n);
+                saxpy(n, aik, bBuffer, cBuffer);
+                kn += n;
+            }
+            System.arraycopy(cBuffer, 0, c, in, n);
+            Arrays.fill(cBuffer, 0f);
+            in += n;
+        }
+    }
+
+    private void saxpy(int n, float aik, float[] b, float[] c) {
+        for (int i = 0; i < n; ++i) {
+            c[i] += aik * b[i];
+        }
+    }
+
 }