diff --git a/cscs-checks/microbenchmarks/kernel_latency/kernel_latency.py b/cscs-checks/microbenchmarks/kernel_latency/kernel_latency.py
index 442cb90594..89144f8ada 100644
--- a/cscs-checks/microbenchmarks/kernel_latency/kernel_latency.py
+++ b/cscs-checks/microbenchmarks/kernel_latency/kernel_latency.py
@@ -6,7 +6,6 @@
 @rfm.parameterized_test(['sync'], ['async'])
 class KernelLatencyTest(rfm.RegressionTest):
     def __init__(self, kernel_version):
-        super().__init__()
         # List known partitions here so as to avoid specifying them every time
         # with --system
         self.valid_systems = ['daint:gpu', 'dom:gpu', 'kesch:cn']
@@ -14,13 +13,13 @@ def __init__(self, kernel_version):
         self.num_tasks_per_node = 1
         self.sourcepath = 'kernel_latency.cu'
         self.build_system = 'SingleSource'
-        self.build_system.cxxflags = ['-std=c++11']
+        self.build_system.cxxflags = ['-std=c++11', '-O3']
         if self.current_system.name in {'dom', 'daint'}:
             self.num_gpus_per_node = 1
             gpu_arch = '60'
             self.modules = ['craype-accel-nvidia60']
-            self.valid_prog_environs = ['PrgEnv-cray', 'PrgEnv-pgi',
-                                        'PrgEnv-gnu']
+            self.valid_prog_environs = ['PrgEnv-cray_classic', 'PrgEnv-cray',
+                                        'PrgEnv-pgi', 'PrgEnv-gnu']
         elif self.current_system.name == 'kesch':
             self.num_gpus_per_node = 16
             self.valid_prog_environs = ['PrgEnv-cray', 'PrgEnv-pgi']
diff --git a/cscs-checks/microbenchmarks/kernel_latency/src/kernel_latency.cu b/cscs-checks/microbenchmarks/kernel_latency/src/kernel_latency.cu
index b8156ea9d6..461fd282a6 100644
--- a/cscs-checks/microbenchmarks/kernel_latency/src/kernel_latency.cu
+++ b/cscs-checks/microbenchmarks/kernel_latency/src/kernel_latency.cu
@@ -37,7 +37,7 @@ int main(int argc, char* argv[]) {
         null_kernel<<<1, 1>>>();
 
         auto t_start = std::chrono::system_clock::now();
-        const int kernel_count = 1000;
+        const int kernel_count = 5000;
 
         for (int j = 0; j < kernel_count; ++j) {
             null_kernel<<<1, 1>>>();