openshift · openshift-merge-robot · May 14, 2021 · May 14, 2021 · May 14, 2021 · May 14, 2021
diff --git a/assets/prometheus-k8s/service-monitor-kubelet.yaml b/assets/prometheus-k8s/service-monitor-kubelet.yaml
@@ -61,6 +61,10 @@ spec:
       regex: container_(network_tcp_usage_total|network_udp_usage_total|tasks_state|cpu_load_average_10s)
       sourceLabels:
       - __name__
+    - action: drop
+      regex: container_memory_failures_total
+      sourceLabels:
+      - __name__
     path: /metrics/cadvisor
     port: https-metrics
     relabelings:

diff --git a/jsonnet/prometheus.jsonnet b/jsonnet/prometheus.jsonnet
@@ -233,7 +233,22 @@ local metrics = import 'telemeter-client/metrics.jsonnet';
                     caFile: '/etc/prometheus/configmaps/kubelet-serving-ca-bundle/ca-bundle.crt',
                     insecureSkipVerify: false,
                   },
-                },
+                }
+                +
+                if 'path' in e && e.path == '/metrics/cadvisor' then
+                  // Drop cAdvisor metrics with excessive cardinality.
+                  {
+                    metricRelabelings+: [
+                      {
+                        sourceLabels: ['__name__'],
+                        action: 'drop',
+                        regex: 'container_memory_failures_total',
+                      },
+                    ],
+                  }
+                else
+                  {}
+              ,
               super.endpoints,
             ) +
             // Collect metrics from CRI-O.