[bug] prometheus_client stops gather metrics after reciving HUP #3049

freeseacher · 2017-07-24T23:20:46Z

Bug report

Relevant telegraf.conf:


[global_tags]
dc = "DC" # will tag all metrics with dc=us-east-1
env = "prod"

[agent]
  interval = "10s"
  round_interval = true
  metric_buffer_limit = 10000
  flush_buffer_when_full = true
  collection_jitter = "0s"
  flush_interval = "10s"
  flush_jitter = "0s"
  debug = false
  quiet = true
  hostname = "ddiscovery02"

[[inputs.mem]]

[[outputs.prometheus_client]]
  ## Address to listen on
  listen = "0.0.0.0:9126"
  expiration_interval = "10s"

System info:

Telegraf v1.3.4 (git: release-1.3 7bbd3da)
Rhel 7.3

Steps to reproduce:

add config
start telegraf
curl http://0.0.0.0:9126/metrics ensure mem metrics are here
systemctl reload telegraf
curl http://0.0.0.0:9126/metrics ensure mem metrics are here

Expected behavior:

After reload metrics still there

Actual behavior:

only prometheus_client itself metrics are in output.

Additional info:

[Include gist of relevant config, logs, etc.]

https://gist.github.com/freeseacher/e8647e49591f21b348accd8201bb6173

The text was updated successfully, but these errors were encountered:

freeseacher · 2017-07-24T23:45:08Z

got the same behaviour for ubuntu and 1.2.1
reload looks like works as expected in 1.1.1

freeseacher · 2017-07-24T23:50:46Z

it seems there were already problems with it in the
54c9a38
and #2309

danielnelson · 2017-07-25T01:12:01Z

Are the metrics restored after the next collection interval?

freeseacher · 2017-07-25T09:01:39Z

No. Its just hangs forever

danielnelson · 2017-07-25T18:22:23Z

Do you get the same behavior if you send a SIGHUP? I just tried on the master branch and it recovered with the cpu input.

freeseacher · 2017-07-25T20:16:38Z

yep. the same behavior

[stage] 23:14:05 /etc/docker-compose/ch # curl http://0.0.0.0:9126/metrics|wc -l 
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  6735  100  6735    0     0  1781k      0 --:--:-- --:--:-- --:--:-- 2192k
123
[stage] 23:14:09 /etc/docker-compose/ch # systemctl restart telegraf 
[stage] 23:14:16 /etc/docker-compose/ch # curl http://0.0.0.0:9126/metrics|wc -l
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  6390  100  6390    0     0  1727k      0 --:--:-- --:--:-- --:--:-- 2080k
120
[stage] 23:14:19 /etc/docker-compose/ch # curl http://0.0.0.0:9126/metrics|wc -l
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  6624  100  6624    0     0   824k      0 --:--:-- --:--:-- --:--:--  924k
123
[stage] 23:14:21 /etc/docker-compose/ch # curl http://0.0.0.0:9126/metrics|wc -l
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  6625  100  6625    0     0  2459k      0 --:--:-- --:--:-- --:--:-- 3234k
123
[stage] 23:14:23 /etc/docker-compose/ch # curl http://0.0.0.0:9126/metrics|wc -l
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  507k  100  507k    0     0  16.2M      0 --:--:-- --:--:-- --:--:-- 16.5M
4769
[stage] 23:14:36 /etc/docker-compose/ch # ps wax | grep telegraf                
 9917 ?        Ssl    0:05 /usr/bin/telegraf -config /etc/telegraf/telegraf.conf -config-directory /etc/telegraf/telegraf.d
[stage] 23:14:46 /etc/docker-compose/ch # kill -HUP 9917
[stage] 23:14:52 /etc/docker-compose/ch # curl http://0.0.0.0:9126/metrics|wc -l
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  517k  100  517k    0     0  16.0M      0 --:--:-- --:--:-- --:--:-- 16.2M
4898
[stage] 23:14:53 /etc/docker-compose/ch # curl http://0.0.0.0:9126/metrics|wc -l
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  517k  100  517k    0     0  15.3M      0 --:--:-- --:--:-- --:--:-- 15.7M
4898
[stage] 23:14:57 /etc/docker-compose/ch # curl http://0.0.0.0:9126/metrics|wc -l
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  6655  100  6655    0     0  1315k      0 --:--:-- --:--:-- --:--:-- 1624k
123
[stage] 23:15:03 /etc/docker-compose/ch # curl http://0.0.0.0:9126/metrics|wc -l
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  6666  100  6666    0     0  3539k      0 --:--:-- --:--:-- --:--:-- 6509k
123
[stage] 23:15:43 /etc/docker-compose/ch # curl http://0.0.0.0:9126/metrics|wc -l
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  6666  100  6666    0     0  2040k      0 --:--:-- --:--:-- --:--:-- 3254k
123

danielnelson · 2017-07-25T20:26:30Z

I can reproduce, I must have not waited long enough for them to expire. Will work on it now.

lastsky · 2017-07-25T20:43:17Z

virgin centos 7 (and ubuntu!) - too.

[root@virtualbox-srv-ubuntu ~]# date
Tue Jul 25 23:40:20 MSK 2017
[root@virtualbox-srv-ubuntu ~]# curl -s virtualbox-srv-ubuntu:9126/metrics | wc -l
517
[root@virtualbox-srv-ubuntu ~]# systemctl reload telegraf
[root@virtualbox-srv-ubuntu ~]# date
Tue Jul 25 23:40:29 MSK 2017
[root@virtualbox-srv-ubuntu ~]# curl -s virtualbox-srv-ubuntu:9126/metrics | wc -l
517
[root@virtualbox-srv-ubuntu ~]# systemctl restart telegraf
[root@virtualbox-srv-ubuntu ~]# curl -s virtualbox-srv-ubuntu:9126/metrics | wc -l
120

telegraf version

Telegraf v1.3.4 (git: release-1.3 7bbd3da)

lastsky · 2017-07-25T22:44:17Z

@danielnelson Thanks!!!!!

danielnelson · 2017-07-26T01:47:08Z

Small warning, I expect you will now notice this issue #2839

danielnelson mentioned this issue Jul 25, 2017

Prometheus reload #3053

Merged

3 tasks

danielnelson added this to the 1.3.5 milestone Jul 25, 2017

danielnelson closed this as completed in #3053 Jul 25, 2017

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[bug] prometheus_client stops gather metrics after reciving HUP #3049

[bug] prometheus_client stops gather metrics after reciving HUP #3049

freeseacher commented Jul 24, 2017

freeseacher commented Jul 24, 2017

freeseacher commented Jul 24, 2017

danielnelson commented Jul 25, 2017

freeseacher commented Jul 25, 2017 via email •

edited

Loading

danielnelson commented Jul 25, 2017

freeseacher commented Jul 25, 2017

danielnelson commented Jul 25, 2017

lastsky commented Jul 25, 2017 •

edited

Loading

lastsky commented Jul 25, 2017

danielnelson commented Jul 26, 2017

[bug] prometheus_client stops gather metrics after reciving HUP #3049

[bug] prometheus_client stops gather metrics after reciving HUP #3049

Comments

freeseacher commented Jul 24, 2017

Bug report

Relevant telegraf.conf:

System info:

Steps to reproduce:

Expected behavior:

Actual behavior:

Additional info:

freeseacher commented Jul 24, 2017

freeseacher commented Jul 24, 2017

danielnelson commented Jul 25, 2017

freeseacher commented Jul 25, 2017 via email • edited Loading

danielnelson commented Jul 25, 2017

freeseacher commented Jul 25, 2017

danielnelson commented Jul 25, 2017

lastsky commented Jul 25, 2017 • edited Loading

telegraf version

lastsky commented Jul 25, 2017

danielnelson commented Jul 26, 2017

freeseacher commented Jul 25, 2017 via email •

edited

Loading

lastsky commented Jul 25, 2017 •

edited

Loading