-
Notifications
You must be signed in to change notification settings - Fork 1.3k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
存在一些数据丢失现象,如何排查 #47
Comments
上报的数据的timestamp字段也打印一下 另外就是看transfer、tsdb的日志 |
这个错误有可能是原因,tsdb会把数据落盘存储,sync_disk就是在落盘,落盘失败,数据就断点了。你是本地虚拟机么?硬盘有什么特殊的么? |
嗯,一个监控指标一个rrd文件,如果部分rrd文件有问题,其他的是不受影响的。从逻辑上来说,代码是一套,如果是代码的问题,有指标不正常应该全部不正常。但是这里只有部分不正常。 所以,坦白讲,我也没有好思路 |
OK,没有问题,我抽时间研究下,如果有结果再和你沟通。 |
排查到一些线索 |
服务端收到的数据是:先收到了一条新数据,又收到了一条老数据,但是监控数据是要求有时序的。所以报错。 这是自己推送的数据?时间获取的是否有问题?机器时间同步了么? |
是自己推送的数据,时间获取没有问题,机器时间也是同步的。 |
我已经调整了推送代码,如果有进一步结论再同步。 |
目前看,问题并没有得到解决。 |
你是所有指标都有问题,还是只有部分有问题,有规律么 |
哪一个指标有问题,需要去查所有链路上的组件,比如是插件上报的指标abc,就要从collector开始查,到transfer、tsdb,看abc这个指标到底上报对了么,是否在哪个环节出问题 |
好的,我按你说的做个全量的review。目前看只是部分指标的问题。 |
重启n9e-tsdb后,目前还没有复现过问题。 |
你是自己搭建的虚机测试的?还是在正式生产环境的机器测试的?看现象不是软件的问题,像是环境的问题 |
是正式环境,用的阿里云ESC |
这个issue先关了,后面如果还有问题,把各块日志都贴出来,重开一个issue再看。这个问题略诡异。 |
我这里重启tsdb也不能解决这个问题 |
不行试试3.3.0版本,用M3DB作为存储引擎试试,rrdtool看起来在有些场景下有问题 |
如下图示。
报送日志,如下,是持续的过程。
collector组件无错误日志,应该如何定位问题?
The text was updated successfully, but these errors were encountered: