Skip to content

Commit

Permalink
grafana: explained metrics in log backup row (#17227) (#17262)
Browse files Browse the repository at this point in the history
  • Loading branch information
ti-chi-bot committed Apr 30, 2024
1 parent 165be86 commit abeea4b
Showing 1 changed file with 35 additions and 0 deletions.
35 changes: 35 additions & 0 deletions grafana-tikv-dashboard.md
Expand Up @@ -455,6 +455,41 @@ title: TiKV 监控指标详解
- Encrypt/decrypt data nanos:每次加密/解密数据的耗时的直方图
- Read/write encryption meta duration:每秒钟读写加密文件所耗费的时间

### Log Backup

- Handle Event Rate:处理写入事件的速度。
- Initial Scan Generate Event Throughput:创建新的监听流时,增量扫描的速度。
- Abnormal Checkpoint TS Lag:各个任务当前 Checkpoint TS 到现在时间的 Lag。
- Memory Of Events:增量扫描产生的临时数据占用内存的估计值。
- Observed Region Count:目前监听的 Region 数量。
- Errors:可重试、非致命错误的数量及类型。
- Fatal Errors:致命错误的数量及类型。通常致命错误会导致任务暂停。
- Checkpoint TS of Tasks:各个任务的 Checkpoint TS。
- Flush Duration:将缓存数据移动到外部存储的耗时的热力图。
- Initial Scanning Duration:创建新的监听流时,增量扫描的耗时的热力图。
- Convert Raft Event Duration:创建监听流后,转化 Raft 日志项为备份数据的耗时的热力图。
- Command Batch Size:监听到的 Raft Command 的 Batch 大小(单个 Raft Group 内)。
- Save to Temp File Duration:将一批备份数据(跨越数个 Task)暂存到临时文件区的耗时的热力图。
- Write to Temp File Duration:将一批备份数据(来自某个 Task)暂存到临时文件区的耗时的热力图。
- System Write Call Duration:将一批备份数据(来自某个 Region)写入到临时文件耗时的热力图。
- Internal Message Type:TiKV 内部负责日志备份的 Actor 收到的消息的类型。
- Internal Message Handling Duration (P90|P99):消费、处理各个类型消息的速度。
- Initial Scan RocksDB Throughput:增量扫描过程中,RocksDB 内部记录产生的读流量。
- Initial Scan RocksDB Operation:增量扫描过程中,RocksDB 内部记录的各个操作的数量。
- Initial Scanning Trigger Reason:触发增量扫描的原因。
- Region Checkpoint Key Putting:向 PD 记录 Checkpoint 的操作的数量。

> **注意:**
>
> 以下这些监控指标的数据源都是 TiDB 节点,但是对日志备份流程有一些影响。因此,为了方便查阅,将其放在了 **TiKV Details** 面板中。大部分时候 TiKV 会主动“推送”进度,但以下部分监控偶尔没有数据采样也属于正常现象。
- Request Checkpoint Batch Size:日志备份协调器请求各个 TiKV 的 Checkpoint 信息时的请求攒批大小。
- Tick Duration \[P99|P90\]:协调器内部 Tick 的耗时。
- Region Checkpoint Failure Reason:协调器内部无法推进某个 Region Checkpoint 的原因。
- Request Result:协调器推进 Region Checkpoint 的成功或失败的记录。
- Get Region Operation Count:协调器向 PD 请求 Region 信息的次数。
- Try Advance Trigger Time:协调器尝试推进 Checkpoint 的耗时。

### 面板常见参数的解释

#### gRPC 消息类型
Expand Down

0 comments on commit abeea4b

Please sign in to comment.