canal整体性能优化 #726

agapple · 2018-06-30T09:49:24Z

之前有较多的小伙伴, 反馈在大规模数据DML变更时消费速度有点跟不上, 反馈的问题列表:

这里会做一个相对完整的测试，进行针对性的优化，同时也非常欢迎大家的参与和代码MR，一起努力解决好性能和稳定性的问题. ps. 1.0.26会是一个里程碑式的版本。

最后的优化结果：https://github.com/alibaba/canal/wiki/Performance

zwangbo · 2018-07-02T02:52:39Z

赞赞赞

mjjian0 · 2018-07-02T10:43:21Z

期待ing，期待ing

lcybo · 2018-07-02T12:29:53Z

赞！
我先来抛个砖，说说以前遇到的issue和一些思路：
场景是，使用load backup file的方式灌数据，同时使用canal进行同步。
每个表一个或多个文件，由于每个文件中的行都同属于一张表的同一事件（INSERT），mysql-binlog会merge一定量的行（取决于binlog-row-event-max-size）到同一event。
*单句DML影响到多行数据的情况应该也适用。
压缩的event经过解析为protobuf对象，内存占用急剧膨胀，造成fgc频繁，甚至oom。
在MySQL 5.6的版本，官方默认将binlog-row-event-max-size从1024调高到了8192。
当时我们通过将binlog-row-event-max-size设回1024，问题被绕过。
如果将server/client 的netty3升级为4，用PooledByteBuf应该可以缓解一小部分。但大头还是protobuf这个memory hogs.

lcybo · 2018-07-03T01:24:00Z

补充一下，ringbuffer size被设置为4096。内存是4g.由于load backup file以后就是平稳的正常traffic。因此并不想调整内存或进一步减小ringbuffer

agapple · 2018-07-03T05:46:12Z

第一步网络优化(只做header解析，识别包大小、位点等信息，不做具体的记录级别解析)
结果：默认设置的32k的socket buffer，针对大吞吐量传输时有点过小，去掉了默认设置，让socket自我协调，默认在24c96g的物理机上测试，receiveBuffer协调结果为180k.

调整前后的性能吞吐量对比： 18MB VS 117MB，提供6倍多，socket buffer优化之后基本可以跑满网卡

agapple · 2018-07-03T06:56:19Z

第二步优化解析的能力，跑了下简单的对象解析(不做protobuf的对象构建)，刚开始速度是20MB，主要优化了时间字段的解析上，提升到了45MB.

目前遇到瓶颈了，观察系统的负载cpu最高在1.5核左右，jvm gc主要集中在young区，下一步的优化思路：多线程并行解析，最大化的使用系统负载进行优化

agapple · 2018-07-03T08:18:32Z

第三步整体并发模型设计，按照前面的优化网络和对象解析，瓶颈都在对象的深度解析上，如果要最大化性能，必须得引入并发设计，整体设计思路如下：

基于ringbuffer的并发模型，整个过程会分为4个阶段，多个阶段之间互相隔离和依赖，把最耗瓶颈的解析这块采用多线程的模型进行加速，预计整个优化完成，整个解析可以跑满整个千兆网卡.

ps. 如果各位有万兆网卡的机型，到时候可以也帮忙跑一下效果

agapple · 2018-07-03T08:22:05Z

@lcybo 针对内存占用的问题，你有什么优化建议么？换掉protobuf？

lcybo · 2018-07-03T12:58:39Z

个人一点不成熟的想法：
因为不跨语言，可以用基于protobuf和java的protostuff。
相对来说，优点：

比protobuf快，占用内存更少，相同的data size。
可以使用POJO，不用proto文件。protobuf的generated code对人太不友好了。

不足的地方：

社区不太活跃。
待补充哈哈。

贴出一些细节：
// Re-use (manage) this buffer to avoid allocating on every serialization
LinkedBuffer buffer = LinkedBuffer.allocate(512);
对比protobuf：
byte[] result = new byte[this.getSerializedSize()];

此外，POJO还可以参考netty的Recycler或其他的对象池，理论上，ringbuffer中event占用Entry对象的峰值就是ObjectPool需要缓存的对象个数。
ProtostuffIOUtil.mergeFrom(protostuff, fooParsed, schema); //fooParsed是可以提供的，反序列化可以从ObjectPool受益。
当然这么做代码会复杂些。

agapple · 2018-07-03T15:24:24Z

byte[]的复用倒是有, 基于ObjectPool的思路以前还真没考虑过, 对象里的各种嵌套结构体也不太一样, 不太理解复用的原理 @lcybo

lan1994 · 2018-07-04T01:16:19Z

并行解析如何保证binlog event的有序性？@agapple

lcybo · 2018-07-04T03:43:29Z

办法挺多，举个栗子，把结果作为卫星数据，countdownlatch或其他的闭锁或parallelstream，最后还不用reorder

lcybo · 2018-07-04T03:57:09Z

@agapple，在外面爪机不太方便，回去再码字。

agapple · 2018-07-04T04:10:36Z

@lan1994 串行和并行的结合体，串行把基本的对象解析做好，并行主要处理一些耗时比较长的，比如DML的具体字段解析、protobuf对象构造等.

目前初步的测试结果，24个并发基本可以把一台24core的物理机cpu给跑满，吞吐量能跑到80MB/s (从binlog接收到生成CanalEntry整体，优化前大概7MB/s，提升一个数量级)，目前瓶颈基本在cpu上了(字符串的序列化占比非常高)，下午会继续测试一下从mysql -> canal server -> canal client的整体吞吐量

lcybo · 2018-07-04T07:47:45Z

关于嵌套结构：
假设Row嵌套Column的list
两个类都使用了ObjectPool，都实现了Recycable接口和recycle方法。
对Row调用recycle时，清楚数据fields，对每个Column嵌套调用recycle，再list.clear()
要注意的是内嵌的Column生命周期不应该久于Row。

关于netty的Recycler，每个对象new出来会bind ThreadLocal的回收stack，如果在同一线程进行recycle/get，那么就完全不会有竞争。如果两者分离，则会涉及到潜在线程间共享的WeakOrderQueue。
按：串行浅解析->并发深度解析&proto对象->ringbuffer串行get 的处理逻辑，序列化的点在SessionHandler的get，会引发深度解析线程之间的竞争（解析线程stack空的时候它们会去WeakOrderQueue偷一些对象回来），看起来至少netty的Recycler不适合这里应用。（除非提早序列化，把序列化结果放到ringbuffer）
参考：
io.netty.util.Recycler
对象参考：
io.netty.util.internal.RecyclableArrayList

BTW，sessionhandler里面的序列化：
NettyUtils.write(ctx.getChannel(), packetBuilder.build().toByteArray(), null);// 输出数据
packetBuilder.build().toByteArray()每次都new byte[]，应该有优化的空间。

agapple · 2018-07-04T15:42:59Z

第三步优化已经完成，解析这块引入了ringbufer模型，分成了多个阶段：网络接收、简单解析、DML深度解析、投递到store，把中间最耗时的DML深度解析换成了并发解析的模型.

从binlog接收到生成Entry对象，测试了一下对比：

未做并行化改造前，大概是5MB/s (单线程)
做了并行化改造，16个并发解析，大概是80MB/S，基本是正相关的线性扩展 (基本跑满了cpu的瓶颈，如果要进一步优化，只能优化Entry对象的构造协议了)

agapple · 2018-07-04T15:51:10Z

第四步优化已经开始，主要是关注binlog解析到client收到数据的吞吐量，目前逐步压测的情况，大概是binlog下载吞吐在8MB/s，Entry对象的吞吐大概在55MB/s，大概是1:7的数据膨胀率. 目前profile看到的瓶颈主要在server在序列化Entry对象时，相比于网络传包占了50%，测试的记录大概是100字节，换算到记录的tps，目前大概是在20w record/s左右. (我测试数据是批量insert和update，binlog里会更加紧凑)

如果优化掉这块，理论上Entry对象可以跑满网络带宽，预计可以整体提升150% (相比于未优化前，因为最后端的网络传输瓶颈比较大，所以吃掉了前面的几个优化带来的提升，如果要进一步优化，得改动protobuf协议设计)

初步优化思路

多线程提前构造好Entry的序列化结果，避免在client get操作时临时做序列化 (因为单线程，会有瓶颈)
如果改动protobuf协议，可以通过设计一些字典表，压缩部分的数据存储

lcybo · 2018-07-05T12:30:31Z

拜读了代码，parallel参数有些细节：Pr#737

withlin · 2018-07-06T01:46:50Z

赞!!!!!👍

agapple · 2018-07-06T07:37:18Z

非常欢迎大家提交PR哈，最近在思考protobuf的一些优化细节，目前主要瓶颈点在于protobuf的序列化和字节放大问题。我会尽可能去保证兼容性，但也不排除极端情况下在协议设计改动出现不兼容的情况

so. 如果有好的想法，可以尽快反馈到我这里.

lcybo · 2018-07-06T08:49:14Z

enum Compression {
NONE = 1;
ZLIB = 2;
GZIP = 3;
LZF = 4;
}
proto里预留了压缩，如果在并发深度解析这一步额外进行序列化和并发压缩。
SessionHandler那里： packetBuilder.setBody(//压缩后数据);
然后，client那里串行接收+并行解压和反序列化。

并行压缩+网络传输 VS 无压缩网络传输，不知道表现如何。

agapple · 2018-07-06T13:40:47Z

单线程压缩和网络传输，这会是一个平衡点
protobuf序列化之后的数据，压缩比也需要评测

agapple · 2018-07-18T10:33:40Z

第四步优化已经进行了一大半，大致的效果相比于完全未优化之前提升了35%的吞吐量，可以跑到8~9万的TPS (本次压测数据和之前的批量insert不同，选择了业务上随机的一个库进行跑，19MB的binlog，大概网络传输在35MB左右)

优化点：

CanalEntry对象的序列化提前在进入ringbuffer之前就完成，最后sessionHandler只做ByteString拷贝，有部分提升
SimpleCanalConnector增加了lazyParseEntry参数，支持lazy解析CanalEntry对象，减少整个get/ack串行操作的成本，最大化提升串行的吞吐量.

目前的profile分析来看，最大的瓶颈就在于构造网络传输时有多次数组拷贝。

现在的代码：

Packet.Builder packetBuilder = CanalPacket.Packet.newBuilder();
                        packetBuilder.setType(PacketType.MESSAGES);

                        Messages.Builder messageBuilder = CanalPacket.Messages.newBuilder();
                        messageBuilder.setBatchId(message.getId());
                        if (message.getId() != -1) {
                            if (message.isRaw()) {
                                // for performance
                                if (!CollectionUtils.isEmpty(message.getRawEntries())) {
                                    messageBuilder.addAllMessages(message.getRawEntries());
                                }
                            } else {
                                if (!CollectionUtils.isEmpty(message.getEntries())) {
                                    for (Entry entry : message.getEntries()) {
                                        messageBuilder.addMessages(entry.toByteString());
                                    }
                                }
                            }
                        }                        
                        packetBuilder.setBody(messageBuilder.build().toByteString()); 
                        NettyUtils.write(ctx.getChannel(), packetBuilder.build().toByteArray(), null);// 输出数据

messageBuilder.build().toByteString()，会拷贝一次message.getRawEntries()的所有数据到一个byte[]里
packetBuilder.build().toByteArray()，会拷贝一次message的整个数据到一个packet的byte[]里
NettyUtils.write 网络发送

原始的10MB的记录，会至少是原先的3倍+，针对性的优化就是直代码一次性构造protobuf的数据格式，而不是通过builder + toByteString的方式，预计还能再提升10%左右.

agapple · 2018-07-19T05:37:14Z

尝试用一次byte[]数组绕过protobuf的多次拷贝，下一步可以优化如何复用byte[]数组，避免每次请求都开辟一个新的byte[]数组，一次性开10MB的内存块，还是有一些开销的，包括client层面

agapple · 2018-07-20T06:34:53Z

测试结论： https://github.com/alibaba/canal/wiki/Performance

kafka producer 适配 row data for performance #726

koshox · 2018-12-06T01:58:13Z

666，这波优化，有打算增加负载均衡能力么？

francisoliverlee · 2018-12-14T11:51:15Z

第四步优化已经开始，主要是关注binlog解析到client收到数据的吞吐量，目前逐步压测的情况，大概是binlog下载吞吐在8MB/s，Entry对象的吞吐大概在55MB/s，大概是1:7的数据膨胀率. 目前profile看到的瓶颈主要在server在序列化Entry对象时，相比于网络传包占了50%，测试的记录大概是100字节，换算到记录的tps，目前大概是在20w record/s左右. (我测试数据是批量insert和update，binlog里会更加紧凑)

如果优化掉这块，理论上Entry对象可以跑满网络带宽，预计可以整体提升150% (相比于未优化前，因为最后端的网络传输瓶颈比较大，所以吃掉了前面的几个优化带来的提升，如果要进一步优化，得改动protobuf协议设计)

初步优化思路

多线程提前构造好Entry的序列化结果，避免在client get操作时临时做序列化 (因为单线程，会有瓶颈)

如果改动protobuf协议，可以通过设计一些字典表，压缩部分的数据存储

@agapple 那个调用链的查看使用的啥工具呀?

agapple · 2018-12-14T16:43:04Z

jvm自带的visualvm啊

wq19880601 · 2019-01-09T12:57:39Z

第一步网络优化(只做header解析，识别包大小、位点等信息，不做具体的记录级别解析)
结果：默认设置的32k的socket buffer，针对大吞吐量传输时有点过小，去掉了默认设置，让socket自我协调，默认在24c96g的物理机上测试，receiveBuffer协调结果为180k.

调整前后的性能吞吐量对比： 18MB VS 117MB，提供6倍多，socket buffer优化之后基本可以跑满网卡

你调整的这个参数是canal的配置canal.instance.network.receiveBufferSize和canal.instance.network.sendBufferSize 这两个参数对吗，我用的otter，在otter的manager后台，调整的这两个参数，机器配置是64核内存128g,感觉没有任何效果，是什么原因，最近otter性能总是上不去，感觉还是干canal有关系

agapple · 2019-01-10T07:11:06Z

@wq19880601 otter里使用canal目前默认没开并行解析的参数

acuitong · 2019-02-22T10:01:09Z

@agapple server端这个常驻内存，随着数据量增加总有内存溢出的情况，1.3版本后请问有没有好的解决方案

acuitong · 2019-02-22T10:12:45Z

@agapple 为什么做大批量insert操作时canal-server端内存无明显增加，而update和delete操作，server端内存快速增加。他们有什么区别吗？

agapple · 2019-02-25T06:52:45Z

@acuitong 可以调低一下ringbuffer的bufferSize

acuitong · 2019-02-25T07:35:48Z

@agapple 你好，这个已经调到了128，请问那个insert操作和update,delete操作有什么不同之处，现在insert操作，server端内存没什么变化，但是update和delete操作，内存会随数据量升高，调了buffer.size，虽然幅度很小，但是总会有占满堆空间的时候，同样会产生内存溢出。

f-zhao · 2019-04-01T02:54:11Z

@wq19880601 otter里使用canal目前默认没开并行解析的参数

是不是通过修改MysqlEventParser.setParallel(true)就可以修改为并行读了？

agapple · 2019-04-01T06:55:13Z

@f-zhao parallel是有几个关联参数的，你可以看一下代

f-zhao · 2019-04-01T07:11:00Z

@f-zhao parallel是有几个关联参数的，你可以看一下代

@agapple

mysqlEventParser.setParallel(true);
mysqlEventParser.setParallelThreadSize(Runtime.getRuntime().availableProcessors() * 60 / 100);
mysqlEventParser.setParallelBufferSize(256);

这三个吗？

littleneko · 2019-07-04T09:58:55Z

@agapple 请问这个测试的平均单行数据是多大？

agapple · 2019-08-21T06:37:37Z

@acuitong update的内存问题，以前还真没留意，我到时候关注一下

q6413260 · 2020-01-06T09:51:28Z

@agapple 你好，咨询个问题，如果一条sql修改了多条记录，对这多条记录的解析还是串行的吧？

lanmaodage · 2020-05-06T17:36:14Z

有没有碰到过每次从grafana看到延迟好大的时候，Store remain events快达到buffer size，怀疑是client消费不及时，这个要怎么调整呢

shizhimin123 · 2020-07-21T07:30:52Z

我这边是同时使用logstash和canal进行同步但是因为canal的消费慢一步可能logstash同步到最新数据后被canal的后消费又覆盖掉最新的有什么好的同步方案吗

agapple added the enhancement label Jun 30, 2018

agapple added this to the v1.0.26 milestone Jun 30, 2018

agapple self-assigned this Jun 30, 2018

agapple added a commit that referenced this issue Jul 3, 2018

fixed issue #726, 去掉socket receiveBuffer/sendBuffer的设置,影响网络吞吐量

4d4d974

agapple added a commit that referenced this issue Jul 3, 2018

fixed issue #726 优化时间类型的解析,速度从20MB提升到45MB

f0bed4c

agapple added a commit that referenced this issue Jul 4, 2018

fixed issue #726 , 多线程解析binlog DML事件,提升性能

da8bf59

agapple added a commit that referenced this issue Jul 18, 2018

fixed issue #726 , 优化SessionHandler的传输处理,提前序列化Entry

10bb800

agapple added a commit that referenced this issue Jul 19, 2018

fixed issue #726, 优化SessionHandler里直接拼byte[],绕过protobuf的多次拷贝

5582a38

agapple added a commit that referenced this issue Jul 19, 2018

fixed issue #726 , 单链接复用ByteBuffer数组

b19eaeb

agapple added a commit that referenced this issue Jul 20, 2018

fixed issue #726 , 优化完毕

fe38bc1

agapple added a commit that referenced this issue Jul 20, 2018

fixed issue #726 , 提交测试用例

77c1c65

agapple closed this as completed Jul 20, 2018

wingerx mentioned this issue Jul 25, 2018

启动canal时，线程池工作异常 #771

Closed

wingerx added a commit to wingerx/canal that referenced this issue Jul 31, 2018

kafka producer 适配 row data for performance alibaba#726

3d5f13f

agapple added a commit that referenced this issue Jul 31, 2018

Merge pull request #790 from wingerx/master

50d1ec5

kafka producer 适配 row data for performance #726

Daviedme mentioned this issue Jul 7, 2022

是否考虑过多线程接收binlog以优化性能 #4285

Closed

canal整体性能优化 #726

canal整体性能优化 #726

Comments

agapple commented Jun 30, 2018 • edited Loading

zwangbo commented Jul 2, 2018

mjjian0 commented Jul 2, 2018

lcybo commented Jul 2, 2018

lcybo commented Jul 3, 2018

agapple commented Jul 3, 2018 • edited Loading

agapple commented Jul 3, 2018

agapple commented Jul 3, 2018

agapple commented Jul 3, 2018 • edited Loading

lcybo commented Jul 3, 2018 • edited Loading

agapple commented Jul 3, 2018

lan1994 commented Jul 4, 2018

lcybo commented Jul 4, 2018

lcybo commented Jul 4, 2018

agapple commented Jul 4, 2018 • edited Loading

lcybo commented Jul 4, 2018 • edited Loading

agapple commented Jul 4, 2018

agapple commented Jul 4, 2018 • edited Loading

lcybo commented Jul 5, 2018

withlin commented Jul 6, 2018

agapple commented Jul 6, 2018 • edited Loading

lcybo commented Jul 6, 2018 • edited Loading

agapple commented Jul 6, 2018

agapple commented Jul 18, 2018

agapple commented Jul 19, 2018

agapple commented Jul 20, 2018

koshox commented Dec 6, 2018

francisoliverlee commented Dec 14, 2018

agapple commented Dec 14, 2018

wq19880601 commented Jan 9, 2019

agapple commented Jan 10, 2019

acuitong commented Feb 22, 2019

acuitong commented Feb 22, 2019

agapple commented Feb 25, 2019

acuitong commented Feb 25, 2019

f-zhao commented Apr 1, 2019

agapple commented Apr 1, 2019

f-zhao commented Apr 1, 2019 • edited Loading

littleneko commented Jul 4, 2019

agapple commented Aug 21, 2019

q6413260 commented Jan 6, 2020

lanmaodage commented May 6, 2020

shizhimin123 commented Jul 21, 2020

agapple commented Jun 30, 2018 •

edited

Loading

agapple commented Jul 3, 2018 •

edited

Loading

agapple commented Jul 3, 2018 •

edited

Loading

lcybo commented Jul 3, 2018 •

edited

Loading

agapple commented Jul 4, 2018 •

edited

Loading

lcybo commented Jul 4, 2018 •

edited

Loading

agapple commented Jul 4, 2018 •

edited

Loading

agapple commented Jul 6, 2018 •

edited

Loading

lcybo commented Jul 6, 2018 •

edited

Loading

f-zhao commented Apr 1, 2019 •

edited

Loading