feat: support state recovery when meta reboot #1702

yezizp2012 · 2022-04-08T07:54:43Z

What's changed and what's your intention?

As title, there are several changes in this PR to support state recovery when meta reboot:

When meta leaves, frontend will re-subscribe until meta is online again. After re-subscribed, frontend will refresh its cache for catalog and worker info.
Change the operation logic for force_stop_actors. When failover found in some compute nodes, other compute nodes that contains actors in related DAGs will panic and gone. Further more, the original implementation of force_stop_actors will cause panic in compute node, that's not acceptable when reuse it for meta reboot. Here we just inject a stop barrier for all exist actors in living compute nodes, that works and will help us to stop all exist actors.
When meta reboot, we simply do a similar operation as recovery. This could be refine in the future when we have more barrier state persisted in meta store.

Checklist

I have written necessary docs and comments
I have added necessary unit tests and integration tests

Refer to a related PR or issue link (optional)

Resolve #1277

codecov · 2022-04-08T08:04:06Z

Codecov Report

Merging #1702 (1dce082) into main (1da4127) will increase coverage by 0.19%.
The diff coverage is 54.14%.

@@            Coverage Diff             @@
##             main    #1702      +/-   ##
==========================================
+ Coverage   71.15%   71.34%   +0.19%     
==========================================
  Files         598      599       +1     
  Lines       77556    77645      +89     
==========================================
+ Hits        55182    55399     +217     
+ Misses      22374    22246     -128

Flag	Coverage Δ
rust	`71.34% <54.14%> (+0.19%)`	⬆️

Flags with carried forward coverage won't be shown. Click here to find out more.

Impacted Files	Coverage Δ
src/compute/src/rpc/service/stream_service.rs	`0.00% <0.00%> (ø)`
src/compute/src/server.rs	`0.00% <0.00%> (ø)`
src/ctl/src/common/meta_service.rs	`0.00% <0.00%> (ø)`
src/frontend/src/catalog/root_catalog.rs	`71.96% <0.00%> (-2.25%)`	⬇️
src/frontend/src/observer/observer_manager.rs	`0.00% <0.00%> (ø)`
src/frontend/src/scheduler/schedule.rs	`9.58% <0.00%> (-0.56%)`	⬇️
src/frontend/src/session.rs	`44.55% <0.00%> (ø)`
src/meta/src/model/mod.rs	`99.05% <ø> (ø)`
src/meta/src/rpc/server.rs	`0.00% <0.00%> (ø)`
src/rpc_client/src/meta_client.rs	`0.00% <0.00%> (ø)`
... and 22 more

📣 Codecov can now indicate which changes are the most critical in Pull Requests. Learn more

BugenZhao

Rest LGTM. Great job!

src/meta/src/barrier/mod.rs

src/meta/src/barrier/recovery.rs

src/stream/src/task/stream_manager.rs

Signed-off-by: Bugen Zhao <i@bugenzhao.com>

Signed-off-by: Yingjun Wu <yingjunwu@singularity-data.com>

src/meta/src/model/barrier.rs

BugenZhao

LGTM!

src/meta/src/barrier/mod.rs

yezizp2012 added 3 commits April 8, 2022 15:17

feat: support meta reboot and state recovery

7667a3c

fix test and fmt

f45964a

Merge branch 'main' into feat/support-meta-reboot

2a85928

yezizp2012 requested review from BugenZhao, zbzbw and fuyufjh April 8, 2022 07:54

Merge branch 'main' into feat/support-meta-reboot

86a9019

github-actions bot added the type/feature label Apr 8, 2022

yezizp2012 requested a review from HuaHuaY April 8, 2022 07:55

yezizp2012 requested a review from neverchanje April 8, 2022 08:44

BugenZhao reviewed Apr 8, 2022

View reviewed changes

src/meta/src/barrier/mod.rs Outdated Show resolved Hide resolved

src/meta/src/barrier/mod.rs Show resolved Hide resolved

src/meta/src/barrier/recovery.rs Outdated Show resolved Hide resolved

src/stream/src/task/stream_manager.rs Show resolved Hide resolved

liurenjie1024 and others added 4 commits April 8, 2022 18:03

test: Add tpch q1 for batch distributed query (#1701)

beba72c

chore(legacy): bump proto & grpc version (#1704)

e7af6c7

Signed-off-by: Bugen Zhao <i@bugenzhao.com>

chore(doc): add two lines of comments to enforce consistency (#1710)

fa4504d

Signed-off-by: Yingjun Wu <yingjunwu@singularity-data.com>

Merge branch 'main' into feat/support-meta-reboot

d8e0366

fuyufjh reviewed Apr 8, 2022

View reviewed changes

src/meta/src/model/barrier.rs Outdated Show resolved Hide resolved

src/meta/src/model/barrier.rs Outdated Show resolved Hide resolved

some fix

041cf01

fuyufjh approved these changes Apr 8, 2022

View reviewed changes

BugenZhao approved these changes Apr 8, 2022

View reviewed changes

src/meta/src/barrier/mod.rs Show resolved Hide resolved

use biased select

1dce082

yezizp2012 enabled auto-merge (squash) April 8, 2022 10:41

yezizp2012 merged commit 710cbaf into main Apr 8, 2022

yezizp2012 deleted the feat/support-meta-reboot branch April 8, 2022 10:53

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: support state recovery when meta reboot #1702

feat: support state recovery when meta reboot #1702

yezizp2012 commented Apr 8, 2022 •

edited

codecov bot commented Apr 8, 2022 •

edited

BugenZhao left a comment

BugenZhao left a comment

feat: support state recovery when meta reboot #1702

feat: support state recovery when meta reboot #1702

Conversation

yezizp2012 commented Apr 8, 2022 • edited

What's changed and what's your intention?

Checklist

Refer to a related PR or issue link (optional)

codecov bot commented Apr 8, 2022 • edited

Codecov Report

BugenZhao left a comment

Choose a reason for hiding this comment

BugenZhao left a comment

Choose a reason for hiding this comment

yezizp2012 commented Apr 8, 2022 •

edited

codecov bot commented Apr 8, 2022 •

edited