熔断器

熔断机制借鉴电闸上的“保险丝”。当电压有问题时，自动跳闸。

防止应用程序不断地尝试执行可能会失败的操作，如果已经恢复，应用程序会再次尝试调用。

设计

熔断器可以使用状态机来实现，内部模拟以下几种状态：

闭合（Closed）状态：

我们需要一个调用失败的计数器，如果调用失败，则使失败次数加 1。如果最近失败次数超过了在给定时间内允许失败的阈值，则切换到断开 (Open) 状态。此时开启了一个超时时钟，当该时钟超过了该时间，则切换到半断开（Half-Open）状态。该超时时间的设定是给了系统一次机会来修正导致调用失败的错误，以回到正常工作的状态。

在 Closed 状态下，错误计数器是基于时间的。在特定的时间间隔内会自动重置。这能够防止由于某次的偶然错误导致熔断器进入断开状态。也可以基于连续失败的次数。

断开 (Open) 状态：

在该状态下，对应用程序的请求会立即返回错误响应，而不调用后端的服务。这样也许比较粗暴，有些时候，我们可以 cache 住上次成功请求，直接返回缓存（当然，这个缓存放在本地内存就好了），如果没有缓存再返回错误（缓存的机制最好用在全站一样的数据，而不是用在不同的用户间不同的数据，因为后者需要缓存的数据有可能会很多）。

半开（Half-Open）状态：

允许应用程序一定数量的请求去调用服务。如果这些请求对服务的调用成功，那么可以认为之前导致调用失败的错误已经修正，此时熔断器切换到闭合状态 (并且将错误计数器重置)。

开源框架

Hystrix

https://www.cnblogs.com/jinjiyese153/p/8669702.html

划重点

错误的类型

请求失败的原因很多。要根据不同的错误情况来调整相应的策略。一些错误先走重试（如限流、超时），重试几次再打开熔断。一些错误是远程服务挂掉，恢复时间比较长，可以直接打开熔断

日志监控

熔断应该记录所有失败的请求，以及一些可能会尝试成功的请求

测试服务是否可用

断开状态下，熔断器定期ping下远程服务的健康状态，来判断服务是否恢复，而不是使用计时器来自动切换到半开状态

手动重置

管理员可以手动强制将熔断器切换到闭合状态。同样，如果服务暂时不可用，管理员也可以强制将熔断器设置为断开状态

并发问题

同一个熔断器可能存在大量并发请求访问，熔断器的实现不应该阻塞或者增加调用者的负担。计数器可以用atomic原子性

资源分区

分布式架构，资源可能分布在不同的分区上，如：数据库分库分表，某一个分区出现问题，其它分区可用。单一的熔断器会把所有的分区混为一谈。出现一会熔断一会又好了，来来回回的情况

重试导致的错误

对于幂等的业务，重试也会报错，所以要准确区分服务是否真的恢复，还是重试报的错误

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fusing.md

fusing.md

熔断器

设计

开源框架

划重点

Files

fusing.md

Latest commit

History

fusing.md

File metadata and controls

熔断器

设计

开源框架

划重点