# 数据库从单机到分布式的挑战与应对

## 数据库从单机到分布式的挑战和应对
随着数据量和访问量的上升,数据库压力增大,减压成了当务之急.此时,减压的思路有三个:
1. 优化应用,看看是否有不必要的压力给到了数据库
2. 看看有没有其它方法可以降低对数据库的压力,如引入缓存/加搜索引擎等
3. 把数据库的数据和访问分到多台数据库上,分开支持

数据拆分有两种方式,一个是垂直拆分,一个是水平拆分.垂直拆分 - 把一个数据库中不同业务单元的数据分到不同的数据库里面, 水平拆分 - 根据一定的规则把同一业务单元的数据拆分到多个数据库中.

垂直拆分带来的影响:
1. 单机的ACID保证被打破,数据到多机后,原事务处理逻辑不被保障,引入分布式事务
2. 一些join类的表关联操作变得困难
3. 靠外键去进行约束的场景会受影响

水平拆分会带来如下影响:
1. ACID被打破的情况
2. join操作被影响
3. 靠外键去进行约束的场景会受影响
4. 依赖单库的自增序列生成唯一ID会受影响
5. 针对单个逻辑意义上的表的查询要跨库

## 分布式事务
### 基础知识
分布式事务是指事务的参与者/支持事务的服务器/资源服务器以及事务管理器分别位于分布式系统的不同节点上.

The Open Group提出了一个分布式事务的规范----XA.其定义的分布式事务处理模型(DTP模型,Distributed Transaction Processing Reference Model)定义了三个组件,即Application Program/Resource Manager/Transaction Manager:
1. Application Program(AP) - 应用程序,使用DTP模型的程序,定义了事务边界,并定义了构成该事务的应用程序的特定操作
2. Resource Manager(RM) - 资源管理器,可以理解为一个DBMS系统,或者消息服务器管理系统
3. Transaction Manager(TM) - 事务管理器,负责协调和管理事务,提供给AP应用程序编程接口并管理资源管理器.事务管理器向事务指定标识,监视它们的进程,并负责处理事务的完成和失败

AP和RM是必需的,TM是额外引入的.之所以引入事务管理器,是因为在分布式系统中,两台机器理论上无法达到一致的状态,需要引入一个单点进行协调.事务管理器控制着全局事务,管理事务的生命周期,并协调资源.在DTP中还定义了其它几个概念:
1. 事务: 一个事务是一个完整的工作单元,由多个独立的计算任务组成,这多个任务在逻辑上是原子的
2. 全局事务: 一次性操作多个资源管理器的事务就是全局事务
3. 分支事务: 在全局事务中,每个资源管理器有自己独立的事务,这些事务的集合就是这个资源管理器的分支事务
4. 控制线程: 用来表示一个工作线程,主要是关联AP/TM和RM三者的线程,即事务上下文环境.简单来说,就是标识全局事务和分支事务关系的线程

两阶段提交: 在单库上完成相关的数据操作后,就会直接提交或者回滚,而在分布式系统中,在提交之前增加了准备阶段,所以成为双阶段提交,2PC,Two Phase Commitment Protocol.
### 大型网站一致性的基础理论 ---- CAP/BASE
CAP理论是Eric Brewer在2000年7月份的PODC会议上提出的,CAP的涵义如下:
1. Consistency: all nodes see the same data at the same time,即数据上的一致性,就是当数据写入成功后,所有节点会同时看到这个新的数据
2. Availability: a guarantee that every request receives a response about whether it was successful or failed,即数据的可用性,重点是系统一定要有响应
3. Partition-Tolerance: the system continues to operate despite arbitrary message loss or failure of part of system,即分区容忍性,就是在系统的一部分出现问题时,仍能继续工作

在分布式系统中并不能同时满足上面三项,故而在进行系统设计和权衡时,其实就是在选择CA/AP或是CP:
1. 选择CA,放弃分区容忍性,加强一致性和可用性.这是传统的单机数据库的选择
2. 选择AP,放弃一致性,追求分区容忍性及可用性.这是很多分布式系统在设计时的选择,例如很多NoSQL系统就是如此 ***
3. 选择CP,放弃可用性,追求一致性和分区容忍性.这种情况下的可用性会比较低,网络问题会直接让整个系统不可用

BASE模型,BASE涵义如下:
1. Basically Available: 基本可用,允许分区失败
2. Soft state: 软状态,接受一段时间的状态不同步
3. Eventually consistent: 最终一致,保证最终数据的状态是一致的

为了更好地保持扩展性和可用性,当选择AP后,对于C,采用的方式和策略就是<b>保证最终一致</b>,就是不保证数据变化后所有节点立即一致,但是保证它们最终是一致的.

### 比两阶段提交更轻量的Paxos协议
在分布式系统中,节点之间的信息交换有两种方式,一种是通过共享内存公用一份数据;另一种是通过消息传递来完成信息的传递.而在分布式系统中,通过消息投递的方式会遇到很多意外的情况,例如网络问题/进程挂掉/机器挂掉/进程很慢没有响应/进程重启等情况,这就会造成消息重复/一段时间内部不可达等现象.Paxos协议是帮助解决分布式系统中一致性问题的一个方案.

核心的原则,少数服从多数.

### 集群内数据一致性的算法实例
Quorum和Vector Clock算法

Quorum,用来衡量分布式系统中数据一致性和可用性的,引入三个变量:
1. N: 数据复制节点数量
2. R: 成功读操作的最小节点数
3. W: 成功写操作的最小节点数
如果W+R>N,是可以保证强一致性的,而如果W+R<=N是能够保证最终一致性的.

Vector Clock的思路是对同一份数据的每一次修改都加上"<修改者, 版本号>"这样一个信息,用于记录修改者的信息及版本号,通过这样的信息来帮助解决冲突.

在工程上来说,如果能够避免分布式事务的引入,那么还是避免为好;如果一定要引入分布式事务,那么,可以考虑最终一致的方法,而不是追求强一致.而且从实现上来说,我们是通过补偿的机制不断重试,让之前因为异常而没有进行到底的操作继续进行,而不是回滚.如果还不能满足需求,那么基于Paxos算法的实现会是一个不错的选择

## 多机的Sequence问题 与处理
Oracle -- Sequence ; MySQL -- Auto Increment . 分库分表后,实现一个自增的不重复id的序列,需要解决的问题:
1. 唯一性
2. 连续性

Id生成器.存在性能问题/稳定性问题/存储问题

两种实现:
1. 独立Id生成器方式 
2. 生成器嵌入到应用的方式: 需注意没有中心的控制节点,且不希望生成器之间还有通信,因此数据的Id并不是严格按照进入数据库的顺序而增大的,在管理上也需要有额外的功能.

## 应对多机的数据查询
### 跨库join
解决思路:
1. 在应用层把原来数据库的join操作分为多次的数据库操作
2. 数据冗余,即对一些常用信息进行冗余,这样将原来需要join的操作变成单表查询
3. 借助外部系统(例如搜索引擎)解决一些跨库的问题

### 外键约束
较难解决,不能完全依赖数据库本身来完成之前的功能了.如果要对分库后的单库做外键约束,就要求分库后每个单库的数据是内聚的,否则就只能靠应用层的判断/容错等方式了.
### 跨库查询的问题及解决
按照现有规则,细化分库分表,如某省份用户分析,需查已分库分表的用户表,可在建表初期即按不同区块的省份分属不同的数据库,再按照不同的省份分表,进而具体查询时仍为单表,进一步细化到市县一级也是在单表内处理.此时跨库查询进而合并结果就比较简单.较复杂操作如下:
1. 排序,即多个来源的数据查询出来后,在应用层进行排序的工作.如果从服务器查出的数据是排好序的,归并排序即可,未排序则需要全排序.
2. 函数处理,即使用Max/Min/Sum/Count
3. 求平均值
4. 非排序分页,这就要看具体实现所采取的策略,是同等步长还是同等比例.同等步长,分页的每页中,来自不同数据源的记录数是一样的;同等比例,分页的每页中,来自不同数据源的数据数占这个数据源符合条件的数据总数的比例是一样的
5. 排序后分页,最后需要呈现的结果是数据按照某种条件排序并进行分页显示 最复杂

# 数据访问层的设计与实现
数据访问层是方便进行数据读/写访问的抽象层,在这个层上解决各个应用通知的访问数据库的问题.
## 如何对外提供数据访问层的功能
### 对外提供数据访问层的方式

1. 为用户提供专有API -- 不推荐,通用性差
2. 通用的方式,例如Java的JDBC
3. 基于ORM或类ORM接口的方式,例如Mybatis,Hibernate,Spring JDBC等

通过JDBC使用的数据层是兼容性和扩展性最好的,实现成本也是相对最高的.底层封装了某个ORM框架或者类ORM框架的方式具备一定的通用性,实现成本相对JDBC接口方式的要低.而专用API的方式是在特定场景下的选择.
### 不同提供方式在合并查询场景下的对比
基于JDBC驱动方式的实现优势明显
## 按照数据层流程的顺序看数据层设计
执行数据库操作步骤: SQL解析 --> 规则处理 --> SQL改写 --> 数据源选择 --> SQL执行 --> 结果集返回合并处理
1. SQL解析: 通过SQL解析或者提示方式得到相关信息
2. 规则处理: 进行规则处理,从而确定要执行这个SQL的目标库,即确定数据源(一组)
3. SQL改写: 修改表名/索引名等,需要从逻辑名转为对应数据库的物理名,同时相关跨库的计数获取代码需修改
4. 选择数据源: 确定具体的某个数据源
    分库分表后,分库后的库会提供备库,即原来的一个数据库会变为一个数据库的矩阵.分库是把数据分到了不同的数据分组中.决定了数据分组后,还需要决定访问分组中的哪个库.这些库一般是一写多读的(也有多写多读的),根据当前要执行的SQL的特点/是否在事务中以及各个库的权重规则,计算得到这次SQL请求要访问的数据库
5. SQL执行: 重点是对异常的处理和判断,能够从异常中明确判断出数据库不可用的情况
6. 结果处理
> 一致性哈希 ***
> 分库分表后最终数据层执行过程解析 ***
> 如何设定规则,如何分库分表 --- 一般的标准是分库后尽可能避免跨库查询
## 读写分离的挑战与应对
通过读写分离的方案,可以分担主库(Master)的读的压力.其中存在一个数据复制的问题,就是把主库的数据复制到备库(Slave)去.
