Redis入门到放弃系列-redis cluster集群原理

redis cluster

redis cluster是redis的分布式解决方案，在redis 3.0版本推出后有效的解决了reids分布式方面的需求。redis cluster的主要特性有：

数据进行分片，在每个master上保存一部分数据
内置高可用支持，部分master不可用时，仍可提供服务
支持n个master节点，每个master node可以挂载多个slave node
支持自动选举机制，在master node故障时，会从slave node中选举出新的master，并进行切换
每个master节点都负责进行数据读写操作，每个节点之间会进行通信

redis cluster的虚拟槽分区(hash slot)

虚拟槽分区是redis cluster采用的分区方式。

redis cluster为我们预设了16384个hash slot（范围0-16383），每一个hash slot映射一个数据子集。
数据子集中的key通过计算crc16的值，然后对16384取模，来确认对应的hash slot。
每个master管理一部分slot,根据master节点的数据平均分配。
由于数据保存在slot中，当节点扩容或缩容时，对slot进行重新分配迁移即可，数据不会丢失。
分配迁移slot的成本是非常低的（slot的总数只有16384个）
redis cluster的节点之间会共享消息，每个节点都会知道是哪个节点负责哪个范围内的slot

节点间的内部通信机制

基础通信原理

redis cluster节点间采取gossip协议进行通信

跟集中式不同，不是将集群元数据（节点信息，故障，等等）集中存储在某个节点上，
而是互相之间不断通信，保持整个集群所有节点的数据是完整的

集中式：好处在于，元数据的更新和读取，时效性非常好，一旦元数据出现了变更，
立即就更新到集中式的存储中，其他节点读取的时候立即就可以感知到;
不好在于，所有的元数据的更新压力全部集中在一个地方，可能会导致元数据的存储有压力

gossip：好处在于，元数据的更新比较分散，不是集中在一个地方，更新请求会陆陆续续，
打到所有节点上去更新，有一定的延时，降低了压力; 缺点，元数据更新有延时，可能导致集群的一些操作会有一些滞后

10000端口

每个节点都有一个专门用于节点间通信的端口，就是自己提供服务的端口号+10000，比如7001，那么用于节点间通信的就是17001端口

每个节点每隔一段时间都会往另外几个节点发送ping消息，同时其他几点接收到ping之后返回pong

交换的信息

故障信息，节点的增加和移除，hash slot信息，等

gossip协议

gossip协议包含多种消息，包括ping，pong，meet，fail

meet: 某个节点发送meet给新加入的节点，让新节点加入集群中，然后新节点就会开始与其他节点进行通信
redis-trib.rb add-node
其实内部就是发送了一个gossip meet消息，给新加入的节点，通知那个节点去加入我们的集群
ping: 每个节点都会频繁给其他节点发送ping，其中包含自己的状态还有自己维护的集群元数据，互相通过ping交换元数据
每个节点每秒都会频繁发送ping给其他的集群，ping，频繁的互相之间交换数据，互相进行元数据的更新
pong: 返回ping和meet，包含自己的状态和其他信息，也可以用于信息广播和更新
fail: 某个节点判断另一个节点fail之后，就发送fail给其他节点，通知其他节点，指定的节点宕机了

ping消息

ping很频繁，而且要携带一些元数据，所以可能会加重网络负担
每个节点每秒会执行10次ping，每次会选择5个最久没有通信的其他节点
当然如果发现某个节点通信延时达到了cluster_node_timeout / 2，那么立即发送ping，避免数据交换延时过长，落后的时间太长了
比如说，两个节点之间都10分钟没有交换数据了，那么整个集群处于严重的元数据不一致的情况，就会有问题
所以cluster_node_timeout可以调节，如果调节比较大，那么会降低发送的频率
每次ping，一个是带上自己节点的信息，还有就是带上1/10其他节点的信息，发送出去，进行数据交换
至少包含3个其他节点的信息，最多包含总节点-2个其他节点的信息

消息头

ping和pong数据包包含所有类型的数据包（例如，请求故障转移投票的数据包）通用的消息头。
通用消息头具有以下信息：

节点id,在第一次创建节点时分配的160位伪随机字符串，在redis cluster节点的整个生命周期中都保持不变
节点标志，指示该节点是从节点，主节点还是其他节点信息
发送节点的哈希槽的位图
发送节点的tcp端口
发送节点的状态
发送节点的主节点id（如果它是从节点）

客户端路由

moved重定向

每个节点通过通信都会共享redis cluster中槽和集群中对应节点的关系
客户端向redis cluster的任意节点发送命令，接收命令的节点会根据crc16规则进行hash运算与16384取模，计算自己的槽和对应节点
如果保存数据的槽被分配给当前节点，则去槽中执行命令，并把命令执行结果返回给客户端
如果保存数据的槽不在当前节点的管理范围内，则向客户端返回moved重定向异常
客户端接收到节点返回的结果，如果是moved异常，则从moved异常中获取目标节点的信息
客户端向目标节点发送命令，获取命令执行结果

ask重定向

什么是ask重定向？
在对集群进行扩容和缩容时，需要对槽及槽中数据进行迁移
当客户端向某个节点发送命令，节点向客户端返回moved异常，告诉客户端数据对应的槽的节点信息
如果此时正在进行集群扩展或者缩容操作，当客户端向正在迁移的节点发送命令时，要操作的数据已经被迁移到别的节点了，就会返回ask，这就是ask重定向机制
步骤：

客户端向目标节点发送命令，目标节点中的槽正在迁移中，此时目标节点会返回ask重定向给客户端
客户端接收到ask后，向新的节点发起重定向操作，通过发送asking命令的方式来操作。
新节点执行命令，把命令执行结果返回给客户端
客户端接收ask重向后，并不会更新本地映射表（槽和集群中节点的对应关系）

多key操作（hash tags）

在redis cluster中，每个key对应的hash slot都各不相同，数据保存的节点也不尽相同。那么如何做到多个key的批量操作呢？
hash tags就是用来解决这个问题的，使用hash tags可以确保多个key映射到同一个hash slot中。
redis cluster中为了实现hash tags做了些特殊计算。
如果一个键包含一个 “{…}” 这样的模式，只有 { 和 } 之间的字符串会被用来做哈希以获取哈希槽
但是由于可能出现多个 { 或 }，算的算法如下：

如果键包含一个 { 字符。
那么在 { 的右边就会有一个 }。
在 { 和 } 之间会有一个或多个字符，第一个 } 一定是出现在第一个 { 之后。
例如：

abc{hello} yhn{hello}
{abc}}hello {abc}}nihao

多key操作：
mset {user:1000}.name angela {user:1000}.surname white

参考资料：