Redis哨兵模式和集群搭建

一、软件环境

系统环境

Linux：CentOS_7_5_64_org
Redis： redis-4.0.10
三台Linux服务器
192.168.3.166
192.168.3.167
192.168.3.168

二、单机安装

依赖环境

安装gcc

yum install gcc -y

安装pstree

yum install psmisc -y

安装Redis

下载网址：https://redis.io/download
解压

cd /usr/redis
tar zxvf redis-4.0.10.tar.g

编译安装

cd /usr/redis/redis-4.0.10
# 指定内存管理方式
make MALLOC=libc
make && make install

注：如果在make的时候不指定内存管理方式，会报如下的错误：
zmalloc.h:50:31: 致命错误：jemalloc/jemalloc.h：没有那个文件或目录。
启动

cd /usr/redis/redis-4.0.10/src
./redis-server  ../redis.conf

启动成功，如下图：测试，启动redis客户端：

cd /usr/redis/redis-4.0.10/src
./redis-cli

安装成功。

三、哨兵模式

哨兵的作用就是监控redis主、从数据库是否正常运行，主出现故障自动将从数据库转换为主数据库。它的功能包括以下两个:

监控主数据库和从数据库是否正常运行。
主数据库出现故障时自动将从数据库转换为主数据库。

配置redis.conf

配置master 注：这里只列出需要修改的配置，其他配置可根据需要修改

# NETWORK 设置
# 关闭保护模式
protected-mode no
# 绑定IP地址，可以通过ifconfig 获取Ip地址
bind 192.168.3.166
# 保持默认值，也可以修改
port 6381
# Client 端空闲断开连接的时间,0表示不断开
timeout 30 
# GENERAL 设置
# 默认值是no，把值修改为yes，以后台模式运行
daemonize yes 
# 日志文件的位置
logfile /usr/redis/log/redis-server_sentinel.log
# SNAPSHOTTING 设置
# SNAPSHOTTING文件的路径
dir /usr/redis/redisdb
# 设置密码
masterauth root
requirepass root
# APPEND ONLY MODE 设置
# 默认值是No，意思是使用RDB全量持久化的方式。Yes是使用AOF增量持久化的方式
appendonly yes  
appendfsync always 
# 关闭集群模式
cluster-enabled no

配置slave

# NETWORK 设置
protected-mode no
bind 192.168.3.167
port 6381
timeout 30
# GENERAL 设置
daemonize yes
logfile /usr/redis/log/redis-server_sentinel.log 
# SNAPSHOTTING 设置
dir /usr/redis/redisdb 
# 设置密码
masterauth root
requirepass root
# REPLICATION 设置
# 主服务器的Ip地址和Port端口号
slaveof 192.168.3.166 6381
# 如果slave 无法与master 同步，设置成slave不可读，方便监控脚本发现问题
slave-serve-stale-data no
# APPEND ONLY MODE 设置
appendonly yes 
appendfsync always
# 关闭集群模式
cluster-enabled no

配置sentienl.conf

注：一般配置奇数台哨兵，防止投票相等的情况，本示例配置了3台
下面为三台的共同配置，其他机器修改为相应的IP即可

# 关闭保护模式,需要将redis.conf中的属性也设置为no
protected-mode no
# 开启守护线程
daemonize yes
# sentinel默认监听26379端口，所以运行前必须确定该端口没有被别的进程占用
bind 127.0.0.1 192.168.3.166
port 26379
# 工作路径
dir /usr/redis/sentinel-work
# 指明日志文件名
logfile /usr/redis/sentinellog/sentinel.log
# 配置监听的IP和port,以及将主服务器判断为失效并下线至少需要几个sentinel的同意
sentinel monitor mymaster1 192.168.3.166 6379 2
# 配置验证密码
sentinel auth-pass mymaster root
# 多长时间（默认30秒）不能使用后标记为sdown状态(单位毫秒)
sentinel down-after-milliseconds mymaster 30000
# 指定了最多可以有多少个slave同时对新的master进行同步
sentinel parallel-syncs mymaster 1
# 指定故障转移超时时间(单位毫秒)
sentinel failover-timeout mymaster 180000

启动redis

cd /usr/redis/redis-4.0.10/src
./redis-server  ../redis.conf

启动哨兵

# 第一种
cd /usr/redis/redis-4.0.10/src 
./redis-sentinel  ../sentinel.conf
# 第二种
./redis-server   ../sentinel.conf --sentinel
# 以上两种方式，都必须指定一个配置文件sentinel.conf;
# 如果不指定，将无法启动sentinel。

查看哨兵集群状态

登录Master查看情况

./redis-cli -h 192.168.3.166 -p 6381 -a root
192.168.3.166:6381> info Replication

登录Slave查看情况

./redis-cli -h 192.168.3.167 -p 6381 -a root 
192.168.3.167:6381> info Replication

开机自启

首先找到redis启动脚本，在utils目录下redis_init_script文件，修改文件如下（修改前最好备份一下）

# !/bin/sh
# 下面两行不添加 设置开机启动会报措说redis服务找不到
# chkconfig: 2345 10 90
# description: Start and Stop redis
#
# Simple Redis init.d script conceived to work on Linux systems
# as it does use of the /proc filesystem.

### BEGIN INIT INFO
# Provides:     redis_6379
# Default-Start:        2 3 4 5
# Default-Stop:         0 1 6
# Short-Description:    Redis data structure server
# Description:          Redis data structure server. See https://redis.io
### END INIT INFO

#Redis服务端口
REDISPORT=6381
#Redis服务端位置
EXEC=/usr/redis/redis-4.0.10/src/redis-server
#Redis客户端位置
CLIEXEC=/usr/redis/redis-4.0.10/src/redis-cli
#Sentinel服务位置
EXECSL=/usr/redis/redis-4.0.10/src/redis-sentinel
#Redis进程位置
PIDFILE=/run/redis.pid
#Redis配置文件位置
CONF="/usr/redis/redis-4.0.10/redis-6381-sentinel.conf"
#Sentinel 配置位置
SlCONF="/usr/redis/redis-4.0.10/sentinel-26379.conf"

case "$1" in
    start)
        if [ -f $PIDFILE ]
        then
                echo "$PIDFILE exists, process is already running or crashed"
        else
                echo "Starting Redis server..."
			    #配置Redis启动
                $EXEC $CONF
                #配置Sentinel启动
                $EXECSL $SlCONF
        fi
        ;;
    stop)
        if [ ! -f $PIDFILE ]
        then
                echo "$PIDFILE does not exist, process is not running"
        else
                PID=$(cat $PIDFILE)
                echo "Stopping ..."
                # -a '123' 这里是redis服务密码，关闭redis服务需要该密码支持
                $CLIEXEC -a '123' -p $REDISPORT shutdown
                while [ -x /proc/${PID} ]
                do
                    echo "Waiting for Redis to shutdown ..."
                    sleep 1
                done
                echo "Redis stopped"
        fi
        ;;
    *)
        echo "Please use start or stop as first argument"
        ;;
esac

复制脚本

cp /usr/redis/redis-4.0.10/utils/redis_init_script   /etc/init.d/redis

四、集群模式

哨兵模式，每个redis实例都是全量存储，都具有完整的数据，浪费内存且有木桶效应。为了最大化利用内存，可以采用集群，就是分布式存储，即每台redis存储不同的内容。
redis集群要求最少是三主三从。所以最好使用六台Linux服务器。这里使用三台，每台部署两个redis，使用不同的端口。
因为redis集群还需要安装ruby，还需要配置集群，所以想法是先在一台机器上安装好之后，再拷贝整个系统到其它机器。这样做的重复工作就比较少了。

安装ruby

下载地址：http://www.ruby-lang.org/en/
创建集群时需要用Ruby，redis需要使用2.2.2版本以上的ruby，最好是稳定版，不然会出现各种问题。

cd /usr/ruby
tar -zxvf ruby-2.5.1.tar.gz
#重命名为ruby
mv ruby-2.5.1 ruby
cd /usr/ruby/ruby
#指定安装路径
./configure --prefix=/usr/ruby/ruby-2.5.1
make && make install

配置环境变量

vim /etc/profile
#添加如下内容
export PATH=/usr/ruby/ruby-2.5.1/bin:$PATH
#立即生效
source /etc/profile
#查看版本
ruby -v

安装redis.gem

直接安装，如果报错请参照下面的错误解决方法

gem install redis

手动安装（在ruby环境中没有redis.gem时采用，一般用不到）
下载：redis-4.0.1.gem
下载地址：https://rubygems.org/gems/redis/versions/4.0.1

gem install /usr/redis/redis-4.0.1.gem

可能遇到的错误
第一种报错: 缺少zlib依赖

ERROR:  Loading command: install (LoadError)
	cannot load such file -- zlib
ERROR:  While executing gem ... (NoMethodError)
undefined method‘invoke_with_build_args' for nil:NilClass

解决方法：

#安转zlib
yum install zlib-devel
#集成zlib库到ruby环境
#到zlib的安装路径
cd /usr/ruby/ruby/ext/zlib
ruby extconf.rb
#修改目录下的Makefile文件
#将zlib.o: $(top_srcdir)/include/ruby.h 
#修改为：zlib.o: ../../include/ruby.h
#执行安装
make && make install

第二种报错：缺少openssl库

ERROR:  While executing gem ... (Gem::Exception)
Unable to require openssl, install OpenSSL and rebuild ruby (preferred) or use non-HTTPS sources

解决方法：

#安装openssl
yum install openssl-devel
#集成openssl库到ruby环境
#到openssl的安装路径
cd /usr/ruby/ruby/ext/openssl
ruby extconf.rb
#修改目录下的Makefile文件
#将$(top_srcdir)/include/ruby.h 
#修改为：../../include/ruby.h
#执行安装
make && make install

配置redis.conf

配置如下几条属性：

port 6379
bind 192.168.3.166
daemonize yes  # 启动方式，yes为后台启动，no为控制台启动
cluster-enabled yes
cluster-config-file nodes-6379.conf
cluster-node-timeout 15000
pidfile /var/run/redis_6379.pid
dir /usr/redis/redisdb
logfile /usr/redis/log/redis-server.log

开启端口

redis集群不仅需要开通redis客户端连接的端口，而且需要开通集群总线端口，集群总线端口为redis客户端连接的端口 + 10000，如：redis端口为6379，则集群总线端口为16379。所以，所有服务器需要开通redis的客户端连接端口和集群总线端口，每台都要开启这两个端口。

#开启端口
firewall-cmd --zone=public --add-port=6379/tcp --permanent
firewall-cmd --zone=public --add-port=16379/tcp --permanent
#重启防火墙
firewall-cmd --reload

启动redis

每台都要启动

cd /usr/redis/redis-4.0.10/src
./redis-server  ../redis.conf

启动集群

cd /usr/redis/redis-4.0.10/src/
./redis-trib.rb create --replicas 1
192.168.3.166:6379 192.168.3.166:6380 192.168.3.167:6379 192.168.3.167:6380 192.168.3.168:6379 192.168.3.168:6380

启动成功，如下图仔细看这张图，其中192.168.3.166:6379，192.168.3.167:6379192.168.3.168:6379三台节点自动设置成了主节点。192.168.3.166:6380，192.168.3.167:6380，192.168.3.168:6380三台节点自动设置成了从节点，而且每个从节点对应哪个主节点都有说明。

连接集群

在192.168.3.166机器上进行连接

cd /usr/redis/redis-4.0.10/src
#必须要加：-c   (表示以集群方式启动)
./redis-cli -h 192.168.3.166 -c -p 6379

写入一条数据退出，在到192.168.3.167上进行查询

cd /usr/redis/redis-4.0.10/src
./redis-cli -h 192.168.3.167 -c -p 6379

获取到数据，代表集群搭建成功。

五、集群的动态命令

redis集群配置好，并运行一段时间后，想添加节点，或者删除节点，该怎么办呢。首先登陆上去redis集群内任意一个节点的client端。

常用命令

#登陆命令 -c：代表已集群方式登陆；-h：host；-p：port
cd /usr/redis/redis-4.0.10/src
./redis-cli -c -h 192.168.3.166 -p 6379

# 集群命令 
# 打印集群的信息 
CLUSTER INFO  
# 列出集群当前已知的所有节点（node），以及这些节点的相关信息
CLUSTER NODES 
  
# 节点(node) 
# 将ip和port所指定的节点添加到集群当中，让它成为集群的一份子
CLUSTER MEET <ip> <port>
# 从集群中移除 node_id 指定的节点
CLUSTER FORGET <node_id>  
# 将当前节点设置为 node_id 指定的节点的从节点
CLUSTER REPLICATE <node_id> 
# 将节点的配置文件保存到硬盘里面
CLUSTER SAVECONFIG 
  
# 槽(slot) 
# 将一个或多个槽（slot）指派（assign）给当前节点 
CLUSTER ADDSLOTS <slot> [slot ...]
# 移除一个或多个槽对当前节点的指派
CLUSTER DELSLOTS <slot> [slot ...] 
# 移除指派给当前节点的所有槽，让当前节点变成一个没有指派任何槽的节点 
CLUSTER FLUSHSLOTS 
# 将槽 slot 指派给 node_id 指定的节点，如果槽已经指派给另一个节点，那么先让另一个节点删除该槽>，然后再进行指派
CLUSTER SETSLOT <slot> NODE <node_id>
# 将本节点的槽 slot 迁移到 node_id 指定的节点中 
CLUSTER SETSLOT <slot> MIGRATING <node_id> 
# 从 node_id 指定的节点中导入槽 slot 到本节点
CLUSTER SETSLOT <slot> IMPORTING <node_id> 
# 取消对槽 slot 的导入（import）或者迁移（migrate）
CLUSTER SETSLOT <slot> STABLE 

# 键 (key)
# 计算键 key 应该被放置在哪个槽上  
CLUSTER KEYSLOT <key>  
# 返回槽 slot 目前包含的键值对数量
CLUSTER COUNTKEYSINSLOT <slot>  
# 返回 count 个 slot 槽中的键
CLUSTER GETKEYSINSLOT <slot> <count>  
#这些命令是集群所独有的。执行上述命令要先登录

动态添加节点

新配置二个节点

cd /usr/redis/redis-4.0.10/src 
#新增配置，注意修改文件中的端口号
cp redis-6379.conf redis-6377.conf
cp redis-6379.conf redis-6378.conf
#启动
./redis-server ../redis-6377.conf  
./redis-server ../redis-6378.conf 

添加主节点

redis-trib.rb add-node   192.168.3.166:6378   192.168.3.166:6379 

说明：
- 192.168.3.166:6378 新增的节点
- 192.168.3.166:6379 集群任一个旧节点

添加从节点

./redis-trib.rb add-node –slave --master-id
03ccad2ba5dd1e062464bc7590400441faf 192.168.3.166:6377 192.168.3.166:6379

说明
- –slave 表示添加的是从节点
- –master-id 主节点的nodeId, 在这里是前面新添加的6378的nodeId
- 192.168.3.166:6377 新节点
- 192.168.3.166:6379 集群任一个旧节点

重新分配slot

redis-trib.rb reshard 192.168.3.166:6378
---
# 下面是主要过程  
# 设置slot数1000
How many slots do you want to move (from 1 to 16384)? 1000  
# 新节点node id  
What is the receiving node ID? 03ccad2ba5dd1e062464bc7590400441fafb63f2 
Please enter all the source node IDs.  
 Type 'all' to use all the nodes as source nodes for the hash slots.  
 Type 'done' once you entered all the source nodes IDs.
# 表示全部节点重新洗牌   
Source node #1:all 
# 确认重新分配
Do you want to proceed with the proposed reshard plan (yes/no)? yes 
# 新增加的主节点，是没有slots的
M: 03ccad2ba5dd1e062464bc7590400441fafb63f2 192.168.3.166:6378
slots:0-332,5461-5794,10923-11255 (0 slots) master
# 主节点如果没有slots的话，存取数据就都不会被选中

查看集群

redis-trib.rb check 192.168.3.166:6379  

改变从节点的主节点

#查看一下6378的从节点
redis-cli -p 6378 cluster nodes | grep slave | grep
03ccad2ba5dd1e062464bc7590400441fafb63f2  
#将6377加入到新的master  
redis-cli -c -p 6377 -h 192.168.3.6379  
#新master的node id  
192.168.3.166:6377> cluster replicate 5d8ef5a7fbd72ac586bef04fa6de8a88c0671052  
192.168.3.166:6377> quit
#查看新master的slave
redis-cli -p 6379 cluster nodes | grep slave | grep
5d8ef5a7fbd72ac586bef04fa6de8a88c0671052

删除节点

删除从节点

redis-trib.rb del-node 192.168.3.166:6377
9c240333476469e8e2c8e80b089c48f389827265

删除主节点

# 如果主节点有从节点，将从节点转移到其他主节点
# 如果主节点有slot，去掉分配的slot，然后在删除主节点
# 取消分配的slot,下面是主要过程  
redis-trib.rb reshard 192.168.3.166:6377 
# 被删除master的所有slot数量  
How many slots do you want to move (from 1 to 16384)? 1000 
# 接收6377节点slot的master  
What is the receiving node ID? 5d8ef5a7fbd72ac586bef04fa6de8a88c0671052 
Please enter all the source node IDs.  
 Type 'all' to use all the nodes as source nodes for the hash slots.  
 Type 'done' once you entered all the source nodes IDs. 
# 被删除master的node-id   
Source node #1:03ccad2ba5dd1e062464bc7590400441fafb63f2 
Source node #2:done   
# 取消slot后，reshard  
Do you want to proceed with the proposed reshard plan (yes/no)? yes 
# 新增master节点后，也进行了这一步操作，当时是分配，现在是去掉。   
redis-trib.rb del-node 192.168.3.166:6377
03ccad2ba5dd1e062464bc7590400441fafb63f2

重启服务器的报错： 如果重启服务器后，再次执行redis-trib.rb会报错如下错误：

[ERR] Node 192.168.3.166:6379 is not empty. Either the node already knows other nodes (check with CLUSTER NODES) or contains some key in database 0.

解决方法： 删除dump.rdb和nodes-6379.conf这两个文件，然后重启redis服务，最后启动集群。1次不行搞2次，2次不行搞3次，多删除几次。

六、配置文件属性说明

redis.conf

# redis.conf
# Redis configuration file example.
# ./redis-server /path/to/redis.conf
################################## INCLUDES ###################################
# 这是标准配置模板。
# include /path/to/local.conf
# include /path/to/other.conf
################################ GENERAL #####################################
# Redis默认不是以守护进程的方式运行，可以通过该配置项修改，使用yes启用守护进程
# 启用守护进程后，Redis会把pid写到/var/run/redis.pid中，可以通过pidfile指定
# 即是否在后台执行，yes：后台运行；no：不是后台运行
daemonize yes

# 3.2版本后的参数，是否开启保护模式，默认开启。
# 要是配置里没有指定bind和密码，开启该参数后，redis只能本地进行访问，拒绝外部访问。
# 要是指定了bind和密码，可以开启，否则最好关闭。
# 默认情况下，redis.conf和sentinel.conf的protected-mode都是yes，在搭建集群时，若想从远程连接redis集群，需要将redis.conf和sentinel.conf的protected-mode修改为no，若只修改redis.conf，从远程连接sentinel后，依然是无法正常使用的，且sentinel的配置文件中没有protected-mode配置项，需要手工添加。依据redis文档的说明，若protected-mode设置为no后，需要增加密码证或是IP限制等保护机制，否则是极度危险的。
protected-mode yes

# redis的进程文件
pidfile /var/run/redis_6379.pid

# redis监听的端口号。
port 6379

# 此参数确定了TCP连接中已完成队列(完成三次握手之后)的长度， 当然此值必须不大于Linux系统
# 定义的/proc/sys/net/core/somaxconn值，默认是511，而Linux的默认参数值是128。
# 当系统并发量大并且客户端速度缓慢的时候，可以将这二个参数一起参考设定。
# 该内核参数默认值一般是128，对于负载很大的服务程序来说是不够。一般会修改为2048或更大。
# 在/etc/sysctl.conf中添加:net.core.somaxconn = 2048，然后在终端中执行sysctl -p。
tcp-backlog 511

# 指定 redis 只接收来自于该 IP 地址的请求，如果不进行设置，那么将处理所有请求
bind 127.0.0.1

# 配置unix socket来让redis支持监听本地连接。
unixsocket /var/run/redis/redis.sock
# 配置unix socket使用文件的权限
unixsocketperm 700

# 此参数为设置客户端空闲超过timeout，服务端会断开连接，为0则服务端不会主动断开连接，不能小于0。
timeout 0

# tcp keepalive参数。如果设置不为0，就使用配置tcp的SO_KEEPALIVE值。
# 使用KEEPALIVE有两个好处:1、检测挂掉的对端。2、降低中间设备出问题而导致网络看似连接却已经
# 与对端端口断开的问题。在Linux内核中，设置了KEEPALIVE，redis会定时给对端发送ack。检测到对端关闭需要两倍的设置值。
tcp-keepalive 0

# 指定了服务端日志的级别。级别包括：debug（很多信息，方便开发、测试），verbose（许多有用的信息，但是没有debug级别信息多），notice（适当的日志级别，适合生产环境），warn（只有非常重要的信息）
loglevel notice

# 指定了记录日志的文件。空字符串的话，日志会打印到标准输出设备。后台运行的redis标准输出是/dev/null。
logfile /var/log/redis/redis-server.log

#是否打开记录syslog功能
syslog-enabled no

#syslog的标识符。
syslog-ident redis

#日志的来源、设备
syslog-facility local0

#数据库的数量，默认使用的数据库是DB 0。可以通过”SELECT “命令选择一个db
databases 16

################################ SNAPSHOTTING ################################
# 快照配置
# 注释掉“save”这一行配置项就可以让保存数据库功能失效
# 设置sedis进行数据库镜像的频率。
# 900秒（15分钟）内至少1个key值改变（则进行数据库保存--持久化） 
# 300秒（5分钟）内至少10个key值改变（则进行数据库保存--持久化） 
# 60秒（1分钟）内至少10000个key值改变（则进行数据库保存--持久化）
save 900 1
save 300 10
save 60 10000
# 当RDB持久化出现错误后，是否依然进行继续进行工作，yes：不能进行工作，no：可以继续进行工作，可以通过info中的rdb_last_bgsave_status了解RDB持久化是否有错误
stop-writes-on-bgsave-error yes

# 使用压缩rdb文件，rdb文件压缩使用LZF压缩算法，yes：压缩，但是需要一些cpu的消耗。no：不压缩，需要更多的磁盘空间
rdbcompression yes

# 是否校验rdb文件。从rdb格式的第五个版本开始，在rdb文件的末尾会带上CRC64的校验。这跟有利于文件的容错性，但是在保存rdb文件的时候，会有大概10%的性能损耗，所以如果你追求高性能，可以关闭该配置。
rdbchecksum yes

# rdb文件的名称
dbfilename dump.rdb

# 数据目录，数据库的写入会在这个目录。rdb、aof文件也会写在这个目录
dir /var/lib/redis

################################# REPLICATION #################################
# 复制选项，slave复制对应的master。
slaveof <masterip> <masterport>

# 如果master设置了requirepass，那么slave要连上master，需要有master的密码才行。masterauth就是用来配置master的密码，这样可以在连上master后进行认证。
masterauth <master-password>

# 当从库同主机失去连接或者复制正在进行，从机库有两种运行方式：
# 1) 如果slave-serve-stale-data设置为yes(默认设置)，从库会继续响应客户端的请求。
# 2) 如果slave-serve-stale-data设置为no，除去INFO和SLAVOF命令之外的任何请求都会返回一个错误”SYNC with master in progress”。
slave-serve-stale-data yes

# 作为从服务器，默认情况下是只读的（yes），可以修改成NO，用于写（不建议）。
slave-read-only yes

# 是否使用socket方式复制数据。目前redis复制提供两种方式，disk和socket。如果新的slave连上来或者重连的slave无法部分同步，就会执行全量同步，master会生成rdb文件。有2种方式：disk方式是master创建一个新的进程把rdb文件保存到磁盘，再把磁盘上的rdb文件传递给slave。socket是master创建一个新的进程，直接把rdb文件以socket的方式发给slave。disk方式的时候，当一个rdb保存的过程中，多个slave都能共享这个rdb文件。socket的方式就的一个个slave顺序复制。在磁盘速度缓慢，网速快的情况下推荐用socket方式。
repl-diskless-sync no

# diskless复制的延迟时间，防止设置为0。一旦复制开始，节点不会再接收新slave的复制请求直到下一个rdb传输。所以最好等待一段时间，等更多的slave连上来。
repl-diskless-sync-delay 5

# slave根据指定的时间间隔向服务器发送ping请求。时间间隔可以通过 repl_ping_slave_period 来设置，默认10秒。
repl-ping-slave-period 10

# 复制连接超时时间。master和slave都有超时时间的设置。master检测到slave上次发送的时间超过repl-timeout，即认为slave离线，清除该slave信息。slave检测到上次和master交互的时间超过repl-timeout，则认为master离线。需要注意的是repl-timeout需要设置一个比repl-ping-slave-period更大的值，不然会经常检测到超时。
repl-timeout 60

# 是否禁止复制tcp链接的tcp nodelay参数，可传递yes或者no。默认是no，即使用tcp nodelay。如果master设置了yes来禁止tcp nodelay设置，在把数据复制给slave的时候，会减少包的数量和更小的网络带宽。但是这也可能带来数据的延迟。默认我们推荐更小的延迟，但是在数据量传输很大的场景下，建议选择yes。
repl-disable-tcp-nodelay no

# 复制缓冲区大小，这是一个环形复制缓冲区，用来保存最新复制的命令。这样在slave离线的时候，不需要完全复制master的数据，如果可以执行部分同步，只需要把缓冲区的部分数据复制给slave，就能恢复正常复制状态。缓冲区的大小越大，slave离线的时间可以更长，复制缓冲区只有在有slave连接的时候才分配内存。没有slave的一段时间，内存会被释放出来，默认1m。
repl-backlog-size 5mb

# master没有slave一段时间会释放复制缓冲区的内存，repl-backlog-ttl用来设置该时间长度。单位为秒。
repl-backlog-ttl 3600

# 当master不可用，Sentinel会根据slave的优先级选举一个master。最低的优先级的slave，当选master。而配置成0，永远不会被选举。
slave-priority 100

# redis提供了可以让master停止写入的方式，如果配置了min-slaves-to-write，健康的slave的个数小于N，mater就禁止写入。master最少得有多少个健康的slave存活才能执行写命令。这个配置虽然不能保证N个slave都一定能接收到master的写操作，但是能避免没有足够健康的slave的时候，master不能写入来避免数据丢失。设置为0是关闭该功能。
min-slaves-to-write 3

# 延迟小于min-slaves-max-lag秒的slave才认为是健康的slave。
min-slaves-max-lag 10

# 设置1或另一个设置为0禁用这个特性。
# Setting one or the other to 0 disables the feature.
# By default min-slaves-to-write is set to 0 (feature disabled) and
# min-slaves-max-lag is set to 10.

################################## SECURITY ###################################
# requirepass配置可以让用户使用AUTH命令来认证密码，才能使用其他命令。这让redis可以使用在不受信任的网络中。为了保持向后的兼容性，可以注释该命令，因为大部分用户也不需要认证。使用requirepass的时候需要注意，因为redis太快了，每秒可以认证15w次密码，简单的密码很容易被攻破，所以最好使用一个更复杂的密码。
requirepass foobared

#把危险的命令给修改成其他名称。比如CONFIG命令可以重命名为一个很难被猜到的命令，这样用户不能使用，而内部工具还能接着使用。
rename-command CONFIG b840fc02d524045429941cc15f59e41cb7be6c52

#设置成一个空的值，可以禁止一个命令
rename-command CONFIG ""
################################### LIMITS ####################################

# 设置能连上redis的最大客户端连接数量。默认是10000个客户端连接。由于redis不区分连接是客户端连接还是内部打开文件或者和slave连接等，所以maxclients最小建议设置到32。如果超过了maxclients，redis会给新的连接发送’max number of clients reached’，并关闭连接。
maxclients 10000

# redis配置的最大内存容量。当内存满了，需要配合maxmemory-policy策略进行处理。注意slave的输出缓冲区是不计算在maxmemory内的。所以为了防止主机内存使用完，建议设置的maxmemory需要更小一些。
maxmemory <bytes>

# 内存容量超过maxmemory后的处理策略。
# volatile-lru：利用LRU算法移除设置过过期时间的key。
# volatile-random：随机移除设置过过期时间的key。
# volatile-ttl：移除即将过期的key，根据最近过期时间来删除（辅以TTL）
# allkeys-lru：利用LRU算法移除任何key。
# allkeys-random：随机移除任何key。
# noeviction：不移除任何key，只是返回一个写错误。
# 上面的这些驱逐策略，如果redis没有合适的key驱逐，对于写命令，还是会返回错误。redis将不再接收写请求，只接收get请求。写命令包括：set setnx setex append incr decr rpush lpush rpushx lpushx linsert lset rpoplpush sadd sinter sinterstore sunion sunionstore sdiff sdiffstore zadd zincrby zunionstore zinterstore hset hsetnx hmset hincrby incrby decrby getset mset msetnx exec sort。
maxmemory-policy noeviction

# lru检测的样本数。使用lru或者ttl淘汰算法，从需要淘汰的列表中随机选择sample个key，选出闲置时间最长的key移除。
maxmemory-samples 5


############################## APPEND ONLY MODE ###############################
# 默认redis使用的是rdb方式持久化，这种方式在许多应用中已经足够用了。但是redis如果中途宕机，会导致可能有几分钟的数据丢失，根据save来策略进行持久化，Append Only File是另一种持久化方式，可以提供更好的持久化特性。Redis会把每次写入的数据在接收后都写入 appendonly.aof 文件，每次启动时Redis都会先把这个文件的数据读入内存里，先忽略RDB文件。
appendonly no

# aof文件名
appendfilename "appendonly.aof"

# aof持久化策略的配置
# no表示不执行fsync，由操作系统保证数据同步到磁盘，速度最快。
# always表示每次写入都执行fsync，以保证数据同步到磁盘。
# everysec表示每秒执行一次fsync，可能会导致丢失这1s数据。
appendfsync everysec

# 在aof重写或者写入rdb文件的时候，会执行大量IO，此时对于everysec和always的aof模式来说，执行fsync会造成阻塞过长时间，no-appendfsync-on-rewrite字段设置为默认设置为no。如果对延迟要求很高的应用，这个字段可以设置为yes，否则还是设置为no，这样对持久化特性来说这是更安全的选择。设置为yes表示rewrite期间对新写操作不fsync,暂时存在内存中,等rewrite完成后再写入，默认为no，建议yes。Linux的默认fsync策略是30秒。可能丢失30秒数据。
no-appendfsync-on-rewrite no

# aof自动重写配置。当目前aof文件大小超过上一次重写的aof文件大小的百分之多少进行重写，即当aof文件增长到一定大小的时候Redis能够调用bgrewriteaof对日志文件进行重写。当前AOF文件大小是上次日志重写得到AOF文件大小的二倍（设置为100）时，自动启动新的日志重写过程。
auto-aof-rewrite-percentage 100
#设置允许重写的最小aof文件大小，避免了达到约定百分比但尺寸仍然很小的情况还要重写
auto-aof-rewrite-min-size 64mb

# aof文件可能在尾部是不完整的，当redis启动的时候，aof文件的数据被载入内存。重启可能发生在redis所在的主机操作系统宕机后，尤其在ext4文件系统没有加上data=ordered选项（redis宕机或者异常终止不会造成尾部不完整现象。）出现这种现象，可以选择让redis退出，或者导入尽可能多的数据。如果选择的是yes，当截断的aof文件被导入的时候，会自动发布一个log给客户端然后load。如果是no，用户必须手动redis-check-aof修复AOF文件才可以。
aof-load-truncated yes

################################ LUA SCRIPTING ###############################
# 如果达到最大时间限制（毫秒），redis会记个log，然后返回error。当一个脚本超过了最大时限。只有SCRIPT KILL和SHUTDOWN NOSAVE可以用。第一个可以杀没有调write命令的东西。要是已经调用了write，只能用第二个命令杀。
lua-time-limit 5000


################################ REDIS CLUSTER ###############################
# 集群开关，默认是不开启集群模式。
cluster-enabled yes

# 集群配置文件的名称，每个节点都有一个集群相关的配置文件，持久化保存集群的信息。这个文件并不需要手动配置，这个配置文件有Redis生成并更新，每个Redis集群节点需要一个单独的配置文件，请确保与实例运行的系统中配置文件名称不冲突
cluster-config-file nodes-6379.conf

# 节点互连超时的阀值。集群节点超时毫秒数
cluster-node-timeout 15000

# 在进行故障转移的时候，全部slave都会请求申请为master，但是有些slave可能与master断开连接一段时间了，导致数据过于陈旧，这样的slave不应该被提升为master。该参数就是用来判断slave节点与master断线的时间是否过长。判断方法是：
#比较slave断开连接的时间和(node-timeout * slave-validity-factor) + repl-ping-slave-period
#如果节点超时时间为三十秒, 并且slave-validity-factor为10,假设默认的repl-ping-slave-period是10秒，即如果超过310秒slave将不会尝试进行故障转移 
cluster-slave-validity-factor 10

# master的slave数量大于该值，slave才能迁移到其他孤立master上，如这个参数若被设为2，那么只有当一个主节点拥有2 个可工作的从节点时，它的一个从节点会尝试迁移。
cluster-migration-barrier 1

# 默认情况下，集群全部的slot有节点负责，集群状态才为ok，才能提供服务。设置为no，可以在slot没有全部分配的时候提供服务。不建议打开该配置，这样会造成分区的时候，小分区的master一直在接受写请求，而造成很长时间数据不一致。
cluster-require-full-coverage yes

################################## SLOW LOG ###################################
# slog log是用来记录redis运行中执行比较慢的命令耗时。当命令的执行超过了指定时间，就记录在slow log中，slog log保存在内存中，所以没有IO操作。
#执行时间比slowlog-log-slower-than大的请求记录到slowlog里面，单位是微秒，所以1000000就是1秒。注意，负数时间会禁用慢查询日志，而0则会强制记录所有命令。
slowlog-log-slower-than 10000

# 慢查询日志长度。当一个新的命令被写进日志的时候，最老的那个记录会被删掉。这个长度没有限制。只要有足够的内存就行。你可以通过 SLOWLOG RESET 来释放内存。
slowlog-max-len 128

################################ LATENCY MONITOR ##############################
# 延迟监控功能是用来监控redis中执行比较缓慢的一些操作，用LATENCY打印redis实例在跑命令时的耗时图表。只记录大于等于下边设置的值的操作。0的话，就是关闭监视。默认延迟监控功能是关闭的，如果你需要打开，也可以通过CONFIG SET命令动态设置。
latency-monitor-threshold 0

############################# EVENT NOTIFICATION ##############################
# 键空间通知使得客户端可以通过订阅频道或模式，来接收那些以某种方式改动了 Redis 数据集的事件。因为开启键空间通知功能需要消耗一些 CPU ，所以在默认配置下，该功能处于关闭状态。
# notify-keyspace-events 的参数可以是以下字符的任意组合，它指定了服务器该发送哪些类型的通知：
# K 键空间通知，所有通知以 __keyspace@__ 为前缀
# E 键事件通知，所有通知以 __keyevent@__ 为前缀
# g DEL 、 EXPIRE 、 RENAME 等类型无关的通用命令的通知
# $ 字符串命令的通知
# l 列表命令的通知
# s 集合命令的通知
# h 哈希命令的通知
# z 有序集合命令的通知
# x 过期事件：每当有过期键被删除时发送
# e 驱逐(evict)事件：每当有键因为 maxmemory 政策而被删除时发送
# A 参数 g$lshzxe 的别名
# 输入的参数中至少要有一个 K 或者 E，否则的话，不管其余的参数是什么，都不会有任何 通知被分发。详细使用可以参考http://redis.io/topics/notifications

notify-keyspace-events ""

############################### ADVANCED CONFIG ###############################
# 数据量小于等于hash-max-ziplist-entries的用ziplist，大于hash-max-ziplist-entries用hash
hash-max-ziplist-entries 512

# value大小小于等于hash-max-ziplist-value的用ziplist，大于hash-max-ziplist-value用hash。
hash-max-ziplist-value 64

# 数据量小于等于list-max-ziplist-entries用ziplist，大于list-max-ziplist-entries用list。
list-max-ziplist-entries 512
# value大小小于等于list-max-ziplist-value的用ziplist，大于list-max-ziplist-value用list。
list-max-ziplist-value 64

# 数据量小于等于set-max-intset-entries用iniset，大于set-max-intset-entries用set。
set-max-intset-entries 512

# 数据量小于等于zset-max-ziplist-entries用ziplist，大于zset-max-ziplist-entries用zset。
zset-max-ziplist-entries 128
# value大小小于等于zset-max-ziplist-value用ziplist，大于zset-max-ziplist-value用zset。
zset-max-ziplist-value 64

# value大小小于等于hll-sparse-max-bytes使用稀疏数据结构（sparse），大于hll-sparse-max-bytes使用稠密的数据结构（dense）。一个比16000大的value是几乎没用的，建议的value大概为3000。如果对CPU要求不高，对空间要求较高的，建议设置到10000左右。
hll-sparse-max-bytes 3000

# Redis将在每100毫秒时使用1毫秒的CPU时间来对redis的hash表进行重新hash，可以降低内存的使用。当你的使用场景中，有非常严格的实时性需要，不能够接受Redis时不时的对请求有2毫秒的延迟的话，把这项配置为no。如果没有这么严格的实时性要求，可以设置为yes，以便能够尽可能快的释放内存。
activerehashing yes

# 对客户端输出缓冲进行限制可以强迫那些不从服务器读取数据的客户端断开连接，用来强制关闭传输缓慢的客户端。
# 对于normal client，第一个0表示取消hard limit，第二个0和第三个0表示取消soft limit，normal client默认取消限制，因为如果没有寻问，他们是不会接收数据的。
client-output-buffer-limit normal 0 0 0
# 对于slave client和MONITER client，如果client-output-buffer一旦超过256mb，又或者超过64mb持续60秒，那么服务器就会立即断开客户端连接。
client-output-buffer-limit slave 256mb 64mb 60
# 对于pubsub client，如果client-output-buffer一旦超过32mb，又或者超过8mb持续60秒，那么服务器就会立即断开客户端连接。
client-output-buffer-limit pubsub 32mb 8mb 60

# redis执行任务的频率为1s除以hz。
hz 10

# 在aof重写的时候，如果打开了aof-rewrite-incremental-fsync开关，系统会每32MB执行一次fsync。这对于把文件写入磁盘是有帮助的，可以避免过大的延迟峰值。
aof-rewrite-incremental-fsync yes

sentinel.conf

# Example sentinel.conf
# 关闭保护模式
# 默认情况下，redis.conf和sentinel.conf的protected-mode都是yes，在搭建集群时，若想从远程连接redis集群，需要将redis.conf和sentinel.conf的protected-mode修改为no，若只修改redis.conf，从远程连接sentinel后，依然是无法正常使用的，且sentinel的配置文件中没有protected-mode配置项，需要手工添加。依据redis文档的说明，若protected-mode设置为no后，需要增加密码证或是IP限制等保护机制，否则是极度危险的。
protected-mode no
# port <sentinel-port>
port 26371
# 守护进程模式
daemonize yes
# 指明日志文件名
logfile "./sentinel1.log"
# 工作路径，sentinel一般指定/tmp比较简单
dir ./
# 哨兵监控这个master，在至少quorum个哨兵实例都认为master down后把master标记为odown
# （objective down客观down；相对应的存在sdown，subjective down，主观down）状态。
# slaves是自动发现，所以你没必要明确指定slaves。
sentinel monitor TestMaster 127.0.0.1 7003 1
# master或slave多长时间（默认30秒）不能使用后标记为sdown状态。
sentinel down-after-milliseconds TestMaster 1500
# 设置master和slaves验证密码
sentinel auth-pass TestMaster 0234kz9*l
# 指定了最多可以有多少个slave同时对新的master进行同步
sentinel parallel-syncs mymaster 1
# 若sentinel在该配置值内未能完成failover操作（即故障时master/slave自动切换），则认为本次failover失败。
sentinel failover-timeout TestMaster 10000

Redis哨兵模式和集群搭建

Redis哨兵模式和集群模式的搭建

Redis哨兵模式和集群搭建

一、软件环境

系统环境

二、单机安装

依赖环境

安装Redis

三、哨兵模式

配置redis.conf

配置sentienl.conf

启动redis

启动哨兵

查看哨兵集群状态

开机自启

四、集群模式

安装ruby

配置环境变量

安装redis.gem

配置redis.conf

开启端口

启动redis

启动集群

连接集群

五、集群的动态命令

常用命令

动态添加节点

改变从节点的主节点

删除节点

六、配置文件属性说明

redis.conf

sentinel.conf

CATALOG

FEATURED TAGS

FRIENDS