设为首页 加入收藏

TOP

MySQL MGR集群单主模式的自动搭建和自动化故障修复(一)
2019-09-03 03:39:41 】 浏览:62
Tags:MySQL MGR 集群 单主 模式 自动 建和 自动化 故障 修复

随着MySQL MGR的版本的升级以及技术成熟,在把MHA拉下神坛之后, MGR越来越成为MySQL高可用的首选方案。
MGR的搭建并不算很复杂,但是有一系列手工操作步骤,为了简便MGR的搭建和故障诊断,这里完成了一个自动化的脚本,来实现MGR的自动化搭建,自动化故障诊断以及修复。


?


MGR自动化搭建
为了简便起见,这里以单机多实例的模式进行测试,
先装好三个MySQL实例,端口号分别是7001,7002,7003,其中7001作为写节点,其余两个节点作为读节,8000节点是笔者的另外一个测试节点,请忽略。
在指明主从节点的情况下,如下为mgr_tool.py一键搭建MGR集群的测试demo



?


MGR故障模拟1


MGR节点故障自动监测和自愈实现,如下是搭建完成后的MGR集群,目前集群处于完全正常的状态中。



主观造成主从节点间binlog的丢失



在主节点上对于对于从节点丢失的数据操作,GTID无法找到对应的数据,组复制立马熄火



非写入节点出现错误



看下errorlog



如果是手动解决的话,还是GTID跳过错误事物的套路,master上的GTID信息



尝试跳过最新的一个事物ID,然后重新连接到组,可以正常连接到组,另外一个节点仍旧处于error状态



另外一个节点类似,依次解决。


MGR故障模拟2


从节点脱离Group



这种情况倒是比较简单,重新开始组复制即可,start group_replication


?


MGR故障自动检测和修复


对于如上的两种情况,
1,如果是从节点丢失主节点的事物,尝试在从节点上跳过GTID,重新开始复制即可
2,如果是从节点非丢失主节点事物,尝试在从节点重新开始组复制即可


实现代码如下


?


对于故障类型1,GTID事物不一致的自动化修复



?


?对于故障类型2从节点offline的自动化修复



?


完整的实现代码


该过程要求MySQL实例必须满足MGR的基本条件,如果环境本身无法满足MGR,一切都无从谈起,因此要非常清楚MGR环境的最基本要求


完成的实现代码如下,花了一个下午写的,目前来说存在以下不足
1,创建复制用户的时候,没有指定具体的slave机器,目前直接指定的%:create user repl@'%' identified by repl
2,对于slave的修复,目前无法整体修复,只能一台一台修复,其实就是少了一个循环slave机器判断的过程
3,目前搭建之前都会reset master(不管主从,主要是清理可能的残留GTID),因此只适合新环境的搭建
4,目前只支持offline和gtid事物冲突的错误类型修复,无法支持其他MGR错误类型的修复
5,开发环境是单机多实例模式测试,没有在多机单实例模式下充分测试
以上都会逐步改善&加强。


# -*- coding: utf-8 -*-


import pymysql
import logging
import time
import decimal



def execute_query(conn_dict,sql):
? ? conn = pymysql.connect(host=conn_dict['host'],
? ? ? ? ? ? ? ? ? ? ? ? ? port=conn_dict['port'],
? ? ? ? ? ? ? ? ? ? ? ? ? user=conn_dict['user'],
? ? ? ? ? ? ? ? ? ? ? ? ? passwd=conn_dict['password'],
? ? ? ? ? ? ? ? ? ? ? ? ? db=conn_dict['db'])
? ? cursor = conn.cursor(pymysql.cursors.DictCursor)
? ? cursor.execute(sql)
? ? list = cursor.fetchall()
? ? cursor.close()
? ? conn.close()
? ? return list



def execute_noquery(conn_dict,sql):
? ? conn = pymysql.connect(host=conn_dict['host'],
? ? ? ? ? ? ? ? ? ? ? ? ? port=conn_dict['port'],
? ? ? ? ? ? ? ? ? ? ? ? ? user=conn_dict['user'],
? ? ? ? ? ? ? ? ? ? ? ? ? passwd=conn_dict['password'],
? ? ? ? ? ? ? ? ? ? ? ? ? db=conn_dict['db'])
? ? cursor = conn.cursor()
? ? cursor.execute(sql)
? ? conn.commit()
? ? cursor.close()
? ? conn.close()
? ? return list



def get_gtid(conn_dict):
? ? sql = "show master status;"
? ? list = execute_query(conn_dict,sql)
? ? return list



def skip_gtid_on_slave(conn_dict,gtid):
? ? sql_1 = 'stop group_replication;'
? ? sql_2 = '''set gtid_next='{0}';'''.format(gtid)
? ? sql_3 = 'begin;'
? ? sql_4 = 'commit;'
? ? sql_5 = '''set gtid_next='automatic';'''


? ? try:
? ? ? ? execute_noquery(conn_dict,
MySQL MGR集群单主模式的自动搭建和自动化故障修复(一) https://www.cppentry.com/bencandy.php?fid=57&id=249467

首页 上一页 1 2 3 4 5 6 下一页 尾页 1/6/6
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇如何删除MySQL用户帐户 下一篇MySQL使用存储过程插入批量测试数..

kafka-
kafka ? Partit
解决android studio
Kafka史上最详细原理
Error while fetchin
【Kafka】安装与快速
? ? &
flume读取日志数据写
Authentication plug
Flume 自定义source
flume ? 三大核
ICC副本>>>
愚公移山 ?
Hbase架构 ? Hb
5 hbase-shell + &
Hbase ? MapRed
MetaException(messa
Exception in thread
HIVE metastore Dupl
-->