面对当前应用系统之间的关联关系复杂,尤其是渠道类应用系统,后...
下文主要从对外提供服务环境建设和监控、监控调用关系配置和分析、监控环境关联关系统一视图、基于链路的监控结果分析策略、监控状态报告和预警等方面对测试环境的监控解决方案进行重点阐述。 关键词:对外服务环境、链路监控、环境调用关系视图、链路分析、可用性度量。
01 环境对外提供服务能力 面对测试环境越来越多,关联关系越来越越复杂的实际情况,环境的管理和使用面临以下突出的问题。 高可用:环境管理的精细化、高可用越来越重要。 版本更新问题:环境的版本更新频繁,造成关联的消费方系统无法正常使用,且无法提前感知问题。 关联关系问题:环境之间的关联关系复杂度不断提升,系统由于开发测试需要,修改和调整关联关系的情况经常存在,影响关联系统的正常使用。 问题排查:关联系统太多,交易做不通时需从前往后排查,具体是哪个系统的问题。 针对以上环境使用中存在的突出问题,在环境的统筹规划中,重点强调本系统环境的对外提供服务能力。该对外提供服务的环境可以是UAT测试环境、回归测试环境,也可以其他相对稳定环境,重点强调环境的对外提供服务能力,同时针对该对外提供服务的环境进行监控,当该对外提供服务环境不可用时,提供基于链路的监控预警信息,实时反应链路的可用性状态。
02 监控调用关系视图 利用业务自动化案例结合环境信息,基于分层监控的思路,建立产品功能从渠道到中间关联系统到核心系统的全链路监控。层层梳理,绑定关系。形成从前端到后台的监控项调用关联关系树,如下图所示(A、B、C、D为从渠道到后台的各个测试环境)。同时,在保证上下游监控环境一致性方面,面临2个主要问题。 B节点的存储结构如下JSON:
03 监控环境关联关系统一视图 前文强调对外服务环境的监控和管理,但是如何体现同一个系统的不同环境种类,环境之间的即时连接关系是什么?本课题试图建立基于监控关联关系抽取的环境统一视图,通过提取监控配置中环境之间调用关系信息,建立环境调用关系视图,实时反映环境之间的链接关系。 监控平台通过对接环境基础信息平台,实现监控平台监控环境与环境基础信息平台的一致性。采用不同的颜色表示不同的环境类型,分类如下表所示:
04 监控方案及状态报告 测试环境是一个长链条,尤其对于渠道系统来说,链条中的任意一个中后台系统出问题都会导致前端系统的不可用,为了准确度量系统的可用性,就要区分出当前的问题是系统自身故障导致的还是由于关联系统的故障造成的当前系统不可用,因此我们对环境的状态做出如下定义: 可用:本环境业务功能监控项执行成功。 不可用:本环境业务功能监控项执行不成功,关联环境监控项执行不成功。 故障:本环境业务功能监控项执行不成功,关联环境监控项执行成功 由上可知,故障为问题节点,不可用为故障引起的环境失败。 例如有A、B、C、D4个系统,调用关系为A->B->C->D。如下图所示,根据A、B、C、D各个节点的执行状态,判断各个节点的可用性状态见结论。
https://mmbiz.qpic.cn/mmbiz_svg/SCug0ESSOHicjwaUbo4DKibTO48MFkxib4iaybmE1x31qTjHP9DxMk03wic0JlK9y5ffh8ak5bKBxSO9icAQX0iaO06ogXZIucKlb7A/640?wx_fmt=svg
05 结语 本文针对银行复杂系统关联关系背景下,当某节点出现问题后,需要上下游各个节点逐级分析问题,问题排查解决工作复杂,消耗时间长的问题。 利用环境基础信息平台、业务自动化案例、邮件服务等,建立了对外提供服务上下游环境关键场景的精准监控,同时结合上下游链路分析系统、可用性度量算法,实时生成可用性报表,即时反应环境的可用性状态,并对环境不可用链路信息实时预警。实现了复杂银行系统下环境状态提前感知能力,对于推进环境可用性提升具体积极的意义。
点击下方“ 阅读原文 ”,挑战年薪20W~
课程解答、1v1能力评测、免费试听