关于监控

对于维护一个平台或系统的稳定运行,监控系统是很重要的一个环节。

监控目的

监控系统的核心点有二个方面:一个是阈值预警;一个对错误报警。

阈值预警就是对我们关注的相关指标设置一个阈值,当达到这个阈值时,系统发出预警,运维或研发同学介入跟进处理,提前排除风险,提升系统的稳定性。

错误报警就是当运行的系统出现自定义的错误或运行时错误时,系统发出报警信息,负责同学可以及时发现问题,及时解决,将损失降低到最少。

报警的机制

目前报警消息的实现机制灵活多样,较常用的有短信报警,邮件报警,如果有使用钉钉的团队,也可以使用钉钉的机器人,这个方式也是非常便利的。

1.报警信息属于阈值预警的,一般是超过阈值则发现一条报警信息,如果这个报警处理了,则再发送一条阈值恢复的信息,目前阿里云的云监控就是采用这种机制。

2.报警信息属于错误的,一般则是在只要有错误发生时,则立即报警,因为这类的错误的等级较高,要及时处理。

报警消息

对于报警消息的发送,需要注意的原则就是对任何一条报警消息,都需要有第一负责人及时处理,如果第一负责人休假之类的无法及时处理,则需要安排第二负责人跟进处理,必须达到对每条报警信息都非常重视,只要有报警就需要及时处理。

如果一个业务上所产生的报警消息太多或者对报警处理没有及时处理,则容易让跟进人员漠视报警消息,最终将导到报警消息无人关注跟进,有相当于无,甚至覆盖或漏掉紧急重要报警消息,从而产生更严重的问题。

所以对报警消息的发送频率规划及对报警问题的处理时效将决定监控系统的最终运行成效。

2017-05-04 11:57334