美团点评监控体系
监控平台:有故障发现,隐患故障发现
监控分层
- 移动端监控
- 业务监控
- 应用层监控:url、service、sql…
- 系统层监控
- 基础设施监控
监控系统挑战
- 数据量大
- 实时性高
- 覆盖面广,对接全部技术体系
移动端监控
用户操作日志
服务器端监控
埋点?外围监控?
配置、通用组件
监控是为了修复
回滚
监控指标的阈值
手动、根据业务情况
误报问题?
结构化的解决方式没有
监控API接口访问量,耗时时间
监控所有数据库访问量,耗时时间
监控自身代码的性能相关
- 执行慢
- 执行出错
全链路压测
业务维度?
总结
- Everything Fails
- 异常定位监测
- 发现问题、定位问题、解决问题
美团点评监控体系
https://zhangfuli.github.io/2019/10/12/美团点评监控体系/