搜索 | 会员  
  • 银行业整体上已具备结合业务场景收集比较完整的IT指标数据的能力,亟待一套指标数据分析体系为IT管理与业务分析提供可量化、可视化、集约化的决策支撑。
  • SLA作为一个术语,每个人可能都听说过。在人们的印象中,它通常只与一般条款和条件或数据保护声明等深奥难懂的文件有关。但是,服务水平协议是每项服务中真正应该让人理解和明白的部分。
  • 为适应数据中心大规模集约化运营管理的需求,国内各企业陆续建立起了面向主机、平台、网络、存储、环境动力、应用软件等的专业监控系统,实现了各个专业的监控事件和容量性能数据的集中展现和处
  • 本篇文章从端到端生命周期的自动化管理能力、服务部署能力以及业务连续性管理等方面分析,进行了终端云SRE业务稳定性保障体系介绍及实践经验分享。
  • SRE素质能力模型主要有:软技能(合作、沟通、独立解决问题),实践经验(IT运维、基础设施、安全等),流程和框架(DevOps、敏捷等),新技术(CICD工具、微服务升级与API)。
  • 现在是一个云原生时代,任何一个玩技术的都或多或少跟云计算、容器、Kubernetes、云原生应用有着不同的渊源密切。这就导致了现在公司对应用的技术的选型以及对应用的监控、管理发生了很大的变化
  • 稳定性目前不再局限于大促时的保障和平时的稳定性轮值,越来越体系化,本文基于作者在业务团队工作过程中的沉淀,以及在盒马2年SRE的实战经验,从稳定性心态、监控体系、故障应急体系、资源体系
  • 为了避免AIOps只是一句空话,我们认为要实现AIOps不仅需要一些自动化场景的实现、度量,还需要运维数据的管理。01.自动化运维的目标:端到端的自动化首先让我们再来回顾一下之前提到的智能化敏
  • 传统运维管理的人工及被动响应方式,已经无法支撑数字化业务灵活、快速的发展,要靠智能运维(AIOps)能力来获得数据分析和决策支持。而从传统ITOM到智能运维的演进过程中,需要一系列关键技术
  • 在后IT建设时代,IT运维工作的重要性日益凸显。对于构建IT运维管理系统而言,如何使用系统的方法来改善运维服务以及对运维过程进行全面审查尤为重要。
  • 大部分国内互联网公司没有真正的SRE团队。即使有这样的团队,据我所知他们可能更关注一些更宏观的稳定性建设。日常的服务级别的线上稳定性保障,一般都是由研发团队主要负责的(一般是事故主要责
  • 可观测性(Observability)一词最早出现在控制论领域,有着几十年的历史。随着云原生时代的到来,2018年,CNCF率先将可观测性一词引入IT领域,并称可观测性是云原生时代必须具备的能力
  • 随着软件复杂度的不断提升,单体应用架构逐步向分布式和微服务的架构演进,整体的调用环境也越来越复杂,仅靠日志和指标渐渐难以快速定位复杂环境下的问题。对于全栈可观测的诉求也变得愈加强烈
  • 研发,SRE,运维是工种,而DevOps是体系。如果拿足球来打比方,研发,SRE,运维对应的就是前锋,中场,后卫这样的位置,而DevOps则是诸如4-3-3这样的阵型。
  • 在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要.
  • 地图
  • 本站
  • 我们
  • 服务
  • 版权
  • 联系
  • 回馈
  • 博客