2012年6月,苏格兰皇家银行在2012年6月份进行软件升级以后,因为系统故障出现长达两周的中断,给银行客户带来了重大的损失,最后不得不拿出1.25亿英镑进行赔付;
2017年12月,爱立信公司因软件证书过期问题,在11个国家内引发将近1天的网络停运问题——这直接导致日本3000万软银移动客户与2500万英国移动客户无法正常联网,爱立信为此需要支付数千万英镑的赔偿金;
2018年6月,美国航空公司旗下的全资子公司PSA航空公司的航班调度与追踪系统就曾出现过问题,在7天之内导致接近3000次航班被迫取消,直接经济损失高达3500万美元……
以上发生在金融领域、通信领域、航空领域的这些事故,不过IT故障带来损失案例中的冰山一角。除了上述列举的这些领域外,网络安全、医疗健康、警务管理、铁路交通、零售服务等等,IT故障带来的破坏可谓无处不在,根源就是这些事故中涉及的软硬件高可用的不足。
就像车会抛锚,人会生病,服务器/线上应用等这些,硬件也好软件也罢,都有无法保障100%可用性的时候。高可用架构设计的目的,就是为了保证服务器硬件故障时服务依然可用、数据依然保存并能够被访问。阿里云等云服务和应用就是极为重要的可对症下药的解决方案。
一、何为高可用?
随着云计算的兴起,阿里云等应用服务不断普及,众多企业进入云时代:云洽谈、云招商、云签约、云开工、云路演、云服务、云招聘……这一点,在三年新冠疫情期间,人们的体验应当最为深刻:以阿里云等为代表的各种云服务,俨然成为无数企业和从业者在一次次的封控隔离期间,依然能够保持运营效率和生产力的最终解决方案。这里面,保障一切服务、系统和线上应用之所以能够顺利正常持续运行,高可用是核心最关键的因素之一。
高可用几乎涉及任何IT系统,小到一个微服务,大到一整个完整的系统都会要求高可用,尤其是在大型的业务系统中,因为不同的服务之间存在互相依赖,因此高可用会被反复提及,每一个小的组件都要求满足高可用,才能确保大的系统不会被拖累。
对于普通人来说,想要完全搞懂和理解清楚其含义,其实也不是很复杂的问题:高可用,又叫高可用性,英文叫High Availability,即根据预定义的服务级别承受所有运行中断并继续提供处理能力。涵盖的运行中断可以包括计划外事件,例如软件故障、硬件故障、电源故障和灾难等。更直白地说法就是,高可用是一种面向风险设计,使系统具备控制风险,提供更高程度的可用性的能力。
举个例子,比如说一个系统它一直能够为你提供服务,那它的系统可用性就是100%。但实际上目前大部分企业的高可用目标是4个9,也就是99.99%,有几个 9,就代表了你有多高的可用性,9越多,出现故障的时间就越短:
2个9:基本可用,网站年度不可用时间小于 88 小时;
3个9:较高可用,网站年度不可用时间小于 9 小时;
4个9:具有自动恢复能力的高可用,网站年度不可用时间小于 53 分钟。
二、为什么说云是高可用的最佳载体?
传统的高可用实现方式主要包括主从方式 (非对称方式)、双机双工方式(互备互援)、集群工作方式(多服务器互备方式)三种。而在云计算环境中,高可用的实现方式主要以第二种和第三种方式为主,在保证高可用的同时,利用多机分担负载,也具有高的扩展性(Scalability)。通常来说,云计算的计算资源和存储资源是以集群形式实现的,特别强调可扩展性。
而在大数据爆发的当下,云计算的这种可扩展性,正是众多企业所迫切需要的,企业数字化转型已成为必然趋势。Gartner调查显示,2/3的企业领导者相信,企业必须加快数字化进程,才能保持竞争优势。为此,随着数字化转型进程的推进,数据量呈爆炸性增长,越来越多的行业用户正在构建行业云,逐步将应用迁移至云上。
就目前而言,云架构已在各个领域大量运营,数据中心作为云资源的提供者承载了大量不同类型的应用,传统单一的数据中心已发展成为内分布式云数据中心模式,因此对于分布式云数据中心构成一体化高可用能力的需求也越来越迫切。为此,云之所以被称为是高可用的最佳展现载体,其根本原因就在于:
1、高可用云服务,能够基于租户级别的备份,实现租户灾备数据安全隔离;
2、高可用支持异构云平台间的灾难恢复,满足不同云平台之间的灾难恢复需求;
3、高可用提供永久增量备份、多节点并发备份,可为Hadoop、SAP HANA等平台提供高效保护,大幅缩短备份所需时间;
4、高可用云服务,能够通过打造两地三中心灾备架构,满足更高等级保护需求;
5、高可用云服务,能够提供智能的灾备运维,简化管理复杂度;
三、高可用表现有在哪些层面?
高可用自下而上可分为三个层面。首先是资源高可用。就云平台而言,这通常指的是 IaaS 资源的高可用。IaaS 即 Infrastructure as a Service(基础设施即服务), 一般指的是云平台为用户提供的 IT 基础架构服务,如计算、存储、网络等,类似于大家生活中使用的水和电一样。
其次是应用高可用。就云平台而言,这通常指的是 PaaS 服务高可用。PaaS 即 Platform as a Service(平台即服务), 一般指的是云平台为用户提供的中间件服务、数据库服务、日志服务、大数据处理服务等一系列应用支持服务。
最后是服务高可用。就云平台和对用户而言,这通常指的是 SaaS 服务高可用。SaaS 即 Software as a Service(软件即服务),一般我们指的是由软件提供商和服务商在互联网上直接提供给客户,通常是面向最终用户的多租户服务。
随着云平台建设从初期进入“深水区”,企业对云平台建设考虑的也从应用迁移上云,转向后续的运维、灾备、安全等在前期建设中容易忽视的场景。这些支撑服务型技术、应用的引入,也将贯穿在这三大层面上,成为进一步提高企业优化“降本增效”效果的重要手段。
结束语
自2006云计算兴起,到目前相关技术逐渐趋于成熟,高可用云平台建设已初见成效。尤其是经过三年疫情的催化,市场需求激增,政策持续加码,相应的数字化技术也不断突破。我们有理由相信,随着企业数字化转型进程加深,以及“上云“概念的普及化,高可用云服务大发展大应用的趋势必然势不可挡。未来企业业务的转型、迭代和突破,高可用云服务将是强大助力。届时上下齐心,必有所成。
发表评论