漫谈多云Multi-Cloud系列(一): 解析多云的需求

99%的企业都不需要采用多云架构,这个99%应该还是保守的数字。

每当某家公有云服务出了一次故障,关于企业应该采用多云架构的呼声便喧嚣尘上,加上也有好友咨询我相关问题,正好也说说我的观点吧。

我个人观点是99%的企业都不需要采用多云架构,这个99%应该还是保守的数字。我大致是这么算的

  1. 至少90%的企业其实没有多云的需求
  2. 剩下的10%企业里有至少90%没有能力可以维护多云的架构

先说第一点,多云主要是解决在线业务容灾的问题,一家云挂了,可以切到另一家云。「在线业务」这个限定词很重要,因为只有当云厂挂的时间足够长到影响企业业务的时候,才会考虑切换的场景,这个只适用于实时在线业务上。针对服务可用时间的问题,云服务提供商对外会提供SLA (Service Level Agreement),内部会有SLO (Service Level Objective),SLO的标准通常要高于SLA, 起警戒线的作用,一旦内部的SLO被打破了,内部团队必须立马采取行动,防止情况恶化,以免外部的SLA也被打破。目前业界第一梯队的SLA,机房级的99.9%,城市级的99.99%,跨城市级的99.999%,俗称3个9,4个9,5个9,对应到1个月的服务不可用时间分别大致是 43分钟/4分钟/26秒。这个数字也不是云厂拍脑袋给出来的,因为云厂内部还有一个SLI (Service Level Indicator)来实时度量可用率指标,做到上面的数字并不容易,是多年的技改,各种单元化,无数工程师的发际线换来的。所以看一家云厂的实力,产品能力看产品线,技术能力其实最重要的是可用率,性能指标之类倒是其次。再回到数字本身,绝大多数业务一年里4分钟的不可用应该是完全可以接受的,所以首先要做的是改造业务,使用至少提供城市级容灾能力的云服务。除此之外,还可以进行一系列自身的业务改造,比如在云服务不可用时,能够进行服务降级,牺牲一点服务质量。这些能进一步地把不可用时间降低。

当然啦,较真点的同学会说,SLA放在那里就是为了应对被打破的嘛,最近几年无论国内外,都出现过黑天鹅事件,确实大大地打破了SLA。那么首先出现这些事件,云厂商都会提供赔偿,而且性质越严重的,往往会提供远高于合同的赔偿,可以弥补一定的损失(写到这,忽然想到针对云计算的这个场景或许可以孵化出一个保险业务)。当然再较真的一点同学会说,故障给品牌甚至人身带来的伤害,都是金钱无法弥补的,这个说法确实没错,所以下一篇我会说说企业采用多云,并且真的让多云实际落地会面临的一系列挑战,以及一些多云的实施策略。

Subscribe to 天舟的云游格

Don’t miss out on the latest issues. Sign up now to get access to the library of members-only issues.
jamie@example.com
Subscribe