By Tianzhou Chen in Engineering — Mar 10, 2019

漫谈多云Multi-Cloud系列(一): 解析多云的需求

99%的企业都不需要采用多云架构，这个99%应该还是保守的数字。

每当某家公有云服务出了一次故障，关于企业应该采用多云架构的呼声便喧嚣尘上，加上也有好友咨询我相关问题，正好也说说我的观点吧。

我个人观点是99%的企业都不需要采用多云架构，这个99%应该还是保守的数字。我大致是这么算的

至少90%的企业其实没有多云的需求
剩下的10%企业里有至少90%没有能力可以维护多云的架构

先说第一点，多云主要是解决在线业务容灾的问题，一家云挂了，可以切到另一家云。「在线业务」这个限定词很重要，因为只有当云厂挂的时间足够长到影响企业业务的时候，才会考虑切换的场景，这个只适用于实时在线业务上。针对服务可用时间的问题，云服务提供商对外会提供SLA (Service Level Agreement)，内部会有SLO (Service Level Objective)，SLO的标准通常要高于SLA，起警戒线的作用，一旦内部的SLO被打破了，内部团队必须立马采取行动，防止情况恶化，以免外部的SLA也被打破。目前业界第一梯队的SLA，机房级的99.9%，城市级的99.99%，跨城市级的99.999%，俗称3个9，4个9，5个9，对应到1个月的服务不可用时间分别大致是 43分钟/4分钟/26秒。这个数字也不是云厂拍脑袋给出来的，因为云厂内部还有一个SLI (Service Level Indicator)来实时度量可用率指标，做到上面的数字并不容易，是多年的技改，各种单元化，无数工程师的发际线换来的。所以看一家云厂的实力，产品能力看产品线，技术能力其实最重要的是可用率，性能指标之类倒是其次。再回到数字本身，绝大多数业务一年里4分钟的不可用应该是完全可以接受的，所以首先要做的是改造业务，使用至少提供城市级容灾能力的云服务。除此之外，还可以进行一系列自身的业务改造，比如在云服务不可用时，能够进行服务降级，牺牲一点服务质量。这些能进一步地把不可用时间降低。

当然啦，较真点的同学会说，SLA放在那里就是为了应对被打破的嘛，最近几年无论国内外，都出现过黑天鹅事件，确实大大地打破了SLA。那么首先出现这些事件，云厂商都会提供赔偿，而且性质越严重的，往往会提供远高于合同的赔偿，可以弥补一定的损失（写到这，忽然想到针对云计算的这个场景或许可以孵化出一个保险业务）。当然再较真的一点同学会说，故障给品牌甚至人身带来的伤害，都是金钱无法弥补的，这个说法确实没错，所以下一篇我会说说企业采用多云，并且真的让多云实际落地会面临的一系列挑战，以及一些多云的实施策略。

Subscribe to 天舟的云游格