一. 蒙古骑兵和中国高铁
蒙古骑兵的“三骑一”。
成吉思汗麾下的铁骑,每个骑兵要备三匹马,征战时骑一带二,轮流骑乘。所以当年的蒙古骑兵才可以一日千里纵横四海。
轨道交通中的“三取二”。
高铁机车计算机控制系统里有三台一模一样的电脑,上传下达的控制信号首先要由这三台电脑同时计算,只有至少两台电脑的计算结果一致时,控制信号才能被认可和执行,所以数百公里时速的高速列车才能安全无虞。
那么两匹马够不够用呢?如果是小媳妇回娘家,只要骑头驴都够了。
两匹马不是不可以,可是成吉思汗征服世界就需要三匹马,关键是有没有?
三台电脑够不够?
如果玩网游,一个上网本就够了。
两台电脑容错当然可以,所谓HA双机容错系统不就是这样的双冗余服务器吗?可是高铁为保障高速运输安全就是需要三台电脑冗余,问题是能不能设计得出来这样的“三取二”系统?
问题继续。
四匹马有没有?四台电脑冗余行不行?
四匹马的事只有成吉思汗能回答。至于四台电脑能不能做冗余?NEC回答了这个问题。
NEC 最新推出的4D容错服务器,在一个2U机箱里集成了四个电脑,这四个计算单元不仅能进行多种形式的冗余配置,而且可以做VMware环境中的集群管理,而且,能在40度高温中工作,而且,性能价格比让人心动。
二. 先说一说NEC
中国民间有句古话:要知道一个姑娘怎么样, 看看她妈就知道了。
在讨论NEC 的4D服务器之前,我们也先看看NEC。
NEC 这个公司有点奇怪,在中国虽不至于陌生,但对国人来说,也说不上有多大了解。
但是NEC在日本可是大名鼎鼎。NEC是日本最大的IT企业之一,规模大过中国联想,电脑销售稳居日本第一,日本商店的POS机、街边的加油站计费器都随处可见NEC的商标。
NEC的IT产品线很全面,包括平板电脑、台式机、PC服务器、容错服务器、刀片服务器、HPC超算服务器、磁盘阵列、磁带库等,不仅如此,日本国家地震中心的近百台大型计算机也是NEC的招牌产品,而且上到卫星导航,下到汽车控制都有NEC的身影。NEC每年在东京举办的年度展览会是日本IT年度盛会,规模甚至可以和京交会媲美。
但NEC的IT研发思路更是不同寻常。
现在计算机的制冷方式大都是风冷,而NEC就反其道而行之,成功研发推广了水冷静音服务器。
风冷,很方便;水冷静音,很人文。
大家都在追求磁盘阵列内的硬盘数目时,NEC却又另辟奇径,推出了大压缩比磁盘阵列,让你的物理容量以一当十。
这就是NEC的另一个特点:你大,我强。
十年前HA双机容错系统很是流行,而NEC却投入巨资研发成功了IT业界第一台硬容错服务器,实现了CPU指令同步和内存数据保存,终于实现了零秒百分之百的切换,终结了双机软容错时代。
做到极致,这是NEC的又一个特点
当大家都以为NEC彻底摒弃了软件容错模式时,NEC又推出了这款4D冗余服务器,在强调集成度、性价比和能耗的同时,将双机软容错的概念一口气推广到四机一体软容错。
IT产品连成线,同种产品高低配。因为顾客从来不喜欢只有一样主菜的菜单。
NEC积极活跃的、精明的、人文的技术思路也是NEC推陈出新长盛不衰的保证,对国内一些IT制造企业来说,NEC的研发特点或许有很好的借鉴作用。
三. 回到 NEC 4D冗余服务器
1. 高集成度
2U高度 19英寸宽度的机箱是个什么概念?不到10厘米高,50厘米宽,大致相当于办公桌的一个抽屉。
在这样的机箱里集成四台电脑,每个电脑作为一个计算单元,包括CPU、内存、硬盘、扩展插槽等,这样的集成度是非常密集的。这种集成方式不同于刀片服务器,刀片服务器中每个刀片是不带硬盘和PCI扩展槽的,否则刀片服务器将会变得很臃肿。
密集集成首要的问题是散热。NEC的4D冗余服务器在散热问题的解决上境界不低:不仅解决了散热问题,而且保证系统可以在40度高温中正常运行。
同样的性能,你是喜欢抽屉大小还是冰箱大小?更高的性能伴随更小的物理尺寸,这是IT业界的潮流,一台机器装满半间机房的时代已经一去不复返了。
2. 灵活的管控模式
四个计算单元这么搭组?NEC从手段上提供了所有的可能,但是其中是有伯仲之分的。
1)4+0: 绝对追求处理能力
四个计算单元全部投入计算,不考虑容错问题。
此时4D服务器就有两种变形可能:
第一种:四个计算单元各自承担不同的工作;
第二种:可以通过VMware的虚拟化,将这四个计算单元整合成一台更强的计算机,这就是集群概念的具体应用,NEC也提供相应的集群管理软件。
2)3+1: 处理能力和容错性能兼顾
根据以上模式,将四台处理单元中的一台单独拿出来,作为其他三个单元的备用机。容错机制依然是软件容错,备用单元与三个处理单元分别分成HA双机容错 系统,三个处理单元依然可以按上述的两种工作方式分别工作或组成集群一起工作。
3)2+2: 处理能力和容错性能均分
可以结成两组一一对应的HA双机软容错系统。也可以再复杂一点,两个处理单元和两个备用单元形成不指定的全局容错对应关系。
以上三种工作模式中,单从性能价格比来说,最为理想的是第二种,即所谓的“3+1”模式。
但模式的选择都必须由具体应用需求决定。如果从管理的清晰性和集成的紧密性来看,“2+2”模式也是很不错的选择。
四.鱼和熊掌的平衡
一台计算机,从使者的角度来看,即希望处理速度快,又希望安全稳定。
鱼和熊掌可以兼得吗?
答案是可以兼得,但必须有轻重之分。
硬容错服务器重点在于安全保障,在最坏情况下(如主单元掉电、CPU故障、内存芯片失灵、硬盘崩溃等),保证作业零秒无间隙切换。这是容错的最高境界。在一些特别关键的场合,如关卡计费、实时监控、金融交易、生产线、试验场等应用中特别适合。
容错服务器的计算性能相对于其安全性,则只能处在次要位置。虽然也可以选择更多路的CPU、更大的内存,但因为容错服务器中是需要专门的容错硬件芯片和容错电路进行控制的,其成本也是水涨船高,而且涨幅会很快。
4D冗余服务器有更灵活的组合方式,可以组合出更强大的计算能力,也可以组合出有高可靠性的工作方式。但是我们必须知道,4D冗余服务器在容错性能上,就像以前的HA双机容错系统一样,是基于软件进行容错的。虽然4D冗余服务器在结构和性能上相对HA双机软容错系统有了长足的长进,但是在容错的彻底性上到底还是比不过硬容错服务器。
最后需要提及容错技术中一个常见的泡沫。
在双机软容错系统中,经常见到这样的介绍:两台机器平时可以各自工作,一台故障时,故障机上的作业可以由容错软件切换到正常机上自动运行。
这是一个看上去挺美的技术泡沫,自打二十年前HA双机容错诞生时一直讲到今天。
两个壮硕的蒙古骑兵,当其中一个的战马倒下后,两个人再合乘一匹马继续战斗。
继续战斗?逃跑可能都来不及了。 戳破泡沫的道理其实就这么简单。
(新闻稿 2015-01-05)