雷晓晨

金鹰国际集团【解密】双11 黑五背后的那些黑科技-浪潮服务器

【解密】双11 黑五背后的那些黑科技-浪潮服务器



双11的热度还未褪去
黑五、圣诞的狂潮又即将来袭
几年前
我们无法想象一个计算平台
能支撑25.6万笔/秒的支付峰值
也不能想象每秒4200万次数据库处理
需要什么样的架构
今天
双11和“黑五”等购物狂潮
让这些成为现实
而在这背后
帮助电商从容应对的“黑科技”都有哪些?
一天制作4000万张海报的AI设计师?
相信在双11之前,大家都被一则“卖秋裤”的h5刷过屏,里面提到一个牛人设计师鲁班,他能够每天设计4000万张海报,并且能够根据不同的产品、不同的诉求迅速做出符合搭配的海报。当然,鲁班不是人,他是阿里巴巴最新发布的AI设计师。在双11期间,鲁班共设计了4亿张海报。

那鲁班是怎样工作的怪谈协会?其实类似鲁班的这种AI需要的是大量已标记的数据、高效的算法和强大的计算平台,并通过用较长的时间来进行反复的训练。而这需要比CPU更优的并行计算能力,GPU就是目前最好的选择。AI图片聚类训练通常至少需要几十万个样本进行十几万次训练迭代,为了保证模型能在有限的时间内做到足够收敛,某些模型甚至需要超过200片GPU卡以AI服务器集群的方式并行。

因此,选用更高密度、更高效率的GPU服务器就成为快速、精准模型训练的关键。浪潮NF5288M5就是目前业界最高密度的GPU服务器,它在2U空间内支持部署8块NVLink或PCI-E接口的NVIDIATeslaV100GPU,可以在不依赖CPU的前提下,实现机内点到点通讯,减少了异构通讯的次数,GPU间高达300GB/s的互连带宽,林正宏并提供极低的延迟,让多块GPU并行的效率大幅提升超过60%。

在AI深度学习模型训练上,当采用TensorFlow框架和GoogLeNet模型,NF5288M5处理速度可以达到每秒1165幅图,是搭配4片TeslaM40的NF5288M4性能的2.49倍。与浪潮支持2U4卡的NF5288M4对比测试,NF5288M5采用P100的Linpack浮点运算性能达29.33TFLOPS,是同样采用P100NF5288M4的2.47倍。
“拍照购”如何让机器找到每个产品?
“拍照购”是淘宝上线多年的一个功能,但从今年双11期间的实际体验来看,拍照购的速度和精度都有明显的提升。据阿里公布的数据显示,今年双11当天通过拍立淘搜索的图片数量超过4000万张骑士风云录。为何机器能够精准地找到与照片一样的商品?

其实与鲁班类似御朱门,拍立淘的本质也是图片的识别和处理,通过商品预分类-检测前景对象-提取CNN特征和局部特征-离线建立特征库-提取索引目标特征并在线推理-根据不同的优化目标重新排序这6个步骤,建立照片与商品间的关联金鹰国际集团。
之前,图片的模型训练过程通常由GPU服务器来承担,在线推理过程则由CPU或者GPU服务器来负责。模型训练过程正如上文所说,需要大量的计算,因此GPU的加入可以极大加速训练过程。但是在线上推理阶段,CPU和GPU服务器却都不是最好的选择。FPGA这种具有更低延迟、更高并发性能的新型加速卡成为目前在线推理重要的一支力量。
上个月,浪潮在云栖大会发布了基于浪潮F10A的AI线上推理加速方案,能够针对CNN卷积神经网络的相关算法进行优化和固化,可加速ResNet等神经网络,能够应用于图片分类、对象检测和人脸识别等应用场景。

实测数据显示,在进行ResNet残差网络的图片识别分类任务时薄连根,浪潮F10A加速方案图片处理速度可达每秒742张,Top-5识别准确率达到99.6%,相比同档次GPU能效比提升3倍以上。而与通用CPU对比,在处理这种高并行、小计算量的任务时,F10A的优势将更明显。
解放运维人员的“天巡”是否全能无敌傲世衍天?
每年双11,数据中心管理人员都必须对设备的运行容量参数、数据中心环境温湿度、空调运行状态及IT设备工作状态等进行全天24小时安全巡逻,保障各系统的安全可靠运行。虽然这是一项简单的工作,但是由于需要全天无休且重复性强,极为消耗人力物力。
为此无敌神皇,在双11期间,阿里巴巴华北数据中心的巡检工作将由智能运维机器人“阿里巴巴天巡”完成泸西天气预报。天巡采用3D激光雷达,能够在数据中心实现自主导航,独立完成巡检。机器人带有全景高精度摄像头、传感器,在巡检中可以完成温度、湿度、空气质量、电气参数、空调参数等监测工作。根据实际应用看,天巡不仅全天24小时巡检,而且接替了运维人员以往30%的重复性工作。

除了这部分简单、重复的任务,剩下的70%的任务目前仍需要人工的干预和处理。因此双11期间的工程师值守是每个电商企业都需要安排的重要工作。
双十一期间,浪潮向各大电商(如阿里巴巴、京东、苏宁等)派驻专业工程师,进行长达72小时的无休值守,对现场出现的问题进行快速定位和解决。并且这些工程师并不是临时、随意派驻的,所有的值守人员都需要经过浪潮服务器工程师认证培训及客户定制售后服务培训认证,并经过一个月的现场学习,通过最终考核后才能成为值守团队的一员。
举个例子海参全家福 ,为支援国内某顶级电商双十一,浪潮提前一个月就开始进行双十一保障准备,成立专项保障小组,在双十一前夕确认所有备件全部到达客户现场,在客户超过20个机房派驻现场服务工程师,并在总部设置超过50个工程师团队进行24小时待命(包括技术专家、备件管理团队、特殊应急小组),严格执行“1小时内定位故障,2小时内修复故障”邵春华。
在双11的推动下,数据中心在发生着天翻地覆的变革怒海归航,为了抵御互联网每年一次的最大网购流量冲击,电商数据中心几乎应用了互联网全部最前沿技术,在解决各种问题的同时又将技术升华。未来,或许目前仍需要人力保障的任务也将被替代隐婚七年,那时候AI将成为我们最得力的助手,“要让工程师们喝着茶度过双十一”这个愿景或许就将来临。
戳链接,更有料!
1、看IT人变身段子手,将双11调戏到底~
2、据说今天是小光棍节,必须高调征个友!
3、153天,一位浪潮人的双11交付日记
4、计算有温度,感恩要走心。我有酒追你好辛苦,你有故事吗?
5、当FPGA也成为一种服务,你还在顾虑什么?