zw版万元GPU工作站 秒 nv百万DGX

zw版万元GPU工作站 秒 nv百万DGX

 

这几天,nv的黄总,又爆了个大新闻,nv百万超算工作站 ,DGX A100,这个算是DGX系列第三代工作站产品了。

请大家关注TOP极宽量化公众号,大量原创Python量化技术资料和课件、案例源码。
目前推广期间,关注公众号,即可免费浏览。

DGX百万集工作站,采用的是 Tesla 系列专业计算卡,和民用的GTX系列显卡,主要是增加了32位精度的运算,大约比同期GTX快2-3倍,但价格贵10倍。
这个模式,也是intel高端服务器e系列的定价模式,一块e7,单核可能还不如同期i7,只是内核多一点,价格要到上万美元,是i7的10倍以上。
DGX前面两代也都是百万级的,商业上都比较失败,这个第三代,感觉也没戏,现在的经济大环境,更加恶劣。
因为DGX这个百万级的工作站,性价比太低了,而且目标客户,大学老师,也没钱。
也许,欧美一线大学有钱,但并不是所有大学都有钱。而且大学教授,不是商人,更加属于清贫者。
而且,nv的这个定价政策,把一线的AI研发人员,基本上全部得罪了,nv设想的32位模式,基本上没有人搭理。
于是,github上面,新崛起的int8位AI模型和项目,无论从数量还是性能上,都秒杀nv的提倡的32位高精度体系。
就像intel挤牙膏,逼出了amd的当前zen系列,还有移动平台的arm,把自己整的目前也是欲仙欲死。

也许,nv的目标市场,是bat,谷歌,facebook这种土豪。
问题是,谷歌,facebook,财大气粗,也不乏精通硬件的高手,TPU系列芯片,横空出世。
国内的bat,技术上可能差一点,不过商业投资,也是需要考虑财务压力的。
百度,无疑是国内ai的先驱,感觉快变成先烈了,gtx9世代,被吴某人花言巧语,投了n亿的硬件设备,结果,错过了nv历史上罕见的一代神卡:gtx10系列,现在再想大额增加设备投资,已经缺乏后劲。
百度主打的pp架构,原本是国内唯一的自主AI体系,加上这几年智慧城市和政府扶持,目前正好是市场收购的现金奶牛。
结果,寒武纪、麒麟、太极,连一些没听说的大学团队,创业公司,也开始推出所谓的自主ai架构,虽然可能就是在tf、torch,甚至python上面,加了个马甲。
可是,政府官员谁知道ai的技术细节,政府关系,理工科的百度,肯定也玩不过这些乱七八糟的关系人士。
国际上,pp架构的知名度,连后来居上的mxnet都不如,这点,github可以看看各自的关联项目。
pp-hub,本身是目前的市场商业热点,pp-hub的官方架构,居然还是cuda9版本,居然连发布一年多的cuda10,都不支持,由此可见pp团队,内部运营管理,出了很多问题。

这些题外话打住。
这几天,在qq群,刚好也在聊硬件和土豪。
bat这些土豪,有钱也不一定会买dgx,真正有钱的豪哥,买的都是四路e7系列的小型机。
工作站,服务器,讲究的是性价比,土豪从来不玩性价比。
你看看,lv有性价比吗?
玛莎、宾利,什么时候谈过性价比?
国内一般企业,性价比,一般都是e5双路,四路e7 才真土豪
四路e7系列,标配都差不多一百万一套 , 小型机标准,全世界,主要玩家,也就是ibm,oracle。
预付款一百万现金,正常,3个月内交货,不正常,慢慢等吧。国外禁运主要就是卡这类高端设备。

国内很多上市的IT公司,可能一套e7都没有。
有熟悉bat的,可以问问,公司有多少高配e7小型机,特别是今年新版本的。
老的不值钱,这个也是土豪特点,折旧太快。
一年,十倍速贬值。

这种十倍速贬值,对于我们这些喜欢折腾的程序员,极客而言,却是一种好事。
《TOP极宽量化工作站个人版裸机配置与测试》http://www.topquant.vip/?p=695

这个是几年前2018的blog,现在看来,也不错,只是相应配置,都可以上一个台阶,cpu可以从e5-26xx v1版本,换成较新的e5-28xx v3、v4版本,ssd固态,内存,现在差不多白菜价,按最高配置整。
GPU,一代神卡1080TI,咸鱼价也不过4000左右。
虽然一般的服务器主板,只支持双路由GPU显卡,不过有pci扩展卡,多少张GPU都行;
野蛮暴力一点的,可以直接用btc矿卡主板,标配都支持8块gpu,还有支持128块gpu的。
电源方面,需要大功率,一张1080ti,350w,八张差不多2000w,还好,长城的金龙电源,真正的24×7工业级电源,矿老板首选,比什么游戏级别的海盗电源强多了。
还有更大的4000w,或者双路2000w,足够支持16张1080ti。

【ps】
DGX 配的Tesla A100 GPU,单卡算力约19.5TFLOPS,6912个CUDA核心;1080TI,单卡算力约15TFLOPS,3584个CUDA核心;
A100的cuda核心虽然比1080ti多了一倍,但算力只快了5T,约25-30%。A100对应的是GTX30系列,这个系列的关键是节能,号称同样性能下,节能70%。

两块1080ti,30T算力,A100的算力19.5T。
很多网友,虽然数学都是体育老师教的。不过这样的对比计算,怎么算,都秒的A100没话说。

zw高配版本,16块1080TI,直接秒nv黄老板新出DGX A100-8块GPU,一点压力没有,虽然A100报价140万。
16块显卡,每块4000,总数5.6w,服务器其他配置,主板,cpu,内存,包括4k级别的32寸显示器,带鱼屏贵一点,2-3w也差不多了。

标配8块10801TI,大约5w人民币,算力差不多也是DGX的60%以上。
这个还是zw土豪版本的配置,金融行业,做量化的,相对资金方面宽裕一点。
如果换成面向平民大众的乞丐版本,可以直接用1块标准1080TI显卡,配7块p102的矿卡(咸鱼价1000只有),算力差不多,全套8路GPU超算服务器下来,2w人民币不到。

当然,这些都是工程师思维。
有钱的金融机构,可以无视。

【ps】
一代神卡:1080TI
知乎:https://www.zhihu.com/question/352818103
1080Ti的历史背景是这样的。当年AMD战忽部门放了一堆ppt,说是要搞个大新闻。老黄心里一慌赶紧把家底都抖搂出来了,刀法上手一抖,搞出来了1080Ti这个东西。后来才大呼上当。
这张卡算是老黄出过最有诚意的一张卡了,所以直到今天都很能打。

ps:141万元!NVIDIA发布安培个人超算:八路GPU、双路AMD 64核心
https://news.cnblogs.com/n/661956/

5 月 14 日晚间,NVIDIA 终于发布了期待已久的全新“安培”(Ampere)架构,又一个核弹级的 GPU 芯片,当然它面向的不是 PC 游戏市场,而是人工智能、深度学习、高性能计算、大数据等等尖端领域。

宣布新架构的同时,NVIDIA 也发布了相应的第三代工作站“DGX A100”,或者按照 NVIDIA 的说法叫做个人超级计算机,可以支持在桌面端进行 AI 研究,并扩展到云端。

DGX A100 内部配备了八颗安培架构的 Tesla A100 GPU,每一颗整合 40GB HBM2 高带宽显存,总容量达 320GB。

每颗 GPU 均支持多达 12 路的 NVLink 互连总线,GPU-GPU 带宽高达 600GB/s,可保证八颗 GPU 彼此完全互连,同时还有 6 颗 NVIDIA NVSwitch 芯片,双向带宽高达 4.8TB/s。

不过从示意图上可以看出,每颗 GPU 周围其实有六颗 HBM2 显存芯片,很显然有一颗没有启用,剩下的五颗单颗容量 8GB 从而组成 40GB。这意味着,A100 核心现在应该也是屏蔽了六分之一的规模。

网络方面配备了刚完成收购的 Mellanox 的解决方案,包括八颗单端口 ConnectX-6 VPI 用于聚类,峰值性能 200GB/s,以及一颗双端口 ConnectX-6 VPI 用于数据与存储网络。

有趣的是,搭配的 CPU 处理器这次抛弃了 Intel 至强,改而使用两颗 AMD 二代霄龙(Rome),且是顶级的 64 核心型号,同时搭配 1TB DDR4 内存、15TB PCIe 4.0 NVMe SSD 固态硬盘。

黄仁勋称这是“世界上最大的显卡”,不算外壳单单是其中的计算板加散热器就有 45 斤的重量,集成超过 3 万个不同组件,钻孔数量多达 100 万个,连接电路长达 1 公里。

NVIDIA 宣称,DGX A100 系统单节点的峰值性能为:INT8 10 PetaOPS (每秒 1 亿亿次整数运算)、FP16 5 PFlops (每秒 5 千万亿次半精度浮点运算)、TF32 2.5 PFlops (每秒 2.5 千万亿次运算)、FP64 156 TFlops (每秒 156 万亿次双精度浮点运算)。

相比于高端 CPU 服务器,它的 AI 计算性能要高出 150 倍,内存带宽高出 40 倍,IO 带宽也高出 40 倍。

NVIDIA DGX A100 个人超算现已上市,售价 19.9 万美元,约合人民币 141 万元。

请大家关注TOP极宽量化公众号,大量原创Python量化技术资料和课件、案例源码。
目前推广期间,关注公众号,即可免费浏览。

发表评论

电子邮件地址不会被公开。 必填项已用*标注