Xbox Series X 性能规格技术分析

cloudol · 发表于 2020-3-17 09:45 · 湖北

本帖最后由 cloudol 于 2020-3-17 18:19 编辑

CPU	8x ** @ 3.8 GHz (3.6 GHz w/ SMT) Custom Zen 2 CPU
GPU	12 TFLOPS, 52 CUs @ 1.825 GHz Custom RDNA 2 GPU
Die Size	360.45 mm2
Process	7nm Enhanced
Memory	16 GB GDDR6 w/ 320b bus
Memory Bandwidth	10GB @ 560 GB/s, 6GB @ 336 GB/s
Internal Storage	1 TB Custom NVME SSD
I/O Throughput	2.4 GB/s (Raw), 4.8 GB/s (Compressed, with custom hardware decompression block)
Expandable Storage	1 TB Expansion Card (matches internal storage exactly)
External Storage	USB 3.2 External HDD Support
Optical Drive	4K UHD Blu-Ray Drive
Performance Target	4K @ 60 FPS, Up to 120 FPS

GPU旁边一共10个GDDR6颗粒看df的图片和分析是1gb 2gb混合组合颗粒型号不一样。 gpu带宽是320bit
这个可以验证显存带宽=内存频率x位宽/8

14000x320/8=560gb/s 和官方数据一样是320bit 显存带宽数据是一致的

那系统内存位宽是192bit

浅蓝色的2个是cpu 一个4核心青色是gpu 边上的长条是内存控制器

8x ** @ 3.8 GHz (3.6 GHz w/ SMT) Custom Zen 2 CPU
cpu是2个CCX(浅蓝色) 1个CCX是4个核心，一共8个，不开超线程是3.8 开了是3.6，因为开了功耗会加大，对于游戏机其实8c就够了 8c16t必要不大，高频更实际。

3700x是32mb l3，不过xbox可能和apu 4800h一样 l3缓存阉割降低到8mb，这样可以降低比较多的成本。

之前的xbx和ps4的美洲豹基本就是atom级别规模+乱序执行还打不过现在手机cpu

3700x 3800x游戏时候频率基本在4.2-4.3GHz 但在4k分辨率下瓶颈肯定还是在gpu 不超过100fps 这0.4ghz频率无所谓

tsmc 7nm本质还是lp工艺首先是为功耗优化在低频低压功耗温度极好但频率电压上升功耗温度提升很大，所以从散热考虑只能低频够用就好。这个cpu满载我估计也就45w水平而且实际游戏根本满载不了

gpu也是一样思路用规模弥补频率。

12 TFLOPS, 52 CUs @ 1.825 GHz Custom RDNA 2 GPU

64SP X 52CU X 1.825GHz X2=12.1T 这个验证单个CU是64SP 总共是 3328 SP 估计架构上和NAVI差别不大
不同架构的flops没可比性含金量大概是turing>RDNA2>GCN

不过RDNA2和RNDA1还是有可比性，5700XT是40cu 2560sp 10t不到,XBOX大概强20% 这样基本还是有2080 super的传统游戏性能。

5700xt 8g现在的价格大概是3000，比5700xt强20% 10GB 你们说值多少钱？

核心面积是360mm2 之前预估400mm2明显是过于乐观的估计，之前的xbx大概也是360mm2 因此这还算个比较合适的规格。
Without hardware acceleration, this work could have been done in the shaders, but would have consumed over 13 TFLOPs alone. For the Xbox Series X, this work is offloaded onto dedicated hardware and the shader can continue to run in parallel with full performance. In other words, Series X can effectively tap the equivalent of well over 25 TFLOPs of performance while ray tracing.

如果没有硬件加速，这项工作本来可以在着色器中完成，但光消耗就超过13 TFLOPs。对于Xbox Series X，这项工作被转移到专用的硬件上，着色器可以继续以完全的性能并行运行。换句话说，Xbox Series X可以有效地利用超过25 TFLOPs的性能，同时进行射线跟踪。

这个翻译是准确的 rdna2应该还是有独立的rt **

光线追踪之后需要有一个降噪的过程 2080TI这代turing是用独立tensor core做的降噪。

n卡现在有dlss,就是深度学习超采样简单的说法就是通过类似手机美颜的方式将画面从1080p美颜到4k 而需要的性能很少，这部分也是用独立的tensor core做的。

Right now, it's diffi** to accurately quantify the kind of improvement to visual quality and performance we'll see over time, because while there are obvious parallels to current-gen machines, the mixture of new hardware and new APIs allows for very different workloads to run on the GPU. Machine learning is a feature we've **ed in the past, most notably with Nvidia's Turing architecture and the firm's DLSS AI upscaling. The RDNA 2 architecture used in Series X does not have tensor core equivalents, but Microsoft and AMD have come up with a novel, efficient solution based on ** shader **. With over 12 teraflops of FP32 compute, RDNA 2 also allows for double that with FP16 (yes, rapid-packed math is back). However, machine learning workloads often use much lower precision than that, so the RDNA 2 shaders were adapted still further.

"We knew that many inference algorithms need only 8-bit and 4-bit integer positions for weights and the math operations involving those weights comprise the bulk of the performance overhead for those algorithms," says Andrew Goossen. "So we added special hardware support for this specific scenario. The result is that Series X offers 49 TOPS for 8-bit integer operations and 97 TOPS for 4-bit integer operations. Note that the weights are integers, so those are TOPS and not TFLOPs. The net result is that Series X offers unparalleled intelligence for machine learning."

但RNDA 2没有tensor core，深度学习主要是用的INT整数性能，RDNA 2可以将12T的FP32拆开处理，49Tops的int8和97 tops的int4（2080ti tensorcore int8是227 int4是455），这样可以用较低的性能花费实现4k分辨率输出。不过和n卡比,n卡是使用的独立tensor core，不影响图形性能，而rnda 2使用fp32做深度学习dlss或者光追降噪，还是会影响fp32的图形性能。

这个是nv ppt里运行地铁渲染1 frame的对比绿色是rt core加速部分紫色是tensor core加速部分紫色是 int32加速部分在turing上这些可以和灰色的fp32并行处理基本没有干扰

但rdna 2只有绿色的rtcore部分而且效能不明紫色部分由于没有tensor core只能用fp32跑int4/8 并且不能并行性能大概是2080ti的1/4不到

游戏除了dxr本身也有些int的需求，这部分也要用int跑因此一个frame的渲染时间是肯定会变长的。

2.4 GB/s (Raw), 4.8 GB/s (Compressed, with custom hardware decompression block)
SSD的数据是2.4GB/S 未压缩 4.8GB/S压缩这个硬件解压其实也不是什么新东西 10年前sf2281主控就有

比方1010101001011111111111100011110 这样的数据把大量重复位用10个1来标记简单处理提升性能

并且游戏的数据本身压缩率很高，不会有什么压缩空间，基本就是2.4GB/S的性能。不过4.8GB/S的接口速度是超过了PCIE 4X 3.0的速度，因此总线和SSD是pcie 4.0 4x的。

现在1tb nvme qlc 660p大概需要700 ms大批量成本可能要500

50LCPHSOG[_$GQLIR`W(86B.png

这个是外置的1TB扩展卡私有标准希捷生产价格不好说可能比较类似nikon的XQD卡不过XQD卡是独占排他价格是打劫 120GB要1000多这个东西如果贵直接用usb 3.2 ssd就可以没必要被坑。
F1ZCL9YPB6@8`1J8V8C0ZC9.png

我准备用浦科特ex1 plus这种外置usb ssd做扩展储存

79TL]}{KI57}2KJSLF~}Z}H.jpg

最左边是风扇右上是光驱光驱左边是内置电源下面是主板主板有2片在各金属框架内最下面是散热器，用了均热板，估计有250W以上散热能力(如果风扇转速足够高的情况下)，从DF的视频看，拆解很容易，应该比较好维修。

8C16T RYZEN 7+52CU显卡 16GB GDDR6 UHD BD+1tb nvme SSD 这样的组合多少钱是个问题。我个人觉得599甚至699美元都不贵。

显示全部楼层 · 发表于 2020-3-17 09:50 · 浙江

这种文章厉害
有理有据

zgc0001 · 发表于 2020-3-17 09:53 · 北京

699对于PC来说应该不贵，但是对于主机有点离谱了

阿萨斯 · 发表于 2020-3-17 09:54 · 福建

我觉得那个SSD扩展卡有猫腻，按DF访谈说，他的接口速度和内建的SSD一样，如果这个PCIE 4.0接口扩展卡是一个显卡，而不是硬盘，那是不是说XSX可以插第二块显卡提升性能？

显示全部楼层 · 发表于 2020-3-17 09:58 · 浙江

本帖最后由 lovinglili 于 2020-3-17 09:59 编辑

扩展卡是专用的吧，不然会出现大批量转换成USB给电脑用
而且价格下不去

不过，反过来应该有普通TF卡或者U盘转接的转换口出现的

显示全部楼层 · 发表于 2020-3-17 10:01 · 澳大利亚

阿萨斯发表于 2020-3-17 09:54
我觉得那个SSD扩展卡有猫腻，按DF访谈说，他的接口速度和内建的SSD一样，如果这个PCIE 4.0接口扩展卡是一个 ...

我不是很懂硬件。

就好奇。

再插一块显卡，供电能供上吗？

cloudol · 发表于 2020-3-17 10:01 · 湖北

lovinglili 发表于 2020-3-17 09:58
扩展卡是专用的吧，不然会出现大批量转换成USB给电脑用
而且价格下不去

其实可以把主控做在游戏机里卡只是nand 这样可以降低成本

显示全部楼层 · 发表于 2020-3-17 10:04 · 浙江

cloudol 发表于 2020-3-17 10:01
其实可以把主控做在游戏机里卡只是nand 这样可以降低成本

好想法，这样你都不能拿去改装当别的使用了
除非自己再做个主控，这样比单独买SSD 的U盘还贵了不少

月夏夏 · 发表于 2020-3-17 10:07 · 广东

硬盘盒，是2.5英寸的，还是3.5英寸的？

500软妹子不到就能搞个4T机械的，ssd的话500最多只能搞个闲鱼1T的。

arex · 发表于 2020-3-17 10:08 · 陕西

开光追的情况下，性能是否可以和2080ti打平？

		自动登录	找回密码
密码			注册

[XB1] Xbox Series X 性能规格技术分析