正文内容 评论(0)
【RDNA 4架构解读】
其实,按照前几代AMD显卡的命名规则延续下来,RX 9070 XT、RX 9070应该分别是RX 8800 XT、RX 8800。
AMD官方的说法是,为了和自家处理器命名体系保持统一、方便玩家识别和搭配,AMD选择了新的名字。
另外,AMD这一次临时放弃旗舰之争,没有对标RTX 5090/5080系列的产品,RX 9070系列对位的是RTX 5070系列,但是从价格和官方公布的性能指标来看,非常有希望重现“甜点”辉煌。
我们之前曾和大家分享过RDNA 4新架构的一些概要设计、技术亮点,这次会稍微深入一点,但也不会过于深入,大家简单了解就好了,毕竟这些都是相对次要的,关键还要看性能。
如果什么意外,这应该是最后一代RDNA,以后就是图形、计算统一架构UDNA的天下了,更适应这个AI时代。
RDNA 4架构的基本模块还是CU计算单元,一如隔壁的SM流式多处理器,已经多年未变,但是内部结构经过了重新设计。
图中所示其实是两组CU单元,每一组包括两个双SIMD矢量(向量)单元、一个标量单元、两个AI加速器、一个光追加速器、两个调度器、一个纹理单元、一个载入/存储单元,以及L0缓存。
同时,两组CU共享缓存和内存,从而紧密联系在一起。
对比RDNA 3中的CU单元,这次经过改造后,重点增强了显存子系统的管理以高效处理显存请求,加强了AI的地位以提升FSR性能,扩展了标量单元的指令集,强化了寄存器的动态分配,并提升了整体效率和时钟频率,可以轻松跑到3GHz之上。
AI加速器升级为全新的第二代,支持结构化稀疏性等推理优化技术,支持16/8/4bit Tensor输入,新增FP8数据格式,但不像RTX 50系列那样支持FP4。
每一个AI加速器内,都包含64单元矩阵加速器、16/32bit累加器、32宽度FMA(融合乘积累加) SIMD单元、32宽度FMA/INT(整数) SIMD单元、8宽度TLU(阈值逻辑)单元。
特别加入了用于AI计算的额外数学流水线,从而更高效地处理高级AI模型。
按照AMD官方的说法,二代AI加速器的FP16浮点性能提升了2倍、INT8整数性能提升了4倍,稀疏化下的FP16、INT8性能则分别提升4倍、8倍。
可以简单地理解为,AI性能提升了最多8倍。
光追加速器则升级为第三代,包括一个光线加速器、一个光线转换引擎、两个光线交叉引擎、一个遍历堆栈管理单元等等,显然和NVIDIA走的完全不同的思路。
AMD宣称,通过增加一个光线交叉引擎,以及支持更先进的光追技术,RDNA 4每个CU单元的光追吞吐量都翻了一倍。
2005年,也就是 Radeon 9550的时代,AMD曾经发布过一个名为“The Toy Shop”(玩具商店)的演示DEMO,异常惊艳。
20年后的今天,利用强大的RDNA4架构,AMD打造了重制版的“玩具商店”,融入最新的光追等渲染技术,画面效果可谓翻天覆地。
另外,RDNA 4还升级了Radiance Display显示引擎与多媒体引擎,VMAF视频质量评估比上代提升最多20%,支持AI视频过滤、AI降噪,编码视频流数量和会话次数都没有限制,对直播更加友好,并加速了后期处理效果,
视频编解码继续支持H.264、H.265(HEVC)、AV1,依然没有加入H.266(VCC),而最高分辨率位8K80FPS。
显示输出支持最高8K144分辨率和刷新率,具有12位HDR和全REC2020色彩空间,小幅升级支持HDMI 2.1b、DisplayPort 2.1a,相比隔壁的DisplayPort 2.1b略逊一筹,不过后者主要是增加了UHBR20 80Gbps模式,影响不大,短期内不会有人用到。
另外,AMD也终于支持了PCIe 5.0。
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...