IQOS维修 - terea

AMD的GPU系列04-AMD的TeraScale架构从VILW5到VLIW4

举报
该文章将AIGC内容生成和处理系列合集中,在公众号服务菜单中找到该合集更多的关于AIGC内容生成和处理的精彩文章.以大模型为...

该文章将AIGC内容生成和处理系列合集中,在公众号服务菜单中找到该合集更多的关于AIGC内容生成和处理的精彩文章。

以大模型为代表的AI人工智能引发的新一轮科技革命和产业变革正向纵深发展,千行百业将面临巨大的机遇和颠覆性的挑战。在内容生产领域,AIGC内容生成是推进新型媒体变革的关键力量,行业大模型的落地生根将为媒体企业探索新型媒体技术革命提供全新路径。

在这一轮AI的革命中AI硬件的板卡,是AI算力的核心,没有AI硬件算力提供支撑,再多的大模型也无济于事,哪怕一个最简单大模型参数微调都需要AI算力板卡提供支撑,要不就是要用开放的云资源,当然云资源背后也是专业的AI算力板卡。

同时我们也看到在AI算力基础设施上中国的短缺,现在的数据中心和云计算中心建设不在以CPU为核心,而是以GPU这种并行计方式为核心的模式铺开,这更要求我们要全面认识GPU的重要性。

本系列文章之前已经介绍了英伟达的GPU,该系列主要是介绍的是AMD在GPU方面的努力和其产品,有哪些技术上的特点和我们可以借鉴的地方。本期文章我们主要是介绍一下AMD的GPU架构中的TeraScale架构从VILW5到VLIW4都做了那些努力。

  1. 01.    AMD的TeraScale架构发展历史

AMD内部将GPU的发展分为了三个阶段。2002年之前、2002年到2006年、2007年到2012年,第一阶段2002年之前的GPU是固定单元,专注游戏性能,第二阶段2007年到2012年之间是简单渲染,第三阶段则是并行GPU运算,AMD接受ATI后已经是第三个阶段了。

ATI被AMD收购之前的最后一款显卡是XT1900系列,HD 2000及之后就是AMD主导了,这个时代直到HD 6000系列,被ATI和AMD定义为TeraScale架构,其中比较重要的节点显卡产品有HD4800系列、HD5800及HD6900系列,代号Cypress的HD 5800时代开始上DX11了,代号Barts的HD 6800系列在HD 5800基础上修改,提高能效,而代号Cayman的HD 6950则将TrgeaScale发展到巅峰,核心架构也从之前的VLIW5升级到了VLIW4。这个在上一篇的文章中我们介绍过。

  1. 02.    VLIW架构的升级之路

在Cayman核心中,VLIW处理器中的ALU数量被精简到了4个,抛弃了VLIW5处理器中的ALU.trans,很多人称Cayman的这种VLIW为VLIW4处理器。应该说Cayman核心是自R600以来,在硬件架构上变动最大的一个。VLIW4回归到了传统ALU的4D模式,只是变成了更灵活的4个1D。对于一个部门来说,显然管理4个人比管理5个人更简单高效,或许AMD也是这么想的。

和VLIW5不同的是,VLIW4中的四个ALU功能都是对等的,可以实现4-way Co-issue操作,原来由ALU.trans完成的特殊函数操作现在也可以交给这四个ALU来完成了,不过一个特殊函数操作需要占据四个指令发射中的3个。如上图所示。

AMD声称,VLIW处理器结构的改变,也就是VLIW5到VLIW4这种内部结构的改变,同样核心面积的条件下能带来10%的性能提升,简化了指令调度和寄存器管理,提升逻辑电路利用率。不过从VLIW5改变到VLIW4,随之而来的是晶体管和功耗的大幅增加,这是不得不付出的代价。

在ATI/AMD的整个TeraScale时代,可以看出来AMD一直在改进VLIW架构的效率,AMD此前表态VLIW架构非常适合图形运算,但GPU计算能力相对较差,这个判断也会影响后来的架构设计,因为AMD念念不忘的就是GPU计算。

  1. 03.    VLIW架构的失败之处

AMD在使用HD5000系列收复失地之后,也已经意识到在DX11时代,4D+1D的超标量运算架构效率逐渐低下。AMD通过自己长期内部测试发现,VLIW5架构的五个处理槽中平均只能用到3.4个,也就是在游戏里会有1.6个内核白白浪费了。

相比于NVIDIA早早布局的通用计算领域,AMD却仍然不甚上心,认为自己的VLIW架构依然还能“再战三年”——于是小幅优化的VLIW4诞生了。AMD在HD6900系列中,将较少用到的全功能1D ALU削减,转而使用3个更加小而灵活的1D ALU来完成以前交付给那个全功能的1D ALU的复杂操作。同时,采用双发射的指令架构,使得HD6000系列相比HD5000系列的曲面细分能力等更上了一层楼。

据AMD称,之前的VLIW5架构的运算效率实际只有70%左右,VLIW 4可以提高到80%,同样的核心面积下能带来10%的性能提升,简化了指令调度和寄存器管理,提升了逻辑电路利用率。其实VLIW4架构只在三款AMD的显卡上获得了应用,我们都知道的就是HD 6900,VIEW4并没有推广到中低端的显卡上来,这主要是市场竞争因素所致。

新的产品只是良品率的提高、相比与英伟达以GF100完全体呈现的GTX580,AMD的HD6970不仅仅输在了曲面细分这一项,游戏性能甚至全面落败,仅能和GTX570一战。而在通用计算领域,老旧的VLIW架构更不用说,已经完全不是Fermi的对手。

这些都促使着AMD必须拿出更具代表性和创新性的显卡架构出来,再次领导和改变显卡的市场。

关注我们,给我们点赞是我们持续更新的动力

 

本文转载自公众号:

有维修需求可随时联系客服
客服微信二维码
2025-02-04 10:26 发布
客服微信二维码
IQOS旗舰店| IQOS电子烟| IQOS专营店| IQOS自营店| IQOS维修| IQOS直营店