NVIDIA从2012年GeForce GTX 680的Kepler GK104架构核心开始,到2013年GeForce GTX 780的Kepler GK110-300,再到2014年GeForce GTX 980的Maxwell GM204,虽然每代产品都是基于28nm的制造工艺,但这似乎并没有阻碍每代产品的性能取得十分可观的提升。正如大家所见,NVIDIA的每一代显卡产品在GPU核心架构上的精进,是显卡性能的提升令人刮目相看的一大重要因素!
近日,NVIDIA发布了又一款足以掀起PC业界浪潮的跨时代旗舰级显卡产品——GTX 1080。随着GeForce GTX1080的推出,NVIDIA的GPU制造工艺正式迈入了16nm的新纪元;革命性的Pascal GP104架构GPU,也将其中的2560个CUDA流处理器单元的运行频率定格在了史无前例的1607MHz;GeForce GTX 1080首次采用具有无损显存压缩技术的GDDR5X显存子系统,显存压缩架构的改进及高达10Gbps的显存频率,极大地提升了Pascal GP104可以使用的有效显存带宽。
NVIDIA此次显卡新品的发布除了GeForce GTX 1080在硬件上的更新换代以外,同时配套推出了一系列能够提升玩家在游戏和娱乐过程中的体验的图形处理技术和驱动应用程序。优化后的NVIDIA SLI技术以及更加科学的GPU BOOST 3.0加速引擎,都可以让玩家通过自己对GeForce GTX 1080的挖掘得到更大的性能提升;其中Simultaneous Multi-Projection多画面同步投射技术,以更加优化的算法引擎,在占用更少GPU资源的同时能够带给玩家更为流畅的VR视觉体验;NVIDIA还带来了新鲜的Ansel截图功能,在游戏中使用Ansel截图功能后游戏世界就会定格,然后玩家可以以任何自己想要的角度进行精彩瞬间的抓取,让游戏截图和分享变得其乐无穷!这些新的图形处理技术在虚拟现实VR游戏领域尤其堪用。
相比已经在逼真的游戏画面及炫丽的电影特效中势如破竹的3D图形技术,NVIDIA的GPU加速计算也在人工智能、深度学习、自主驾驶以及其他一些需要大量计算的应用领域中崭露头角。在DirectX12新一代的Vulkan图形开发程序到来之际,基于Pascal核心架构的GeForce GTX 1080对于新兴的虚拟现实设备、游戏、应用程序以及高技术门槛的4K、5K和HDR显示规格的发展会起到怎样的作用呢?让我们回归到技术和成绩本身,去一探NVIDIA GeForce GTX 1080的奥义吧!
Pascal GP104核心架构解析
NVIDIA在经历了四年基于28nm FinFET制造工艺的核心架构以后,基于Pascal GP104的GeForce GTX 1080首次迎来了16nm FinFET制造工艺升级。更高精度的“光刻”工艺允许GPU在单位面积的芯片上集成更多数量的晶体管,在同样的核心架构中,更加庞大的核心规模就意味着更强大的处理性能。所以16nm FinFET制造工艺能够给NVIDIA新显卡带来的能效提升是可以预见的,但是一直在超越自己的NVIDIA会满足于科技进步的必然结果吗?答案是否定的。革命性的Pascal GP104核心,不但让GeForce GTX 1080成为了有史以来性能最强的显卡,同时也让GeForce GTX 1080成为了前无古人的最先进的显卡产品之一!
GTX 1080是新一代的显卡王者
基于16nm FinFET制造工艺的Pascal GP104核心打造GTX 1080,是NVIDIA GeForce GTX 1000系列首款显卡。拜Pascal核心架构所赐,作为一款旗舰级显卡产品的GTX 1080,其180W的TDP、单8pin的供电规模并没有成为性能大幅超越上一代旗舰GTX 980的瓶颈,如此高能效的GP104核心架构实在令人刮目相看!
GTX 1080的GP104核心内建4组GPC和8个显存控制器,每个GPC包含5个SM,1个SM中集成了128个CUDA单元、8个纹理单元、256KB的二级缓存、96KB的共享储存空间以及48KB的一级缓存。
SM流式多处理器能够高度协调其中的CUDA核心以及其他功能元件的工作,这20个SM会参与到几乎所有GPU执行的所有命令中。GeForce GTX 1080拥有8个位宽为32bit的显存控制器,每一个显存控制器配有八个ROP单元和256 KB二级缓存。所以,完整GTX 1080的GP104核心共有2560个CUDA单元、256bit显存位宽、64个ROP、160个TMU以及2MB二级缓存。
GP104的核心晶体管数量为7.2b,核心面积为314mm2,远远小于麦克斯韦家族的GM200,甚至比GM204还要小不少。得益于16nm FinFET工艺的应用,每平方毫米的晶体管数量达到了22.9m,远远高于GM200。这也是GP104能耗比如此高效的主要原因之一。此外,CUDA数量2560个,ROPs数量64个,TMUs数量160个,都介于GTX 980、GTX 980 Ti之间。
NVIDIA将GPU开发工作的重点放在了设计Pascal核心架构的每一个细节中。Pascal之所有能够成为有史以来能效最高的GPU,原因不仅仅是16nm FinFET带来的制造工艺精进,更得益于持续提高的核心效率。NVIDIA工程团队的一大精力投入重点是GPU核心运行频率,橡木桶定律那样,GPU核心运行频率是由数以百万计的设计电路中速度最慢的那一路径决定的,所以这一最慢路径的优化对于GPU核心运行频率的提高是至关重要的。经过NVIDIA工程团队在这一领域的不断钻研,GeForce GTX 1080的核心运行频率要比GTX 980高出40%之多!单靠16nm FinFET的制造工艺,是不能够带来如此高比例的核心频率提升的。
GDDR5X显存解析
相较于NVIDIA之前的显卡,显存由GDDR5升级为GDDR5X会带来显存带宽的巨大提升。得益于256bit显存位宽、10Gbps显存频率规格的GDDR5显存,GeForce GTX 1080的显存带宽要比GTX 980多出了43%,再加上显存压缩架构的改进,GeForce GTX 1080可使用的有效显存带宽是GTX 980的1.7倍!
经过NVIDIA显存工程师多年的潜心研究,使得GDDR5X显存的运行频率能够达到10Gbps,再加上GDDR5X IO电路的优化以及新的制造工艺,让GDDR5X显存在同样的能源消耗下获得43%的频率提升成为可能。
GPU芯片和显存芯片之间的通路也是提高显存带宽实际效率的重要因素。同样的,二者之间的信息交换速度也是由信号最弱的那条通路所决定,NVIDIA显存工程师将各个通路都进行了细致的调校,尽可能地排除信号的串扰情况和不连续性,以降低通路信号的损耗。
总而言之,NVIDIA在显存方面的工作成果,不仅是让GDDR5X显存获得了10Gbps的运行速度,而且还从设计上改善了GPU和显存芯片之间的信号通路。
NVIDIA GeForce GTX 1080的显存子系统使用无损压缩存储技术,可以减少DRAM的带宽需求,该技术可以带来如下几点好处:
1.减少了写入到显存中的数据量
2.减少了由显存转入至二级缓存的数据量,换言之就是增加了二级缓存的容量
3.减少了GPU中各个元件之间的数据传输量
GPU中的压缩管道有许多不同的压缩算法,GPU可以从中择优作为数据压缩的途径。这些算法中最重要的就是增量颜色压缩。GPU利用增量颜色压缩算法,计算一个范围里像素之间的差异,然后给这些像素加上基准δ值并存储下来。如果这种算法成功的话,这些数据将以2:1的比例存储下来。存储的数据经过压缩后,GeForce GTX1080所处理的每一帧画面需要提取的数据量就会显著减少。这样相当于提供了20%的额外显存带宽,再结合上GeForce GTX1080的10 Gbps频率的GDDR5X显存,最终使得GTX1080的有效显存带宽成为GeForce GTX980的1.7倍。
Imultaneous Multi-Projection多画面同步投射技术
多画面同步投射技术(SMP),可以让基于Pascal架构核心的GPU以16个角度渲染画面并分别呈现。为了实现多画面同步投射技术,NVIDIA在Pascal架构核心的GPU中集成了新的多画面同步投射引擎模块。
SMP单元负责在渲染一个画面之前,生成多个视角再分别交给CUDA及其他元件进行渲染。SMP可用于许多新的图形技术,列如环绕透视、镜头阴影的匹配、单通道虚拟现实VR,多分辨率渲染。
这些新的图形技术对于虚拟现实VR有着颇多的益处,能够带来多达1.5倍的像素输出量和2倍以上的几何图形输出量。
环绕透视
环绕透视可利用SMP在三个显示器中呈现出的更宽视野和具有正确透视关系的图像。
单通道虚拟现实VR
NVIDIA VRWorks可以利用SMP技术以减少在渲染虚拟现实VR画面时的几何运算量。GeForce GTX GPU1080凭借单通道虚拟现实VR图形技术,可通过一次运算就能将一个画面以双眼的视角呈现出来,这就相当于减少了GPU几何图形一般的运算量。
镜头阴影的匹配
镜头阴影的匹配通过计算,让VR头戴显示设备直接显示根据设备矫正过的画面。避免了渲染之前过多不需要的图形被浪费掉,以大幅提高VR图形渲染性能。
多分辨率渲染
在游戏时,玩家们往往是将最多的注意力集中在画面的中心,所以通过多分辨率渲染技术,GPU可以将更多的资源分配去渲染游戏中心位置的画面,以此来提高玩家在游戏时的视觉体验。
开创性的Ansel截图功能
在游戏产业高度发展的今天,玩家们对游戏的诉求已经不是简简单单的娱乐放松了,他们要求游戏可以以艺术甚至自我表达的层次呈现在人们面前。为顺应这一要求,NVIDIA开发出了极具开创性的Ansel截图功能,可以让玩家以自己特有的方式,去发现游戏中的美。
玩家们在游戏中碰到精彩的瞬间多会截图保存,其中有些游戏提供的截图功能异常简单,就是截取一堆当前的游戏画面,退出游戏后再慢慢挑选自己理想的。开创性的Ansel则可以让玩家在游戏中使用Ansel截图功能后定格游戏世界,然后玩家可以以任何自己想要的方位和角度进行精彩瞬间的抓取。
你还可以为截图添加不同的Photoshop滤镜效果,并调整景深、色调、光照、纹理等画质细节.截图的分辨率也不是锁死在游戏分辨率上,而是可以大幅度提高,甚至能达到9600×5400这样的变态级别,相当于4K显示器的六倍以上!它甚至还可以截取VR全景照片,并能发送到手机APP上,然后借助一些手机VR设备就能欣赏的VR游戏场景了!
画面
Ansel工作原理
Ansel首先基于NVIDIA GPU,然后以数据库的方式无缝衔接到驱动程序和游戏之间。NVIDIA为Ansel设计了标准化的UI控件,将其作为开放的SDK供游戏开发人员使用,使游戏开发人员可以轻松地将Ansel集成到游戏程序当中去,这样游戏玩家不论在什么游戏当中都可以使用到界面标准统一的Ansel工具了。
Ansel中的三个界面:
1.setConfiguration - 游戏设置,例如被用于游戏中的坐标系统。
2.isSessionActive - 显示Ansel是否在控制游戏。
3.updateCamera - 遵从游戏中的使用限制
GTX 1080细节解析
外观&PCB细节解析
GTX 1080整体外观
GTX 1080在外观上与前代NVIDIA公版显卡很容易分辨,铝合金的散热器外壳多了很多棱角,显得硬派了不少。PCB背面相比前代增加了由两块金属板拼接组成的背板。
GTX 1080使用与前几代公版显卡类似的涡轮风扇,独特的结构可以将显卡散发出的热量直接吹到机箱之外,帮助降低机箱内部温度。
GTX 1080共有5个视频输出接口
GTX 1080显卡的接口包括一个DL-DVI-D、一个HDMI 2.0b、三个DisplayPort 1.4接口,后面两个接口都是最新的规格,而DL-DVI-D接口已经不再饱和模拟信号电路,也就是说这次的DVI接口并不能转接VGA接口。HDMI 2.0接口和DP 1.4接口有这着更高的带宽使GTX 1080支持最高8K的分辨率,并且可以在1080P和1440P分辨率输出前提下提供240Hz的刷新率,而4K分辨率下也有120Hz,这对下一代的VR设备无疑是个好消息。
GP104核心和GDDR5X显存
GTX1080使用的是GP104核心,基于最新的Pascal架构并使用台积电的16nm FinFET工艺制造,拥有2560个流处理器单元。GTX 1080 Founders Edition的默认核心频率为1607MHz,Boost频率达到1734Mhz。此外还首次配备了容量为8GB的GDDR5X显存,等效频率高达10000NHz,位宽为256 bit。
与公版 GTX 980Ti外观对比
为了体现新一代的公版显卡在外观上的变化,我们找来了一块公版GTX 980Ti进行外观上的对比。
与公版GTX 980Ti所使用的旧款“泰坦皮”对比,实际尺寸差异不大,但1080由于散热器形状的关系会略宽一些,显得比较壮硕。
插在标准ATX主板上长度并没有过度超出,由于TDP仅有180W,所以GTX 1080 Founders Edition只有一个8Pin电源接口。
厚度方面只需要占用两个机箱槽位
基准&DirectX12游戏性能测试
测试平台
本次测试使用的测试平台如下:
以下测试全部在最新版Windows10 64bit操作系统下进行,驱动程序版本为NVIDIA GeForce 368.13,所使用的显示器最大分辨率为3840x2160。
GTX 1080 Founders Edition详细规格:
GTX 1080 GPU-Z截图
测试中使用的GTX 1080显卡为Founders Edition版本,即过去我们所说的公版卡,默认核心频率为1607MHz,Boost频率为1734MHz。按照以往经验,未来第三方厂商推出的非公版GTX 1080多数在规格上会有一些提高,主要体现在核心频率和散热器性能上,所以性能会略高于Founders Edition版本。
3DMark性能测试
3DMark是Futuremark推出的全新的图形性能测试程序,本次测试使用最新的1.1版本进行跑分。测试项目选择Fire Strike Extreme和体现4K游戏性能的Fire Strike Ultra两个测试项目。
在3DMark测试中 Extreme模式下GTX 1080领先上一代旗舰 GTX Titan X 的幅度达到26.9%,领先上代相同定位的GTX 980达到了68.5%。在测试4K性能的Ultra模式中这一优势也达到了22.3%和62.2%。
Unigine Heaven 4.0
Unigine Heaven是一款俄罗斯公司推出的显卡测试程序,素来以其高负载、高压榨而知名。Unigine Heaven 4.0通过数个画质细节近乎疯狂的场景充分压榨显卡的每一丝性能,得出的成绩可以相当准确的反应显卡在DX11下的性能表现。这也使它成为了显卡基准测试中除3DMark之外的另一个不可缺少的测试项目。
在2560x1440分辨率下GTX 1080比GTX TitanX强20%左右,相比GTX 980具有67.6%的性能优势。而在4K分辨率下这一优势有所减少,相比GTX TitanX和GTX 980的领先幅度分别为11.9%和55%。
DX12 游戏性能测试
我们选择了《奇点灰烬》和《古墓丽影:崛起》两款DirectX12游戏进行测试。将游戏特效全部开启,并且分别设置为2560X1440和3840x2160分辨率进行测试。
奇点灰烬
古墓丽影:崛起
GTX 1080在两款DX12游戏中领先GTX TitanX的幅度达到20%到30%。4K分辨率最高特效下两款游戏都达到40FPS以上,基本可以保证在这个设置下正常游戏。
DirectX 11游戏性能测试
接下来是DX11游戏测试,包括《孤岛危机3》《GTA5》《辐射4》《全境封锁》《极品飞车19》《使命召唤:黑色行动3》等六款游戏,测试过程中开启最高画质,并分别在2560x1440和3840x2160分辨率下进行测试。
孤岛危机3
GTA 5
使命召唤:黑色行动3
辐射4
极品飞车19
全境封锁
通过以上游戏测试的成绩我们可以看出,GTX 1080的游戏性能提升相当巨大,将一众对手远远甩到了身后。多数游戏都可以在2K分辨率下保证最高画质流畅运行,即使是在4K分辨率下也表现出了前所未有的强悍性能。
功耗测试及文章总结
功耗测试
我们使用FurMark烤机程序使CPU和显卡都处于满载状态,运行时间为25分钟,记录整个烤机过程中峰值功耗。待机功耗为清空所有非系统进程,CPU使用率低于5%之后测得。以下所有功耗数据不包含显示器。
在测试中GTX 1080的峰值平台功耗为285W,相比GTX 980Ti的346W有着60W左右的功耗优势。一款性能如此强大的显卡能有这样的功耗表现,几年间半导体制程工艺28nm到16nm的跨越式进步居功至伟,同时也给第三方厂商非公版显卡留足了性能提升空间,公版卡“Founders Edition”直译过来是“奠基者版本”,这么看来的确实至名归。
通过2K及4K游戏测试,我们看到GTX 1080比GTX 980的性能要强60%以上,比TITAN X、GTX 980 Ti也要强20%以上。新技术和新工艺带来的改变显而易见。
文章总结:
NVIDIA新一代旗舰显卡GeForce GTX 1080,其基于16nm制造工艺的Pascal GP104核心以及GDDR5X显存带来的性能提升,要比作为上一代旗舰级显卡的GTX 980高出了60%不止,同样也比TITAN X、GTX 980 Ti的性能强30%左右!毫无疑问,GTX 1080是现有显卡产品中性能最强的。而单8pin供电的规格以及180W的TDP,也意味着随后推出的非公版产品将具有更加强大的性能。NVIDIA GeForce GTX 1080公版的官方售价为699美元,折合人民币约4560元,性能最强、能耗比最优的显卡并不是目前市面上价格最高的,实在是想不出有什么不选他的理由。毋庸置疑,NVIDIA这一步棋走出了高水准,接下来就让我们期待AMD可以在不久的将来把这场N/A世纪之战带向一个新的高潮吧!