NVIDIA® GeForce® GTX 680 GPU 简介

Hardware

2012 年 3 月 22 日

作者: James Wang

从 Fermi 到 Kepler 的跃进

NVIDIA 的工程师每隔两年左右就要为图形处理单元 (或称 GPU) 设计新的架构。 所设计的架构定义了 GPU 的构建块、构建块的连接方法及工作原理。这种架构不只是某一种芯片的基础,而是整个芯片系列的基础,服务于从高性能 PC 到超薄笔记本,从医疗工作站到超级计算机的各种系统。它是接下来两年 NVIDIA 每一款 GPU 的蓝图。

就在两年前,NVIDIA 发布了搭载 NVIDIA GeForce GTX 480 的 Fermi 架构。 这种新架构是以意大利核物理学家 Enrico Fermi 的名字命名的,它主要有两大进步。 首先,Fermi 架构为 GPU 带来了全面的几何处理能力,实现了曲面细分这种重要的 DirectX 11 技术和贴图置换。在「战地 3」和「孤岛危机 2」等游戏中运用这种技术极大改善了水、地形地貌和游戏角色的几何图形逼真度。其次,Fermi 大大提高了 GPU 在通用计算中的性能,现在全世界五台超级计算机中就有三台使用了 Fermi GPU。

今天NVIDIA 又推出了备受期待的 Fermi 架构的下一代 - Kepler。 对于 Kepler,我们不但想构建世界上速度最快的 GPU,而且想构建世界上最具功效的 GPU。在功能方面,我们加入了许多从根本上改善每帧流畅度和总体体验丰富度的新技术。

功率效率为何重要?

当我们首次推出搭载 NVIDIA GeForce GTX 480 的 Fermi 架构时,用户表示非常中意 Fermi 的性能,但希望能降低耗电量。 玩家希望获得顶级性能,但他们也希望安静地运行产品并且具有高功率效率。我们收到的有关 Fermi 的反馈彻底表明了这一点。对于 Kepler,我们的一项优先工作就是构建一种能够畅玩游戏的旗舰 GPU。

Kepler 带来了两大重要改变,极大提升了 GPU 的效率。 首先,我们针对最佳性能功耗比全面设计了 GPU 最重要的构建块 - 流式多处理器。其次,我们新增了 GPU 动态提速,这种新功能能够动态提高时钟频率,从而在显卡的电源预算之内提升性能。

Kepler 的 SM (称为 SMX) 完全背离了过去的设计。 SMX 消除了 Fermi "2x" 核心频率,在整颗 GPU 中使用相同的基础频率。为平衡这一改变,SMX 采用了具有 192 个 CUDA 核心的超宽设计。 NVIDIA GeForce GTX 680 总共有 1536 个核心,轻而易举就超越了 NVIDIA GeForce GTX 580 的性能。

但获益最大的在于功率效率。 SMX 的性能功耗比是最初的 Fermi SM 的两倍。换句话说,在功率为一瓦的情况下,Kepler 的 SMX 可以做的工作是 Fermi SM 的两倍。这条结论是运用相同的制造工艺进行同类比较得出的。设想一下一个寻常的 50 瓦的灯泡和 100 瓦的灯泡一样亮 — Kepler 的游戏效果就类似于此。

突破性的功率效率

往系统中插入 NVIDIA GeForce GTX 680 时的功效提升效果最显著。 如果您以前用过高端显卡,您就会知道这样的显卡需要使用一个 8 引脚和一个 6 引脚的 PCI-E 电源连接器, 而 GTX 680 只需要使用两个 6 引脚的连接器。这是因为这种显卡的最高功率为 195 瓦,NVIDIA GeForce GTX 580 的功率为 244 瓦。 NVIDIA GeForce GTX 680 就好比是像重量级拳击手一样搏斗的中量级拳击手。

GPU 动态提速

SMX 的性能功耗比翻倍,但如果 GPU 实际上并没有使用全部功率容量会怎样? 回顾一下前面的灯泡类比,如果 100 瓦的灯泡有时只以 90 瓦甚至 80 瓦的功率工作会怎样?  事实证明,今天的 GPU 正是这样工作的。

其中的原因相当简单。 GPU 和灯泡一样都是设计为以特定的瓦特数工作, 这个数值称为热设计点或 TDP。高端 GPU 的 TDP 通常为 250 瓦左右。您可以这样解读这个数值: 这种 GPU 的散热器可从 GPU 中散除 250 瓦热量。如果长时间超出该限制,将强制 GPU 降低时钟频率以防过热。这同时也说明要想达到最大性能,GPU 应当接近但不要超过 TDP 运作。

实际上即使是玩最密集型的 3D 游戏,GPU 也很少达到 TDP。 这是因为不同的游戏消耗的功率不同,并且 GPU 的 TDP 是以最坏情况衡量的。像「战地 3」和「孤岛危机 2」这样的热门游戏消耗的功率远低于 GPU 的 TDP 额定值。只有少数复合基准才能使 GPU 达到 TDP 极限。

举例来说,假设您的 GPU 的 TDP 为 200 瓦, 这说明 GPU 在最坏的情况下也只消耗 200 瓦的功率。如果您玩的是「战地 3」,功率消耗只有 150 瓦。从理论上说,您的 GPU 可以以更高的时钟频率运行,来利用性能余量。但是由于它无法事先得知应用程序的功率要求,所以自始至终会采用最保守的时钟频率。只有在退出游戏后才降低到适合桌面环境的更低的时钟频率。

GPU 动态提速改变了这一切。 GPU 动态提速不是以基于功耗最大的应用程序的时钟频率来运行 GPU,而是自动根据当前运行的应用程序的功耗来调整时钟。以「战地 3」为例,GPU 动态提速不是以 150 瓦的功耗运行而造成性能余量,而是动态提高时钟频率来充分利用额外的功率余量。

 NVIDIA GPU 动态提速

工作原理

关于 GPU 动态提速,要了解的最重要的一点就是它是通过实时硬件监控而不是基于应用程序的配置文件来工作的。 根据 GPU 动态提速的算法,它会尝试找到某段时间内最适合的 GPU 频率和电压。这些工作是通过读取 GPU 温度、硬件利用率和功耗等大量数据来完成的。GPU 动态提速将根据这些条件,相应提高时钟和电压到可用功率包络中的最高性能。 由于所有这些工作都是通过实时硬件监控完成的,所以 GPU 动态提速无需使用应用程序配置文件。在发布新游戏时,即时您没有更新驱动程序,GPU 动态提速也能"正常运行。"

GPU 动态提速

提速多少?

由于 GPU 动态提速是实时发生的,并且提速系数取决于所渲染的内容,所以很难给出一个确切的性能提升数值。 为了阐明典型的性能提升,所有搭载 GPU 动态提速技术的 Kepler GPU 均在规格表中列出了两种时钟频率: 基础频率和动态提速频率。基础频率等同于所有 NVIDIA GPU 上当前的显卡频率。对于 Kepler 而言,基础频率也就是 GPU 核心在 3D 应用程序中运行的最低时钟频率。动态提速频率是 GPU 在 3D 应用程序中运行的典型时钟频率。

举例来说,NVIDIA GeForce GTX 680 的基础频率为 1006 MHz,动态提速频率为 1058 MHz。 这意味着在 3D 游戏中,GPU 运行的最低频率为 1006 MHz,大多数时间将以 1058 MHz 左右的频率运行。但并不是精确地以这种频率运行-- 而是根据实时监控和反馈相应提高或降低频率,但大多数情况下接近于这样的速度运行。

GPU 动态提速并未消除超频。 事实上,有了GPU 动态提速,您就多了一种实现 GPU 超频的方法。您仍可以像以前一样提高基础频率,动态提速频率将相应提高。或者您也可以提高功率目标。这对于消耗的功率目标接近于 100% 的游戏非常有用。

更加流畅的游戏体验

尽管当今很多游戏的图形效果很出色,但即便我们竭尽所能来遏制,仍然有一些相当令人分心的伪影。 其中最不和谐的部分就是屏幕断层。将鼠标从一侧平移到另一侧时可以观察到断层现象, 看起来就像是屏幕在多个帧之间被断开一样并且剧烈闪烁。当某段时间内有大量的帧而使帧速率很高时,断层往往会加剧,导致出现多个断层带。

关闭垂直同步时的游戏断层现象

这个问题的传统补救措施就是垂直同步 (V-Sync),但正如许多玩家所知的,垂直同步并非就没有问题。 垂直同步的主要问题就在于当帧速率下降到低于显示器刷新率 (通常为 60 fps) 的水平时,帧速率下降不相称。比方说,下降到略低于 60 fps 的水平导致帧速率下降到 30 fps。之所以发生这种情况,是因为显示器按固定间隔刷新 (尽管 LCD 不存在这样的限制,但 GPU 必须将 LCD 作为 CRT 来处理以保持向后兼容),并且垂直同步迫使 GPU 等待下次刷新后再更新屏幕的新图像。如此就导致帧速率低于 60 时(哪怕只有片刻) 发生明显的卡滞。

帧速率下降时垂直同步卡滞

对于 NVIDIA 新发布的 300 驱动程序,我们在控制面板中引入了一种叫做「自适应垂直同步」的新功能 自适应垂直同步既具备垂直同步的益处,同时又能最大限度地减小下降趋势。有了自适应垂直同步,垂直同步就只在帧速率超过显示器刷新率时启用。帧速率下降到低于刷新率的水平时将自动禁用垂直同步,从而最大限度减少游戏中发生卡滞。

自适应垂直同步
通过根据游戏性能动态地开启和关闭垂直同步,自适应垂直同步进一步提高了垂直同步的吸引力,尤其吸引非常重视帧速率流畅的玩家。

FXAA: 极速抗锯齿

没有什么比锯齿边缘更能破坏视觉效果非常出色的游戏。 锯齿边缘会使直线看起来弯曲,并且在镜头移动时产生分散注意力的蠕变图案。修正锯齿边缘的方法就是采用抗锯齿方法,但目前采用这种方法极大影响帧速率。更糟的是,当代游戏引擎中减弱了消除锯齿边缘的效果。

几乎所有游戏都是使用一种叫做多重采样抗锯齿 (MSAA) 的抗锯齿形式。 MSAA 以超高分辨率渲染屏幕,然后通过减少对图像采样来减少锯齿效果。这种技术的主要问题在于要求显存具备超大容量。 例如,4x MSAA 要求具备四倍于标准渲染的显存。实际上,很多玩家为了保持适度性能不得不禁用 MASS。

FXAA 是一种新型抗锯齿方法,这种方法快速、有效并且针对当代游戏引擎进行了优化。 FXAA 不是以四倍的分辨率来渲染所有内容,而是根据对比度检测来挑选出帧中的边缘, 然后根据边缘分级来对锯齿边缘执行平滑处理。所有这些工作是作为一个后期处理的轻便型着色器来完成的。

FXAA - 高性能/高品质 AA

与 4xMSAA 相比,FXAA 即便不是产生更平滑的边缘也是产生与之相当的边缘。 但与 4xMSAA 不同的是,FXAA 不额外占用内存,运行起来与没有执行抗锯齿时差不多快。FXAA 还有一个好处,当在树叶等透明几何图形上工作时,有助于减少通常出现在光亮材料上的由着色器造成的锯齿边缘。 

抗锯齿延迟图抗锯齿后期处理图
MSAA (抗锯齿延迟) 与 FXAA (抗锯齿后期处理) 在「战地 3」中的性能比较

尽管当今还有游戏中提供了 FXAA,但 300 系列驱动程序的 FXAA 集成在控制面板中。 这意味着在成百上千种游戏中都可以启用 FXAA,不支持抗锯齿的传统游戏也不例外。

TXAA: 品质更胜 FXAA 一筹

电影中计算机生成的效果耗费了大量计算资源来处理抗锯齿。 游戏要想达到电影的品质,开发商需要在不牺牲性能的前提下,采用新型抗锯齿技术来进一步提高品质。

NVIDIA 为 Kepler 发明了一种更高品质的 AA 模式,这种模式称为 TXAA,专门用来直接集成在游戏引擎里。 TXAA 综合了 MSAA 的强大能力与类似于 CG 电影中所采用的复杂的高画质过滤器。此外,TXAA 还可以抖动帧与帧之间的采样位置来获得更高画质。 

无 AA

8x AA

TXAA

TXAA 有两种模式: TXAA 1 和 TXAA 2。 TXAA 1 提供 8xMSAA 的画质,其性能与 2xMSAA 相似,而 TXAA 2 提供的画质优于 8xMSAA,性能与 4xMSAA 相当。

和我们的 FXAA 技术一样,TXAA 也将首次直接集成在游戏引擎中。 以下游戏、引擎和开发商致力于提供 TXAA 支持: MechWarrior Online、Secret World、Eve Online、Borderlands 2、Unreal 4 引擎、BitSquid、Slant Six Games 和 Crytek。

单个 NVIDIA GeForce GTX 680 上的 NVIDIA Surround

没有比在三台显示器上玩最热衷的游戏更震撼人心的了。 在 5760 x 1080 的分辨率下,扩展的视场充分契合周围视野,并且能在赛车和飞行模拟器中提供身临其境的体验。以前三台显示器需要用两块 NVIDIA GPU。在 Kepler 架构上,一张显卡可以驱动三台显示器来玩游戏,而且还可以选择用于 Web 或 IM 的第四台显示器。

3d-surround
NVIDIA 的 Kris Rey 参照 GeForce.com 上的「天际」最佳指南在三台显示器上玩了「天际」游戏。
在刚开始推出三台显示器的配置时,其高昂的成本令人望而却步。 而今天只要不到 150 美元就可以买一块高清面板。从单独一台显示器着手,部署一个类似于上面的环绕系统花费不到 300 美元 (不含辅助面板)。有了 NVIDIA GeForce GTX 680,您只要一张显卡就可以驱动环绕系统。

 NVIDIA GeForce GTX 680 上的 NVIDIA 环绕

画质设置:

  • 「孤岛危机 2」,30.33 FPS: 安装 DirectX 11 Ultra Upgrade,启用高清纹理,细节水平设置为极高。
  • 「杀出重围: 人类革命」,46.20 FPS: 最高设置,启用曲面细分,FXAA 设置为「高」。
  • 「正当防卫 2」,46.60 FPS: 最高设置,启用 CUDA 水,,4xMSAA,16xAF。
  • 「求生之路 2」,126.10 FPS: 最高设置,4xMSAA,16xAF。
  • 「黑手党 2」,51.35 FPS: 最高设置,启用 PhysX Medium,启用 AA,启用 AF。
  • 「地铁 2033」,40.72 FPS: 最高设置,禁用 PhysX,4xMSAA,16xAF。
  • 「传送门 2」, 127.90 FPS: 最高设置,4xMSAA,16xAF。
  • 「上古卷轴 5: 天际」,59.55 FPS: 超高预设设置,Bethesda 高清纹理包,内部洞穴场景。

如果您不明白的话,这里给出了一些用 NVIDIA GeForce GTX 680 在三台 1080p 显示器上玩要求严苛的 3D 游戏的实际性能结果。您可以看到,画质非常出色。所玩的大部分游戏即便没有达到最高效果,也达到了非常高的效果。

结论

NVIDIA GeForce GTX 680 与我们迄今所制造的任何一款旗舰显卡存在极大的差别。Kepler 是几代以来全球速度最快的 GPU。对于 Kepler,我们想要做的并不只是重复这一壮举。

对于 Kepler 我们要从第一性原理着手,思考: 除了性能以外,如何从整体上提升游戏体验?
玩家告诉我们,他们理想的 GPU 散热更出色、运行更安装、功率效果更高。为了做到这几点,我们重新设计了架构。NVIDIA GeForce GTX 680 的功耗比最初推出 NVIDIA GeForce 8800 GTX 以来的任何一款旗舰 GPU 的都低,但性能超越了我们和其他任何人所制造的任何一款 GPU。

我们不只希望游戏速度更快,而且希望游戏更流畅。FXAA 和新型 TXAA 都能实现以上两个目标。游戏实现了超级流畅的边缘,而且又不降低性能。

自适应垂直同步改善了很多玩家所依赖的功能。现在您可以启用垂直同步来尽情玩游戏了,丝毫不必担心帧速率突然下降。

最后,只要用一张显卡就可以驱动包括一台辅助显示器在内的全部 NVIDIA 环绕设备。您将获得玩赛车游戏或飞行模拟器游戏的极致体验。

Kepler 是 NVIDIA 众多最智慧、最出色的工程师历时四年多辛勤研发的结晶。希望您能通过我们的新型 GPU 尽情畅享游戏乐趣!

意见