【业界】开发者和你谈——PS Vita专题 – No.77 疯人院 - 游戏业界新闻

前言

西方人常说：你比较这两个东西，是拿苹果和橘子比。我认为，这是他们文化里中庸的一面，而我自己则不是这种风格。我在这里清楚的给Vita的机能定性：PS Vita很能打！（PS Vita机能很强！）

具体来说，《神秘海域2》这样的720P游戏，在降低一些三角形数量的情况下，Vita发挥极限机能在544P下应该也能毫无折扣的做到。

不过，Vita能打归能打，可是连几个能打的游戏都没有，这确实是现状。Vita跟所有其它的主机一样，不会用或者不认真用，也就不能发挥出应有的性能。

迄今为止，最接近我说的极限机能的游戏是《杀戮地带：佣兵》。但它使用了动态分辨率，并不能保持544P/30fps，理应还有提升的余地。

而其它一干游戏，都是以408P的分辨率为主流，甚至是368P的AAA游戏也是有的。帧数方面更是如此，除了几个格斗游戏，60fps的AAA游戏几乎是没有的。它们都没有发挥出Vita应有的性能。

在众多AAA游戏表现不济的情况下，我开始心里很没数。因此，当初我给我自己设定的目标是30fps，分辨率也可以动态。现在优化结束了，我却发现自己做到了无妥协的544P+60fps。

我猜很多人会想，如果是画面不好技术落后的小游戏，达到544P+60fps也不是什么难事吧？

拿一个橘子来比一比我的苹果吧。我用的技术超越了PSV版的COD，这个自信我还是有的。我家游戏比COD强的地方有：

1. 分辨率更高。544P vs 408P。

2. 帧数高。60fps vs 30fps。

3. 更好的光照，动态光源数多，每个人物和物体接受6个动态光源。COD应该没有那么多。

4. 所有物体都有法线贴图 vs 部分物体有

5. 所有物体都有镜面高光（Specular Highlight） vs 部分物体有

6. 各类纹理和法线图质量非常高，很多素材甚至直接用PS4版的1080P素材。非常锐利 vs 非常模糊

7. 多了好几倍的粒子效果和血迹特效。

与此同时，也有一些不如COD的地方：

1. 同屏三角形数量目测要少一点。

2. 没有Bloom特效。

总体来说，应该是更胜一筹吧。

=======================================================

现在的60fps，也是从最开始的5fps一步一步的优化得到的。期间优化了多少轮，数都数不清了。我会在接下来的几篇中整理清楚。

我一年前总结过，游戏程序的性能一共三方面：

1. CPU性能

2. GPU性能

3. 带宽

万变不离其宗。

有的同学曾经问过我，像《龙之皇冠》这样的纯2d游戏，为什么也没做到60帧？下一篇我们将会聊Vita的CPU，之后大家就都能回答这个问题了。

第一天 CPU

Vita的技术参数在Wikipedia可以查到：http://en.wikipedia.org/wiki/PlayStation_Vita

我们今天说的是CPU。

曾经不下有五个人问过我，Vita用的ARM Cortex-A9的主频是多少？说实话，很多细节的技术指标我是记不太清楚的。只是这主频是多少，却压根不是记不记得的问题，而是我根本就不知道。

很多人肯定要问，怎么可能不知道主频呢？不知道主频你怎么用呢？

其实我自己也好奇，我钻研了三年的机器，主频到底设在哪里？

不过从实践的角度来看，既然给了我一个固定的CPU，那它的极限性能就是固定的。与其去空想它的极限性能在哪里，不如把它的用好，用好了之后自然就知道极限了。

实践证明它的极限性能在这里：我对这个CPU的利用率已经到了90%，在这个前提下，它的计算能力跟PS3的主处理器PPU基本持平。

对这个性能水平，我需要做跟严格的定义。首先，这个CPU是一个四核的CPU，其中游戏只能直接控制三核，另外一核是预留给系统以及后台服务的。

虽然游戏的程序并不能直接控制第四核，但是不代表第四核的运算跟游戏完全无关。很多游戏必须依赖的服务，例如存档、文件解压缩等服务，都在第四核中自动进行。另外，跟游戏无关的系统功能，例如后台下载、推送通知等也在这个CPU核上进行。

因此，无论游戏优化的多好，第四核的CPU利用率都是不可控制的。

我说我现在的CPU利用率已经到了90%，指的是我可以有直接控制的那三个核心的利用率已经到了90%。

与此同时，第四核的利用率通常是50%左右，这50%我完全不知道有多少是用在存档、解压缩等服务上，有多少是用在系统上。

我上面说的跟CELL的PPU基本持平，也是假设只有三核完全利用好的情形，而不是四核的情形。

========================================================================

一个题外话。PS4是八核的CPU，其中游戏可以用六核。每个核的实际性能也恰好大致跟CELL的PPU持平。

这告诉我们一个道理：知道主频一点用都没有。PPU的主频正好是PS4单核主频的两倍。

========================================================================

相对于GPU方面的优化，我对CPU方面的优化工作做的相对没有那么多。其中最主要的原因是，单看这个CPU的一个核心，它的特性很普通，没有什么可以特别加以利用的地方。

所以按照一般思路优化好的代码，在Vita上跑也就没什么问题。Cache用好，算法没有太蠢，基本上我只做到了这个程度。

这跟传统意思上的CPU优化有很大的区别。

我是科班出身，自然知道传统意义上的优化要搞汇编，要榨取每一个运算周期。

说实话，我在GPU那边是时时刻刻跟汇编打交道的，但是CPU这边确实没有必要。

这就要从Mark Cerny设计这个硬件时的思路说起了。

我一直觉得Vita就是个微型的PS4，因为它们的设计思路实在是一样的。我理解的这套思路就是：
1. 不盲目堆砌运算能力。
2. 强调对称的多核处理（Symmetric multiprocessing）。（PS4有部分例外）
3. 鼓励聪明的使用硬件。

盲目堆砌运算能力，这个显然是针对PS2和PS3做的拨乱反正。

强调对称的多核架构，这个也是针对PS3做出的调整。Vita的CPU每个核都一样，这叫做对称的多核处理。PS3的PPU和SPU用起来完全不一样，这叫不对称的多核处理（Asymmetric multiprocessing）。

（PS4的CPU是完全对称的。但是PS4同时也鼓励GPU辅助CPU计算，这却是不对称的。）

鼓励聪明的使用硬件，这个解释起来非常复杂。我试图深入浅出的说一下。

跟PS3的硬件比较，Vita的各部分硬件都有一个显著的特点：处理能力不如PS3，但是避免计算的能力却高于PS3。在这种情况下，硬件用的聪明不聪明，区别就非常明显了。

很多人说PS3难用，但其实用好PS3的思路不多，最重要的就一个：用好协处理器SPU。

用好Vita的硬件却不是这么直接的事情，必须对硬件的各部分以及它们之间协同工作的原理有深刻的理解，之后才谈得上真正的优化。

========================================================================

最后回到CPU优化的话题。因为Vita强调的是对称的多核处理，所以最有效的优化就是建立一个高效的并行处理模型。

具体来说，首先要把游戏的任务分解好：AI、动画、物理、粒子、渲染、音频等等。这是最难的一步，因为牵涉的代码修改最大。

接下来，能同时处理的任务，一定都要利用好三个核心进行并行处理。一定不能同时处理的任务，必须也要协同好它们的关系。

比如说，如果动画还没计算完就进行渲染的任务，就会出现人物的一半显示的是上一帧，另一半是当前帧的情况。这种情况是一定要避免的。

像这种一个任务等待另一个任务的情况，是CPU优化最大的敌人。

我CPU利用率能达到90%的关键，就是有些看似不能并行处理的任务，经过巧妙的处理之后，就能够并行处理了。这样才能保证三核一直满负荷工作。

我家游戏在创作阶段是以PS4的硬件为基础的，每个人物的骨骼数是前作的4-5倍，动画的复杂程度是前作的10倍都不止。要想在Vita上跑出60fps，只有三核心一直满负荷工作，才能计算更多的同屏人数和更多的物理效果。

========================================================================

总结来说，Vita的CPU优化的关键，在于设计一个高效的并行处理模型，而不是拘泥于传统的对CPU运算周期的榨取。

我看到回帖里有很多质量很高的问题，我后面一定会全部都讨论到的。

今天先讨论一下《龙之皇冠》的掉帧问题。作为一个纯2D游戏，没有光照阴影，没有复杂的后期处理，理应没有GPU方面的瓶颈。

这个游戏的PS3是没有掉帧的。我之前说过，Vita的三核用满了，基本能和CELL的PPU持平。如果用不满，掉帧也就没法避免了。

下一篇要不要直接来高能的，要不要讲解GPU，我还没想好。但是可以肯定的是，光是想象一下GPU篇就足以让我亢奋了。敬请期待~

第二天留言集中回复

我发现这次大家回帖留言的质量非常高，因此很多有趣的内容可以再铺开来讲。

========================================================================

有大大回帖说”为啥PSV从游戏中途退出切换其他任务比PS3还快呢？是第四个核的关系吗？“

简单的回答，是这样的。

PS3游戏运行的时候，XMB系统的运行就会被PPU交给单个SPU（思考题：windows单核也能跑多任务，为什么ps3要这么麻烦的去弄？）。SPU的性能肯定不如PPU，这就是为什么在游戏运行时操作XMB，它会有严重的拖慢。

当PS3玩家选择退出游戏的时候，XMB系统的运行会被交还给PPU。这个工作基本等于是把系统重启了一遍，所以耗时很长。

前一天我们说过，PSV的设计提倡对称的并行处理。在四核的CPU上，系统一直是在CPU的第四个核心上跑，游戏只能用到三个核。基于这样的设计，无论是进入还是退出游戏，系统软件都不会受影响。

这个设计跟xbox 360是很像的。但是不同的是，360有三核，三核都可以跑游戏，系统能用的CPU资源有时多、有时少。有无运行Kinect也会有影响。这就是为什么玩Halo4的时候，Dashboard反应速度慢，而玩小游戏的时候，Dashboard反应速度就很快。

到这里，相信PS Vita，PS3，PS4和Xbox 360的系统运行问题，大家就都知道了。举一反三的话，Xbox One和WiiU也是清楚的。

========================================================================

很多大大都担心说，你CPU的利用率（占用率）那么高，肯定会影响续航时间吧！

答案是，CPU利用率高肯定是会多耗点电，可是这个量没有那么夸张，影响续航的事情是不存在的。

换句话说，省电绝对不是不做优化的理由。

另一位大大又问了，那为什么我待机和下载东西的续航时间差别这么大呢？

因为这根本是不同的情况。网络通讯是非常耗电的，是耗电之王。而纯待机的时候，Vita会使用启动智能模式来利用网卡。在大多数时间里，网卡并不在工作，自然就是省电了。

无论是网卡，还是CPU，还是GPU，都是一个道理。开启与关闭有天壤之别，但是用10%与用90%则区别不大。

具体到CPU，假设我的并行处理模型很没有效率，很多任务之间相互等待、颇多掣肘，这样就会有很多CPU时间因为等待而空下来，一旦等待结束就可以继续运行了。

从用户的角度看，CPU确实是停下来了，但是实际上还是有firmware在不断的跑，否则它怎么知道什么时候等结束了？

打个比方，以2k的速度下载东西，和以2M的速度下载东西，哪个更耗电？其实是半斤八两。

========================================================================

Q: “以前是知道在软件层面，开发套件上，对PS4/V有打通的设计，看来Mark Cerny在硬件层面也确实是把PS4和PSV作为整体来考量的。这对PS4/V跨平台开发带来了什么样的影响？如果能具体说说跨平台的优势，问题或效率，成本这些是最好~”

之前我们说了，PS4和PSV的CPU都是对称的多核架构，每个核都是完全相同的。

这倒不是说代码可以直接通用，而是你设计的并行处理的模型可以通用。只要模型设计的好，在这两个平台上实现之后就一定都是优化的。

PS3则要麻烦一点，因为你针对SPU进行的优化，没有办法用到别的硬件上。

不过，PS4/V这两个平台的性能差距很大。同样的程序，就算在Vita上跑到极限，在PS4上还是会有很多CPU资源的闲置。反之，如果PS4跑到了极限，那Vita必定是跑不动的。

要想完美解决这个问题，这就需要你设计的模型有很好的可扩展性（Scalability）。

这其实又是一个翻译的不太好的术语。这里的Scalability指的是，你的游戏能够很方便的根据实际情况提升效果或者减少效果，而不需要重新写程序。所以我更推荐台湾的译法：可扩缩性。

比如我家的游戏，严格说来，PSV版肯定是比PS4缩水了，但是我相信我做到了两点：

1. 在大多数情况下，几乎是没有区别的。
2. 在有区别的情况下，多数人也看不出来区别。

所以，优化不仅是技术上的工作，更是设计上的工作。

GPU那边的情况也是一样的，以后我会讲到。

明天我来开GPU的坑~（撸袖子）

=======================================================

小更新

我今天加班之余，还跟几个人交流了一番。

首先是跟SCE ATG（高级技术组）的研究员切磋了一下，对PSV的GPU又有了新的理解，也发现了一些新的思路。我觉得需要先整理消化一下，再写出来。

然后，我跟A9的切尔西大大聊了很久，他说他想看一些更细节的东西。而这次也有回帖说我写的不够生动，我觉得都很有道理。这次虽然实际内容比较多，但确实在表现的方法上没有以前好。

这两个原因让我觉得自己需要再酝酿一下。

好多人反应说，想知道GPU的型号后面那个加号是什么意思，到底加了些什么内容？下一篇中我会认真回答。但是这个牵涉到非常细节的编程问题，所以表达起来有点难，我再想想怎么写的深入浅出。

另外，我觉得我还是应该结合实例来讲解，这样才比较有趣。我决定挑神秘海域为实例来讲解GPU，之前我回帖分析忍龙2的内容，也会整合到正文里。

今天凌晨1点我已经更新过了，明天晚些时候再更新~

=======================================================

第三天 GPU篇1

很多人一定很好奇，PS Vita和智能手机、平板的硬件架构很接近。论绝对性能的话，还会超过Vita很多，但为什么手机游戏的画面却很落后？

相信看完了这篇，大家心里就会有答案了！

=======================================================

首先，我们先复习一下关于GPU的知识。虽然这些知识在本文的第一期已经讲解过了，但是这里我又融入了一些新的注解和推论。

GPU是一个专业的大批量处理图形数据的芯片。输入它的数据是几何数据（包括顶点，索引，法线，tangent等等），以及材质（包括纹理，光照，反射参数等等），GPU将这些数据计算之后，进行栅格化，计算每个像素的颜色，最后输出特定分辨率的像素**，最终形成我们屏幕上看到的图像。

CPU和GPU之间的合作方式是这样的：CPU准备好数据，然后提交任务给GPU。（这个任务叫做Draw Call。）

因此我们有一个重要的推论：无论CPU的性能如何，无论用什么效率的api（opengl、DirectX还是ps系专用的api）来提交任务，任务一旦提交了，GPU运行起来都是一样的。

如果画面不好，则必然是如下几个原因之一：
a. 给gpu的任务建立的不合理
b. gpu要处理的数据不友好
c. 因为不了解gpu内部的原理，对gpu的编程不好，导致资源闲置。

那么，怎样建立GPU任务才比较合理？怎样保证数据让GPU处理的得心应手？怎样才可以提升GPU的利用率呢？

现代的GPU有几个发展趋势：

1. 大批量数据的处理能力非常高，小批量数据的处理会慢很多。
2. 数据处理的多线程化程度越来越高，线程调度的方式越来越复杂。
3. GPU内部的处理和调度单元越来越多，可编程化越来越高。

Vita的GPU就是一个很现代的GPU，它具有以上全部的特点。

这些特点到底意味着什么呢？对于游戏开发者来说，应该如何聪明的利用呢？

我们一个一个来以实例讲解。

这里的内容比较专业，如果觉得晦涩是很正常的，希望大家不会产生厌倦感~

怎样建立GPU任务才比较合理？

Vita的GPU有很多有趣的特点，这里举两个例子：
a. Vita有scene的概念，切换scene非常昂贵。所谓scene，可以简单理解为一个批次的数据处理。一个scene可以包含好几个draw call，但是如果要切换render target的话，就必须终结当前scene，再开启一个新的scene。
b. z buffer在没有必要的情况下，并不会同步到显存里，而是直接在芯片的高速缓存里进行操作。

也就是说，很多对ps3/ps4来说最优化的draw call，到vita这里就可能会有更优化的建立方法。

举例来说，ps3的神秘海域大量运用了deferred lighting和post effects，这就必须建立非常多的render target和小任务，每个任务都很便宜，把它们串起来执行，在算法上是最有效率的。

psv的神海也照搬了这一模式。但是要注意到，在psv上切换render target就必须切换scene，而切换scene的代价非常高。实际上psv神海未经修改就直接套用ps3版的光照模型，导致了很多不必要的资源浪费！

而psv的杀戮地带就吸取了这个教训，所以的光照都改成forward lighting，使scene的数量最小化，这是杀戮的画面比神海好最重要的原因。

我自己也在这方面做了最大的努力。其实，这就是在程序中贯彻“大批量数据的处理能力更高”的现代GPU理念。

z buffer那个特性也很重要。只要保证不去清空、读取或者非正常修改z buffer，就不会导致多余的内存操作。

（注：这段内容是经过回帖讨论之后额外加上去的，感谢gzfrozen）
所谓非正常的修改z buffer需要定义一下。GPU在渲染不透明物体的时候，我们通常会让GPU改写z buffer，这是自N64以来的GPU最基础的工作原理。除此之外的手动修改z buffer的手段，在vita上可能会造成额外的内存读取。例如，渲染完场景和人物，清空z buffer，再渲染UI和HUD，这种情况就是。

如果有可能的话，psv游戏务必要调整gpu任务建立的方式，保证z buffer一直在高速缓存里不出来！

怎样保证数据让GPU处理的得心应手？

举例来说，想做HDR tone mapping的话，有一个很重要的gpu特性就是gamma correction。

看起来好像很高大上的样子，其实原理很简单：GPU在读取纹理像素的时候，会套用一个固定的公式做修改。其修改的结果就是调整图像的gamma。

psv的GPU支持这个特性，但是处理的成本比较昂贵，所以我们为了优化，需要另辟蹊径。

优化的方法就更加简单了，只要对纹理做预处理就好了。用俗话说：先ps一下~

不过这个方法背后是需要做严格的数学推导的。预处理过后的纹理也不能直接用，而是需要shader套用一个稍微简单点的公式来达到应有的效果。

再举一个例子。

既然是大批量的数据处理，那么一个批次的数据中，它们排列的顺序对GPU性能有没有影响呢？

答案是：对ps3/4没有，对vita却有很大的影响。Vita需要对顶点数据进行排序，才能达到更高的效率。

事实上，绝大多数vita游戏都做了顶点排序的优化。手游方面就没有这么乐观了。

=======================================================

运用上面的知识，我们已经可以回答“手机游戏画面落后”的一部分原因了。

高端手机和平板的GPU架构和Vita相似，而绝对性能比Vita强。手机游戏画面不好，必然是游戏优化的不好，不得不降低画面来保持可玩性。当然，可能也有一些厂是不知道怎么把画面做好，但是我不做别人能力不济的假设。

假设做手游的人能力很强，为什么游戏还是优化的不好，有几个原因：
1. 手机游戏不针对固定硬件，没法针对固定硬件的特性进行优化。
2. 即便想针对特定的设备做优化，手游的开发模式决定了他们没有深度优化的态度。
3. 即便有深度优化的态度，手游程序也没有权限直接跟硬件打交道，来利用硬件的特性。

其中第三点，将是下一篇讲解的重点。

psv的游戏可以直接控制硬件底层，这对游戏的效率来说，究竟意味着什么？究竟可以甩开手游多大的差距？

psv的GPU型号后面那个加号到底是什么意思？psv究竟有什么独有的特性？

上面提到的现代GPU的特点“ 数据处理的多线程化程度越来越高，线程调度的方式越来越复杂” “GPU内部的处理和调度单元越来越多，可编程化越来越高”究竟怎样在vita上发挥作用？

杀戮地带利用了哪些其它的GPU特性？为什么我一直说神海还有更优化的余地？

下一篇中都将揭晓~

第四天 GPU篇2

今天和明天的内容很高能，因为你没看错，这就是主机游戏技术的极限。ICE Team那些死宅，每天埋头研究的就是这种性质的东西。

当然，现在ICE Team主要是针对PS4做研究。我在这里说的，都是他们玩剩下的，或者是不屑于玩、交给SCE其他技术组研究的东西。性质相同，前沿的程度不同。

=================================================================

我相信，事物的本质一定是简单优雅的。如果你觉得一个东西很复杂，那你一定是没有理解它的本质。

这个信仰在理论物理和计算机科学中都有很多例证。再高深的技术，也一定有一个大家都能理解的突破口。

接着昨天的内容，我们说手游的画面不好，其中第三个原因是：

因为不了解gpu内部的原理，对gpu的编程不好，导致资源闲置。

首先，我们来讲一下什么是“对GPU的编程”。

我们一般说的游戏程序，都是控制CPU的程序。我们用它来计算动画，计算AI，然后准备好数据、提交任务给GPU处理。

针对N64以前的主机，在GPU拿到这些数据之后，就会用使用固定的公式来计算，最后输出像素。

从N64开始，GPU的计算方法就可以自定义了，这就叫做可编程GPU。

从Xbox，对GPU编程的标准开始统一，统一以后的控制GPU的程序，叫做着色器（shader）。

着色器这个翻译，很容易被人误解为它是一个硬件。其实，shader既有软件程序的属性，也有材质的属性，它唯独不是硬件。

为了避免理解上的困惑，我这里统一使用shader这个英文词。

为什么说shader有材质的属性呢？因为shader的本质工作就是定义材质。比如说，如果我要做一个金属的材质，我就需要在shader里定义它是怎么反光的；如果是一个木头的材质，反光的公式可能就不一样了，或者公式所需要的参数就不一样了。

（顺便说一下ps4的一个设计理念，就是提倡compute。所谓compute，就是拿shader来做它的非本职工作，比如反过来帮助CPU做计算等。）

总结一下：自xbox以后，写shader是对GPU编程的唯一方法。

=================================================================

有了以上的知识，我们可以做出一个重要的推论：

对GPU编程做的好不好，就看shader写的好不好。

那么，怎样才能写出充分利用GPU的shader程序呢？

前一天我们讲了，现代GPU有几个特点，其中第二点和第三点是：

2. 数据处理的多线程化程度越来越高，线程调度的方式越来越复杂。
3. GPU内部的处理和调度单元越来越多，可编程化越来越高。

怎么理解这些特点呢？

我们先从多线程开始说起。

CPU的多线程好理解，一边算这个一边算那个呗。那GPU的多线程是怎么样的？是不是一边算人物的头，一边算人物的手？

其实，这还真的有点像真实的情况。不过，不是把物体分成几部分，然后并行处理这么简单。

现在我来拿Vita的GPU来做实例讲解。

Vita的GPU跟CPU一样，是一个四核的架构。因为游戏不需要渲染任何系统界面，所以四个核心都可以全部被利用于游戏，而没有系统来争夺GPU资源的情况。

（Xbox One最早就是因为Kinect会和系统争夺GPU，所以GPU有10%的资源不能被用于游戏。最新的SDK已经没有这个问题了。）

GPU的本职任务分两种，一种是顶点任务（比如第一期讲的World-View-Projection转化），一种是像素任务（计算像素的颜色）。

这两种任务在Vita里，以同等的身份，被调度到四个核心上运行。这就是Xbox 360首创，并从此流行的统一渲染架构。

PS3则不是这样的。顶点有顶点专属的计算单元，像素有像素的计算单元，它们的GPU资源不能共享。（思考题：为什么统一渲染架构比较好？）

这可不是故事的结局，因为Vita GPU的每一个核心里，都有四个主计算单元并行工作。所以，这个GPU其实是一个16线程的GPU。

那么，每一个核心内的任务是怎么分配和调度的呢？

顶点任务很简单，因为顶点都是独立的，四个计算单元一直算就是了。

像素任务的分配和调度，稍微复杂一点。举例来说，如果GPU有一个计算16X16的像素的任务，它会画一个”田“字，把它分解成4个4X4的小任务。每个主计算单元分别计算一块。

每一个像素任务，都会先被分解为一个很小的像素块（Tile），当它们被分配到某一个GPU核心时，又会以”田“字型的方式一分为四，在四个计算核心上并行计算。

这就是这块GPU16线程的基础调度方式。

是不是很有效率呢？

其实，世上哪有这么好的事情。根据你的用法，它这么调度的效率可高可低。

你想，一个核心内的四个计算单元，它们怎么可能一直都同时工作呢？有的计算单元可能开始的早，有的计算单元可以完成的早，这都会造成资源闲置。

这样的资源闲置，是对GPU编程不够优化最主要的原因，没有之一。

造成这种资源闲置的原因包括：

a. 当一个像素块被分解成四块之后，一定会存在某种程度的负担不均匀。
b. 四个计算单元之间，虽然运算能力互不影响，但是还是会因为寄存器，带宽等共享资源而相互掣肘。

到这里，我们已经可以回答解答很多实际的问题了。

有一个很好的问题：杀戮地带，如果增强建模，但是降低分辨率，行不行？

答案是，不行。如果在那个基础上增强建模，势必会生成更多非常小的三角形。这些小三角形是造成原因a的罪魁祸首。

而要克服原因b，则需要一些编程功底。shader在数学意义上是不是最优的？shader生成的汇编是不是最优的？寄存器和带宽的使用是不是降到最低了？

总而言之，这需要不断的调整shader程序，严密监控GPU时间。

=================================================================

今天我们再多看一个问题。

Q： psv的游戏可以直接控制硬件底层，这对游戏的效率来说，究竟意味着什么？究竟可以甩开手游多大的差距？

A：从不关注GPU时间，到关注GPU时间，然后有针对性的优化，渲染的性能提升好几倍是很常见的事情。

另外，GPU的线程调度也不是优化的唯一思路。这个16线程的调度，只是PSV GPU工作原理的冰山一角。明天我还会介绍好几种可以让性能翻倍的思路。这些思路都已经被应用在psv游戏里了。

第五天 GPU篇3

话说冰山一角这个词，英文原文有明显的贬义，用来形容问题或者麻烦比看到的还巨大，其背后也有阿基米德定律的科学含义。

但是，这个词的中文版本已经被引申为全面看待事情的意思。

泰坦尼克号这种事故，只在欧美骇人听闻。我们生活在温带和亚热带，历史上也闭关锁国了几百年，可能几辈子都没机会看到冰山，自然不知道冰山就是灾难。而“一角”这个译法，想必是出自没有实际体验过冰山的人的手笔，与“冰山之尖”的字面意思差很多，科学含义也没有了。

今天我们就来看看PS Vita这可爱冰山的另外一角，也看看手游的冰山之尖，并终结GPU篇。

============================================================

昨天的聊了对GPU编程，其手段是写shader。以现代GPU的设计思想来说，shader的运行方式越来越复杂。

当然，这不是没事找事、故意把简单的事情弄复杂。它们背后都是有道理的。

以Vita为例。我最早的时候说过，Vita的运算能力不如PS3，但是Vita避免不必要的运算的能力超过PS3。这完全的得益于较为现代的GPU设计。

四个GPU核心，每个GPU核心里都有很多功能不同的硬件小单元，其数量超过十个，种类大致分为如下三种：

1. 运算类，就好比我这样的民工。这是GPU计算能力的主力单元，是晶体管最集中的地方，比如昨天提到的主运算单元。
2. 调度类，就好比游戏制作人，指挥民工的。这是GPU的中枢神经，负责各个单位的调度和线程调度。
3. 辅助类，就好比工作中给我泡咖啡的人（制作人：你想的美！）。比如说，读取纹理加速器，比如昨天提到的生成像素块（Tile）的单元，又比如下面将要说的特别单元。

这个特别的单元，它以Tile为单位，专门负责去除不需要处理的像素，以保证运算单元尽可能不浪费运算周期。

什么是不需要处理的像素？当然是那些被挡住的像素了。

昨天有人问了一个很好的问题，他说：GPU处理像素的时候，理应不会关注像素与像素之间的逻辑关系，像素都是独立的，和顶点一样，四个计算单元一直算就是了，为什么这里和顶点待遇不一样？

简单的说，像素成块的处理，可以说是GPU的默认标准。

首先，从算法意义和缓存用量上考虑，它非常适合divide and conquer的方法。这比一行一行从左到右的处理方法更有灵活性和优化空间。对于不熟悉算法的同学，这个东西就是古罗马帝国用的“分而治之”。中国人对这个太懂了，无非平衡之术也~

有了这个考虑，各部件就都需要遵循这个标准。（如果不这样做，很多实际的功能，比如几个3dsmax同时渲染一个图，那叫啥技术来着。。。总之，很多高效的好东西都是不可能的了。）

比如，纹理的存储方式，也是保证可以很方便的被分割成Tile来处理的。

上面说的那个特别的小单元，它输入的数据是Tile内的顶点任务计算结果，然后跟深度缓冲（z buffer）进行运算，一旦发现这个tile被挡住了，就干脆在像素任务开始之前，一次性跳过这个tile。为什么以tile为单位？因为电路就是这样设计的。

这可比PS3要先进。PS3的RSX是先傻算每个tile，然后发现某像素被挡住，然后才跳过。这就多出了很多不必要的像素任务，加重了调度和运算的负担。

==========================================================

我们把话题拉回到民工和泡咖啡那一段。

话说这个调度的单元，它有点神奇。

按照一般的认知，GPU的任务调度是固定在电路里的，我们就算下圣旨，管天管地也管不着机器的运行。

其实，Vita GPU里的主调度单元是可编程的，只是编程的方式很微妙。就算是熟悉GPU编程的人，一开始也会觉得奇怪。

简单的说，在Vita上，shader程序在被编译并转化成GPU指令的时候，会被编译器分成两份程序。（其实是四份，但是为了简化说明，我就当做是两份。）

一份被派送到主运算单元，指挥材质的运算。

另一份被派送到主调度单元，来辅助运算。

辅助运算的内容就那几样，举例来说，读取纹理的像素值，其实不一定要等到像素任务开始的时候再进行，有时候可以提前。主调度单元会根据实际情况，尽早的对纹理进行预读取。

这样做，既可以减轻运算单元的负担，也可以分流带宽的要求。这也是shader优化的重点之一。

这个东西的难点在于，你怎么知道哪些指令会被派送到主调度单元？怎么保证这些指令能够尽早的执行？

这就需要对硬件和编译器的工作原理了如指掌了。

当你看到shader，就能在脑子里编译它，转化成GPU指令，然后在脑子里模拟指令的执行和数据的流动，就可以使用这个特性了。

==========================================================

我们花了三天的时间，来解释为什么Vita的GPU设计更加现代。

因为，不仅GPU自己聪明；如果使用它的方法也聪明，GPU就会变得更强大。相信大家已经都有所体会。

GPU篇就到这里为止。明天是留言集中回复~有几个问题我一拖再拖，明天肯定不会拖了。

第六天内存显存及其它

先回答一个留言。

Q： PS Vita的显卡型号是SGX543MP4+，这个加号是什么意思？

A：

（打瞌睡时间开始）

我把我觉得可能行比较大的特性列了出来：

1. 部分寄存器和缓存有直接的读写权限。比如shader输出的像素值，是可以直接在下一个shader里读取的。这个看似平常，但用好了十分强大。
2. 支持Macrotile。会用这个，可以大大降低scene的数量。为什么要降低scene的数量，在GPU篇1里面有详细讲到。
3. GPU的调度单元可编程，在GPU篇3里讲解过。
4. Z buffer可以在芯片里不用跟显存同步。这个在GPU1篇里也提到了。
5. 内存可以选用特定的Cache协议，让GPU的高速访问。这几乎等于是变相的统一内存架构。

（打瞌睡时间结束）

这些特性，可能有些不是Mark Cerny的团队给PSV添加的，也可能有添加的特性我没有列出来。

各位大大，如果你能确定哪些不是，请回帖告诉我。

不过，我书读的少，你们不要骗我~

==========================================================

上面说的第五项，我们可以再铺开些，聊一聊PSV的内存管理。

PSV没有使用统一内存架构，即CPU用的内存和GPU用的显存是分开的。

内存的大小是384MB，其中游戏可用的是256MB+26MB。显存的大小是128MB，游戏可以用全部。

很多人肯定已经在打字回帖了，说LZ你到底懂不懂，Wikipedia上都说Vita的内存是512MB，你是索黑！

我在这里明确的告诉大家，Wikipedia写错了。

==========================================================

虽然Vita没有使用统一内存架构，但是几乎可以达到差不多的效果。

这是作何解？

通俗的说，Xbox 360/WiiU/PS4/Xbox One的统一内存架构，就好比你每天有七个苹果。可以早上吃三个，晚上吃四个；也可以早上吃四个，晚上吃三个。是否朝三暮四，皆可自由划拨。

而其余的主机是非统一内存架构，就规定你早上最多能吃三个苹果，晚上最多能吃四个苹果。如果早上吃不下，苹果就会被扔掉，晚上还是四个。

Vita是非统一内存架构，但是又不是典型的非统一内存架构。

打个比方，如果你早上吃不下，剩了一个苹果，你可以把它换成橘子，晚上就多了一个橘子可以吃了。

这个苹果换橘子的方法，就是通过使用不同的Cache协议来达成的。

所谓Cache协议，就是指定处理器和缓存之间的合作方式。它们可以密切合作，也可以相互忽略。

有的Cache协议对CPU友好，有的Cache协议对GPU友好。同一个Cache协议，两个处理器访问起来的速度是大不相同的。

（顺便一提，Cache协议是统一内存架构存在的基础。即便自由划拨，在申请内存的时候，也必须讲清楚，这块内存是对CPU友好呢，还是对GPU友好？）

如果Vita游戏的纹理很大，128MB显存放不下，其实是可以往内存放的。只要指定特定的Cache协议，对性能的损失就会很小了。

所以在内存管理方面，Vita还是比PS3要灵活一点。

==========================================================

既然说到了内存，我再聊一聊游戏容量的问题。

其实游戏的容量有限制，确实是会影响游戏的关卡数量啦，有无语音啦，过场动画多不多等等。其它方面倒是不太会被影响到。

最起码，游戏采用的技术和硬件优化是一定不受影响的。

接下来，建模和纹理的质量通常是受显存的制约，并不太会被4GB的游戏容量所限制。4GB其实很大的，而纹理怎么压缩也是硬件优化的一部分。

说直白一点，游戏的容量和游戏的画质基本没关系。

==========================================================

Q：每次系统更新都会拿忍龙2说事…
话说能简单说说忍龙2偷懒在哪导致卡得蛋疼么….

A：我360和ps3版玩的很多，v版至今未拆，但是技术方面了解一些，虽然我不记得是怎么了解的。。。

首先，这游戏其实很吃CPU，要不然ps3版也不会降同屏人数了。V版优化的不好肯定应付不来。

其次，V版的动态分辨率很动态，没人时是408p，人一多基本都是368p了。说明gpu这边也很吃力。

最后，放UT会严重掉帧，这说明粒子方面也不行，带宽也吃力啊。

各方面都很吃力的赶脚。

单纯升级系统是不会改变游戏运行方式的，如果改变了那就危险了！因为游戏是在旧环境下测试的，没有人愿意对游戏运行环境做任何改变。

sdk的升级可能会包含性能提升，但想要使用这些性能提升，必须对游戏做最低限度的编译打包，通过升级补丁的方式放出下载。

忍龙2至今有补丁升级过吗？如果没有的话，就不可能有变化了。

今天就到这里~还有一些问题我们明天讨论~

结语

我们最后来聊聊一个非常难聊的话题：

手游的问题出在哪里？

我之前在技术层面上讲了不少利弊，包括：

手游没法针对固定平台优化。
苹果的移动设备就那固定几个，架构接近，可以缓解这个问题。
手机平台的api不如主机高效，但是在努力赶上。

等等。

今天我要从不同的角度来聊这个问题。

话说国父**，十一次起义，十次失败，如此折腾为哪般？为了建立一个更合理的制度。

这个制度不是文明开化的自我陶醉，而是有实际的用途，有四项记载于《上李鸿章书》：

人能尽其才，地能尽其利，物能尽其用，货能畅其流。

这四项都是对国家和人民有切实的好处，所以是国家需要的，人民欢迎的。

我之前一直说手游的冰山之尖，我自己是这么理解的，也是四项：

人不能尽其才。世界上最好的计算机科学家已经在SCE发挥了巨大的作用；但是对于手游，他们却是无用武之地的。

地不能尽其利。举例说，我国丰富的文化资源同样是无用武之地，反倒是不如洋游戏挖掘的多，挖掘的仔细。几年前欧洲人在PS3上做了一个狄仁杰的侦探游戏，十分精彩，试问国内有哪家手游愿意去潜心研究中国近代侦探小说的？

物不能尽其用。手游挖掘硬件机能的水准，是远远落后的。

货不能畅其流。国父的“货畅其流”说的是商业，我国手游的繁荣恰恰是以不成熟的市场为依托。手游市场过热，资本和货币无法流向更高水平的游戏，扭曲的市场，就是所谓的“货不能畅其流”。

现在的资本可能都流向手游，但是最好的人才是不会流向它的，毕竟这四个原因很好懂。

===============================================================

我原本的打算，是想把PS Vita专题写成短篇。

所谓短篇就是三天甩手，最多混到国庆结束。你们放假，我可是要上班的，不眠不休的能撑几天呢？

可最后竟还是写到了这种篇幅。

说实话，我的文气很不充沛。但这次我能写到根本停不下来的程度，都是因为版友高质量的留言回复。

文章的思路不是我来定，而是大家一起定。只要思路一打开，还愁没得写吗？

这个专题今天就收尾了，但是它还没有结束。留言讨论可以一直继续下去，对于有意义的讨论，我也一定会整理到正文中。

谢谢大家！

转载请注明：No.77 疯人院 - 游戏业界新闻 - 主机游戏资料攻略 » 【业界】开发者和你谈——PS Vita专题

前言

第一天 CPU

第二天 留言集中回复

小更新

第三天 GPU篇1

第四天 GPU篇2

结语

与本文相关的文章

第二天留言集中回复