【业界】开发者和你谈——关于电视游戏机的图形运算处理技术（二） – No.77 疯人院 - 游戏业界新闻

从今天开始，我们来看一下Nintendo 64的新特性。

大家先来看一张比较的图片，好有一个直观的印象。

实在是有太多的不同了！有太多的内容可以聊了！

我做了一个艰难的选择，先从纹理（Texture）开始吧。
我们以前讲过，贴图（Texture Mapping）就是给3D模型蒙一张皮的过程。我们需要告诉显卡，什么顶点对应纹理的什么坐标（UV数据）。然后，GPU会根据所有的顶点，计算出所有线和面的像素颜色。这里需要做插值（Interpolation）计算。

SS和PS的插值方法很简单，就是取最近的像素（Nearest-neighbor interpolation）的颜色。

我们仔细观察一下图片里面的石头，PS版的纹理非常的像素化（Pixelated）。同色的大块像素，就是Nearest-neighbor interpolation的结果。

N64的GPU则支持更高阶的插值方法，叫做三重线性纹理过滤（Trilinear texture filtering）。

这个名词很长，不过大家不要被它吓到了。想要了解这个概念，并不需要很高深的知识。

首先，所谓过滤，就是上面所说的插值方法的一种。SS和PS对纹理是完全没有过滤的，它们直接取最近的像素的颜色，也就没
有什么计算。如果有过滤的话，就会进行额外的计算了。

为了理解过滤的基本思想，我们今天暂时先讨论一下单纯的过滤（filtering）技术。毕竟纹理过滤（texture filtering）还要牵涉更多的细节，所以我把它放到明天来讲。

最常见的过滤技术，叫做双重线性过滤（Bilinear filtering）。

相信大家在很多场合都见到过这个东西吧？比如说，用vita跑psp游戏的时候就有这个画面选择。

PS Vita屏幕的分辨率是544p，PSP游戏的分辨率是272p，长宽都是两倍，像素的数量是四倍。大家可以想象一下，vita屏幕上每个2X2的色块，都会对应psp游戏的一个像素，对不对？

如何决定这些2X2的色块的颜色值呢？我们需要一种插值方法。

假如我们不勾选双重线性过滤，那vita就会进行Nearest-neighbor interpolation。

在这个情况下，每个2X2的色块（含四个像素），它们最邻近的像素就是那个对应的psp游戏的像素。因为是选取最邻近像素的颜色，所以屏幕上每个2X2的色块都是同一个颜色。

打个直观的比喻，就好像是一个像素生出了好几个相同的像素。这就是最邻近方法的核心思想。

假如我们勾选了双重线性过滤，那vita就会进行更多的计算了。

这时候，针对vita屏幕上的每个像素，GPU会去找离它最近的四个psp游戏的像素。有了这四个像素之后，再分别根据自己与它们之间的距离，做加权平均值（Weighted average）。距离越近，权重就越大。

简单的说，每一个新像素都会受到几个旧像素的染色，最后会出现一个比较平滑过渡的结果。

以上就是过滤（filtering）最基本的思想。无论是单纯的把小图像放大，还是应用到纹理上，大致都是这样一个思路。

最后提一下，双重线性过滤在视频播放器和模拟器中应用的很多，它是把分辨率低的图像放大的常用方法。

关心更多细节的玩家，可以参考这篇：http://msdn.microsoft.com/en-us/ … 7%28v=vs.85%29.aspx

好，今天的内容就结束啦~
最开始我们提到过，N64的GPU支持三重线性纹理过滤（Trilinear texture filtering）。那么，三重是什么？纹理过滤又有什么不一样呢？大家明天见！

第二天 Mipmap和三重线性纹理过滤（Trilinear texture filtering）

我们先来回答昨天留下的一个问题：纹理过滤和普通的过滤技术有什么不同？

答案是，纹理过滤要牵涉到Mipmap。

于是，我们便遇到了第一个我查不到中文翻译的词汇：Mipmap。

Mipmap可以作为名词，于是就有了复数形式Mipmaps。它也可以作为动词，应用到Mipmap的技术，就被我们叫做Mipmapping。
下图中的纹理（Texture）就有Mipmap:

纹理里面有很多相同的人造卫星，但是它们的太小都不同。我们称做不同的细节程度（Level of detail）。

那么，我们为什么要存这么多个相同的图案呢？难道不浪费空间吗？

其实，它确实很占用空间！不过，它也非常有用，因此被使用的非常广泛。

当物体很远的时候，或者只是侧面面对镜头的时候，这个物体在屏幕上将会占用非常少的像素。这时候，如果我们使用分辨率很高的纹理，效果肯定是不理想的。

有了Mipmap技术之后，显卡就有挑选的余地了。我们可以告诉显卡，在什么情况下使用什么的细节程度，显卡就可以挑选合适大小的纹理了。

如果大家玩基于虚幻引擎3的游戏比较多的话，肯定能注意到一个现象。有时候，最开始纹理是模糊的，然后慢慢变得细致。

最开始的那个纹理，就是最低细节度的Mipmap。这是虚幻3减少游戏读取时间的方法。
在了解了Mipmap之后，我们再来想象一下这样的情形：

当镜头离物体忽远忽近的时候，纹理的细节度会发生什么呢？

分辨率高的Mipmap和分辨率低的Mipmap会来回的切换。

我们把这种现象叫做Texture Popping。要拿最近的游戏来说，这个现象在ID software的狂怒（Rage）里面就很常见。应该是Mipmap的控制没有做到最好的原因。

为了解决这个问题，一个早期的解决方案就诞生了！那就是三重线性纹理过滤（Trilinear texture filtering）.

顾名思义，这个东西是在双重线性纹理过滤的基础上，加了一层计算。

它会在两个临近细节度的Mipmap中，取一个中间值。这样一来，纹理的细节度就不会突然变化了，而是会缓慢的过渡。
相比较最邻近像素的插值方法，Mipmap+三重线性纹理过滤可以很好的解决纹理马赛克的问题。但是也有两个缺点：
1.纹理的体积会膨胀。
2.纹理会变得模糊，失去锐利度（Sharpness）。

尤其是第二个问题，我个人是非常讨厌的。

在火箭鸟2的开发过程中，我们使用了4K乘以4K的高清晰纹理。这个分辨率应付1080P的游戏绰绰有余了~

可是，由于Mipmap的存在，导致纹理有些模糊，从而失去了很多细节。后来我只好禁用了一部分Mipmap，这样整体图像的细节丰富程度才比较让人满意。

Mipmap本身也不是那么容易控制的，就连id software也不能完全杜绝Texture Popping这种现象。
今天的内容就结束了。大家复习一下，三重线性纹理过滤是怎么工作的？

大家明天见！

第三课动态分辨率和透视修正

我的工作一向是非常忙碌的，昨天和今天都是干到现在才下班。。。

好在这两天的工作成果都很有意义，今天实现了动态分辨率（Dynamic Resolution）这个技术。

此技术是2011-2012才开始流行的，我记得Rage和忍龙3都使用了这个技术。

它的概念其实非常简单：当GPU算不过来的时候，我们就可以通过降低游戏分辨率的方式，来减少屏幕上像素的总数。这样一来，GPU就算得过来了。

不过，我可以自豪的宣布，我们正式发行的PS4版多半是用不到这个技术的！

很多人肯定要问：那你费劲做这个技术干什么呢？！

那是因为我们公司pc的GPU跑不动。这个技术是给pc版做的，pc版比较方便大家测试。

我前段时间实现了全局光照，而且游戏里的动态光源数量极多，虽然充分利用了ps4的GPU和带宽，但是对于pc来说，每一个像素都太昂贵了。这时候，降低分辨率就对帧数很有帮助了。

而我们的艺术人员又需要在1080p的分辨率下观察游戏的细节，所以我才选择了动态分辨率这个技术。

这个技术的实现牵涉到后期处理（Post Effects），所以细节的部分我们以后再聊。

最后，大家考虑一个问题：如果是CPU算不过来，那么动态分辨率对帧数有帮助吗？

答案是，没有。

因此，我们大致也可以判定，那些使用了动态分辨率技术的游戏，通常就应该是受GPU局限了（GPU-bound）。

言归正传，我们继续来看N64的技术。

大家先来看一张PS上GT赛车2的图片：

再来看一张N64上的Rush 2049的图片：

大家仔细观察一下GT2赛道的边栏的形状以及上面的纹理，是不是哪里不太对？好像哪里跟我们现实中的不太一样？N64的图像是不是好很多？

其中的原因就是，N64有透视修正（Perspective Correction），而SS和PS没有。SS和PS使用的则是仿射纹理贴图（Affine Texture Mapping）。

我们在第一期和前几天都讲过，贴图都需要一种插值方式。

透视修正是决定顶点之间线的位置的最正确的插值方式，而仿射就不太准确了。

这个仿射是什么意思呢？其实我也不知道~

但是，我知道这种贴图的算法是什么。大家看一看下面的图片：

大家请看Affine那个棋盘格的任意一个半边，注意到没有？棋盘格仍然是平行的！

相信大家在美术课中都学过透视原理，最右边一个棋盘格才是正确的，每一条线最终都会延伸交汇到一点。

Affine Texture Mapping的算法很简单了，它就是根据纹理的二维坐标（UV）做了一个简单的线性插值，所以才导致了上面的情况。

相比较，透视修正的计算量则稍大，因为考虑到了顶点的深度（Depth）。好在N64的硬件直接支持透视修正，所以它也成了N64游戏的标准配置。

有了以上的知识，我们可以进一步总结：因为透视修正的存在，深度缓冲（Depth buffer或者Z-buffer）的存在也就理所当然了，对不对？

N64有深度缓冲，SS和PS则是没有深度缓冲的。

今天的内容就到这里，我也要赶紧去收衣服了。

大家明天见！

第四天栅格化

抱歉，今天的更新晚了点。因为我抗锯齿的文章写了一大半，又不得不推翻，重新写了这一篇。

昨天有人跟我提意见说：不讲栅格化就不可能讲清很多概念！

说实话，我原本是不打算写这一篇的，因为觉得不适合入门。况且分辨率也属电脑常识。

但是仔细想了之后，觉得人家讲的有道理！比如说，不讲栅格化就不可能讲清锯齿出现的成因。

而且，经过的第一期的讨论，大家都应该已经懂了不少东西，这时候回头再看栅格化的概念，应该事半功倍。

我知道，今天有人看完心里肯定说：这TM也太简单了！老子早就会了！

我要说的是，栅格化和分辨率本身虽然简单，但是却可以引申出一些很重要的结论。今天虽然是一个过渡章节，但是大家可不要轻敌了~

我们先来回忆一下，3D模型是如何描述的？

答案：有了所有的顶点和它们之间的连接方式，就可以精确描述一个3D物体了。

这种描述方式是非常精确的，毫无误差。可惜电视机的图像都是由像素点阵构成的，所以我们迟早都必须把所有的线和面都转化成像素点阵的形式。这个转化的过程就叫做栅格化（Rasterization）。

栅格化这个翻译我非常喜欢！像素点阵就是一格一格的，非常形象~因为这个原因，我没有采用光栅化这个说法。

一格一格的像素点阵的数量必然是有限的。在显卡做栅格化的时候，我们需要指定这个点阵有多少行、多少列。这也叫做分辨率（或者解析度，Resolution）。

大家都知道，分辨率越高，像素的数量越多，图像就越精细。

相反，如果像素数量少，那么图像就容易呈颗粒状（想象一下3DSXL的画面）。

以上就是我们今天的基础知识。有了这个知识，我们可以引申出一些很重要的结论。

首先，细心的玩家肯定已经发现了。把一个三维的物体栅格化，最后的结果其实应该是有长、宽、高的三维立体像素点阵，为什么最后只剩一个二维的像素点阵呢？

这里其实分两种情况：

SS和PS在做栅格化之后，深度值是被抛弃不用的，仅仅留下二维的点阵作为帧缓冲（Framebuffer）。

而N64及以后的主机，第三维的坐标会进入深度缓冲（Depth buffer或者z-buffer）。

我前几天也说，SS和PS没有深度缓冲，就是指这个。

我们再进一步分析，为什么只有N64及以后的主机才有透视修正呢？

因为透视修正依赖深度值。SS和PS之间把深度值扔掉了，自然就不可能实现正确的透视效果。
其次，栅格化之后，我们会有一个二维像素点阵，每个像素都有颜色值，这个就是我们之前说的帧缓冲（Framebuffer）。

现在我问大家一个问题：论坛里面经常提到的一个名词“渲染分辨率”，它到底是什么？

答案：所谓渲染分辨率（Rendering resolution），就是指帧缓冲和深度缓冲的分辨率，也就是栅格化所使用的分辨率。

接下来一个问题：GPU所处理的像素的数量，跟什么有关？

答案：只跟上面提到的渲染分辨率有关。

跟电视机的分辨率无关，跟1080p的信号或者720p的信号也无关！

大家不要看见电视显示1080p，就以为游戏是在1080p下面运行的。这一点务必要理解。

最后，栅格化是发生在顶点、UV、法线等数据的变换和插值之后，在纹理贴图和半透明处理等特效之前的。

因此，我们得到一个结论：纹理贴图和半透明效果等特效的工作量，是跟渲染分辨率高度相关的。

我们玩pc游戏，通常降低分辨率可以获得更高的帧数，就是这个原因。当然，如果是CPU算不过来，降低分辨率也没用了。

在N64之前，SS没有UV，PS的framebuffer没有alpha通道，但是这仅仅是实现方法的不同。我们上面介绍的概念和结论，仍然是成立的。

好，大家明天见！

第五天抗锯齿基础

这两天一直生病请假，跟大家说一声对不起。

在介绍吴小林之前，我们先来看一下，游戏画面为什么会产生锯齿（Jaggies）。

锯齿这个词非常有意思，英文原文通常叫做Jaggies。大家能猜出这词的单数形式吗？

答案是，一般不用单数形式。

这词的词源是Jagged，形容锯齿状。名词形式Jaggies，直到视频游戏流行之后才出现。可以说是美国人活用（或者说是乱用）英文单词的典型例子了。

产生锯齿的现象，还有一种比较学术的说法，叫做Aliasing。这是抗锯齿（Anti-aliasing）一词的词源。

锯齿出现的根本原因是：游戏的分辨率不够。

大家看下面的图片就明白了。

大家想象一下，如果显示设备和游戏的分辨率是4K、8K、甚至16K，上面的直线就不需要任何抗锯齿技术了，肉眼完全看不到边缘。

如果分辨率是有限的，就必须进行昨天（其实是五天前了。。。）讲解的栅格化。如果不使用任何硬件或者软件的抗锯齿（Anti-aliasing）技术，锯齿的产生就不可避免了。

上图的画直线的算法叫做Bresenham’s line algorithm，是效率最高的画直线的方法，也是大多数显卡的默认显示方法。

下面介绍一种早期的抗锯齿技术，叫做吴小林直线算法（Xiaolin Wu’s line algorithm）。

这个算法的运行效率也非常高。当然，速度肯定不如上面的那个算法。

它的基本思想也很简单，大家看图就知道了：

直线所通过的像素都会着色，但是颜色则不是纯色，而是取决于跟直接的距离，距离越远颜色就越淡。离远了看，可以达到边缘柔化的效果。

吴小林直线算法也有一些局限性，它也不能控制反锯齿的程度。

N64的显卡，从硬件层面上支持吴小林直线算法，因此N64游戏的抗锯齿是很普遍的事情。

到了今天，这种抗锯齿技术已经不是主流了。PC上普遍使用的是多重取样的MSAA，而在PS360世代的主机游戏的研发中，很多依赖post effects的抗锯齿算法被创造出来了。这些都是后话了。

今天的话题就说到这里，大家明天见！

第六天统一内存架构

我原本也是不打算这么早就讲这个话题的，直到新闻区出了这么一帖：
http://bbs.a9vg.com/thread-3556533-1-3.html

希望大家读完今天的文章之后，都会有自己判断真伪的能力。

我们都知道，自从xbox 360使用了统一内存架构（Unified memory architecture）之后，它就成了游戏主机的标准配置，WiiU，PS4和Xbox One都沿用了这一设计。甚至，将来的PC可能也会向这方面发展。

但是，xbox 360却并不是这个架构的最早实践者。它的爷爷辈的N64就已经有了统一内存。

可惜的是，比起xbox 360的辉煌，N64对这项前瞻技术的实践只是一个败笔。

那么，究竟什么是统一内存？为什么N64的统一内存失败了呢？

我们早在第一期就讲过：在传统架构中，内存只能被CPU读写，显存只能被GPU读写。如果CPU和GPU之间要通讯或者共享数据的话，数据就只能在内存和显存之间复制。

统一内存架构则颠覆了这一事实。

在统一内存架构中，同一块内存既可以被CPU读写，也可以被GPU读写。

如此一来，显而易见的，统一内存架构有如下优点：
1. 内存空间的运用更为灵活。如果CPU用的少，就可以匀一些给GPU用，反之也成立。
2. 节省一些内存空间和带宽。一部分内存和显存之间的数据复制可以避免掉了。

很多玩家肯定要说了：我擦，这东西太好了！那我们一直用它不就行了！

可惜的是，统一内存并没有大家想象的那么好。

一块特定的内存，虽然CPU和GPU都能访问，但是它们不可能都处在高速访问的状态。原因有很多：

首先，CPU用数据的内存排布（Memory Layout）和GPU用数据的内存排布是不同的。

我们在申请内存空间的时候，只能二选一。如果选择了比较适合CPU用的内存排布，那么GPU的访问速度就会下降，反之亦然。

其次，内存通往CPU的总线和通往GPU的总线是分开的。如果这两条总线同时在访问，内存控制器的效率会降低。在这样的情况下，CPU带宽和GPU带宽的总和，往往达不到内存本身的带宽。如果单用一条总线，就没有这个问题。

最后，CPU和GPU仍旧是独立的两个处理器，它们分别拥有自己的一套缓存（Cache）。同一个资源，如果被两套缓存共享，那么写入和清楚缓存的操作会大大增加，往往不止是简单的乘二。Cache的工作原理，我们明天会做详细的讲解。

综合以上原因，我们知道统一内存架构有两个缺点：
1. 内存会有更高的延迟（Latency）。比如说，原本读取一个数据需要XX时间，现在可能要花两倍的时间才能拿到这个数据了。
2. 在CPU和GPU同时访问的情况下，内存的带宽不能充分发挥。比如说，原本一秒钟可以传送XX个字节的数据，现在当CPU和GPU同时读写的时候，只能传送到原本的2/3了。

我在A9看到有一个误区：认为有了统一内存，就可以完全避免内存和显存之间的数据复制，所以对带宽的需求就不那么高了。

假如真想避免的话，确实可以避免。但是没有意义，因为数据读写的速度会因此变慢。

所以在实践中，我们多半还是会像传统架构一样，在两块不同排布的内存之间复制数据。

比如说，一张纹理，它会被放在GPU比较喜欢的内存里面，以保证绘制的效率。如果CPU想直接更改纹理的内容，速度就很慢了。这时候，我们会在CPU比较喜欢的内存里建立一个缓冲区，很有效率的完成数据的操作，再一次性写入GPU那边。

可想而知，这样对带宽要求是没有下降的。

有了以上的知识，我们可以回头看看最上面那个链接了。

AMD那个大嘴巴所解读的hUMA技术的作用，其实是统一内存的标准功能，N64就有了。至于我们上面所说到的统一内存的很多问题，似乎也没有得到解决。

实际上，hUMA的作用并不像那文章解读的那样。根据我能够找到的资料，它似乎可以缓解我们提到的Cache的问题。因为现在没有任何游戏主机使用了这项技术，所以具体的效果就很难说了。

总而言之，AMD那位员工提供了很多错误信息，更像是给AMD自己的技术打广告，大家以后都要留意了。

最后，N64的统一内存为什么是败笔，就显而易见了：内存延迟太大。

N64有4MB的RDRAM，也就是当年的新型内存Rambus。它的带宽非常高，可惜被统一内存的延迟拖了后腿。

实际上，N64的败笔可不止这一项。

明天我们来一起看一下Cache的工作原理，大家明天见！

第七天高速缓存（Cache）

高速缓存有很多种，我们今天讲的是其中的一种，叫做Cache。

这里我不得不提一件往事，是关于当年我毕业之后的第一份工作。

有一天我跟我前老板聊天，我说我必须要利用什么什么Cache的机制，那货很生气的说：什么？你是在找我要现金吗？

这个故事告诉我们两个道理：

1. 满脑子是钱的老板，以及完全不懂技术的老板，绝对是个灾难！
2. Cache和Cash同音。

Cache就是附属于CPU或者GPU的高速缓存。它是处理器性能的关键因素之一。

它存在的意义很简单：处理器访问Cache的延迟，比起处理器访问内存的延迟，要小很多倍。如果数据是装在Cache里面的，那么处理器拿到数据的速度就能提升很多倍。

很多人就要问了：那如果数据不在Cache里面怎么办呢？

因为Cache协议的种类实在是非常多，我在这里挑一种最普遍的情况来举例说明。

我们假设一个最初始的情况：数据全部在内存里，Cache是空的。

这时候，CPU需要拿一个字节的数据来计算一个东西，于是它就向Cache申请访问了。

Cache会告诉CPU：我这里没有这个数据。这种情况叫做Cache Miss。

于是CPU只好向内存申请访问了。慢就慢点吧，咱也没办法啊。

最后内存告诉CPU：我有这个数据。于是内存会给CPU这一个字节的数据。

注意，重点来了：与此同时，内存还会把邻近的一排数据都放到Cache里面存起来。

Cache里面的每一排数据，叫做一个Cache Line。一个Cache Line的大小通常是几个KB。

因此，我们还知道了一个结论：在Cache Miss的情况下，读取一个数据需要耗费双倍的内存带宽。

接下来，CPU又想拿同一个数据来计算了，于是它又向Cache申请。

这回Cache里面有这个数据了，所以CPU可以以非常小的延迟拿到这个数据，同时不消耗任何带宽。

这种情况叫做Cache Hit，命中了！

然后，CPU想拿下一个数据来计算了，于是它再一次向Cache申请。

我们上面已经学过，Cache一次性会拿一整排的数据，所以邻近的数据都是在Cache里面的。又是一个Cache Hit！

所以说，Cache对处理器性能的提速是建立在两个事实之上的：

1. 处理器的运算能力远远超过内存的读写速度。
2. 处理器经常拿重复或者邻近的数据。这种特性叫做局域行为（Locality）。

游戏任务更是如此，所以Cache对游戏性能的提升是非常重要的。

Cache的成本非常高，所以它们通常都很小。

在现代的处理器中，我们通常会设置多级缓存，即一级缓存（L1 Cache）和二级缓存（L2 Cache）。

L1 Cache的速度最快，但是非常小；L2 Cache的速度慢一点，容量也可以大一些。

Cache还可以进一步分类成I-Cache和D-Cache。

I-Cache专门用来装机器码指令，即Instruction Cache。D-Cache则是专门用来装数据，即D-Cache。

有了上面的知识，我们就可以来看看N64了。

N64用来装纹理的Cache只有4K，可想而知，它是装不了任何清晰的纹理的。

因此，GPU在读取大纹理的时候，会出现大量的Cache Miss。我们上面说过，Cache Miss的成本非常高，会消耗两倍的带宽，也利用不到Cache的低延迟。

很多N64游戏不得不牺牲纹理的大小，导致贴图模糊。

这就是N64另一个硬件设计上的败笔。

以上就是Cache大致的工作原理。有兴趣的玩家可以继续读下面的内容。

上面说的都是CPU读取数据的情况，那么Cache是怎么帮助写入数据的呢？

同理，我还是拿最常见的写入协议来讲解，这个协议叫做Write-Back。

当CPU写入数据的时候，如果数据不在Cache里面，会先申请读取一个Cache Line。

然后，CPU只写入Cache，真正内存里的内容不会更新，直到那个数据被读取为止。

这样就可以避免CPU反复写入内存的情况了。

我们也因此知道，在Write-Back协议下，即便是写入内存，也是会有读取内存的操作来占用带宽的。

这个协议比较适合CPU的读写和计算，因为Cache Locality非常普遍。

而GPU方面更普遍的写入情况就是大块内存的写入（Framebuffer之类的），这时候Write-Combining协议的效率就更高了。WC是会无视Cache而进行内存写入的。

根据这篇论文的结论，WC的速度是WB的1倍至10倍不等：
http://download.intel.com/design/pentiumii/applnots/24442201.pdf

第八天高氏着色

高氏着色并不复杂，但是要理解它，就必须理解我们之前讲解过的很多概念。所以，今天也是一个很好的复习机会。

接着昨天的话题：因为Cache的限制，导致N64不能高效的处理高分辨率的纹理。所以N64游戏的材质往往看起来比较模糊。

但是，也有一些游戏就没有这个情况，比如下图中的马尿64：

图像的锐利度并不低，这是怎么做到的呢？

因为根本没有用到纹理！

希望大家还记得我们以前讲过的一个东西：插值方法。

当有纹理的时候，N64的硬件支持三重线性纹理过滤。那么，没有纹理的时候怎么办呢？

N64还支持另一种插值方法：高氏着色（Gouraud shading）。上面图片里面的大多数像素都是用高氏着色的。

接着还需要大家复习一下光照的基础：要想进行光照的处理，我们必须要有每个三角形顶点的法线数据，以及光线的方向。

有了以上的数据，我们就可以计算出每个顶点的光照强度了。

如果有纹理，像素的颜色就是在纹理颜色乘以光照的强度。因为高氏着色没有纹理，所以只需要指定一个单色，再乘以光照的强度。

接下来，高氏着色是怎么决定顶点之间的线和线和线之间像素的颜色值的呢？

答案很简单：就是线性插值。

大家再次复习一下，线性插值的基本概念。

应用在这里的线性插值，就是指一个像素会同时受到周围顶点的染色，染色的程度是跟距离相关的。

最后出来的结果就是平滑的颜色过渡了。

前两天讲的内容相对比较难，今天正好有机会调整一下节奏。

我可是非常认真的在安排内容和顺序，如果觉得哪里卡住了，我就强烈推荐大家借这个机会复习一下相关内容。

当然，如果以前都有认真读，今天的内容就真的是超简单的了！

距离我们的SS vs PS vs N64大对决已经不远了，大家明天见！

第九天微程序

今天的中国生活在一个“微”时代。微博、微信，就连抄袭也改头换面立牌坊，叫做“微创新”。

这就是所谓的物是人非。小时候我们把电脑叫“微机”（微型计算机），于是也有了微机课和微机房。那时候，同样是一个“微”字，却代表了超大规模集成电路的技术进步：我们终于可以把计算机缩小到可以放上桌子了。

就像当我小学四年级开始在APPLE-II型电脑上玩LOGO语言并开始接触汇编的时候，我怎么也想不到，今天的苹果会制造出那种数码泡沫产业。不以科技推动和人类真实需求出发的产业，自然是泡沫产业，也自然有消失的那一天。

我们今天讲的微程序（Micro-code）也代表着技术的进步，以及一种新思维。

N64可以使用微程序对GPU进行编程。可惜它非常难用，跟统一内存架构一样，是一次失败的尝试。

微程序后来被PS2和GameCube所继承，并获得了很大的成功。直到Xbox出现之后，才被Shader取代。

不得不说的是，PS3的CELL处理器里面的协处理器（SPU），可以说是微程序思维的多线程版本，并且跟Shader同时存在于PS3中。最后，它也即将退出主机游戏的历史舞台。

那么，微程序到底能用来做什么呢？

首先，我们需要提一下N64的GPU的细节。

N64的图像处理器和音频处理器是在一起的，它叫做Reality Co-Processor。（因此，音频可能会影响图像性能，这也是N64另一个设计上的问题。）

然后，我们来复习一下，GPU所做的工作是什么？

它取得所有的顶点，将它们转换，以便显示在屏幕上，然后进行栅格化，变成像素，再进行插值运算，决定每个像素的颜色值。

我们之前也说过，GPU的这整套流程分成顶点处理和像素处理两部分。它们的分界线是栅格化。

于是我们可以发现，整个顶点处理和像素处理的方式，都是比较固定的。

顶点处理就是进行坐标系的变换；像素处理也是固定的，只是有一些有限的选择：你可以选择做三重线性纹理过滤，或者进行高氏着色等等。

如果你想有更多的控制和更复杂的特效，GPU就必须支持编程（Programmable）。

我们今天要讲的微程序（Micro-code）就是在N64、PS2、Gamecube等主机中使用的，一种比较早期的，同时也是比较复杂的GPU编程方式。

N64的GPU默认运行的微程序是任天堂事先编写好的，它做的任务就是我们上面所说的固定的顶点处理和像素处理。

游戏开发者也可以自己编写一套不同的微程序，这样就可以做到与众不同的效果或者优化了。

举例来说。。。前几天我们说过，因为纹理Cache和统一内存架构的原因，N64的像素填充率会受到很大的限制。

解决这个问题的方式之一，就是使用微程序来替换掉原有的Mipmap和深度缓冲机制。

纹理的格式可以自定义，让它们尽量占用最小的空间。

深度缓冲也不是所有场合都需要的，有选择性的使用它可以提高像素填充的速度。

N64可以做到这种比较底层、也非常困难的技巧，这也是Rare等厂商发挥N64机能的不二法门。

细心的玩家肯定已经发现了：这种方式是不是跟顽皮狗发掘PS3的机能很类似？

没错！但问题是任天堂提供的工具非常难用，很多人甚至怀疑任天堂的动机，是不是不想让第三方掌握这种技术。

因此，可以比较好利用N64机能的游戏非常少，其中最重要的原因之一就在这里。

好了，现在我们应该把很多基础的概念讲解的很清楚了。明天我们会对SS、PS和N64的机能做一个总结和比较，也会迎来本文第二期的结束。

大家明天见！

第十天 SS vs PS vs N64

“朱門酒肉臭，路有凍死骨。榮枯咫尺異，惆悵難再述。
北轅就涇渭，官渡又改轍。群冰從西下，極目高崒兀。”

历史的洪流浩浩荡荡，游戏主机经过了多少兴旺交替，其中不乏很多大宝石、直接倒在路边没人记得的主机。在第五代游戏主机中，多数人只记住了三个明星：世嘉土星，索尼Playstation和任天堂64。

那么，是什么使得这三台主机可以脱颖而出呢？我们今天要做一个总结。

（当然，我还要强调第101遍，本文只讨论3D机能。）

我们先来看一下这三台主机能做什么、不能做什么。

N64能做的事情最多。它硬件支持半透明效果、深度缓冲、Mipmap、纹理过滤、全屏抗锯齿、透视修正以及高氏着色，甚至可以做到简单的即时光照，简直就是一台低分辨率的Dreamcast。

同时，它也大胆尝试各种新技术新思路。它是第一台使用统一内存架构、以及可编程的GPU的游戏主机，虽然实际效果很差，但是勇气可嘉。

（可惜的是，这种勇气并没有被今天的任天堂所继承。）

虽然N64能做到的事情最多，但是在跨平台游戏中，往往是比较差的一个。

总的来说，N64非常接近现代主机，也几乎是为3D游戏量身定制的游戏主机。

Playstation硬件支持半透明效果和简单的光照。（没了。）

PS的设计非常均衡，相比N64来说，几乎没有犯什么设计上的错误。

在没有明显瓶颈的基础上，原始计算能力也不错，编程的难度也相对比较简单，所以跨平台游戏往往会有比较好的表现。

PS还通过光盘载体对游戏的体验进行了创新，播片的风潮对视频游戏影响深远。

SS的硬件只支持最基本的3D图像处理，应该说是对3D游戏的流行没有做出正确的预测。如同Wii没有对HD游戏的流行做出正确的判断一样。

SS是游戏主机历史上唯一一台以四边形为3D图像处理单位的主机，它处理2D图像和3D图像并没有太大的区别，可以看出SS的设计非常的保守。

保守的设计也导致没有很多技术和游戏方式上的创新。

我们第一期说过，分析机能要看三方面：
1.计算能力（兵力）
2.存储器容量（粮草）
3.数据读写和传输速度（运输队）

N64拥有第五代主机中最强的CPU和GPU。但是，并不像广告宣传所说的，这个性能跟64位没有太大的联系。

Atari Jaguar也号称是64位主机，它的广告词是“Do the maths”（“自己算”），可是实际机能却只能达到SFC的水准。

N64跑的都是32位程序，自然也就利用不到多数的64位数据处理能力。

任天堂官方宣称N64可以处理50万多边形，实际上因为粮草和运输队的拖累，屏幕上能有2000三角形就算不错了。

PS方面，官方说是100万多边形（更离谱了。。。），实际结果则是跟N64是差不多的。

SS方面，官方说是20万多边形，从实际结果来看，往往跨平台游戏中，SS版的多边形还要多一点。（你们到底有谱吗。。。）

可见官方的宣传是多么的自由奔放。

其中的原因我们之前都强调过，因为他们从来就不统一衡量的方法和标准。这种情况下，那些数据就连参考的价值都没有了。

即便是次世代的宣传也是一样的，大家都要留意这一点。

另外，N64的音频和图像共用一个处理器。音频处理会影响到图像处理，这个问题也是前无古人、后无来者的。

N64有4MB的RAM，而且是统一内存架构，所以使用上还会更节省一点。

PS有2MB的内存，1MB的显存。

SS的存储器非常多！我们暂时这样归纳：2MB内存，1.5MB显存。

大家都半斤八两，而且肯定都够用了。其中，N64的存储器应该稍微有余裕一些。

按照正常的逻辑，是不是N64就可以有更精细的建模和纹理呢？

不是，因为N64写入深度缓冲很慢，多边形多了来不及写；N64的纹理缓存也太小，纹理体积大了就会太慢。粮草够用是够用了，就是运不出去。

现在我们都知道了，N64的运输队非常不给力！

但讽刺的是，N64的内存带宽却远远高于PS和SS。那到底为什么数据传输的这么慢呢？

原因包括：
1. 统一内存架构导致延迟太长。
2. 支持深度缓冲，但是写入的速度太慢。
3. 处理器的缓存设计不合理。

如果游戏开发者决定自己写一套微代码，也许还可以解决这些问题。可是这个技术难度很大，老任也不给好的文档和工具，多数第三方也只好作罢。

PS和SS则不存在这个瓶颈。

最后提一下存储介质。其实64MB的N64卡带容量对游戏来说是足够的，不过因为成本的问题，大家都选择比较小容量的卡带，间接影响了游戏的效果。

但是，卡带肯定不能提供长时间播放视频的容量，这也损失了一种游戏体验的可能性。

好了，今天的内容就到这里，大家明天见！

其实今天通篇都是结论啊。比较机能又不是比较数字，哪会有一个大于小于的结果呢？

真要有结论的话，不如就以现在的主机做个比喻吧：

N64像是PS3。很难用，但是用好了最强大。

PS像是Xbox 360。设计均衡，没有明显的短板。

SS像是提高几倍性能的Wii。3D机能也不弱，但是对业界的判断不准，技术上也较为保守。

这三台主机不知道碾压了多少竞争对手，它们都是赢家。

转载请注明：No.77 疯人院 - 游戏业界新闻 - 主机游戏资料攻略 » 【业界】开发者和你谈——关于电视游戏机的图形运算处理技术（二）

与本文相关的文章