虚拟和增强现实溯源:Sutherland 的《终极显示》


Ivan Sutherland 发表于1965年的 “The Ultimate Display” 是当下整个虚拟和增强现实技术的原爆点。这篇文章在国内传播得很少,为此,我们特地翻译了这篇 WIRED 在2009年重新发布的新格式内容。下面括号中内容为 WIRED 注释,图片为译者所加,仅供大家参考。


(((1965年的这篇著名文章,是当今图形显示技术的原爆点。对于增强现实而言,这篇文章的地位就相当于万尼瓦尔·布什那篇 “As We May Think”(1945)之于计算机网络的作用。)))

这篇文章是以新的格式进行发布的,可能会丢失内容或包含有错误的链接。如有发现任何问题,请联系 wiredlabs@wired.com。

终极显示

Ivan E. Sutherland

信息处理技术办公室,高等研究计划署,国防部长办公室

我们生活在一个物质的世界,其特性通过长期地接触,我们就能了解。我们所感知到的自身同物理世界的关系,让我们有能力来很好地预测这一世界的特性。举例来说,我们可以预测出物体将要落到的地方,预测出熟知的图形从不同的角度所看到的样子,预测出使物体克服摩擦力运动起来所需要的推力的大小。(((世界物理学)))

而对于带电粒子的力、非均匀电场的力、非透射几何变换的结果、高惯性低摩擦的运动……我们则缺乏相应的接触经验。但一台连接到数字计算机的显示器,却可以让我们来熟悉那些在实体世界中无法直接接触到的概念。这是一面通往数学仙境的窥视镜。(((虚拟现实、大型多人在线角色扮演游戏、模拟器)))

如今的电脑显示器具备各种各样的功能。一些显示器只具有点阵标绘的基本能力。(((点阵))) 现在在售的显示器一般都内置有线条绘制功能。(((矢量图形))) 能够绘制简单曲线的功能将会非常有用。(((非均匀有理B样条曲线、T-样条曲面、计算机辅助设计与制造))) 一些最新的显示器则能够标绘出任意方向的短线段,从而显示出字体或其他更为复杂的曲线。(((图形处理))) 这里的每一项功能都有一段历史以及一项已知的用处。

让电脑来构造一幅由彩色区域所组成的图像,同样也是可能的。Ken Knowlton 的电影语言 BEFLIX [1] ((( MPEG、AVI、.mov ))) 就是用电脑来生成区域填充图像的极佳示例。现在市场上还买不到这样能供人类直接使用的、具备区域图像填充功能的显示器。但新的显示设备很有可能具备这样的区域填充功能。至于如何利用好这一新功能,我们则还有很多需要学习的地方。

今天最为常见的电脑输入设备是打字机键盘。打字机便宜、可靠,且能生成容易传输的信号。随着越来越多的在线系统投入使用,越来越多的打字机终端很有可能也会投入使用。将来的电脑用户将直接用打字机跟电脑进行交互。他应该知道如何来使用键盘。(((在一块火柴盒大小的“打字机”触摸屏上点击他的拇指)))

其他各种各样的手工输入设备也是有可能的。在标示显示出来的项目方面,以及向电脑输入绘制或打印的内容方面,光笔或兰德平板电脑的手写笔的功能会非常有用。通过这些设备跟电脑进行非常流畅地交互的可行性才刚刚被揭示出来。(((鼠标,触控板)))

兰德公司还在开发手写笔的一个调试工具,使之能够识别输出寄存器的内容在屏幕上的变化,并能简单地标示或移动某项内容以实现样式上的重定位。使用兰德这项技术后,你就可以直接修改屏幕上所显示的数字,在某个数字上面写下你所希望的数字即可将其覆盖掉。如果你想把某项内容从屏幕上的一个区域移动到另一个区域,只需使用手写笔指向第一个表册并把它“拖”到第二个里面就可以了(显示内容会自动转移到相应的输出寄存器中)(((“拖放动作”))) 拥有这种交互系统的设备所能提供的人机交互体验是非凡的。

各式各样的旋钮和操纵杆 (((“旋钮和操纵杆”))) 最为有用的功能就是在计算过程中用来调整参数。例如,通过三轴的操纵杆来调整透视视图的视角会更加方便。(((带有罗盘、GPS及加速计的具备增强现实功能的移动设备))) 带有灯光的按钮通常很有用。(((电源按钮、移动键盘))) 语音输入也不应当被忽视。(((语音识别)))

许多情况下,计算机程序需要知道用户所指向的是图像的哪一部分。(((图像识别、视觉追踪))) 图像的二维属性使其不可能通过各部分之间的相互关系被直接定位出来。为此,通过显示屏自身的坐标转换来找出用户所指向的图像位置,将是一个耗时的计算过程。光笔在显示电路传输其所指向的图形部位时会发生中断,从而自动获取到它的位置和坐标。兰德平板电脑或其他输入设备上的特殊电路也能够提供出相同的功能。

事实上,程序来需要知道的是用户所指向的画面结构存储在内存中的位置。在带有独立内存的显示器上,光笔返回值所声明的是显示器所存储的目标区域的内容文件的位置,而非是程序所需要的主内存地址。更糟的是,程序真正需要知道的是屏幕上目标区域的确切子区域。现有的显示设备还无法计算这里所需要的深度递归。新的带有模拟内存的显示器很有可能完全失去这种位置指示能力。(((它们确实无法标示位置了,模拟内存也被去掉了。)))

其他类型的显示方案

如果显示任务的目的是作为构建在计算机内存上的数学仙境的窥视镜,它就应该能显示出尽可能多的感官信息。据我所知,还没有人认真提出过能够提供味觉、嗅觉的计算机显示方案。出色的听觉显示方案是存在的,但不幸的是,我们还无法让计算机来生成足够有意义的声音。这里我先来为你描述一种运动显示方案。(((迄今为止仍未成真。)))

移动操纵杆所需的力可以由电脑来控制,正如 Link 飞行模拟器的控制系统所产生的驱动力一样,可以给你一种开真飞机的感觉。使用这样一种显示方式,把电场内粒子的计算机模型,结合运动电荷位置的手动控制系统,将会测量出电荷在电场中的受力大小,并给出电荷位置的视觉呈现。相当复杂的、具备力回馈功能的操纵杆也是存在的。(((任天堂就有))) 例如,通用电气的 “Handyman” 机械臂的控制系统实质上就是一个操纵杆,只不过有着跟人类手臂一样多的自由度。通过这样的输入/输出设备,我们就可以为我们的视觉和听觉信息增加一项力量显示的功能。

电脑很容易感知到我们全身各处的肌肉位置。可迄今为止,我们还只是用手与胳膊上的肌肉来控制电脑。我们没有理由把它们视为唯一的选项,尽管手与胳膊无与伦比的灵活性使得它们成为一种很自然的选择。(((体感界面))) 我们眼睛的灵活性同样很高。可以感知并解读眼球运动数据的机器能够且必将被建造出来。(((眼球追踪))) 我们是否能发明一种眼神语言来控制电脑,这一点还有待观察。让显示器根据我们正在注视的方位来呈现内容将会是一个非常有趣的实验。(((44年过后,仍然只是一个有趣的实验。)))

这样一来,想象一个三角形,你可以把它设计成动态的,无论你注视其中哪一个角,该角就会变成圆形的。这样的三角形看上去具体会是什么样子呢?这样的实验不仅能够产生出控制机器的新方法,还能提供出关于视觉机制的有趣理解。

计算机所显示的对象没有必要遵循我们所熟悉的物理现实中的一般规律。(((《超级马里奥》《侠盗猎车手》))) 运动显示器可以用来模拟负质量物体的运动。如今某种视觉显示器的使用者很容易就能把固体物品变透明——他有了“透视眼”。(((增强现实版城市设施)))

现在,一些从未有过任何视觉表征的概念能被显示出来了,比如 Sketchpad [2] 上的“约束关系”。在使用基于此类数学现象的显示器的过程中,我们对这些现象的了解,就会像了解我们的自然世界一样直观。诸如此类的知识便是计算机显示技术的主要承诺。

当然,终极的显示方式将会是一个房间——一个由电脑来控制其内部物品存在与否的房间。显示在其中的椅子将是真实得让你能够直接坐上去,显示在其中的手铐将真能把人铐起来,而显示在其中的子弹无疑也会是致命的。只需用合适的编程,这样一种显示方式就能实实在在地成为爱丽丝所漫游过的那个仙境。(((这里就是60年代那些绝妙的视觉体验的爆发源头。)))

参考文献

  1. K. C. Knowlton, “A Computer Technique for Producing Animated Movies”, Proceedings of the Spring Joint Computer Conference, (Washington, D.C.: Spartan, 1964).

  2. I. E. Sutherland, “Sketchpad-A Man-Machine Graphical Communication System”, Proceedings of the Spring Joint Computer Conference, Detroit, Michigan, May 1963 (Washington, D.C.: Spartan, 1964).

讨论于国际信息处理联合会1965年大会,506-508页。

via: WIRED