星之光|AR技术不得不说的秘密

增强现实技术为什么引起关注

随着近日，某家增强现实技术（Augmented Reality, AR）公司融资14亿美元，AR再度成为科技领域内一个追捧热点。其中到底藏着什么样的巨大前景这么被人们看重呢？

在说清楚这个秘密之前，我们先得区分另一个类似的技术——虚拟现实技术（Virtual Reality，VR）。两者的技术可能有重叠的部分，但应用场景则不同。

简单来说，假如有一天，你赶不上演唱会只能看直播，但不想放弃现场体验怎么办？没关系，戴上VR眼镜，你在家里就能如身临其境般感受最逼真的视觉体验。VR眼镜是不透明的，用于显示完全虚拟的世界，把物理世界完全挡住，即使坐在家里，你也能感到去大溪地“潜水”。

而AR眼镜通常是透明的，让你能看到现实世界的景象，同时会由眼镜虚拟出一些图像叠加在上面。

总的来说，这些设备是计算机的必然发展趋势。自2007年iPhone面世以来，智能手机发展迅猛。用户随时随地带着它，各项使用数据毫无悬念地都在超越PC端。所以，人机交互界面的未来主要在于移动。但现在的手机局限在于，

（1）既然要便于携带屏幕就做得小，屏幕小了某些功能就得受限；

（2）显示屏幕是平面也就是二维(2D)的，而真实世界是三维(3D)的。

未来的透明AR眼镜有望实现大突破，既能让用户随身携带，又能在眼前显示超大屏幕，还能把以假乱真的3D内容渲染到人所看到的真实世界里。想象你坐在教室里自习，讲台上的老师看起来真实无比，但其实他就是在你的眼镜上虚拟出来的人。这样的眼镜大概不会完全取代手机，但毫无疑问潜力无穷。

跟VR比较，AR的应用场景更广阔。毕竟，我们一般不会戴着VR头盔在大街上逛吧。本质上，AR是VR的超集，镜片前面一挡就成了VR。

戴眼镜好麻烦，能不能裸视？

直接像《星球大战》一样，在空气中显示全息图（Holography）行不行？这样的美好愿景，有一天也许能做成，但近期看离实用还早。

现在有一些大学实验室的确在研究裸眼光场显示器（Light Field Display），但需要很复杂笨重昂贵的设备，还必须先安置才能使用。相对这些，做成眼镜的效果要好得多。轻便的AR眼镜将是移动人机交互界面上，也是计算机发展的重大革新。

在VR头盔前加个摄像头也能成AR，为什么非要做透明？

说起来AR有两种，一种是前面所说的透明AR（Optical See-through)，人透过镜片能直接看到现实世界。另一种就是“视频叠加”（Video See-through; Video Overlay）——通过摄像头捕捉现实世界图景，然后以视频的方式呈现给用户，同时其中再渲染一些画面。事实上，现在手机和平板上已经出现了很多Video Overlay的应用，比如看星空，求翻译，选家具等。

那为什么不用VR头盔加摄像头实现这种AR呢？事实上，现在很多VR头盔都在试探这种做法。不过，它和透明AR相比各有优劣。其优势在于，用视频实现的虚拟和现实的叠加(overlay)要比透明AR简单得多。这也是为什么它已经开始在移动端商用的原因。

但劣势也可想而知，用户看到的毕竟只是一个2D视频，质量跟眼睛直接看到的世界差距很大。而且视频从采集到显示总是有延迟的，如果跟体感信号不一致的话会造成身体不适。所以不管怎样，还是会有公司追求更好的产品体验，前仆后继地去做透明AR的。

光凭这些就能融到14亿美金？

前面我们说了AR技术应用潜力，这只是资本看重的一方面，同时还有技术，创始人，团队的原因。

其实，该AR的核心技术来自华盛顿大学前研究员Brian Schowengerdt。他导师Eric Seibel是光纤扫描内窥镜(Scanning Fiber Endoscope)的专家。大家都知道，内窥镜就是医生们做手术时用来体内成像的，本质是个微小摄像头。Brian很聪明地逆转光路，把这个技术用到了显示上。这样通过极细的光纤（如左图所示）用激光就可以打出彩色的图像。

这个技术十几年前就发表了[2]，后来又不断改进，生成了一堆专利。该AR技术在很大程度上是基于Brian的这些专利。

那这种技术为什么重要呢？我们后面留成一个专门的问题讲。

然而光技术牛是不够的，要想做好AR眼镜，可想而知是需要软件硬件都得有重大突破。国际大公司可能有财力去做这个事，为什么他们认为一个初创小企业能做成？我觉得，其团队创始人Rony Abovitz起的作用非常大。他曾经在机器人手术（Robotic Surgery）上创业，做骨科手术精准定位。2004年创建的公司，2008年就上市了，后来在2013年以16.5亿美元被并购。听起来就是很牛，这种背景当然拉投资比较容易。

除了创始人兼CEO很牛，其团队也不一般，计算机视觉部分更有不少业内大牛。合作的团队更有在好莱坞给电影做特效的。而公司当年用来拉投资用的概念视频就像一个微型电影一样。

新技术核心：光场显示技术为什么对AR很重要

首先，光场显示技术基于极细的光纤，可以让眼镜做得轻薄。但更重要的是，Brian证明，这种光纤技术不仅可以投射出一个2D图片，还能显示出一个光场(Light Field)。

目前利用眼镜实现的3D主要可分成两种技术框架：Stereoscopic（中文翻译成“立体”，但其实不够准确），和Light Field（光场）。Stereoscopic眼镜早已商化，比如所有3D影院里用的，还有市面上几乎所有AR和VR眼镜/原型。而Light Field还只在实验室里有雏形。

什么是Stereoscopic 3D？为什么它不够好？又什么新技术核心是Light Field呢？

Stereoscopic 3D是假3D

3D图像比2D图片多了一个维度，这个维度就是景深(depth)，其在感官上有明显的区别（只有少数人有双盲症不能看到）。

人眼感知景深有很多机制，包括单眼（monocular）和双眼（binocular）机制。单眼能感知的景深信号有很多种，比如：一个东西遮挡了另一个（occlusion），熟悉的物体的大小（relative size/height)，物体移动的变化（motion parallax）——远的物体变化慢、近的物体变化快。所以在此基础上，人类双眼的景深信号也非常强：两只眼睛看到同一个场景会有细微差别，这让大脑能通过三角计算（triangulation）来得到物体景深。人类在远古时就有这样的感知，帮助他们很好地判断对面的老虎或者鹿到底离自己有多远。

Stereoscopic 3D也就是利用这个原理给双眼分别显示不同的图片（如下图），它们很相似，只在水平方向上有细微差别。而这两张图片拍摄的时候，就是用两个并排的相机模拟人眼的位置拍的。实际上，现在的3D电影也都是基于这个原理。通过一些光学技术把细微差别的画面分别传入左右双眼，以形成立体的感知。

但这样的Stereoscopic 3D有些问题。简单来说，它会引起用户身体不适如头晕、恶心等。为什么呢？这又涉及到另一个视觉原理。

当我们在看一个现实世界中的物体时，眼睛其实有两种自然反应：

(1) 聚焦(Accommodation/Focus)：眼睛的晶状体就像一个凸透镜，它会调节凸度来让那个物体在咱们视网膜上清楚成像。

(2) 会聚(Convergence)：在每只眼睛聚焦的同时，两只眼球还会有旋转运动来一起指向那个物体。

很自然地，这两种反射运动在神经上是联接的(Neurally Coupled），也就是说任意一种运动会自动引发另一种运动。这也意味着，在人眼看真实物体的时候，聚焦和会聚的距离总是相等的（Vergence Distance = Accommodation Distance）。

那么Stereoscopic 3D的问题就来了。因为Stereoscopic屏幕到眼的投射距离总是固定的，也就是聚焦不变，但对图片的感知会让眼睛会聚在不同的距离以产生景深3D效果（见上图B）。所以，这两种距离经常是不一致的，以至于造成这两种神经相连的运动强行分离（Neurally Decoupled）。