【干货】光场相机技术原理

    2025-11-21 00:41:33

    光场

    在人类的五大感知途径中,视觉占据了70%~80%的信息来源。而大脑有大约50%的能力都用于处理视觉信息。借助视觉,我们能准确抓取杯子,能在行走中快速躲避障碍物,能自如地驾驶汽车,能完成复杂的装配工作。从日常行为到复杂操作都高度依赖于我们的视觉感知。然而,现有的图像采集和显示丢失了多个维度的视觉信息。这迫使我们只能通过二维“窗口”去观察三维世界。

    例如医生借助单摄像头内窥镜进行腹腔手术时,因无法判断肿瘤的深度位置,从而需要从多个角度多次观察才能缓慢地下刀切割。从光场成像的角度可以解释为,因为缺乏双目视差,只能依靠移动视差来产生立体视觉。再例如远程机械操作人员通过观看监视器平面图像进行机械遥控操作时,操作的准确性和效率都远远低于现场操作。

    人眼能看见世界中的物体是因为人眼接收了物体发出的光线(主动或被动发光),而光场就是三维世界中光线集合的完备表示。“Light Field”这一术语最早出现在Alexander Gershun于1936年在莫斯科发表的一篇经典文章中,后来由美国MIT的Parry Moon和Gregory Timoshenko在1939年翻译为英文。但Gershun提出的“光场”概念主要是指空间中光的辐射可以表示为关于空间位置的三维向量,这与当前“计算成像”、“裸眼3D”等技术中提及的光场不是同一个概念。

    学术界普遍认为Parry Moon在1981年提出的“Photic Field”才是当前学术界所研究的“光场”。随后,光场技术受到MIT、Stanford等一些顶级研究机构的关注,其理论逐步得到完善,多位相关领域学者著书立作逐步将光场技术形成统一的理论体系,尤其是在光场的采集和3D显示两个方面。欧美等部分高校还开设了专门的课程,即计算摄像学(Computational Photography)。

    如下图所示,人眼位于三维世界中不同的位置进行观察所看到的图像不同,用(x,y,z)表示人眼在三维空间中的位置坐标。光线可以从不同的角度进入人眼,用(θ,Φ)表示进入人眼光线的水平夹角和垂直夹角。每条光线具有不同的颜色和亮度,可以用光线的波长(λ)来统一表示。进入人眼的光线随着时间(t)的推移会发生变化。因此三维世界中的光线可以表示为7个维度的全光函数(Plenoptic Function),P(x,y,z,θ,Φ,λ,t)。

    上述光场的描述是以人眼为中心。光路是可逆的,因此光场也可以以物体为中心等效的描述。与“光场”相类似的另一个概念是“反射场(Reflectance Field)”。如下图所示,物体表面发光点的位置可以用(x,y,z)三个维度来表示。对于物体表面的一个发光点,总是向180度半球范围内发光,其发光方向可以用水平角度和垂直角度(θ,Φ)来表示。发出光线的波长表示为(λ)。物体表面的光线随着时间(t)的推移会发生变化。同理,反射场可以等效