评述：基于光学神经网络(ONN)的图像传感器_技术资讯_资讯信息

撰稿人 | 薪胆居士

论文题目 | Image sensing with multilayer nonlinear optical neural networks

作者 | Tianyu Wang, Mandar M. Sohoni1 , Logan G. Wright, Martin M. Stein, Shi-Yuan Ma, Tatsuhiro Onodera, Maxwell G. Anderson & Peter L. McMahon

完成单位 | 美国康奈尔大学

研究背景

成像技术在工业和科研领域中有着极为重要的作用，常被用来获取和传递物理系统的状态或者动态信息，例如零件尺寸检测、缺陷筛查、自动抄表、运动轨迹提取、医疗诊断等。在这些应用中，一方面为了保证分析结果的准确性，所拍摄的数字图像的分辨率通常都比较高，因此做图像处理时对算力和内存的占用都比较大，耗时也比较长；另一方面，一幅图片中通常只有一部分内容是有用的(如图1所示)，尤其是对神经网络算法来说自然图像都包含稀疏信息，是可压缩的。为了解决这一问题，新一代的成像系统设计不再局限于单一的成像功能，而是加入了信息提取技术，例如：智能相机和压缩感知。ONN就是这一领域的研究前沿之一。目前，大多数ONN研究都只涉及线性光学操作，或者相当于单层神经网络，如果使用多层非线性神经网络，会有更好的表现。

论文导读

相机大家都不陌生，在日常生活中常被用来拍摄数码照片，给人们留下美好的回忆。拍照的过程中主要用到两大核心器件，其一是镜头，它负责将要拍摄的实际景象作为光学图像投影到相机中的核心芯片上，就像电影画面被投影到幕布上；其二就是这块芯片(光电成像器件)，它是由一个个微小的半导体单元组成的，每个单元被称为一个像素，负责将投影到其上的光学信息转为对应的电信号。如此一来就可以把光学图像转化成数码照片。这样的技术被称为成像技术。

日常生活中的拍照是为了保留照片中的景象，而在工业和科研领域中，成像技术则常与图像处理相结合用来测量物体的位置、轮廓或者尺寸等参数。当前，深度学习可以说是最为前沿的图像处理方法，而其中最具代表性的算法就是人工神经网络(Artificial Neural Network, ANN)。ANN的最大特点就在于其智能性和普适性强：经过训练后它可以自动从图像的复杂背景中找出待测目标并完成不同的测量任务。当然了，提到图像处理就离不开电子运算核心(如电脑、手机或者嵌入式平台)，而要运行ANN算法就需要占用一定的算力，得出结果也需要耗费一定的时间。

为了解放算力，满足实际应用中对图像分析的实时性要求，有一些学者提出了光学神经网络(Optical neural network, ONN)，即不依靠电子运算核心，只使用光学部件来实现人工神经网络的分析过程。美国康奈尔大学应用与工程物理学院的Tianyu Wang，Mandar M. Sohoni, Logan G. Wright?和Peter L. McMahon等人提出了一种利用图像增强管作为光-光非线性激活函数的多层非线性ONN，并用其完成了一系列机器视觉任务。相关成果以Image sensing with multilayer nonlinear optical neural networks为题发表在Nature Photonics上。

技术突破

该文所述ONN图像传感器由两个光学全连接线性层(光学向量-矩阵乘法器，optical matrix–vector multiplier unit)加上两者之间的一个非线性的OONA层组成，如图1b所示。第一个线性层的工作原理如图1c所示：首先，利用一个微透镜阵列(microlens array, MLA)将目标景物投影到空间光调制器(spatial light modulator, SLM)上，形成6×6=36幅相同的光学图像。每一幅图像覆盖SLM上的若干个像素。然后，控制SLM的像素产生权重矩阵W₁用于调制每一幅图像的亮度，实现权重矩阵和输入图像的乘法。最后，经权重调制后的36幅光学图像再经过一个4F成像系统和投影物镜叠加投影到OONA层上实现求和运算。该文使用索尼公司的液晶屏作为SLM来调制透射光的强度。

第二级的OONA层是一个商用图像增强管(增益约为800)。第一个线性层输出的图像投影到图像增强管的光电阴极上，每一个像素激发出与入射光强度成比例的光电子，然后被微通路板(Microchannel Plate, MCP)放大，最后在输出端的荧光屏上产生下一层所需的光学图像。其中的光电子放大过程是一种具有饱和效应的非线性过程，为ONN分析提供了非线性响应，其效果类似于sigmoid函数的正轴部分(如图1d所示)。

第三级的线性层同样使用MLA和SLM实现权重乘法，最后利用变焦镜头和相机实现结果的数字化。

该文首先采用图像分类任务来评估ONN图像传感器的性能。文章选择了全球最大的涂鸦数据集QuickDraw来训练ONN。训练的具体步骤为：(1) 在电脑上创建ONN网络的数字模型：全连接层采用矩阵向量乘法来加以模拟；图像增强器的激活函数则通过实测36条非线性放大曲线来实现。(2) 图像真值，即输入图像的产生：将QuickDraw上的图像尺寸修正为100×100像素并二值化后采用白光源照明的数字微镜显示器(digital micromirror display, DMD)加以显示。(3) ONN数字模型的训练：将第一级线性层的LCD中的每个像素调制为全通状态，在其后放置一个分光镜将36幅光学图像反射到一台监控相机上，从而得到第一级线性层的输入信号。(4) 把输入信号导入电脑，利用随机梯度优化器(AdamW)对ONN的数字模型进行训练，经过多次训练和优化后得到ONN网络的权重矩阵。(5) 利用训练好的权重矩阵控制两个线性层的LCD可开展图像分类实验，根据实验反馈来修正数学模型，优化训练结果。直到得到表现最好的ONN。

如图2所示实验结果表明，非线性ONN的性能要优于线性ONN。从图2d中可以看出实际的ONN器件的性能略低于对应的数字模型，表明建模环节还需要进一步改进，但目前对实际应用没有本质影响。如图2e所示，作者为了体现ONN图像传感器在实际应用中的潜力，对流式细胞术中获取的细胞荧光图像进行细胞器分类，以便于做癌细胞的筛查。实验结果如图2f和g所示，非线性ONN的准确率为93%优于线性ONN的88.5%，且从图2h的密度可视化图中可以看出非线性ONN的分类效果更好。作者还进一步以限速牌的数字识别作为案例，做了3D场景的实验验证(如图2i-l所示)，同样证实了非线性ONN具有更好的性能。

图1 作为图像传感器前段的多层ONN网络。a. 传统图像传感与使用ONN的图像传感的区别。上：常规图像传感使用相机拍照然后利用神经网络分析数字图像得出结论；下：ONN以自然图像为输入，直接进行分析，最后用一个小尺寸传感器将最终结果数字化，以便于后续电子系统使用。b. ONN的神经网络图及相应的数学运算。代表输入图像，W_i是线性全连接层的权重矩阵，σ是光-光非线性激励函数，f_digi是数字后端。c. 全光学矩阵-矢量乘法器用于构造b中两个线性层的原理图。d. 用图像增强管的饱和效应实现的光-光非线性激活层的原理图。插图展示了输出光强随输入光强的增加而逐渐饱和的曲线，类似于sigmoid激活函数。

图2 非线性ONN和线性ONN在图像分类任务中的性能对比。a. QuickDraw数据集中10类涂鸦图片的分类实验。b,c. 分别是线性和非线性ONN的神经网络结构和相应的数学运算(上)，镜头简图(左)和混淆矩阵。d. 不同分类器的准确率对比。e. 从流式细胞实验获得的数据集中对细胞器进行分类标记的实验。f,g. 与b和c类似。h. 实验结果的密度可视化数据图(DensMAP)。i. 实景3D模型中的限速牌识别与速度上限提取实验。j,k. 与b和c类似。l. 识别准确率随视角变化的曲线。

除此之外，通过训练不同的数字后端 (图1b中的Digital backend) 算法，该ONN网络可以直接用来实现多种不同的机器视觉任务，如图3a所示。使用基于多层感知的神经网络解码器作为后端可以实现图像重建任务(如图3b和c所示)；使用无监督学习配合主成分分析作为后端可以实现异常检测(如图3d和e所示)；针对图2所示的限速牌检测应用，可以通过训练新的后端来实现观察角度的测量，即非线性参数拟合(如图f和g所示)。

图3 为分类训练的非线性ONN编码器可以通过只训练新的数字后端来重复用于其它图像传感任务。a. 根据应用需求更换数字后端的原理示意图。b,c. 利用神经网络解码器从特征矢量重建QuickDraw图像。d,e. 利用无监督聚类作为后端可以精确找出流式细胞术中的异常双峰图像。f,g. 使用新的后端实现非线性参数拟合用来测量限速牌案例中的观测角度。

文中还通过数值模拟的方法对结构更加复杂具有更多层神经网络的非线性ONN图像传感器进行了探索研究。作者利用流式细胞术中的细胞荧光图像的十分类作为验证案例，研究了不同结构和复杂度的非线性ONN的分类精度随着图像压缩比变化的趋势。如图4所示，实验结果表明随着ONN复杂度的增加，在整个压缩比分布范围内，分类精度都有所提升。

图4 利用十类细胞器的分类任务通过数值模拟的方法研究不同复杂度的非线性ONN网络的性能随图像压缩比变化的情况。Linear：单层ONN，不含OONA层；MLP，图1所述非线性ONN；CNN1，在MLP基础上增加1个卷积层；CNN3，含有3个卷积层和2个全连接层的五层非线性ONN网络；ResNet，18层预训练ResNet加4个额外的适应层。

观点评述

该文展示了一种基于非线性ONN的图像传感器，其关键特点在于可以脱离电脑等电子运算核心去完成类似于图像分类、图像重建、非线性参数拟合等任务，大大提高了工作效率，降低了后续电子系统的复杂度，节省了算力，也因此更适用于对实时性有较高要求的应用场景。

除此以外，该图像传感器通过在光学系统中执行图像压缩的方式，从根本上绕过了高分辨率相机的光电带宽限制，为开发更灵敏、更高效的机器视觉系统找到了新的思路。最后，这一非线性ONN的扩展性强，在其数字后端中选配不同的深度学习算法可以实现各种不同的机器视觉任务，具有较高的科研探索价值。

本文出处

发表于：Nature Photonics

论文链接：

https://www.nature.com/articles/s41566-023-01170-8

更多原文内容，请点击“阅读原文”

推荐阅读

封面 | 自适应光学定量相位成像——基于环形照明里叶叠层显微成像的实现

前沿进展 | 多焦点光场显微成像技术

Feature Article | 新型多功能超透镜助力AR显示集成化

前沿进展 | 利用深度学习提高共聚焦显微的空间分辨率实现超分辨成像

前沿 | 揭示微生物超微结构和组分的台式极紫外显微系统

前沿 | CsPbBr?/石墨烯纳米墙人工光电突触的可控感知学习

关于PhotoniX

PhotoniX 属同行评议、开放获取（OA）高影响力国际期刊。是中国光学工程学会会刊，由中国光学工程学会、上海理工大学和西湖大学共同主办，由Springer Nature集团出版。上海理工大学顾敏院士和西湖大学仇旻教授担任期刊主编，庄松林院士担任期刊名誉主编。期刊拥有强大的国际编委和编辑团队。PhotoniX 主要报道国内外光学与光子学技术与信息、能源、材料、生命、精密制造、纳米、光电子器件、微纳米电子等学科交叉融合发展带来的颠覆性科研成果和最新的工程应用进展。以展现具有前沿性、多学科交叉和衍生性特点的技术为核心，成为推动国际前沿“使能技术”的平台。
PhotoniX 已被SCI、EI、SCOPUS、DOAJ、ProQuest、CNKI、INSPEC、Dimensions等10多个数据库收录。2022年6月获得首个影响因子19.818，位列Q1区。同时进入《2022年中国科学院文献情报中心期刊分区表》，位列物理与天体物理大类和光学小类双一区，为Top期刊。中国科协首次颁布“光学工程和光学领域高质量期刊目录”PhotoniX 位列T1级。

扫码关注我们

了解PhotoniX最新动态

点击

阅读原文

查看全文

声明：本文所用视频、图片、文字如涉及版权问题，请第一时间告知，我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除。邮箱：wanghaiming@csoe.org.cn

公众号投稿请联系：wanghaiming@csoe.org.cn

商务合作/文章转载请联系：022-59013419

欢迎分享

↓点赞

↓在看

阅读原文

文章转载自微信公众号：PhotoniX

• 华东师范大学闫明团队—单腔双光梳集成中红外光	• 北京航空航天大学张颖团队—基于偏振光谱图像的
• 铀资源探采与核遥感全国重点实验室秦凯团队—基	• 【光电前沿】中红外激光如何微型化？哈佛用非线
• 合肥物质院安徽光机所于磊研究员团队—大视场宽	• 技术前沿 \| 突破“缺氧”困境！卡内基梅隆大学
• 大连理工大学彭伟教授、张信普副教授团队—光纤	• 前沿 \| 光驱动下的智能净水机器人
• 前沿 \| 超表面实现多照明环境下宽带高数值孔径	• 技术干货 \| 光纤中的扭曲光可能带来显著的容量