喜报 | 小米相机算法团队在CVPR 2023斩获四项冠军! 今亮点

工人日报 2023-05-10 10:28:53


(资料图片)

近日,小米相机算法团队在计算机视觉领域最具影响力的顶级学术会议CVPR 2023-MIPI和CVPR 2023-NTIRE赛事中,取得了令人瞩目的成绩,在多项挑战赛中击败来自国内外的强劲对手,一举拿下4项冠军,1项亚军和2项季军,充分展现了小米在移动影像领域的硬核实力。 其中,团队在CVPR 2023获奖的人像虚化、夜景渲染、图像去噪算法已经应用于最新发布的小米13 Ultra手机中,使得拍摄出的画面更干净,细节更清晰。这也证实,小米13 Ultra的影像成绩不仅在于徕卡光学的全新突破,同时也得益于影像算法的不断登峰。 CVPR 全称是计算机视觉与模式识别大会 (Conference on Computer Vision and Pattern Recognition),由 IEEE 计算机学会主办,每年一次,汇集了全球顶尖的学者、工程师和企业家,共同探讨计算机视觉与模式识别领域的前沿问题。 01

不负众望:获奖团队载誉归来

本次小米参加CVPR 2023-MIPI和CVPR 2023-NTIRE比赛的人员分别来自小米相机算法部AI算法团队(MiAIgo)、视频算法团队(MVideo)和多摄算法团队(MiMcAIgo)。 AI算法团队(MiAIgo)主要负责手机相机AI相关技术的研发工作,涉及高层的AI语义感知类技术和底层的AI画质增强类技术,宗旨是为用户带来智能、极致的摄影体验,研究方向包括夜景去噪、超高动态、人像/场景分割、深度估计等,研究成果包括夜枭系列拍照、夜景抓拍、智能构图等。 视频算法团队(MVideo)主要负责使用计算摄影等技术提升用户视频图像拍摄体验,研究方向包括图像画质增强、图像稳像、智能视频剪辑以及图像特效等,研究成果包括视频超分/降噪、HDR、光学防抖(OIS)、电子防抖(EIS)以及智能剪辑等。 多摄算法团队(MiMcAIgo)主要负责手机多摄相关算法的研究,致力于利用手机的多摄技术提升用户在人像和变焦等维度的用户体验,研究方向包括多目立体视觉,立体匹配,虚化渲染,空间平滑以及异构融合等,研究成果包括人像虚化(Bokeh),大师镜头,多摄平滑切换(SAT)和多摄融合等。 02

MIPI:移动智能摄影与成像

移动智能摄影与成像(Mobile Intelligent Photography and Imaging,简称MIPI)是CVPR 2023的研讨会之一,以新型图像传感器和成像算法为核心,从产业界与学术界的视角讨论移动智能摄影与成像的发展。小米相机算法团队在其中多个赛道表现卓越,并以绝对优势拿下夜间耀斑去除挑战赛冠军。

1夜间耀斑去除,还原真实夜景

镜头光晕是一种常见的光学现象,在监控镜头、智能手机相机、无人机和自动驾驶相机等移动平台中,日常磨损、指纹和灰尘等都会加剧镜头光晕,并且在夜间更为明显。因此,夜间的耀斑去除算法尤为重要。耀斑主要分为三种类型:散射耀斑、反射耀斑和透镜球体。本次比赛中,小米AI算法组团队(MiAIgo)主要关注最普遍的夜间图像退化类型——散射光斑。 MIPI - Nighttime Flare Removal 小米排名第一 获奖证书 竞赛使用标准峰值信噪比 (PSNR) 作为最终的评估指标,并提供了一个合成耀斑数据集,需要参赛者尽可能恢复出被耀斑所破坏的背景图像信息。在120名注册参与者中,有11个团队在最后的测试阶段成功提交了结果、代码和情况说明书。其中,小米AI算法组团队(MiAIgo)以0.28db的大优势取得了冠军。 (db,PSNR的单位,数值越大失真越小) 算法流程图 对于夜间耀斑去除任务,团队提出了一个由擦除模块、修复模块和回填模块组成的三阶段网络结构。 第一阶段,使用Uformer作为擦除模块,尽可能去除耀斑;第二阶段,使用 AOT-GAN作为修复模块,恢复耀斑区域的背景信息;同时,团队发现真实图像并非完全没有耀斑,因此他们将修复模块的输出与原始耀斑输入混合以获得最终输出,并尽可能回填光源区域。 在数据生成方面,团队收集了多张夜间图像作为基础图像进行数据合成,并将耀斑的颜色随机调整为真实常见的蓝色、黄色和白色。同时,还向基础图像添加光源和局部雾度,以模拟合成更逼真的耀斑图像。 左:被耀斑破坏的图像 右: 算法处理后的图像

2RGB+TOF深度补全,提升虚化层次

“RGB+TOF深度补全”任务是利用RGB图像将稀疏的TOF深度补全为完整的稠密深度图。稀疏TOF测量的一个明显缺点是其深度结果的稀疏性,无法直接用于图像增强、3D重建和AR/VR等任务。利用RGB图对稀疏TOF数据进行补全,可以较好的解决稀疏TOF数据不易直接使用的问题。

本赛道要求算法能够做到实时处理RGB+TOF数据并预测深度,即要求达到30帧/秒的速度。TOF成像的深度点云不仅稀疏,同时还存在大量缺失和噪点,进一步增大了深度稠密任务的难度。为此,团队提出了基于Transformer增强多尺度非局部传播网络。该网络使用了由粗到细的预测框架,将深度补全的复杂性分解成主体结构预测和细节优化两个子问题,如图所示。 网络结构图 在细节增强过程中,团队采用非全局传播的网络结构,打破了固定卷积核的限制,通过迭代传播的方式自适应聚集非局部深度信息,进一步细化深度细节。同时还在最底层特征中引入了轻量级Transformer(LoFTR)模块和自注意机制,更好地解决了点云缺失和噪点的问题。 最后,小米多摄算法团队(MiMcAIgo)在比赛测试数据集的客观评价和主观评价两方面均取得了先进结果,获得第二名。 获奖证书 如图所示,结果证明了算法的有效性。 结果图 目前,该技术已经应用到小米13 Ultra人像预览虚化算法中,后续将进一步拓展到手机拍照、自动驾驶等更多领域。

03

NTIRE:“影像算法奥林匹克”

NTIRE(New Trends in Image Restoration and Enhancement)是由CVPR 组委会承办的关于计算机视觉和模式识别领域的研讨会,旨在提供图像恢复和增强领域的新趋势和进展的概述,并为学术和工业参与者提供互动和探索合作的机会。 作为全世界规模最大、水平最高的图像恢复与增强的研讨会,NTIRE素有“影像算法奥林匹克”之称,今年已是第八届。小米相机算法团队参与了夜间摄影渲染、图像去噪、视频上色和360°全景超分辨率等多个赛道,并包揽其中3项冠军。

1夜间摄影渲染,定格细腻表达

相机拍摄和渲染图像的过程是将原始传感器图像转换为最终的成品照片图像,并在标准色彩空间(如sRGB)中进行编码。其中,夜间摄影因具备广泛的应用场景和独特的艺术美感而被越来越多的人喜爱。但相对于白天,夜间摄影渲染往往面临更大的挑战。

本挑战的任务是开发一个程序来渲染逼真且视觉上令人愉悦的夜景照片,捕捉夜景的细节、色彩和氛围感。小米AI算法团队(MiAIgo)的方案获得了专业摄影师的肯定,摘得评审榜冠军。专业摄影师评审小米排名第一 如图所示,整体流程分为四个阶段,即去噪、白平衡、raw2rgb、超分辨率。其中,需使用MWISPNet调整亮度、对比度、饱和度和其他参数来增强图像。MWISPNet训练中使用的真实图像是通过PhotoShop Camera Raw手动处理获得的。训练高分辨率图像是一项具有挑战性的任务,而 GPU 内存限制是一个重要的制约因素。对此,小米AI算法团队使用MWISPNet生成分辨率较低的图像,从而减少训练阶段的显存占用,同时使用HAT模型对输出图像进行上采样,以得到高分辨率的最终成品图像。 该技术是夜枭算法的进一步完善升级,从小米11 Ultra到最新发布的13 Ultra都得到了应用,给用户带来了真实、有氛围的感受。

左:经过简单ISP处理后的图像 右:算法处理后的图像

2图像去噪,重建清晰画质

图像去噪是指从嘈杂的输入图像中恢复出干净的图像。在图像的采集和处理过程中,存在高斯噪声、泊松噪声、JPEG压缩噪声等多种噪声类型,使图像去噪成为一项极具挑战性的任务。本任务设置了噪声水平 σ = 50 的加性高斯白噪声来破坏图像,以从噪声输入图像中恢复出干净的图像。在226个参与队伍中,小米AI算法组团队(MiAIgo)取得了第三名的好成绩。流程示意图 为了进一步探索基于深度学习的方法在图像去噪任务中的潜力,团队提出了一个四拼接的去噪网络结构。如图所示,采用集成学习的理念来设计pipeline,旨在最大程度地提高图像质量。 左:带噪图像输入 右:算法处理后的图像输出 目前,该技术作为基础去噪方案之一,已经应用到小米13 Ultra 手机相机的夜枭、夜景抓拍、Ultra Raw等特性中。

3视频上色,再现鲜活效果

视频上色任务是指将黑白或灰度视频转换为彩色视频。与图像着色不同,视频着色不仅需要高保真的单帧结果,还需要保持帧之间的时间一致性。同时,视频着色还需确保实例一致性,即前一帧中出现的对象在后续的语义颜色相同。因此,视频着色是视觉增强和恢复中一个具有挑战性的任务。

左:灰度视频帧

右:算法处理上色后的视频帧

本次任务设置了两个赛道,分别强调时序一致和高保真两个方向。其中,小米AI算法团队(MiAIgo)在时序一致优化赛道表现优异,以显著优势摘得冠军。此外,在高保真优化赛道中团队也取得了第三名的好成绩。 算法流程图 在时序一致优化赛道,团队提出了自适应帧间平滑策略,通过减少相机或物体运动对测试序列视觉内容的影响提高帧间稳定性,优化时序一致性。在高保真优化赛道,团队提出了一种多模型融合策略,旨在通过针对常见和不常见的场景使用不同的模型来提高方法的鲁棒性。 目前,该技术已经应用于修复老电影、增强监控视频、改善医学图像等任务。

4360°全景超分辨率,营造沉浸体验

与仅具有狭窄视野(FoV)的平面视频不同,360°全景视频可以从各个方向呈现整个场景,为用户提供身临其境的交互体验。随着AR / VR应用的普及,360°全景视频逐渐受到广泛的研究与关注。 本挑战的任务是从退化的低分辨率(LR) 360°视频重建高分辨率(HR) 360° 视频,为360° 视频SR 建立高质量的模型。小米视频算法团队(MVideo)以显著优势取得了该赛道的冠军。360°全景超分辨率模型 团队提出了一个较宽和较深的网络模型,整体架构如图所示。在此基础上,添加了二阶网格传播和流引导的可变形特征对齐等技术来进一步增强模型性能,从而实现更加准确和高效的视频超分辨率。在比赛中,团队展示了多阶段训练策略的优势。 左:输入的LR图像 右上:Bicubic处理后的SR图像细节 右下:算法处理后的SR图像细节 在视频录制、基础拍照等应用场景中,都需要提高图像/视频的分辨率,以实现更高的感知质量并提升下游任务的性能。目前,该技术已经应用到视频超分、相机HDR模式中。 本次CVPR 2023 中,小米相机算法团队在各个赛道的突出表现,是对其过硬技术的有力验证。未来,小米将继续努力,为行业创造更多应用价值,让用户享受更好的拍照体验!
x

资讯

从“美丽”向“美好”嬗变——嘉泽镇晨山村的乡村振兴之路

2022-06

海南推动农贸市场全面落实禁塑 加强违禁塑料制品源头治理

2021-12

柴犬登登拍卖记:动物是如何被司法拍卖的

2021-12

江西:到2025年鄱阳湖区断面水质优良比例达到50%以上

2021-12

西藏森林消防:锻造雪域救援尖兵 打造高海拔山岳救援队伍

2021-12

加强人才融通发展 第10届海峡两岸水利青年工程交流营成功举办

2021-12

四川:空手夺刀救人的“95后”女民警捐献万元奖金传递爱心

2021-12

中国食品名市临沂坚持“三化融合” 争做“食安”守望者

2021-12

上海闵行一幼儿园教职工殴打幼儿 2名涉事人员已被行拘

2021-12

受贿1414万元 江西万载县委原书记胡全顺获刑11年6个月

2021-12

动态

喜报 | 小米相机算法团队在CVPR 2023斩获四项冠军! 今亮点

2023-05

当前观察:2023年5月10日广东省豆油批发价格行情

2023-05

XODIAC成员SING将下周回港,与队友一起出席品牌活动会粉丝|天天日报

2023-05

今日报丨半个月内立案9起 市执法局佛堂大队织密企业安全网

2023-05

守住净利-世界速看

2023-05

文眉药水需另付费? 警惕网络美容“低价引流”陷阱

2023-05

工作量超负荷 员工称“干不完”遭辞退 法院这么判_全球看热讯

2023-05

展览面积达 8 万平方米!国内外 1300 多家企业携新品亮相第十三届中国加博会 速看

2023-05

每日播报!久量股份:5月9日召开业绩说明会,投资者参与

2023-05

神武70级装备属性_神武70武器满攻多少|全球要闻

2023-05