朱 军 教授 信息技术科学奖
2024年

1. 相关成果:大规模扩散模型的基础理论与高效算法

  扩散模型是Sora、Stable Diffusion等生成式人工智能系统的理论基础,在视觉、音频等多模态数据生成任务上领先其他模型。然而,扩散模型的采样速度极慢。以图像为例,扩散模型通常需要从纯噪声图片出发进行50至100步去噪,最终生成清晰的图片,所需时间是其它深度生成模型的50到100倍,极大限制了扩散模型的部署和落地。

该项目在扩散模型基础理论、高效算法、骨干网络和大规模预训练等方面做出了系统性的原创成果:(1)提出的Analytic-DPM算法获解决了扩散模型的反向方差估计不准的固有局限,通过理论分析获得扩散模型的最优反向方差和最优KL散度的解析解形式,进而提出了一个新颖而优雅的免训练推理框架,提升采样效率20-80倍;(2)提出的DPM-Solver算法是一种针对于扩散模型常微分方程(ODE)设计的高效求解器,充分利用了ODE的结构信息,无需任何额外训练,将扩散模型的生成速度提高2倍以上,首次实现只用10到15步生成高质量图像;(3)提出了首个扩散模型与Transformer融合的架构U-ViT,比Sora团队提出的同样原理的架构DiT早了3个月,同时,开源了首个基于该融合架构的大规模扩散模型UniDiffuser。成果获国际表示学习大会(ICLR 2022)杰出论文奖,发表2年来共被引2000余次,被华为、OpenAI、苹果、Stable Diffusion等国内外领军企业的文生图大模型采用。

2. 获奖人介绍:

  朱军,清华大学计算机系博世AI教授、清华大学人工智能研究院副院长、IEEE/AAAI Fellow。2001到2009年获清华大学计算机学士和博士学位,之后在卡内基梅隆大学做博士后和项目科学家,2011年回清华任教(破格副教授),2015到2018年任卡内基梅隆大学兼职教授。主要从事机器学习基础理论、高效算法及应用研究,在国际重要期刊与会议发表论文百余篇,谷歌引用2.9万余次。担任顶级期刊IEEE TPAMI的副主编和编委、AI编委,担任ICML、NeurIPS、ICLR、IJCAI、AAAI等国际会议的资深领域主席、地区联合主席、评奖委员会委员、研讨会主席等20余次。获求是杰出青年奖、科学探索奖、吴文俊人工智能自然科学一等奖、CCF自然科学一等奖、ICLR杰出论文奖、ICME/IEEE CoG最佳论文奖等,入选国家高层次人才计划、MIT TR35中国先锋者以及IEEE Intelligent Systems评选的“AI’s 10 to Watch”。研制开源的“珠算”深度概率编程库和“天授”强化学习库,获得国际竞赛冠军10余项。