麻省理工学院的新生成人工智能在图像生成方面优于扩散模型-乐胡号

麻省理工学院的CSaiL介绍了PFGM++，一个结合扩散和泊松流原理的人工智能模型。它通过复制电场行为提供卓越的图像生成，代表了生成式人工智能的飞跃。

受物理学启发，一种新的生成模型PFGM++在图像生成方面优于扩散模型。

生成式人工智能目前正处于流行话语的顶峰，它承诺一个简单转化为复杂的世界——简单的分布演变成复杂的图像、声音或文本模式，使人工变得惊人地真实。

随着麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员将一种创新的人工智能模型带入生活，想象领域不再仅仅是抽象的概念。他们的新技术整合了两种看似无关的物理定律，这两种定律支撑着迄今为止性能最好的生成模型:扩散(diffusion)和泊松流(泊松流)，前者通常描述了元素的随机运动，比如热量在房间里的渗透，或者气体在空间里的膨胀;后者借鉴了控制电荷活动的原理。

新模式出现

这种和谐的融合导致了产生新图像的优越性能，超过了现有的最先进的模型。自成立以来，“泊松流生成模型++”(PFGM++)已经在各个领域找到了潜在的应用，从抗体和RNA序列生成到音频制作和图形生成。

该模型可以生成复杂的模式，比如创建逼真的图像或模仿现实世界的过程。PFGM++建立在PFGM之上，这是该团队上一年的工作成果。PFGM从被称为“泊松”方程的数学方程背后的方法中获得灵感，然后将其应用于模型试图从中学习的数据。为了做到这一点，研究小组使用了一个聪明的技巧:他们在模型的“空间”上增加了一个额外的维度，有点像从2D草图到3D模型。这个额外的维度提供了更多的操作空间，将数据放在更大的上下文中，并有助于在生成新样本时从各个方向接近数据。

麻省理工学院核科学实验室理论物理中心理论粒子物理学家、美国国家科学基金会人工智能与基本相互作用研究所(NSF AI IAIFI)主任杰西·塞勒(Jesse Thaler)表示:“PFGM++是物理学家和计算机科学家之间跨学科合作推动人工智能进步的一个例子。”他没有参与这项工作。

近年来，基于人工智能的生成模型产生了许多令人瞠目结舌的结果，从逼真的图像到清晰的文本流。值得注意的是，一些最强大的生成模型是建立在经过时间考验的物理概念基础上的，比如对称性和热力学。PFGM++采用了基础物理学中一个有百年历史的想法——可能存在额外的时空维度——并将其转化为一个强大而健壮的工具，以生成合成但现实的数据集。我很高兴看到‘物理智能’正在以无数种方式改变人工智能领域。”

潜在的机制

PFGM的潜在机制并不像听起来那么复杂。研究人员将这些数据点与维度扩展的世界中放置在平面上的微小电荷进行了比较。这些电荷产生了一个“电场”，电荷沿着电场线向上移动到一个额外的维度，从而在一个巨大的想象半球上形成一个均匀的分布。生成过程就像倒带录像带:从半球上均匀分布的一组电荷开始，沿着电力线追踪它们回到平面的旅程，它们对齐以匹配原始数据分布。这个有趣的过程允许神经模型学习电场，并生成反映原始数据的新数据。

PFGM++模型将PFGM中的电场扩展到一个复杂的高维框架。当你继续扩展这些维度时，意想不到的事情发生了——这个模型开始类似于另一类重要的模型，扩散模型。这项工作就是要找到适当的平衡。PFGM和扩散模型处于光谱的两端:一个是健壮的，但处理起来很复杂，另一个更简单，但不那么健壮。PFGM++模型提供了一个平衡点，在健壮性和易用性之间取得了平衡。这一创新为更高效的图像和模式生成铺平了道路，标志着技术向前迈出了重要一步。除了可调节的尺寸外，研究人员还提出了一种新的训练方法，可以更有效地学习电场。

把理论付诸实践

为了使这一理论成为现实，研究小组解决了一对微分方程，详细描述了这些电荷在电场中的运动。他们使用Frechet Inception Distance (FID)评分来评估性能，这是一种被广泛接受的指标，用于评估模型生成的图像与真实图像的质量。PFGM++进一步展示了更高的抗误差和对微分方程步长的鲁棒性。

展望未来，他们的目标是改进模型的某些方面，特别是通过分析神经网络的估计误差行为，以系统的方式识别为特定数据、架构和任务量身定制的D的“最佳点”值。他们还计划将PFGM++应用于现代大规模的文本到图像/文本到视频生成。

行业的反馈

OpenAI的研究科学家杨松表示:“扩散模型已成为生成式人工智能革命背后的关键驱动力。”PFGM++提供了一个强大的扩散模型的泛化，允许用户通过提高图像生成对扰动和学习错误的鲁棒性来生成更高质量的图像。此外，PFGM++揭示了静电学和扩散模型之间的惊人联系，为扩散模型研究提供了新的理论见解。”

“泊松流生成模型不仅依赖于基于静电的优雅的物理启发公式，而且在实践中还提供了最先进的生成建模性能，”NVIDIA高级研究科学家Karsten Kreis说，他没有参与这项工作。

“它们甚至超过了目前在文献中占主导地位的流行扩散模型。这使它们成为一个非常强大的生成建模工具，我设想它们在不同领域的应用，从数字内容创建到生成药物发现。更一般地说，我相信进一步探索物理启发的生成建模框架对未来有很大的希望，泊松流生成模型只是一个开始。”

参考文献:《PFGM++:释放物理启发生成模型的潜力》，作者:徐一伦、刘子明、田永龙、佟上元、Max Tegmark和Tommi Jaakkola, 2023年2月10日，《计算机科学>机器学习》。arXiv: 2302.04265

关于这项工作的论文的作者包括麻省理工学院的三位研究生:电气工程与计算机科学系(EECS)和CSAIL的徐一伦，物理系和NSF AI IAIFI的刘子明，EECS和CSAIL的童尚元，以及谷歌高级研究科学家田永龙博士。麻省理工学院教授Max Tegmark和Tommi Jaakkola建议进行这项研究。

该团队得到了麻省理工学院- dsta新加坡合作，麻省理工学院- ibm沃森人工智能实验室，国家科学基金会资助，凯西和家庭基金会，基础问题研究所，罗斯伯格家庭认知科学基金以及ML药物发现和合成联盟的支持。他们的研究成果在今年夏天的国际机器学习会议上发表。