为什么optimal transport这么的火?

星空与内心

715 👍 / 56 💬

利益相关:本人不是做optimal transport(OT)的,但我做Hamilton-Jacobi (HJ),和OT有关。我们组其他人有做的很相关的。

OT火我认为是因为它链接很多领域,理论方面和应用方面都是如此。这个值得一篇文章讲讲了。先占个坑,日后如果写了文章再来更新,这个回答就只讲一些key words吧。简单地说,OT在理论、numerics、application方面都非常rich,再借着ai的风,火起来也很正常。一句话概括OT,它寻找把初始density变成terminal density的一种“最优”方法(“最优”measured by 某种cost)。

理论

从理论方面,optimal transport有很多种变形,跟PDE、optimization、probability、geometry、analysis都有关。

  1. 它是mean-field control / games的一种特殊形式,如果考虑delta mass它会退化成optimal control。OT可以写成不同formulation。如果是优化问题,dynamics的角度看可以写成primal形式(Benamou–Brenier)或者dual form;static version可以写成primal的Monge–Kantorovich以及其dual形式。如果从PDE的角度看有dynamics版本(continuity coupled with HJ)或者static版本(Monge–Ampère equation)。
  2. 加入entropy regularization后它有stochastic version(EntOT)。考虑delta distribution后退化成stochastic optimal control。对EntOT,上述所有形式都基本有对应(除了Monge–Ampère equation),dynamics的优化问题和coupled PDE都是在PDE里加入diffusion term、static优化问题是在objective function里加入entropy。EntOT和Schrodinger bridge problem有关,在引入Cole-Hopf transformation后有很神奇的与coupled heat equations的关联。另外由于Schrodinger bridge与KL divergence的关系,EntOT和max-entropy principal以及large deviation也有点关系(Freidlin-Wentzell)。
  3. 回到deterministic版本的OT。它定义一种空间叫Wasserstein space。这个空间对particle的描述很友好,如果你的问题是Lagrangian coordinate比Euler coordinate更方便更自然的话,那么Wasserstein space是更合适的空间。这个空间有很多神奇的connection。有很多理论是把某些PDE reinterpret成W2(或类似空间)上对某个potential functional做gradient flow(JKO,porous medium equations等)。这边和物理关系挺密切的。
  4. analysis方面 mean-field games本身都并没完全研究清楚,上面的gradient flow的视角可以帮助PDE证明一些性质。

算法

算法方面,Wasserstein没有特别好算。传统方法有著名的Sinkhorn。但从理论层面上,它与很多variational form(优化)有关,所以与其相关的ai文章也有不少。与diffusion model和transformer (sinkformers)都有交叉。

应用

应用方面可以说是乘着ai这阵风又火起来了。主要它可以处理distribution的变换,而在generative ai的年代,distribution变得很重要。最开始在GAN的年代就有应用,比如Wasserstein-GAN。应用方面它弥补了KL在两个support不一样的distribution上的不足,因此可以作为更robust的度量。以L1做cost的OT(Wasserstein-1)与Maximum Mean Discrepancy(MMD)有关,计算上做slice Wasserstein也挺好算的。另外,像上文说的与diffusion model也有一些关系。

除去ai不说,就它与gradient flow的关系就可以在优化上很有用。如果你要优化distribution,很自然一种modeling方法是在Wasserstein space里做所有事。如果你只是在Euclidean space里做优化/sampling,那也可以弄一堆粒子整出一个distribution来(Consensus Based Optimization and Sampling,月初听Caltech ACM reunion才听人讲过)。

暂时先想到这么多。之后想到新的 / 有空写细节 / 有人催更再来补吧。

============ 11-27 ============

从这一天的数据来看,对比其他内容,OT看来真的挺火的23333