为什么optimal transport这么的火？ - @孟啦啦

利益相关：本人不是做optimal transport（OT）的，但我做Hamilton-Jacobi (HJ)，和OT有关。我们组其他人有做的很相关的。

OT火我认为是因为它链接很多领域，理论方面和应用方面都是如此。这个值得一篇文章讲讲了。先占个坑，日后如果写了文章再来更新，这个回答就只讲一些key words吧。简单地说，OT在理论、numerics、application方面都非常rich，再借着ai的风，火起来也很正常。一句话概括OT，它寻找把初始density变成terminal density的一种“最优”方法（“最优”measured by 某种cost）。

理论

从理论方面，optimal transport有很多种变形，跟PDE、optimization、probability、geometry、analysis都有关。

它是mean-field control / games的一种特殊形式，如果考虑delta mass它会退化成optimal control。OT可以写成不同formulation。如果是优化问题，dynamics的角度看可以写成primal形式（Benamou–Brenier）或者dual form；static version可以写成primal的Monge–Kantorovich以及其dual形式。如果从PDE的角度看有dynamics版本（continuity coupled with HJ)或者static版本（Monge–Ampère equation）。
加入entropy regularization后它有stochastic version（EntOT）。考虑delta distribution后退化成stochastic optimal control。对EntOT，上述所有形式都基本有对应（除了Monge–Ampère equation），dynamics的优化问题和coupled PDE都是在PDE里加入diffusion term、static优化问题是在objective function里加入entropy。EntOT和Schrodinger bridge problem有关，在引入Cole-Hopf transformation后有很神奇的与coupled heat equations的关联。另外由于Schrodinger bridge与KL divergence的关系，EntOT和max-entropy principal以及large deviation也有点关系（Freidlin-Wentzell）。
回到deterministic版本的OT。它定义一种空间叫Wasserstein space。这个空间对particle的描述很友好，如果你的问题是Lagrangian coordinate比Euler coordinate更方便更自然的话，那么Wasserstein space是更合适的空间。这个空间有很多神奇的connection。有很多理论是把某些PDE reinterpret成W2（或类似空间）上对某个potential functional做gradient flow（JKO，porous medium equations等）。这边和物理关系挺密切的。
analysis方面 mean-field games本身都并没完全研究清楚，上面的gradient flow的视角可以帮助PDE证明一些性质。

算法

算法方面，Wasserstein没有特别好算。传统方法有著名的Sinkhorn。但从理论层面上，它与很多variational form（优化）有关，所以与其相关的ai文章也有不少。与diffusion model和transformer （sinkformers）都有交叉。

应用

应用方面可以说是乘着ai这阵风又火起来了。主要它可以处理distribution的变换，而在generative ai的年代，distribution变得很重要。最开始在GAN的年代就有应用，比如Wasserstein-GAN。应用方面它弥补了KL在两个support不一样的distribution上的不足，因此可以作为更robust的度量。以L1做cost的OT（Wasserstein-1）与Maximum Mean Discrepancy（MMD）有关，计算上做slice Wasserstein也挺好算的。另外，像上文说的与diffusion model也有一些关系。

除去ai不说，就它与gradient flow的关系就可以在优化上很有用。如果你要优化distribution，很自然一种modeling方法是在Wasserstein space里做所有事。如果你只是在Euclidean space里做优化/sampling，那也可以弄一堆粒子整出一个distribution来（Consensus Based Optimization and Sampling，月初听Caltech ACM reunion才听人讲过）。

暂时先想到这么多。之后想到新的 / 有空写细节 / 有人催更再来补吧。

============ 11-27 ============

从这一天的数据来看，对比其他内容，OT看来真的挺火的23333