在上一篇文章中,我们简单地介绍了LDMNet: Low Dimensional Manifold Regularized Neural Networks这篇文章的总体思路,而跳过了文章中采用的优化方法。本文将会更加注重数学上推导的内容。
ADMM
文章中,作者需要求解这样一个优化问题:
对于这样的问题,作者使用ADMM (alternation direction method of multipliers)来求解。那么什么是ADMM呢?
Dual Ascent
首先考虑一个等式约束的凸优化问题
其中$x\in\mathbb{R}^n$,$A\in\mathbb{R}^{m\times n}$,$f:\mathbb{R}^n\rightarrow\mathbb{R}$为凸函数 。这一问题对应的Lagrangian为
其中$y$为拉格朗日乘子。对偶函数为
对偶问题为
原问题与对偶问题的最优解应该是相同的,因此可以通过对偶问题的最优解$y^\ast$获得原问题的最优解$x^\ast$.
首先通过固定$y$,求解此时的最优解$x^+$,然后再利用梯度上升更新$y$,$\nabla g(y)=Ax^+-b$。这样,就可以通过以下两步不断迭代求解:
之所以称第二步为梯度上升,是因为对于合适的$\alpha^k$,每一步对偶函数都是在增长的。
Augmented Lagrangians and the Method of Multipliers
有时函数 $f$ 不能满足严格的凸性或者有限性,为了提高这一方法的强健性,(2)式的augmented Lagrangian可以写成
其中$\rho>0$被称为penalty parameter. 增加惩罚项的好处在于$g(y)$可以在大多数情况下变的可导。迭代的过程与(3)式非常类似
这种方法被称为method of multipliers. 这一方法比dual ascent更容易收敛,即使$f$会取到$\infty$,或是不满足严格的凸函数的要求。
Alternating Direction Method of Multipliers
类似于上文所讲,这一算法可以用于求解以下形式的问题
其中$x\in\mathbb{R}^n$,$z\in\mathbb{R}^m$,$A\in\mathbb{R}^{p\times n}$,$B\in\mathbb{R}^{p\times m}$,$c\in\mathbb{R}^p$. 这里假定$f $和$g$都是凸函数。这一问题对应的 augmented Lagrangian为
那么 ADMM 的迭代过程为
Scaled Form of ADMM
通过将augmented Lagrangian中的线性项与平方项合并,并对dual variable进行缩放,ADMM还可以被写成一种更简单更常用的形式。
定义residual$r=Ax+Bz-c$,
其中$u=(1/\rho)y$,被称为scaled dual variable.ADMM的迭代过程就变成了
回到最初的问题
现在我们回到文章中提出的(1)式,并结合(5)式,就很容易得到论文中给出的结果
更新 $\theta$ 的反向传播
(6)式的求解用到了SGD,这个比较简单,就简要地说一下。令
并注意到$J(\theta)$的定义
得到目标函数
对于一个给定的网络,上式中第一项的反向传播是可以确定的,而第二项的梯度为
更新 $\alpha$ 的 Point Integral Method (PIM)
好吧这里没有完全看懂,具体的数学推导参见以下两篇文章
Point Integral Method for Solving Poisson-type Equations on Manifolds from Point Clouds with Convergence Guarantees
Convergence of the Point Integral method for Poisson equation on point cloud
参考文献
[1] Boyd S , Parikh N , Chu E , et al. Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers[J]. Foundations & Trends in Machine Learning, 2010, 3(1):1-122.
[2] Li Z , Shi Z , Sun J . Point Integral Method for Solving Poisson-Type Equations on Manifolds from Point Clouds with Convergence Guarantees[J]. Communications in Computational Physics, 2017, 22(01):228-258.
[3] Shi Z , Sun J . Convergence of the Point Integral method for the Poisson equation with Dirichlet boundary on point cloud[J]. Mathematics, 2016.