问题提出

当前的深度学习算法在面对较小的数据集的时候很容易发生过拟合现象。许多现有的减少过拟合的方法都是data-independent，在较小的数据集上会受到限制，包括weight decay, parameter sharing, dropout, drop connect等。

注意到数据点通常分布在流形上，有人提出了data-dependent的方法。这些方法只关注输入数据的几何分布，但却没有鼓励网络生成有几何意义的特征。

为了解决这些问题，本文作者提出了Low-Dimensional-Manifold-regularized-neural-Network.

模型建立与求解

经验表明，数据点通常分布在流形上，即$\{x_i\}^N_{i=1}\subset\mathcal{N}=\bigcup_{l=1}^L\mathcal{N}_l\subset\mathbb{R}^{d_1}$我们期望学习得到的特征提取函数 $f_\theta$ 足够光滑，对于$x\subset\mathcal{N}$的微小变化不会引起$\xi=f_\theta(x)\in\mathbb{R}^{d_2}$的巨大变化。

因此，在LDMNet中，作者将输入数据$x_i$与输出的特征$\xi_i$结合，将它们对应的流形的维度作为正则项。这样得到的在点云上的Laplace-Beltrami方程，通过point integral method即可求解。

对于有标签的数据集$\{(x_i, y_i)\}^N_{i=1}\subset\mathbb{R}^{d_1}\times\{1, … , K\}$，网络首先学习一个$d_2$维的特征$\xi_i=f_\theta(x_i)\in\mathbb{R}^{d_2}$，$\{(x_i, \xi_i)\}_{i=1}^N$位于某一个低维流形$\mathcal{M}=\bigcup_{l=1}^L\mathcal{M}_l\subset\mathbb{R}^d$上，其中$d=d_1+d_2$,$\mathcal{M}_l=\{(x, f_\theta(x))\}_{x\in\mathcal{N}_l}$. 作者提出，正是$dim(\mathcal{M}_l)$的过大导致的过拟合。

因此，作者将$dim(\mathcal{M}_l)$作为正则项，问题转化为求解

$\begin{align} &\min\limits_{\theta, \mathcal{M}}\quad J(\theta)+\frac{\lambda}{|\mathcal{M}|}\int_\mathcal{M}dim(\mathcal{M}(p))\mathrm{d}p \\ &s.t.\quad\{(x_i, f_\theta(x_i))\}_{i=1}^N\subset\mathcal{M} \end{align}$

其中$J(\theta)=\frac{1}{N}\sum\limits_{i=1}^Nl(f_\theta(x_i), y_i)$，$l(*)$为softmax loss.

作者证明了对任意的$p=(p_i)_{i=1}^d\in\mathcal{M},$

$\begin{align} dim(\mathcal{M})=\sum\limits_{i=1}^d|\nabla_\mathcal{M}\alpha_i(p)|^2 \end{align}$

其中$\alpha_i(p)=p_i$，$\nabla_\mathcal{M}\alpha_i=\sum_{s,t=1}^kg^{st}\partial_t\alpha_i\partial_s$

这样，原问题可以通过以下方式求解：

利用第$k$次迭代获得的$(\theta^{(k)}, \mathcal{M}^{(k)})$，

更新$\alpha^{(k+1)}$
$\begin{align} \alpha_\xi^{(k+1)}=&\mathrm{arg}\min_{\alpha_\xi}\sum_{j=d_1+1}^d||\nabla_{\mathcal{M}^{(k)}}\alpha_j||_{L^2(\mathcal{M}^{(k)})} \\ &+\frac{\mu|\mathcal{M}^{(k)}|}{2\lambda N}\sum\limits_{i=1}^N||\alpha_\xi(x_i, f_{\theta^{(k)}}(x_i))-(f_{\theta^{(k)}}(x_i)-Z_i^{(k)})||_2^2 \end{align}$
更新$\theta^{(k+1)}$
$\begin{align} \theta^{(k+1)}=&\mathrm{arg}\min_\theta J(\theta)+\frac{\mu}{2N}\sum\limits_{i=1}^N||\alpha_\xi^{(k+1)}(x_i, f_{\theta^{(k)}}(x_i)) \\ &- (f_{\theta}(x_i)-Z_i^{(k)}) ||_2^2 \end{align}$
更新$Z_i^{(k+1)}$
$\begin{align} Z_i^{(k+1)}=Z_i^{(k)}+\alpha_\xi^{(k+1)}(x_i, f_{\theta^{(k)}}(x_i))-f_{\theta^{(k+1)}}(x_i) \end{align}$
更新$\mathcal{M}^{(k+1)}$
$\begin{align} \mathcal{M}^{(k+1)}=\alpha^{(k+1)}(\mathcal{M}^{(k)}) \end{align}$

这里，最后两步是可以直接计算的，更新$\alpha$用到了point integral method (PIM)，更新$\theta$可以用SGD计算。

实验的一些参数

batch size: 100
momentum parameter: 0.9
learning rate: 前200次迭代不变，之后100次变为初值1/10
- MNIST: 0.001
- SVHN: 0.005
- CIFAR-10: 0.001
近邻数量: 20