模型建立

文章中，作者提出静态与动态的两种hypernetwork。

Static Hypernetwork

对于一个卷积网络来说，每一个卷积核含有$N_{in}\times N_{out}$的filter，每一个filter的大小为$f_{size}\times f_{size}$. 那么就可以用一个矩阵$K^j \in \mathbb{R}^{N_{in}f_{size}\times N_{out}f_{size}}$来表示第$j$层的参数。

$K^j = g(z^j), \forall j = 1, \cdots, D\tag{1}$

其中$z^j$为网络第$j$层接受的embedding，$z^j \in \mathbb{R}^{N_z}$. $D$为主网络的层数。

同时，$K^j$可以被拆成$N_{in}$个小矩阵$K_i^j \in \mathbb{R}^{f_{size}\times N_{out}f_{size}}$.

基于这样的表述，作者提出了一个两层的线性网络。第一层接受输入$z^j$并将其线性映射到$N_{in}$维。

$a_i^j = W_iz^j + B_i, \forall i=1, \cdots, N_{in}, j = 1, \cdots, D\tag{2}$

其中，$a_i^j\in \mathbb{R}^d$, $W_i\in \mathbb{R}^{d\times N_z}$, $z_j\in \mathbb{R}^{N_z}$, $B_i\in \mathbb{R}^{d}$, $d$为隐藏层的大小。文章中取$d=N_z$.

第二层接受$a_i$并将其映射到$K_i$.

$K_i^j = \left\langle W_{out}, a_i^j \right\rangle + B_{out}, \forall i = 1, \cdots, N_{in}, j=1, \cdots, D\tag{3}$

其中，$W_{out}\in \mathbb{R}^{f_{size}\times N_{out}f_{size}\times d}$, $B_{out}\in \mathbb{R}^{f_{size}\times N_{out}f_{size}}$.

将得到的所有$K_i^j$拼接起来，即可得到所求的$K_j$。

$K_j = \left ( K_1^j \cdots K_{N_{in}}^j \right), \forall j=1, \cdots, D\tag{4}$

对于拥有不同大小卷积核的情况，作者提出，可以通过拼接多个basic kernels来得到更大的卷积核。例如，如果选取basic size为16，那么$N_i=32$, $N_{out}=64$的卷积核可以由8个basic kernels组合而成。

Dynamic Hypernetwork

这一部分中，作者利用一个RNN(被称为HyperRNN)来动态的为另一个RNN/LSTM生成weights.

Basic RNN的标准形式为

$h_t = \phi(W_hh_{t-1}+W_xx_t+b)$

其中$h_t\in \mathbb{R}^{N_h}$为隐藏状态，$\phi$为$tanh$或$relu$，$W_h\in\mathbb{R}^{N_h\times N_h}$, $W_x \in\mathbb{R}^{N_h\times N_x}$, $b\in \mathbb{R}^{N_h}$.

而在HyperRNN中，$W_h$, $W_x$, $b$按照以下规则生成

$W_h(z_h)=\left\langle W_{hz}, z_h \right\rangle\\ W_x(z_x)=\left\langle W_{xz}, z_x \right\rangle\\ b(z_b)= W_{bz}z_b + b_0$

其中$W_{hz}\in \mathbb{R}^{N_h\times N_h\times N_z}$, $W_{xz}\in\mathbb{R}^{N_h\times N_x\times N_z}$, $W_{bz}\in\mathbb{R}^{N_h\times N_z}$, $b_0\in \mathbb{R}^{N_h}$. $z_h, z_x, z_b\in\mathbb{R}^{N_z}$按照以下规则计算

$\hat{x}_t = \binom{h_{t-1}}{x_t}\\ \hat{h}_t = \phi(W_{\hat{h}}\hat{h}_{t-1} + W_{\hat{x}}\hat{x}_t + \hat{b})\\ z_h = W_{\hat{h}h}\hat{h}_{t-1}+b_{\hat{h}h}\\ z_x = W_{\hat{h}x}\hat{h}_{t-1}+b_{\hat{h}x}\\ z_b = W_{\hat{h}b}\hat{h}_{t-1}$

上面的模型在更新main RNN参数时，对于内存的消耗非常大，作者引入了weight scaling vector $d_z\in\mathbb{R}^{N_h}$. 令

$W(z) =\begin{pmatrix} d_0(z)W_0 \\ d_1(z)W_1 \\ \cdots\\ d_{N_h}(z)W_{N_h} \end{pmatrix}$

更进一步，

$h_t = \phi(d_h(z_h) \odot W_hh_{t-1} + d_x(z_x) \odot W_xx_t + b(z_b))\\ d_h(z_h) = W_{hz}z_x\\ d_x(z_x) = W_{xz}z_x\\ b(z_b) = W_{bz}z_b + b_0$

实验

图像识别领域使用static hypernetworks，数据集采用MNIST和CIFAR-10。语言建模领域采用dynamic hypernetworks，数据集采用Penn Treebank and Hutter Prize Wikipedia，以及handwriting generation.