- Recurrent Neurons
- RNN and HMM
- Backpropagation Through Time(BPTT)
- Gradient Vanishing / Gradient Exploding
- LSTM Cell
- GRU Cell
- Reference
Recurrent Neurons
Equation 1: output of sigle recurrent neuron for a single instance
\[y_{(t)} = \phi(x_{(t)}^{T} \cdot w_x + y_{t-1}^T \cdot w_y + b)\]- \(\phi\) 是激活函数,如ReLU,tanh。
Equation 2: outputs of a layer of recurrent neurons for all instances in a mini-batch
\[W = [\frac{W_x}{W_y}] \\ Y_{(t)} = \phi (X_{(t)} \cdot W_x + Y_{(t-1)} \cdot W_y + b) = \phi ([X_{(t)}Y_{(t-1)}] \cdot W + b)\]- \(Y_{(t)}\) 是 \(m \times n_{neurons}\) 的矩阵,表示的是step t时刻的输出。
- \(X_{(t)}\) 是 \(m \times n_{inputs}\) 的输入矩阵, \(n_{inputs}\)是输入feature的数量。
- \(W_x\) 是 \(n_{neurons} \times n_{inputs}\)大小,当前时间对的inputs权重矩阵。
- \(W_y\) 是 \(n_{neurons} \times n_{neurons}\)大小,上一时间output对当前输出的权重矩阵。
RNN的本质是一个数据推断(inference)机器, 只要数据足够多,就可以得到从\(x_{(t}\)到\(y_{(t)}\)的概率分布函数, 寻找到两个时间序列之间的关联,从而达到推断和预测的目的。这个很容易联想到另一个大名鼎鼎的模型-隐马尔科夫模型HMM(Hidden Markow Model)。z两者都是根据输入x推断输出y并维护一个隐变量,区别在于迁跃策略。RNN使用神经元连接矩阵,通过时间展开(时间递归部分,前向传播)和时间上反向传播进行迭代。HMM则使用更新状态转移矩阵来进行时间上的迭代。
- 预测(filter):已知模型参数和某一特定输出序列,求最后时刻各个隐含状态的概率分布, 通常使用前向算法解决. 即求 \(P(x(t)\ |\ y(1),... ,y(t))\) .
- 平滑(smoothing):已知模型参数和某一特定输出序列,求中间时刻各个隐含状态的概率分布,通常使用forward-backward 算法解决. 即求 \(P(x(k)\ |\ y(1),... ,y(t)), (k<t)\) .
- 解码(most likely explanation): 已知模型参数,寻找最可能的能产生某一特定输出序列的隐含状态的序列, 通常使用Viterbi算法解决. 即求 \(P([x(1)\dots x(t)]|[y(1)\dots ,y(t)])\) .
Backpropagation Through Time(BPTT)
RNN的训练类似于ANN,也可以使用反向传播算法。首先,通过整个网络前向传播; 然后计算输出序列上的损失和梯度,损失函数表示为:\(C(Y_{(t_min)}, Y_{(t_min+1)}, ... ,Y_{(t_max)} )\)(仅计算\(t_{min}\)和\(t_{max}\)时间段); 接着将梯度反向传播到网络上所有的神经元上(不仅仅是最后一层上的神经元,计算损失和梯度相关时间上的神经元都需要更新)。
Gradient Vanishing / Gradient Exploding
LSTM Cell从外部看类似于Basic Cell,但是内部多了一些控制门,表现比Basic Cell要好。LSTM cell最主要的特点是多了一个显式记忆矩阵(Long term memory部分,可称之为cell state vector)和调整进出信息的三个门(input/output/forget gate)。
In short, an LSTM cell can learn to recognize an important input (that’s the role of the input gate), store it in the long-term state, learn to preserve it for as long as it is needed (that’s the role of the forget gate), and learn to extract it whenever it is needed. This explains why they have been amazingly successful at capturing long-term patterns in time series, long texts, audio recordings, and more.
“Long Short-Term Memory,” S. Hochreiter and J. Schmidhuber (1997).
“Recurrent Neural Network Regularization,” W. Zaremba et al. (2015).
Introduction of the LSTM model:
Addition of the forget gate to the LSTM model:
More recent LSTM paper:
Papers related to Theano:
- Bastien, Frédéric, Lamblin, Pascal, Pascanu, Razvan, Bergstra, James, Goodfellow, Ian, Bergeron, Arnaud, Bouchard, Nicolas, and Bengio, Yoshua. Theano: new features and speed improvements. NIPS Workshop on Deep Learning and Unsupervised Feature Learning, 2012.
- Bergstra, James, Breuleux, Olivier, Bastien, Frédéric, Lamblin, Pascal, Pascanu, Razvan, Desjardins, Guillaume, Turian, Joseph, Warde-Farley, David, and Bengio, Yoshua. Theano: a CPU and GPU math expression compiler. In Proceedings of the Python for Scientific Computing Conference (SciPy), June 2010.
Main layer
\[g_{(t)} = tanh(W_{xg}^T \cdot x_{(t)} + W_{hg}^T \cdot h_{(t-1)} + b_g )\]Input Gate
\[i_{(t)} = \phi(W_{xi}^T \cdot x_{(t)} + W_{hi}^T \cdot h_{(t-1)} + b_i)\]Forget Gate
\[f_{(t)} = \phi(W_{xf}^T \cdot x_{(t)} + W_{hf}^T \cdot h_{(t-1)} + b_f)\]Output Gate
\[o_{(t)} = \phi(W_{xo}^T \cdot x_{(t)} + W_{ho}^T \cdot h_{(t-1)} + b_o)\]Cell state Vector
是网络的memory部分输出。其更新由两部分决定:上一次的记忆(通过forget gate决定上一次记忆哪部分需要被遗忘丢弃)和新的信息(通过main layer算出新的信息,通过input gate决定哪部分信息加入计算)。
\[c(t) = f_{(t)} \otimes c_{(t-1)} + i_{(t)} \otimes g_{(t)}\]Output
输出经过output gate控制决定哪部分信息可以输出到下一层(下一时刻)。
\[y_{(t)} = h_{(t)} = o_{(t)} \otimes tanh(c_{(t)})\]LSTM Training
- BPTT 反向传播还是最常用算法
- 需要学习的weights包括:
- Input/Output/Forget Gates
- Input tanh layer (main layer)
- 输出则取决于任务类型,一般RNN上是一段数据后输出一个label比如翻译、单词联想。
GRU Cell
Gated Recurrent Unit(GRU,paper在此https://arxiv.org/abs/1412.3555)可以认为是LSTM的一个简化版,并且表现好像还差不多。简化的部分:
- 将input和foreget gate简化为一个update gate,如update gate为1时,input开forget关,为0则相反。
- 将输出的cell state和hidden state合并为一个,并增加一个新的gate控制上一次哪些信息加入到main layer计算。
合并的gate \(z_{(t)}\) 将用于控制输入和上一次的信息,达到input/forget门控制类似的效果。
\[z_{(t)} = \phi (W_{xz}^T \cdot x_{(t)} + W_{hz}^T \cdot h_{(t-1)})\]新增的gate \(r_{(t)}\) 仅用于控制上一次的信息哪些加入计算。
\[r_{(t)} = \phi (W_{xr}^T \cdot x_{(t)} + W_{hr}^T \cdot h_{(t-1)})\]main layer中参与计算的输入信息(memory)\(h_{(t-1)}\)的受控于\(r_{(t)}\)。
\[g_{(t)} = tanh(W_{xg}^T \cdot x_{(t)} + W_{hg}^T \cdot (r_{(t)} \otimes h_{(t-1)} ) )\]输出时\(z_{(t)}\)对新增的信息\(g_{(t)}\)和上一次信息\(h_{(t-1)}\)进行融合。
\[h_{(t)} = (1-z_{(t)}) \otimes h_{(t-1)} + z_{(t)} \otimes g_{(t)}\]“Hands-on Machine Learning with Scikit-learn and Tensorflow-Page405” 书中公式貌似有错,有待考证
\[h_{(t)} = (1-z_{(t)}) \otimes tanh(W_{xg}^T \cdot h_{(t-1)} + z_{(t)} \otimes g_{(t)})\]