RNN札记

基本RNN

$$
h_t = \sigma(W_{xh} \cdot x_t+W_{hh}h_{t-1}+b)
$$

其中，$h_t$表示当前时刻的隐状态;$h_{t-1}$表示上一时刻的隐状态;$x_t$表示当前时刻的输入；$W_{xh},W_{hh}$为要学习的参数，所有时刻的权重矩阵都是共享的。这是循环神经网络相对于前馈网络而言最为突出的优势。

梯度消失及梯度爆炸

RNN会存在梯度爆炸或消失的问题，尤其是当time_step越长的时候，建模的序列越长，它就越容易遗忘，就会出现梯度问题。本质上它每一时刻之间的梯度传递也是连乘的，激活函数和权值影响也是一样的。
一般在两种情况下可能出现梯度消失：（1）深层网络，网络层数多；（2）采用了不合适的激活函数，比如Sigmoid；梯度爆炸一般出现在深层网络和权值太大的情况下。出现梯度消失的现象后，接近输出层的参数会基本上收敛，收敛后基本上就结束了，但是前面接近input的参数基本上还是随机的，导致学习不充分。

一般的解决方案有如下几种方案：

选择其他的激活函数，如ReLu；
梯度剪切（针对梯度爆炸）；
正则化；
BatchNorm。

LSTM

LSTM网络是专门设计用来避免长期依赖的，它可以说是一种优化的RNN，它和RNN的区别在于隐藏层的设计。

LSTM在隐藏层引入：细胞单元（Cell)和门（Gate)，细胞单元是利用先前状态$h_{t-1}$和当前的输入$x_t$产生新的信息；门其实就是一个开关，它决定哪些信息通过或通过多少，门并不提供额外的信息，门只是起到限制信息的量的作用，因为门起到的是过滤器的作用，所以用的激活函数是sigmoid，而不是tanh。
LSTM的各种门：

输入门：$i_t=\sigma(W_{xi}x_t+W_{hi}h_{t-1} + b_i)$
遗忘门：$f_t=\sigma(W_{xf}x_t+W_{hf}h_{t-1} + b_f)$
输出门：$o_t=\sigma(W_{xo}x_t+W_{ho}h_{t-1} + b_o)$
cell记忆细胞更新：$c_t=f_t\circ c_{t-1}+i_t\circ tanh(W_{xc}x_t+W_{hc}h_{t-1}+b_c)$
隐层更新：$h_t = o_t\cdot tanh(c_t)$

输入门，控制多少信息可以进入到memory cell；遗忘门，控制有多少上一时刻的mermory cell的信息可以累积到当前时刻的memory cell；输出门，控制多少当前时刻的memory cell中的信息可流入到当前隐藏状态；

GRU

GRU(Gated Recurrent Unit,GRU)是在2014年提出的，是一种更简单的变种模型，它不但可以有效避免梯度消失，而且有着比LSTM更简单的网络结构。它引入了更新门$z_t$和重置门$r_t$，隐藏层的状态更新如下：

更新门：$z_t=\sigma(W_{xz}x_t+W_{hz}h_{t-1})$
重置门：$r_t=\sigma(W_{xr}x_t+W_{hr}h_{t-1})$
新的记忆单元:$\hat h_t= tanh(Wx_t+ U(r_t\circ h_{t-1}))$
隐层更新：$h_t=(1-z_t)\circ\hat h_t + z_t \circ h_{t-1}$

更新门，决定先前的状态有多少会传输到新的状态，类似遗忘门的功能，决定擦除前一个时刻的多少信息；重置门，决定先前状态有多少会影响到新的记忆单元；

从直观上来说，重置门决定了如何将新的输入信息与前面的记忆相结合，更新门定义了前面记忆保存到当前时间步的量。如果将重置门设置为1，更新门设置为0，那么将再次获得标准RNN模型。重置门其实强制隐藏状态遗忘一些历史信息，并利用当前输入的信息。这可以令隐藏状态遗忘任何在未来发现与预测不相关的信息，同时也允许构建更加紧致的表征。而更新门将控制前面隐藏状态的信息有多少会传递到当前隐藏状态，这与 LSTM 网络中的记忆单元非常相似，它可以帮助 RNN 记住长期信息。由于每个单元都有独立的重置门与更新门，每个隐藏单元将学习不同尺度上的依赖关系。那些学习捕捉短期依赖关系的单元将趋向于激活重置门，而那些捕获长期依赖关系的单元将常常激活更新门。使用门控制机制学习长期依赖关系的基本思想和LSTM一致，但还是有一些关键区别：

GRU有两个门（重置门与更新门），而LSTM有三个门（输入门、遗忘门和输出门）；
GRU并不会控制保留内部记忆($c_t$)，且没有LSTM中的输出门；
LSTM中的输入与遗忘门对应于GRU的更新门，重置门直接作用于前面的隐藏状态。

尽管GRU简化了参数，但实际上和LSTM基本上是等价的，区别在于LSTM专门用了一个遗忘门来控制前一个时刻隐藏层的影响，输出门控制mermory cell传输到下一个状态，而GRU使用重置门进行控制前一个时刻的影响，而对new memory cell传输不做控制。在GRU中，只存在一个更新门来控制旧的信息和新的信息的组合，而在LSTM里使用遗忘门和输入门共同控制。LSTM里存在显式的memory cell，而GRU则没有显式的memory，隐层为旧的隐层状态和新的输入的线性组合。总体来说，LSTM和GRU表现相差不大，GRU在收敛速度上更具优势，这也是参数少的优势。

虽然LSTM和GRU的原始目的是为了解决长距离依赖的问题，但一定程度上两者都能优化梯度消失的现象。原因是由于引入了new memory，$h_t$由两部分做加法得到，那么在计算梯度的时候，梯度也会变大，从而缓解了梯度消失的问题。