深度学习 Deep Learning

反向传播 Backpropagation

为了防止过拟合（overfitting），我们经常会在loss function里加一项egularization term（正则化项），用来惩罚过大的模型参数，使模型不要过度依赖训练数据中的某些特征。

$L = L_{\text{data}} + \lambda R(w)$

一般有2种：

L1 Regularization
$L = L_{\text{data}} + \lambda \left\| w \right\|_1$
会鼓励权重稀疏，也就是会倾向于将权重集中在少数特征上。
L2 Regularization
$L = L_{\text{data}} + \lambda \left\| w \right\|_2^2$
会鼓励权重变小且更平滑，倾向于将权重分散到多个特征上。

来看个例子：

$\theta_1 = [0,0.75,0]$ $\theta_2 = [0.25, 0.5, 0.25]$

会发现：

可以从2个角度来理解这个区别：

1. 导数：

L1的导数：

$\frac{\partial \left\| w \right\|_1}{\partial w_i} = \begin{cases} 1, & w_i > 0, \\ -1, & w_i < 0 \end{cases}$

在Gradient Descent（梯度下降法）里的更新就是：

$w_i \leftarrow w_i - \eta\lambda \operatorname{sign}(w_i) = \begin{cases} w_i-\eta\lambda, & w_i > 0, \\ w_i + \eta\lambda, & w_i < 0 \end{cases}$

也就是每个component挪动的距离都是一样的（只和$w_i$的正负有关，与大小无关），而且是都往0点的方向移动。所以原本偏小的component就很容易趋近0，导致最后非常少的component不等于0。

L2的导数：

$\frac{\partial \left\| w \right\|_2^2}{\partial w_i} = 2w_i$

在Gradient Descent（梯度下降法）里的更新就是：

$w_i \leftarrow w_i - \eta\lambda 2w_i = (1-2\eta\lambda )w_i$

也就是按比例缩小权重。

2. 单位圆

观察L1和L2的单位圆不能发现：