正则化
正则化(regularization):可以约束模型、限制模型的复杂度、防止过拟合
范数:
0范数:向量中非零元素的个数;
1范数(稀疏规则算子):向量元素绝对值之和,也称街区距离(city-block);
2范数:向量元素平方和再开方。
几种正则化
- L0正则化:趋向于将权重变为0,让参数W变得稀疏;
-
L1正则化:更关注权重绝对值,权重可能被压缩为0.L1会趋向于产生少量的特征,其他特征都是0(L1范数是L0范数的最优凸近似,比L0更容易优化求解)。
- L2正则化:又称权重衰减,关注的是权重平方和的平方根,使网络中的权重接近0但是不等于0,L2趋于选择更多的特征,这些特征接近于0。限制模型参数很小(模型参数越小越简单,越简单的模型越不容易产生过拟合的现象),通过L2,可以实现对模型空间的限制,从而避免过拟合,提升模型的泛化能力。同时L2还可以使得优化变得稳定和快速
权重稀疏的好处:
- 特征选择:稀疏规则化算子的引入就是为了完成特征的自动选择,学习地去掉没有用的信息的特征,也就是把这些特征对应的权重值置为0.
- 可解释性:模型更容易解释
池化层
池化层主要有以下几个作用:
- 降维
- 实现非线性
- 可以扩大感知野
- 可以实现不变性:平移不变性,旋转不变性,尺度不变性