[pytorch]几种optimizer优化器的使用
更新时间:2024-03-04 13:02:38
[pytorch]几种optimizer优化器的使用
梯度下降的方法可以大致分为以下三大类:
-
标准梯度下降方法:
先计算所有样本汇总误差,然后根据总误差来更新权重 -
随机梯度下降方法:
随机选取一个样本来计算误差,然后更新权重 -
批量梯度下降方法:
从总的样本中选取一个batch,然后计算这个batch的总误差,根据其来更新权重
其中本文介绍pytorch为我们封装好的几种优化器,这些又可以两个大类:一大类方法是SGD及其改进(加Momentum);另外一大类是Per-parameter adaptive learning rate methods(逐参数适应学习率方法),包括AdaGrad、RMSProp、Adam等。
要构造一个Optimizer,你必须给它一个包含参数(必须都是Variable对象)进行优化。然后,您可以指定optimizer的参 数选项,比如学习率,权重衰减等。
如果我们想用不同的初始学习率更新不同的层,则要传进一个dict对象:
对于大多数优化器来说,我们只需要在loss.backward()之后用step更新权重:
在SGD中,gradient类比成速度(矢量),learning rate类比成时间。单纯的SGD就是直接利用梯度更新,但是因为更新比较频繁,会造成 cost function 有严重的震荡,最终停留在Local Minima或者Saddle Point处。(鞍点就是一阶导数为0但是不是局部最优值的点)。因此现在的SGD都会加上momentum。为了抑制SGD的震荡,SGDM认为梯度下降过程可以加入惯性。下坡的时候,如果发现是陡坡,那就利用惯性跑的快一些。SGDM全称是SGD with momentum,在SGD基础上引入了一阶动量::
如果我们把上式展开的话,会很容易发现一个现象:现在实际更新的梯度其实就是历史梯度的加权平均,这样就解释了怎么做到一直是下坡就跑的快一点。
参数:
- params (iterable) – 用于优化的可以迭代参数或定义参数组
- lr (float) – 学习率
- momentum (float, 可选) – 动量因子(默认:0)
- weight_decay (float, 可选) – 权重衰减(L2范数)(默认:0)
- dampening (float, 可选) – 动量的抑制因子(默认:0)
- nesterov (bool, 可选) – 使用Nesterov动量(默认:False)
我们可以看到最后一个参数是nesterov,这个参数是确认是否使用一种加速化的Momentum: Nesterov Momentum。关于它的理解我们用以下公式理解:
我们可以看到相当于是在当前更新梯度的时候我们提前迈了一步,然后观察那个地方的梯度来更新。
此前我们都没有用到二阶动量。二阶动量的出现,才意味着“自适应学习率”优化算法时代的到来。SGD及其变种以同样的学习率更新每个参数,但深度神经网络往往包含大量的参数,这些参数并不是总会用得到(想想大规模的embedding)。或者来说对于SGD的不同参数我们是采用同样的方式梯度更新的,也就是所有的参数统一求导和下降的,但是由于实际数据中可能存在这样一种情况:有些参数已经近乎最优,因此只需要微调了,而另一些可能还需要很大的调整。这种情况可能会在样本较少的情况下出现,比如含有某一特征的样本出现较少,因此被代入优化的次数也较少,这样就导致不同参数的下降不平衡。Adagrad就是来处理这类问题的。
对于经常更新的参数,我们已经积累了大量关于它的知识,不希望被单个样本影响太大,希望学习速率慢一些;对于偶尔更新的参数,我们了解的信息太少,希望能从每个偶然出现的样本身上多学一些,即学习速率大一些。怎么样去度量历史更新频率呢?那就是二阶动量——该维度上,迄今为止所有梯度值的平方和。
grad_squared将用来归一化参数更新步长,归一化是逐元素进行的。变量grad_squared的尺寸和梯度矩阵的尺寸是一样的,还保持记录每个参数的梯度的平方和。注意,接收到较大梯度值的权重更新的学习率将减小,而接收到较小梯度值的权重的学习率将会变大。
有趣的是平方根的操作非常重要,如果去掉,算法的表现将会糟糕很多。用于平滑的式子eps(一般设为1e-4到1e-8之间)是防止出现除以0的情况。
参数:
- params (iterable) – 用于优化的可以迭代参数或定义参数组
- lr (float, 可选) – 学习率(默认: 1e-2)
- lr_decay (float, 可选) – 学习率衰减(默认: 0)
- weight_decay (float, 可选) – 权重衰减(L2范数)(默认: 0)
这一方法在稀疏数据场景下表现非常好。但也存在一些问题:因为历史梯度平方和是单调递增的,会使得学习率单调递减至0,可能会使得训练过程提前结束,即便后续还有数据也无法学到必要的知识。
由于AdaGrad单调递减的学习率变化过于激进,我们考虑一个改变二阶动量计算方法的策略:不累积全部历史梯度,而只关注过去一段时间窗口的下降梯度。这也就是AdaDelta名称中Delta的来历。修改的思路很简单。前面我们讲到,指数移动平均值大约就是过去一段时间的平均值,因此我们用这一方法来计算二阶累积动量。
RMSProp简单修改了Adagrad方法,它做了一个梯度平方的滑动平均。 decay_rate是一个超参数,常用的值是[0.9,0.99,0.999]。x+=和Adagrad中是一样的,但是cache变量是不同的。因此,RMSProp仍然是基于梯度的大小来对每个权重的学习率进行修改,这同样效果不错。但是和Adagrad不同,其更新不会让学习率单调变小。
谈到这里,Adam和Nadam的出现就很自然而然了——它们是前述方法的集大成者。我们看到,SGD-M在SGD基础上增加了一阶动量,AdaGrad和AdaDelta在SGD基础上增加了二阶动量。把一阶动量和二阶动量都用起来,就是Adam了——Adaptive + Momentum。Adam是RMSProp的momentum版本:
参数:
- params (iterable) – 用于优化的可以迭代参数或定义参数组
- lr (float, 可选) – 学习率(默认:1e-3)
- betas (Tuple[float, float], 可选) – 用于计算梯度运行平均值及其平方的系数(默认:0.9,0.999)
- eps (float, 可选) – 增加分母的数值以提高数值稳定性(默认:1e-8)
- weight_decay (float, 可选) – 权重衰减(L2范数)(默认: 0)
本篇部分引用知乎回答:优化算法