随机梯度下降和小批量梯度下降详解

所谓随机梯度下降, 顾名思义, 就是随机选取数据来做随机梯度下降. 普通梯度下降 普通的梯度下降的计算公式为: \omega = \omega - \lambda\frac{\partial J}{\omega} 其中, J为损失函数, 而\omega就是我们需要求的参数, \lambda为步长, 也就是我们所说的学习率. 也就是说, 梯度下降法其实就是将相应的参数按照梯度下降的方向前进一点点

- 阅读全文 -

各种梯度下降及其特点

全量梯度下降/批梯度下降(BGD, Batch Gradient Descent) 就是正常的梯度下降 \omega = \omega-\lambda\frac{\partial J}{\partial\omega} 特点 每次更新都会朝着正确的方向进行, 最后收敛于极值点, 凸函数收敛于全局极值点, 非凸函数可能会收敛于局部极值点 缺点: 学习时间长, 消耗内存大 随机梯度下降(SGD,

- 阅读全文 -

各种激活函数, 图像, 导数及其特点

sigmoid f(z)=\frac1{1+e^{-z}} 其图像如下: 特点 能够将输入的连续实值变换为0到1之间的输出 缺点 在深度神经网络中梯度反向传播是容易造成梯度爆炸和梯度消失 sigmoid导数 f'(z) = \frac{e^{-z}}{(1+e^{-z})^2} = \frac1{1+e^{-z}} - \frac1{(1+e^{-z})^2} 其导数图像如下: t

- 阅读全文 -