随机梯度下降和小批量梯度下降详解

所谓随机梯度下降, 顾名思义, 就是随机选取数据来做随机梯度下降. 普通梯度下降 普通的梯度下降的计算公式为: \omega = \omega - \lambda\frac{\partial J}{\omega} 其中, J为损失函数, 而\omega就是我们需要求的参数, \lambda为步长, 也就是我们所说的学习率. 也就是说, 梯度下降法其实就是将相应的参数按照梯度下降的方向前进一点点

- 阅读全文 -

各种梯度下降及其特点

全量梯度下降/批梯度下降(BGD, Batch Gradient Descent) 就是正常的梯度下降 \omega = \omega-\lambda\frac{\partial J}{\partial\omega} 特点 每次更新都会朝着正确的方向进行, 最后收敛于极值点, 凸函数收敛于全局极值点, 非凸函数可能会收敛于局部极值点 缺点: 学习时间长, 消耗内存大 随机梯度下降(SGD,

- 阅读全文 -

各种激活函数, 图像, 导数及其特点

sigmoid f(z)=\frac1{1+e^{-z}} 其图像如下: 特点 能够将输入的连续实值变换为0到1之间的输出 缺点 在深度神经网络中梯度反向传播是容易造成梯度爆炸和梯度消失 sigmoid导数 f'(z) = \frac{e^{-z}}{(1+e^{-z})^2} = \frac1{1+e^{-z}} - \frac1{(1+e^{-z})^2} 其导数图像如下: t

- 阅读全文 -

推荐系统矩阵分解算法-----LFM

因为很多时候,读者对于书籍的分类与编辑对书籍的分类不同,比如《具体数学》这本书,有的人认为是数学, 有的人认为属于计算机.内容是属于数学的,而大多数读者属于计算机. 编辑的分类是从内容上出发的, 而不是从书的读者出发. 如果我们从数据出发的,自动地找到那些类,然后进行个性化推荐的技术就是隐含语义分析技术(latent variable analysis). 隐含语义分析技术采用的是基于用户行

- 阅读全文 -

数据预处理和特征工程

数据挖掘的五大流程 获取数据 数据预处理 数据预处理是从数据中检测,纠正或删除孙华,不准确或不适用于模型的记录的过程 目的: 让数据适应模型, 匹配模型的需求 特征工程 特征工程是将原始数据转换为更能代表预测模型的潜在无问题的特征的过程, 可以通过挑选最相关的特征,提取特征以及创造特征来实现. 目的: 降低计算成本,提高模型上限 建模,测试模型并预测出结果 上线,验证模型效果 数据预处

- 阅读全文 -