推荐系统矩阵分解算法-----LFM

因为很多时候,读者对于书籍的分类与编辑对书籍的分类不同,比如《具体数学》这本书,有的人认为是数学, 有的人认为属于计算机.内容是属于数学的,而大多数读者属于计算机. 编辑的分类是从内容上出发的, 而不是从书的读者出发. 如果我们从数据出发的,自动地找到那些类,然后进行个性化推荐的技术就是隐含语义分析技术(latent variable analysis). 隐含语义分析技术采用的是基于用户行

- 阅读全文 -

数据预处理和特征工程

数据挖掘的五大流程 获取数据 数据预处理 数据预处理是从数据中检测,纠正或删除孙华,不准确或不适用于模型的记录的过程 目的: 让数据适应模型, 匹配模型的需求 特征工程 特征工程是将原始数据转换为更能代表预测模型的潜在无问题的特征的过程, 可以通过挑选最相关的特征,提取特征以及创造特征来实现. 目的: 降低计算成本,提高模型上限 建模,测试模型并预测出结果 上线,验证模型效果 数据预处

- 阅读全文 -

eclipse中常用的快捷键

(1)ctrl+shift+f:使代码更加格式。 (2)ctrl+shift+/:注释多行(得选中所要注释的) (3)ctrl+shift+\:取消注释多行 (4)Alt+shift+r:可选择同一类型的 (5)Alt+shift+s+c:空参构造方法 (6)Alt+shift+s+o:有参构造方法 (7)Alt+shift+s+r:set+get方法 (8)Ctrl+Alt:把上一行复制到下一行

- 阅读全文 -

决策树(Decision Tree)

决策树 决策树是一种常见的机器学习算法. 所谓决策树,其实就是通过某种方法选择特征的筛选顺序,然后对每一个特征进行分分支,也就相当于将每个特征都做成if-else语句. 简单的说,决策树就是多个if-else组合在一起,只是哪一个特征先进行if-else由我们的判定方法决定,而常见的判定方法有: 信息增益, 增益率, 基尼指数 在我们使用代码实现决策树的时候,其实就是一个递归过程.下面请看西瓜书的

- 阅读全文 -

最大似然估计(极大似然估计)

概率与似然 对于最大似然估计我们使用最简单的抛硬币问题来进行讲解 概率 当我们抛一枚硬币的时候,就可以去猜测抛硬币的各种情况的可能性,这个可能性就称为概率 一枚质地均匀的硬币,在不考虑其他情况下是符合二项分布的,即正面和翻面的概率都是0.5,那么我们抛10次硬币5次正面在上面的概率为: P(5次正面朝上)=C^5_{10}0.5^5(1-0.5)^5=0.24609375\approx0.2

- 阅读全文 -