FM模型在推荐系统中的应用价值
发布日期: 2019-08-22

  一般线性模型,是各个特征独立考虑的,没有考虑到特征与特征之 间的相互关系,但实际上,大量的特征之间是有关联的,比如,假如在 数据集中经常出现男,篮球 ,女,化妆品,这时候如果用Wij表示 男,篮球交互特征的系数,此时怎么求解这个系数呢?

  W0、Wi、Wij是模型参数,其中xi是第i个特征的值,前两部分是一般 线性组合模型,后面一部分xixj是交叉组合特征。

  从多项式模型看出,组合特征的参数一共有n(n1)/2 个,其中n是特征维度, 然而,在数据稀疏性普遍存在的实际应用场景中,交叉项参数的训练是很困难 的。其原因是,每个参数 Wij 的训练需要大量 Xi 和Xj特征同时非零的样本;由于 样本数据本来就比较稀疏,满足“Xi 和 Xj 都非零”的样本将会非常少,例如上 述男,化妆品可能几乎没出现过。训练样本的不足,很容易导致参数 Wij 不准 确,模型稳定性差、适应性差的问题,最终将严重影响模型的性能。

  在非充分统计量下,如何解决交叉项参数求解问题,使得交叉项参数相对 比较容易学习。度为2的因子分解机(FM)的模型为:

  参数因子化使得 的参数和 的参数不再是相互独立的,因此我 们可以在样本稀疏的情况下相对合理地估计FM的二次项参数。具体来说, 和 的系数分别为 vh,vi,vi,vj ,它们之间有共同项 vi。也就是说,所有 包含“xi的非零组合特征”(存在某个 ji,使得 xixj0)的样本都可以用来 学习隐向量 vi。这很大程度上避免了数据稀疏性造成的影响。而在多项式模 型中,whj和 wij是相互独立的。六合宝典免费资料大全



友情链接:
香港最快开奖现场直播,香港马会开奖资料,香港马会开奖资料,港台最快直播开奖结果,香港马会今晚开奖结果,香港马会开奖最快报码,六和开奖结果走势。