百度文章相似度检测工具【文章相似度检测在线】-成益经验网

百度文章相似度检测工具【文章相似度检测在线】

作者：冯耀宗

围观群众：139

更新于 2022-04-17 03:06:52

　　文本相似度计算广泛应用于信息检索、数据挖掘、机器翻译、文档重复检测等领域。比如舆情控制，如果你开发了一个微博网站，并且已经将世界上所有的骂人句子收录到一个数据库中，那么当一个用户发微博的时候，会先和骂人句子的数据库进行比对，如果和里面的句子匹配，就不会把用户发出去。

　　至于TF-IDF算法，我在上一篇文章中介绍过，有需要可以看看。本文主要详细描述余弦相似度算法。

　　假设向量a和b的坐标分别为(x1，y1)、(x2，y2)。然后：

　　设向量A=(A1，A2，安)，B=(B1，Bn)。推广到多维，数学家已经为我们证明了，所以你只需要记住下面的公式：

十大日系车排名（日系车哪个品牌最耐用）

[股票知识]量能止赢与止损法

北京京惠保投保条件有哪些？外地人能买吗？

[股票知识]经典止损技巧

　　简单来说，可以写成如下公式：

　　举一个具体的例子，让我们从这句话开始：

　　比起看电影，我更喜欢看电视。

　　句子B:我不喜欢看电视，也不喜欢看电影。

　　第一步：分词

　　句子a:我/喜欢/看/电视，但不/喜欢/看/电影。

　　句子B:我/不/喜欢/看/电视，还有/不/喜欢/看/电影。

　　第二步：列出所有单词

　　我，喜欢，看电视，电影，不，也是

　　第三步：计算词频

　　句子a:我1，喜欢2，看2，电视1，电影1，1号，也是0

　　我1，喜欢2，看2，电视1，电影1，不2，也1

　　第四步：写词频向量

　　句子a: [1，2，2，1，1，1，0]

　　句子b: [1，2，2，1，1，2，1]

　　第五步：计算余弦值

　　余弦值越接近1，夹角越接近0度，即两个向量越相似，称为余弦相似。

　　简单来说，上面计算的值，就是两句话相似度在90%左右，越接近1，越相似

非特殊说明，本文版权归成益经验网所有，转载请注明出处.

本文分类：历史

本文标题：百度文章相似度检测工具【文章相似度检测在线】

本文网址： http://chengyi0769.com/lishi/157.html