百度文章相似度检测工具【文章相似度检测在线】

作者:冯耀宗
围观群众:135
更新于
百度文章相似度检测工具【文章相似度检测在线】

  文本相似度计算广泛应用于信息检索、数据挖掘、机器翻译、文档重复检测等领域。比如舆情控制,如果你开发了一个微博网站,并且已经将世界上所有的骂人句子收录到一个数据库中,那么当一个用户发微博的时候,会先和骂人句子的数据库进行比对,如果和里面的句子匹配,就不会把用户发出去。

  至于TF-IDF算法,我在上一篇文章中介绍过,有需要可以看看。本文主要详细描述余弦相似度算法。

  假设向量a和b的坐标分别为(x1,y1)、(x2,y2)。然后:

  设向量A=(A1,A2,安),B=(B1,Bn)。推广到多维,数学家已经为我们证明了,所以你只需要记住下面的公式:

百度文章相似度检测工具【文章相似度检测在线】

推荐阅读:

十大日系车排名(日系车哪个品牌最耐用)

百度文章相似度检测工具【文章相似度检测在线】

[股票知识]量能止赢与止损法

北京京惠保投保条件有哪些?外地人能买吗?

[股票知识]经典止损技巧

  简单来说,可以写成如下公式:

  举一个具体的例子,让我们从这句话开始:

  比起看电影,我更喜欢看电视。

  句子B:我不喜欢看电视,也不喜欢看电影。

  第一步:分词

  句子a:我/喜欢/看/电视,但不/喜欢/看/电影。

  句子B:我/不/喜欢/看/电视,还有/不/喜欢/看/电影。

  第二步:列出所有单词

  我,喜欢,看电视,电影,不,也是

  第三步:计算词频

  句子a:我1,喜欢2,看2,电视1,电影1,1号,也是0

  我1,喜欢2,看2,电视1,电影1,不2,也1

  第四步:写词频向量

  句子a: [1,2,2,1,1,1,0]

  句子b: [1,2,2,1,1,2,1]

百度文章相似度检测工具【文章相似度检测在线】

  第五步:计算余弦值

  余弦值越接近1,夹角越接近0度,即两个向量越相似,称为余弦相似。

百度文章相似度检测工具【文章相似度检测在线】

  简单来说,上面计算的值,就是两句话相似度在90%左右,越接近1,越相似


百度文章相似度检测工具【文章相似度检测在线】

非特殊说明,本文版权归 成益经验网 所有,转载请注明出处.

本文分类: 历史

本文标题: 百度文章相似度检测工具【文章相似度检测在线】

本文网址: http://chengyi0769.com/lishi/157.html

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。