分享搜索引擎一般是如何判断原创和伪原创的

我们都知道做SEO肯定是原创是最好的,同时也有过多次的实战经历,百度对原创文章的网站给予的权重很高.但是现在在操作SEO的时候,很多时候很难达到一个全部全部原创的,因为文章有限、时间有限,这个时候大家普遍的手法是伪原创.今天看了一下百度和谷歌如何去判断原创和伪原创的文章,觉得对大家还是有一定的帮助,特意整理下,发上来给大家参考下:

1. 相似度

相似度主要依靠词频和反文档频率两个来判断.词频指的是某一个给定的词语在该文件中出现的次数.反文档频率指的是:如果包含词条的文档越少,反文档频率越大,则说明词条具有很好的类别区分能力.大概意思是如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的.

2. 数据指纹

当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的.还有对向量进行对比,也就是关键词密度等等来判断.像我们一般的把文章的段落重排,但是文章的词频等是一致的,也会被判断出来.

3. 代码噪音

何为代码噪音?先让我们了解一下原理:

学过信息论和有信号处理经验的读者可能知道这么一个事实,我们如果在发动机很吵的汽车里用手机打电话,对方可能听不清;但是如果我们知道了汽车发动机的频率,我们可以加上一个和发动机噪音相反的信号,很容易地消除发动机的噪音,这样,收话人可以完全听不到汽车的噪音.

消除噪音的流程可以概括如下:

一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略.那么我们在做模板的时候,就要注意了.这里有个纠结点,就是整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度.

知道了搜索引擎判断文章原创程度的原理,那么你就知道如何去做一篇文章的更新了,整站优化就是如此对网站进行操作的,尽量原创.

版权所有:《博客之家
文章标题:《分享搜索引擎一般是如何判断原创和伪原创的
除非注明,文章均为 《博客之家》 原创
转载请注明本文短网址:https://bk.likinming.com/post-1688.html  [生成短网址]

日期:2018年03月14日 星期三   分类:好文分享   浏览(1197)
本文已经被百度收录,点击查看详情
声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。免费发布信息

留言/评论:◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

自动获取QQ

昵称

邮箱

网址

网站收录提交

  • 名称:
  • 网址:

网址统计

  • 收录网址:868 个
  • 发布文章:913 条
  • 本站运行:5年4月28天
Copyright © 2012 - 2018 by 李明关于本站免责声明本站下载站点地图sitemap广告联系