当前位置: 首页 > 今日要闻

今日要闻

浅谈搜索引擎如何判断冗余内容并进行消重

来源: 上海网站建设    发布日期: 2015-05-15 10:30    点击量: 5657

  我们要进行网站优化排名,就要了解搜索引擎,当然搜索引擎牵涉的内容很多,一些算法我们很多时候不一定要知道详细的具体的算法,只需要知道原理就可以了,我们做网站的时候特别是在进行内容建设的时候,才能知道哪些是搜索喜欢的做法,今天主要简单的说说搜索引擎消重方面的东西。

 

  网络冗余内容的产生

 

  这里所谓的冗余数据是指网页内容完全相同的数据或者在大文本字段非常相似的数据。出现这种情况往往是网站之间进行文章的相互转载、发布者多次发布相同或者相似的内容造成的。特别是一些新闻,大家知道这类页面来源于各个新闻网站,它们之间的相互转载会导致大量的重复信息。或者文章的发布者在多个网站上发布同样的信息,这样也会出现重复内容。相信很多网站建设的新手朋友应该都有这样的经历,在自己网站刚建好的时候,为了让内容丰富起来,会大量的采集别的网站的内容。

 

  MD5数字指纹进行冗余数据的消重

 

  针对这种情况搜索引擎会采取单MD5数字指纹技术进行数据清洗。往往很多时候,一些内容的发布者或者转载者对文字内容进行再次的编辑改动,或者网站之间的格式不同等原因,造成这些内容在字面上很多时候也不一定完全一样,由于MD5数字指纹技术的敏感性,只要原始字符串字符不完全一致,就会得到完全不同的MD5数字指纹,这时就需要考虑新的处理机制。这类信息都有明显的特征,例如,对于重复的信息,虽然字面上并非完全一样,但是内容大致相同;毫无意义的信息不是文字特别短、就是特别长等等,对这类信息的清理主要是通过将原始文本进行分词,统计词频,重新按照词频高低排序,计算多重MD5数字指纹数组,比较多重MD5数字指纹数组前三位是否相同,如果相同则表示可能是相似数据,再计算多重MD5数字指纹数组相似度是否高于设定的阀值来决定是否是相似数据,将相似度过高的数据看作冗余数据,删除这些冗余的信息就可以了。

 

  相信大家了解了以上的内容,就知道自己做网站优化原创内容编辑的时候改如何处理了。如果我们的网站的内容做到让搜索引擎认为是原创的不重复的,那么我们的排名就很有希望了。

  本文由上海艺觉网络科技有限公司(http://www.zwzsh.net)原创编辑转载请注明。

相关新闻

CONTACT USCAREERSFOODSERVICEPRESSPRIVACY POLICY
© 2014 yijueweb. All rights reserved.