在搜索引擎工作原理中,可分为网页抓取、分析入库、查询检索三步。其中在分析入库这块,百度有一系列的相关算法判断文章是原创还是伪原创。对于伪原创或采集的网页内容,在百度计算质量初始权值时是很低的,会给予原创文章较高的扶持。
我们先来看百度官方对其原创、伪原创的定义:
1、高质量原创内容:百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。
2、伪原创:采集内容后对部分关键词进行批量修改,企图让百度认为这些都是独特内容,然而内容已经是面目全非,甚至无法读通——这也是百度不喜欢的,风险很大。还是刚才说的观点,百度不排斥站点采集内容,关键是如何应用采集的内容和数据,如何整合成用户和搜索引擎都需要的内容才是站长应该考虑的内容。
百度如何分辨文章内容是原创还是伪原创
一、基于关键词提取的重复页面检测算法
基本原理是:有一个大的网页集合P,里面包含了很多网页为pi。每个网页pi都分别提取关键词tj,形成向量Wi=(W1,W2,…Wj)。其中Wj的影响因素有两个,一是关键词j在网页中出现的频率,二是网页集合P中出现关键词j的次数的倒数。而在判断两个网页是否为重复页面时,只需要判断表示两个页面的向量Wi和Wj的夹角的大小即可。夹角越小,两个页面的重复度越高。
二、基于全文分段匹配的重复页面检测算法
这类算法采用的是一种对全文分段签名的方法。这种算法把一篇网页按一定的原则分成m段,然后对每一段进行签名(即计算指纹),于是每一篇文档就可以用m个签名后的指纹来表示。对于任意两篇文档,当它们的m个签名中有t个相同时(t是系统定义的阈值),则认为它们是互为重复内容网页。
三、基于模板消噪的重复内容检测算法
由于大量的近似镜像网页并不是对原始网页的简单拷贝,而是将要转载的内容放在新的模板中再提供服务。因此模板中的内容就会干扰算法程序对近似镜像网页的判断,从而导致错误的检测结果。基于模板噪音消除的重复内容检测就是先对网页进行净化,去掉网页的模板噪音内容,进而提取出网页的正文,然后再结合其他重复内容检测算法对网页的正文进行消重。
并不能以收录来衡量内容质量
百度对网页内容价值的判断不是停留在我们自以为的“原创”上面,也不是以收录来衡量。在大部分人的认知中,原创内容就应该被收录,伪原创采集就该没排名。若是单从内容的稀缺性这一维度去比拼,原创文章自然是要战胜伪原创的采集的。但是影响一篇网页的收录除了该篇网页质量外,还受站点整体性的权值影响,实际上大部分因素还是取决于后者。
通常内容质量高的站点收录率较高,但并不代表收录量多或秒收的站点内容质量好。您可能也见过些采集/伪原创比原创的站点排名好,收录好,但是我们不去片面的分析,以偏概全。可以尝试看看它们内容更新频率、站点整体量级、域名年龄等,这些也是重要因素。一个网站的排名收录,都是由许多综合因素一起迭代产生的最终结果。