百度如何分辨文章内容是原创还是伪原创 - 萝莉兔工会|友凝云工会|綦桐工会|科技桐工会|红客团队

在搜索引擎工作原理中，可分为网页抓取、分析入库、查询检索三步。其中在分析入库这块，百度有一系列的相关算法判断文章是原创还是伪原创。对于伪原创或采集的网页内容，在百度计算质量初始权值时是很低的，会给予原创文章较高的扶持。

我们先来看百度官方对其原创、伪原创的定义：

1、高质量原创内容：百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。

2、伪原创：采集内容后对部分关键词进行批量修改，企图让百度认为这些都是独特内容，然而内容已经是面目全非，甚至无法读通——这也是百度不喜欢的，风险很大。还是刚才说的观点，百度不排斥站点采集内容，关键是如何应用采集的内容和数据，如何整合成用户和搜索引擎都需要的内容才是站长应该考虑的内容。

百度如何分辨文章内容是原创还是伪原创

一、基于关键词提取的重复页面检测算法

基本原理是：有一个大的网页集合P，里面包含了很多网页为pi。每个网页pi都分别提取关键词tj，形成向量Wi=(W1,W2,…Wj)。其中Wj的影响因素有两个，一是关键词j在网页中出现的频率，二是网页集合P中出现关键词j的次数的倒数。而在判断两个网页是否为重复页面时，只需要判断表示两个页面的向量Wi和Wj的夹角的大小即可。夹角越小，两个页面的重复度越高。

二、基于全文分段匹配的重复页面检测算法

这类算法采用的是一种对全文分段签名的方法。这种算法把一篇网页按一定的原则分成m段，然后对每一段进行签名（即计算指纹），于是每一篇文档就可以用m个签名后的指纹来表示。对于任意两篇文档，当它们的m个签名中有t个相同时（t是系统定义的阈值），则认为它们是互为重复内容网页。

三、基于模板消噪的重复内容检测算法

由于大量的近似镜像网页并不是对原始网页的简单拷贝，而是将要转载的内容放在新的模板中再提供服务。因此模板中的内容就会干扰算法程序对近似镜像网页的判断，从而导致错误的检测结果。基于模板噪音消除的重复内容检测就是先对网页进行净化，去掉网页的模板噪音内容，进而提取出网页的正文，然后再结合其他重复内容检测算法对网页的正文进行消重。

并不能以收录来衡量内容质量

百度对网页内容价值的判断不是停留在我们自以为的“原创”上面，也不是以收录来衡量。在大部分人的认知中，原创内容就应该被收录，伪原创采集就该没排名。若是单从内容的稀缺性这一维度去比拼，原创文章自然是要战胜伪原创的采集的。但是影响一篇网页的收录除了该篇网页质量外，还受站点整体性的权值影响，实际上大部分因素还是取决于后者。

通常内容质量高的站点收录率较高，但并不代表收录量多或秒收的站点内容质量好。您可能也见过些采集/伪原创比原创的站点排名好，收录好，但是我们不去片面的分析，以偏概全。可以尝试看看它们内容更新频率、站点整体量级、域名年龄等，这些也是重要因素。一个网站的排名收录，都是由许多综合因素一起迭代产生的最终结果。

相关内容

友情/公告区

版权区