一个网站SEO关键词排名阶段可分为爬虫抓取、收录、排名、流量。在搜索结果中得到排名展现的网页内容是百度快照,让搜索引擎收录我们网站上的信息内容是排名的必要条件,其中网页收录的前提条件便是让搜索引擎爬虫可抓取网页内容。
1.搜索引擎抓虫不可读
简单说下搜索引擎的基本工作原理,搜索引擎会通过一个叫做Baiduspider的网页爬虫程序抓取网页上的信息内容,然后处理放入索引库当中,达到搜索引擎要求,放出从而形成收录。但是搜索引擎抓虫技术并未成熟到可识别所有网站上的信息,目前只能读取网页文本内容,flash、图片等非文本内容搜索引擎爬虫还未能识别,建议大家文字信息少用flash、图片、js等方式来承载。搜索引擎抓虫不可读,可能会导致无法收录。
2.屏蔽搜索引擎爬虫抓取
(1)robots协议
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也是搜索引擎来抓取网站内容的第一个要访问的文件。相当于网站的警卫,告诉搜索引擎爬虫哪些可抓取哪些不可抓取。勿把需要搜索引擎收录的网页信息给屏蔽掉,Disallow就是禁止抓虫抓取。
(2)nofollow标签
nofollow标签就是告诉搜索引擎"不要追踪此网页上的链接或不要追踪此特定链接"。简单的说就是,如果A网页上有一个链接指向B网页,但A网页给这个链接加上了rel="nofollow"标注,搜索引擎就不会在A页面上继续抓取B页面。云优SEO在此提醒下nofollow与robost协议不同,一个是指局部一个是整体,别把两者混淆了。
网站不收录可率先检查下网站是否可让搜索引擎爬虫抓取,不让搜索引擎爬虫抓取就无网站收录可言。