观察了半月收录情况,才3000来个页面被收,每天平均200个增量,流量每天增加20uv左右,完全没有达到预期中收录速度,这样下去5万页面得一年多才能收完,太让人捉急了。
怎么能有效加快页面收录??求回复
入口的设计,至少要保证从首页开始三次点击内可以到达所有的这批页面。
1、蜘蛛是否在抓取这5万页面。
虽然增加了入口和内链,也提交了sitemap,这批页面也有部分收录,但这不代表蜘蛛知道5万页面的存在从而分配足够的抓取次数。比如入口,100个新页面为一组做一个入口也要500个,内链的道理类似。有限的爬行入口和内链无法引导蜘蛛完成5万页面的抓取。至于sitemap,zero以前说过百度对这个东西不感冒,聊胜于无。
你说的增加入口和内链,想必不是专门为蜘蛛而做,还要考虑用户方面。如果是我的话,我会专门做十个左右的纯链接页面,假设百度蜘蛛抓满200k的话,每个页面可以放5000-6000个链接,能够覆盖这批新页面。然后把这十个页面用百度站长工具的URL提交和抓取诊断来通知百度蜘蛛。
2、给予这5万页面抓取次数和时间是否充足。
蜘蛛爬行网站的次数和时间是有限的,如果蜘蛛按照经验判断这批页面的重要性较低的话,抓取量提升的就会比较慢。所以这一点赞同zero的建议,增加离首页近的入口。但这又回到上面入口数量的问题。如果是我的话,我会在蜘蛛爬行密集时段到来之前,用未抓取的页面替换已抓取的页面,换句话说,入口是动态的,保证蜘蛛认识到这批页面的重要性和抓取的比例。
3、内容质量是否达到收录标准。
这个应该是决定性的因素吧。全部抓一遍,质量不达标也不会收录。国平老师的博客3年前停更,快照时间却是今年2月(去年快照时间更新还很快),我一个半年不写的博客,快照还是当天,足见原创内容、高质量内容对蜘蛛的吸引力。所以如果蜘蛛已经把这批页面抓过一遍,结果收录比例很小,我觉得就该考虑内容质量的原因了。当然不需要等全部抓取完再看,每天观察日志,抓取了1万结果过几天只放出几十,就该考虑内容因素了。
无论如何,你都需要也应该找技术拿到网站日志,至少是蜘蛛爬行日志,来了解蜘蛛对网站各栏目的看重程度和页面抓取与收录的比例。
发表回复