火车头采集爱站数据


本想赚点专业度,写了点原理的东西,不过好像大家都不敢兴趣。那就写点实用的技巧好了。本来也不知道要写关于什么主题的,恰巧看见这个板块里面有很多关于火车头采集爱站数据的文章,就写点关于火车头的东西好了。毕竟自己对于这个还算蛮熟悉的。
虽然自己研究seo也就一年多点,但是由于一直是一个人,所以很多繁琐的事情都希望用工具解决,这也是很多软件存在的意义。火车头除了采集数据外,其实有很多用处,如一些帖子中提到的采集SERP跟踪关键词排名,定时采集更新网站收录,采集分析爱站数据研究竞争对手等。除了这些外,火车头还可以用来选择要购买域名,购买链接,构建内容数据库,还有B2B群发(个人觉得是 最有价值的一块,快速赚钱)。。
开始正题,第一篇主要说下通过构造多页采集页面,批量采集网站基本数据。(可用于竞争对手分析,域名购买及链接购买)
一:采集数据说明
采集的原始页面来自爱站。本案例以光年论坛为例子,主要针对百度。原始页面http://www.aizhan.com/baidu/www.tyseoer.com/,采集数据:网页地址,网页标题,百度快照,google PR,爱站预估的百度流量,域名年龄,导出外链数目,不同时段的百度收录情况及百度相关域。
先贴张光年论坛的效果图:
 现在需要解决的是这些字段是如何抓取,并进行批量操作。需要说明的是:由于爱站对于非注册用户,每天有20个网站的查询限制,这也是为什么采集了一些站点后,后面的都是空结果的原因,这个以前的一些文章都没有说明。爱站验证还是很方便的,搞5个不同的IP注册就okay了。
二:各个字段的采集方法
字段采集的主要办法是通过一个URL来构建各种不同的多页采集URL,利用不同的站长工具,来实现不同的数据同步采集。下面会有详细说明。(我默认大家都会火车头采集的最基本操作~~)
2.1 爱站页面的相关数据采集
采集的初始页面为爱站的:http://www.aizhan.com/baidu/www.tyseoer.com/  结果如下:
关键词及排名等的采集在下一篇文章中说明,这里只采集上面的部分。查看下源码就知道,其实里面的百度快照时间,收录量都是没法直接采集的,能直接采集的只有百度权重,爱站估计的百度流量(个人认为比较有价值的数据)。那么就先解决这两块数据的采集,相对简单,看下源码,字段截取下就可以了,直接贴图:
2.2 百度的相关数据采集
接下来采集百度相关数据,这里就需要通过初始采集页面来构建多页采集页面了。
首先是百度快照,各大站长工具的方法都是采集百度搜索结果,如:http://www.baidu.com/s?wd=http://www.tyseoer.com,这个页面就是我们需要构建的多页采集页面之一了。下图为具体操作方法:
2.2.1 点击同时采集多页面
2.2.2 多页采集页面的构建,其实就是通过初始页面来创建另外一个我们需要的页面,见下图:
2.2.3 对新构建出来的页面进行采集,如下图
需要采集的部分
采集规则,重点为图中所属页面(多页)的选择
同样的方法可以处理百度收录,百度相关域的采集。
查询百度收录的命令:site :( www.tyseoer.com),
URL规则:http://www.baidu.com/s?q1=site%3A%28www.tyseoer.com%29&lm=1(其中im表示天数,一周为7,一个月为30)。
同理,对于百度相关域(很多人也叫百度外链,虽然并不是这样的,个人也觉得基本没用,除了购买链接时可以考虑下)。
查询命令为domain:”www.tyseoer.com”(用双引号过滤一些无关的)
多页构建方法如下:
2.3 其他相关数据采集
同样是构建多页采集,只是需要利用不同的站长工具。
2.3.1 google pr 如下图(用了linkhelper的工具)
2.3.2 域名历史 如下图(用了伯乐的工具)
2.3.3 网页的导出链接数目(用了伯乐的工具)
三:自动处理多网址
以上是对一个网址的操作,很多人会觉得麻烦,要看这些数据直接用一个工具就可以了,何必麻烦,不过还没完,因为上面只是铺垫,因为我们的目的在于自动同步批量处理多个网址。只有这样才有价值。
首先随机选取url列表,建立一个txt文件,一行一个地址,如ww.a1.com,www. a2.com,www. a3.com….批量替换成爱站查询格式www. aizhan.com/baidu/www. a1.com/,www. aizhan.com/baidu/www. a2.com…以此类推 (基本上用编辑器正则替换一部就搞定了)
接着操作如下图:
采集需要登录,所以需要cookie,其中采集目录深度为0,点击开始测试网址采集,效果如下:
上图为我导入的一批卖链接的一批PR5的链接,接着就可以对这些页面的各项数据进行自动分析了。有结果如下:
我们可以看到,其中很多网站PR都没有5,同时收录,快照都存在问题。这样进行批量操作,直观上就可以帮助我们选取要买的链接了。(这里废话一下,一般只要看百度来的流量和收录,还有导出链接就可以了,PR,快照什么的不用在意)。
同时也回答标题中的问题,为什么可以用来购买域名呢?其实每天到期的很多域名中,有很多是有PR和一定数目的百度相关域的老域名,进过分析选取一些好域名,对于seo,还是很有益处的。而运用上面说的方法,你要做的只是导入每天的过期域名,选取要分析的数据纬度,批量处理,然后等着结果就可以了,就那么简单!
版主,麻烦排版下,图片老是不对,而且没登陆看不到?还有这篇文章写的太辛苦了,求动力!!!!(金币,专业度)接下来几篇更精彩!原创文章,请勿转载!
附采集规则,欢迎大家研究探讨拓展!

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注