Larbin是国外的一个开源的高效的搜索引擎爬虫工具(crawler)
larbin官方地址: http://larbin.sourceforge.net/
在fedora或者centos编译安装时,总是出现错误。网上说是要把adns文件夹下internal.h文件568-571注释掉,其实把:adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,
          vbuf *vb, parsedomain_flags flags,
          const byte *dgram, int dglen, int *cbyte_io, int max);
更正为:
 adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,
          vbuf *vb, adns_queryflags flags,
          const byte *dgram, int dglen, int *cbyte_io, int max);
就不会出错了。
安装过程:
./configure
gmake
./larbin
不过在运行larbin之前需要更改一下配置。
主要该两个文件:larbin.conf和options.h
一般在larbin.conf文件里改:
StartUrl :http://www.hfut.edu.cn   //爬虫开始爬的起始网址
limitToDomain: .edu .com .cn .net .com.cn //限制爬虫抓取的网址域名后缀。
在options.h里修改:(我的配置是:)
//#define DEFAULT_OUTPUT   // do nothing…
#define SIMPLE_SAVE      // save in files [...]