Entries in the ‘search engine’ Category:

由“是一关系”比较搜索引擎

昨天在看《php5权威编程》的时候,里面讲到面向对象的内容的时候出现一个名词“是一关系”,按他的上下文大概理解上面意思,但我想看看权威的具体解释,于是用上网在百度搜索框里输入“是一关系”结果返回的结果
根本没有合适的答案,排第二的是“礼和德究竟怎么样的关系”;排第四的更搞笑:“否和月经一关系呢? ”
这引起了我的兴趣,其实也不怪搜索引擎,比较象“是一关系”这样的关键词让搜索引擎分词程序正确的分词确实不是那么容易,但我想看看google搜索的结果会怎么样?于是我google了一下“是一关系”
结果让我为之一振,搜索的第一个结果竟然就是我要的答案:“对书中提到的“是一”关系不是很理解- 《PHP5权威编程》官方讨论版”,这不是正是我想要的吗?

感慨一句“google更懂技术”!百度不是大叫“百度更懂中文”嘛!!哈哈
其实我一般首选搜索引擎都是google
特别在查询技术方面的资料的时候,百度实在是不行~~~

附:”是一“,英文是 “is-a” 的关系。比如:apple is a fruit. 苹果“是一”种水果。另外一种关系是“part-of”。比如:hand is part of body. 手是身体的一部分。
是一的概念其实是对“is a”的翻译,我自己也觉得中文感觉起来有些生硬。它可以简单地理解为 A 是一类 水果。

在程序中,常见的是: A man 是一个管理员 或者 A man 是一个普通用户。

应该是指is a吧. (建议译者以后不要把这个也翻译成中文, 就加个注释就可以了)
OO中一个重要的思想.

is a应该是指一个对象是一个XXX类的对象.

Tags: , , , ,

Leave a Comment

larbin 安装配置注意事项

Larbin是国外的一个开源的高效的搜索引擎爬虫工具(crawler)

larbin官方地址: http://larbin.sourceforge.net/

在fedora或者centos编译安装时,总是出现错误。网上说是要把adns文件夹下internal.h文件568-571注释掉,其实把:adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,
          vbuf *vb, parsedomain_flags flags,
          const byte *dgram, int dglen, int *cbyte_io, int max);

更正为:
 adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,
          vbuf *vb, adns_queryflags flags,
          const byte *dgram, int dglen, int *cbyte_io, int max);
就不会出错了。
安装过程:
./configure
gmake
./larbin
不过在运行larbin之前需要更改一下配置。
主要该两个文件:larbin.conf和options.h
一般在larbin.conf文件里改:
StartUrl :http://www.hfut.edu.cn   //爬虫开始爬的起始网址
limitToDomain: .edu .com .cn .net .com.cn //限制爬虫抓取的网址域名后缀。
在options.h里修改:(我的配置是:)
//#define DEFAULT_OUTPUT   // do nothing…
#define SIMPLE_SAVE      // save in files named save/dxxxxxx/fyyyyyy 简单输出一个目录两千个文件,包含索引。//这个很重要,默认是do nothing ,不会有任何结果输出的。
//#define

Tags: ,

Comments (1)