捉梦人: 基于Lucene的应用开发

三、基于Lucene的应用开发

通过以上的系统结构分析和数据流分析，我们已经很清楚的了解了Lucene的系统的结构特征。在此基础上，我们可以通过扩充Lucene系统来完成一个完备的全文检索引擎，紧接着还可以在全文检索引擎的基础上构建各种应用系统。鉴于本文的目的并不在此，以下我们只是略为叙述一下相关的步骤，从而给出应用开发的一些思路。

首先，我们需要的是按照目标语言的词法结构来构建相应的词法分析逻辑，实现Lucene在org.apache.lucene.analysis中定义的接口，为Lucene提供目标系统所使用的语言处理能力。Lucene默认的已经实现了英文和德文的简单词法分析逻辑（按照空格分词，并去除常用的语法词，如英语中的is，am，are等等）。在这里，主要需要参考实现的接口在org.apache.lucene.analysis中的Analyzer.java和Tokenizer.java中定义，Lucene提供了很多英文规范的实现样本，也可以做为实现时候的参考资料。其次，需要按照被索引的文件的格式来提供相应的文本分析逻辑，这里是指除开词法分析之外的部分，比如HTML文件，通常需要把其中的内容按照所属于域分门别类加入索引，这就需要从org.apache.lucene.document中定义的类document继承，定义自己的HTMLDocument类，然后就可以将之交给org.apache.lucene.index模块来写入索引文件。完成了这两步之后，Lucene全文检索引擎就基本上完备了。这个过程可以用下图表示：

当然，上面所示的仅仅只是对于Lucene的基本扩充过程，它将Lucene由不完备的变成完备的（尤其是对于非英语的语言检索）。除此之外我们还可以在很多方面对Lucene进行改造。第一个方面即为按照文档索引的域，比如标题，作者之类的信息对返回的查询结果排序，这即需要改造Lucene的评分排序逻辑。默认的，Lucene采用其内部的相关性方法来处理评分和排序，我们可以根据需要改变它。遗憾的是，这部分Lucene并没有做到如同扩充词法解析和文档类型那样的条理清晰，没有留下很好的接口，因此需要仔细的分析其源代码的实现，自行扩充等等。其他的方面，比如改进其索引的效率，改进其返回结果时候的缓冲机制等等，都是加强Lucene系统的方面，在此也不再叙述。

完成了Lucene系统，之后就可以开始考虑其上的应用系统开发。如果应用系统也使用java语言开发，那么Lucene系统能够方便的嵌入到整个系统中去，作为一个API集来调用。这个过程十分简单，以下便是一个示例程序，配合注释理解起来很容易。

图 2.4 Lucene应用代码示例

或者，Lucene全文检索引擎也可作为服务器程序启动，但是这就需要用户自行扩充其他应用与Lucene的接口。这个可以通过传统的包装方式，比如客户服务器结构，或者采用现在流行的Web方式。诸如此类的应用方案，本文也不再继续叙述。参考Lucene的项目网站中的用户邮件列表能找到更多的信息。

捉梦人

2008年4月25日星期五

基于Lucene的应用开发

没有评论:

博客归档

hi everyone

我的简介