Lucene是apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包及架构,提供了完整的查询引擎和索引引擎,实现了一些通用的分词算法,预留很多词法分析器接口。本文以myrss.easyjf.com网站系统中使用Lucene实现全文检索的代码为例,简单演示Lucene在实际项目中的应用。 使用Lucene实现全文检索,主要有下面三个步骤: 1、建立索引库:根据网站新闻信息库中的已有的数据资料建立Lucene索引文件。 2、通过索引库搜索:有了索引后,即可使用标准的词法分析器或直接的词法分析器实现进行全文检索。 3、维护索引库:网站新闻信息库中的信息会不断的变动,包括新增、修改及删除等,这些信息的变动都需要进一步反映到Lucene索引文件中。 下面是myrss.easyjf.com相关代码! |
|
本站的qq群:6198183 (已满) (研究nutch和lucene等搜索引擎引擎技术和趋势)
目前群已满,要加入的朋友请到论坛里面留下qq号,等身请到新的群,把大家加进来。
目前开通了在线聊天功能(点击页面右下角“与网友展开讨论”),加不了qq群的朋友可以通过在线聊天室进行交流。也希望已经加入群的朋友关注在线聊天室的内容,帮助新来的朋友,大家共同进步
新添加一个qq群,20706620。感谢“苹果籽他爹”网友的热心提供。 |
2005年10月1日:nutch 0.7.1发布 Nutch 0.7.1版本是已经发布的最新版本,修改了以前版本的一些bug,详细的文档参考修改文档.txt。从这里下载nutch 0.7.1 。 2005年8月17日:nutch0.7发布 此版本的发布标志nutch正式成为lucene的一个子项目。详细地文档参考修改文档.txt。从这里下载nutch 0.7。 |
|
1.9 RC1 注:lucene2.0发布版本并不是100%的和1.4.3版兼容。也就是说在你用2.0版本的Lucene开发包替换原来的1.4.3版本时,应该让你的应用程序首先和1.9的兼容。 使用前提: 1. 编译和使用Lucene需要 Java1.4 或以上版本。 Lucene 1.9 在运行时的变化: 1. 模糊搜索 FuzzyQuery 不再抛出 TooManyClauses 异常。当 FuzzyQuery 扩展多于 BooleanQuery.maxClauseCount 时 ,只有最相关的term会被重新写入query,因此避免了异常的抛出。 (Christoph) 2. 把系统属性 "org.apache.lucene.lockdir" 改为 "org.apache.lucene.lockDir"。(Bernhard) |
|
Nutch 的数据包括两种类型: - Web 数据库。包含所有Nutch可以辨别的页面,以及这些页面间的链接信息。
- 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型:
- fetchlist:指定待获取的一个页面集合的文件
- fetcher output:包含获取到的页面的文件集合
- index:fetcher 输出的 Lucene 格式的索引
|
|
Nutch vs Lucene Lucene 不是完整的应用程序,而是一个用于实现全文检索的软件库。 Nutch 是一个应用程序,可以以 Lucene 为基础实现搜索引擎应用。 Nutch vs GRUB GRUB 是一个分布式搜索引擎(参考)。用户只能得到客户端工具(只有客户端是开源的),其目的在于利用用户的资源建立集中式的搜索引擎。 Nutch 是开源的,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎。自由(Free)而免费(Free)。 |
在RH9+J2EE5.0+TOMCAT5.0.28,使用Nutch-0.6完成了企业内部网简单测试,并记录遇到的问题和解决方法
今天的天气真是热死了!没办法,呆在家里吧,有空调凉快些。于是想到了研究Nutch 这是一个开源的搜索引擎,现在已经列入Apache的Lucene的子项目了。最新版本是0.6(2005年1月)。以前我安装过,没有成功。这次终于成功了,做了简单测试 |
21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入迷茫。 |
|
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。可以为什么我们需要建立自己的搜索引擎呢?毕竟我们已经有google可以使用。这里我列出3点原因: 透明度:Nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因此 Nutch 对学术搜索和政府类站点的搜索来说,是个好选择。因为一个公平的排序结果是非常重要的。 |
|
|