2008-05-12
 
  首页  
论坛新贴

主题作者最后回复
求助:初学nutch总... | Nutch项目经验ANNA_zhangrui | yawl
介绍一种供学习的... | Nutch学习资料wilbur8415您这个我用合适吗 | qixingood
新手求助:网络图... | Nutch学习资料qixingood新手求助:网络图... | qixingood
Nutch爬虫过程中的se... | Nutch学习资料nabblenutch我也想解决如何把... | ts33
转到论坛
热门文章
主选单
首页
论坛
下载
新闻
网站连结
搜寻
Nutch开发者论坛
nutch! 官方网站
nutch 维基
nutch v0.8API
lucene v2.0API
lucene全文检索应用示例及代码简析
Lucene是apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包及架构,提供了完整的查询引擎和索引引擎,实现了一些通用的分词算法,预留很多词法分析器接口。本文以myrss.easyjf.com网站系统中使用Lucene实现全文检索的代码为例,简单演示Lucene在实际项目中的应用。
  使用Lucene实现全文检索,主要有下面三个步骤:
  1、建立索引库:根据网站新闻信息库中的已有的数据资料建立Lucene索引文件。
  2、通过索引库搜索:有了索引后,即可使用标准的词法分析器或直接的词法分析器实现进行全文检索。
  3、维护索引库:网站新闻信息库中的信息会不断的变动,包括新增、修改及删除等,这些信息的变动都需要进一步反映到Lucene索引文件中。
  下面是myrss.easyjf.com相关代码!
本站讨论群

本站的qq群:6198183 (已满) (研究nutch和lucene等搜索引擎引擎技术和趋势)

目前群已满,要加入的朋友请到论坛里面留下qq号,等身请到新的群,把大家加进来。

目前开通了在线聊天功能(点击页面右下角“与网友展开讨论”),加不了qq群的朋友可以通过在线聊天室进行交流。也希望已经加入群的朋友关注在线聊天室的内容,帮助新来的朋友,大家共同进步

新添加一个qq群,20706620。感谢“苹果籽他爹”网友的热心提供。

Lucene 2.0.0正式发布

2006年五月六日,Lucene 2.0.0版本正式发布。此版本对 v1.9.1进行了大量修改。删除了许多广受抨击的诟病。所有使用lucene1.91构建的代码,在使用Lucene 2.0.0编译的时候如果没有warnings,将能够继续在Lucene 2.0.0版本下工作,但是没有使用到新版本的新特性。

下载地址:http://www.apache.org/dyn/closer.cgi/lucene/java/

版本更新日志列表:changeLog

apache新增lucene子项目lucy

2006年六月一日,apache组织正式开始lucy项目。lucy作为lucene的一个子项目,为java lucene search engine 提供c语言接口。

 项目链接 http://lucene.apache.org/lucy/

nutch历史
2005年10月1日:nutch 0.7.1发布
Nutch 0.7.1版本是已经发布的最新版本,修改了以前版本的一些bug,详细的文档参考修改文档.txt。从这里下载nutch 0.7.1 。
2005年8月17日:nutch0.7发布
此版本的发布标志nutch正式成为lucene的一个子项目。详细地文档参考修改文档.txt。从这里下载nutch 0.7。
Lucene 1.9 改进特性列表

1.9 RC1
注:lucene2.0发布版本并不是100%的和1.4.3版兼容。也就是说在你用2.0版本的Lucene开发包替换原来的1.4.3版本时,应该让你的应用程序首先和1.9的兼容。
使用前提:
 1. 编译和使用Lucene需要  Java1.4 或以上版本。
Lucene 1.9 在运行时的变化:
 1. 模糊搜索 FuzzyQuery 不再抛出 TooManyClauses 异常。当 FuzzyQuery 扩展多于  BooleanQuery.maxClauseCount 时 ,只有最相关的term会被重新写入query,因此避免了异常的抛出。    (Christoph)
 2. 把系统属性 "org.apache.lucene.lockdir" 改为    "org.apache.lucene.lockDir"。(Bernhard)
 

nutch 初体验二

Nutch 的数据包括两种类型:

  • Web 数据库。包含所有Nutch可以辨别的页面,以及这些页面间的链接信息。
  • 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型:
    • fetchlist:指定待获取的一个页面集合的文件
    • fetcher output:包含获取到的页面的文件集合
    • index:fetcher 输出的 Lucene 格式的索引
nutch 初体验一

Nutch vs Lucene
Lucene 不是完整的应用程序,而是一个用于实现全文检索的软件库。
Nutch 是一个应用程序,可以以 Lucene 为基础实现搜索引擎应用。

Nutch vs GRUB
GRUB 是一个分布式搜索引擎(参考)。用户只能得到客户端工具(只有客户端是开源的),其目的在于利用用户的资源建立集中式的搜索引擎。
Nutch 是开源的,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎。自由(Free)而免费(Free)。

nutch的安装
在RH9+J2EE5.0+TOMCAT5.0.28,使用Nutch-0.6完成了企业内部网简单测试,并记录遇到的问题和解决方法

今天的天气真是热死了!没办法,呆在家里吧,有空调凉快些。于是想到了研究Nutch
这是一个开源的搜索引擎,现在已经列入Apache的Lucene的子项目了。最新版本是0.6(2005年1月)。以前我安装过,没有成功。这次终于成功了,做了简单测试
搜索引擎
21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入迷茫。
Nutch介绍
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。可以为什么我们需要建立自己的搜索引擎呢?毕竟我们已经有google可以使用。这里我列出3点原因:
透明度:Nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因此 Nutch 对学术搜索和政府类站点的搜索来说,是个好选择。因为一个公平的排序结果是非常重要的。
谁在线上
现在有 4 位访客 在线

(C) 2008 nutch中文网
Joomla! is Free Software released under the GNU/GPL License.

Get The Best Free Joomla Templates at www.joomla-templates.com