用户名: 密 码:
您现在的位置:首页 >> SEO开发技巧 >> 内容

lucene的细节介绍

时间:2010-03-25 18:17:14 点击:4469

  核心提示:首先是介绍重要的类IndexWriter,在前面的有一篇网站已经介绍过了,它有三个很重要的参数。一个是存储文件索引的目录,第二个是非常重要的类,它负责进行后面文件的分词工作,就是它负责如何进行进行分词,怎样进行索引,第三个参数它的含义就是如果第一个参数的路径下已经有一个同名的文件,是否进行覆盖原有的...

首先是介绍重要的类IndexWriter,在前面的有一篇网站已经介绍过了,它有三个很重要的参数。一个是存储文件索引的目录,第二个是非常重要的类,它负责进行后面文件的分词工作,就是它负责如何进行进行分词,怎样进行索引,第三个参数它的含义就是如果第一个参数的路径下已经有一个同名的文件,是否进行覆盖原有的已经存在的文件。

其次介绍的就是Document,一个Document代表字段的集合。可以把它想象成我们用经常用到的数据库里的一个表,一个Document像表一样可以有多个字段Filed,每个字段都记录了所要建立索引的信息,例如文章的标题,文章中的关键字等等,都可以作为一个Document的字段索引和存储,以后用户要对该文件进行搜索或查询的时候就可以用document中的任意一个字段进行查询。

接着当然是介绍Field,刚才已经介绍过了,不过Field的几个参数有必要介绍一下,Field(String name, String value, Store store, Index index)第一个参数就是field的名字,也就是用户后来进行查询的字段名,第二个参数进行真正分析的内容,就是把这里的内容进行分析;第三个参数就是是否存储建立的索引,第四个就是是否对该字段进行索引,

lucene提供四种不同的字段类型:

keyword——不被分析,但是被索引并逐字存储到索引中。这个类型适合于原始值需要保持原样的字段,如URL,文件系统路径、日期、个人名称等待。

UnIndexed——不被分析也不被索引,但是它的值存储到索引中。这个类型适合于需要和搜索结果一起显示的字段(如URL或数据库主键),而不直接搜索它的值,因为这种类型字段的原始值存储在索引中,所以磁盘空间受到限制的情况下,这种类型不适合存放比较巨大的值。

UnStored——和UnIndexed相反,这个字段类型被分析并索引但是不存储在索引中。它时候于索引大量的文本而不需要以原始形式重新获得它,例如网页的主体或任何其他类型的文本文档。

Text——被分析并索引。这就意味着这种类型的字段可以被搜索,但是要小心字段大小。如果要索引的数据是一个String,塔被存储,但如果数据是来自一个Reader,它就不会被存储。这通常是混乱的来源,所以在使用它时要注意这个区别。

文章来源:http://www.xinxilong.com

作者:不详 来源:网络
相关评论
发表我的评论
  • 大名:
  • 内容:
  • 论坛群发工具(www.xinxilong.com) © 2008 版权所有 All Rights Resverved.
  • Email:433168@qq.com 沪ICP备12025887号
  • Powered by 论坛群发大师