用户名: 密 码:
您现在的位置:首页 >> SEO开发技巧 >> 内容

埃里克在Apache Lucene的和Solr孵化器搜索应用

时间:2010-03-06 10:59:00 点击:4673

  核心提示:埃里克海切尔是一个开源的开发者,Apache软件基金会的成员,和露西德想象,这是一个纯粹的商业公司,在Lucene和Solr重点技术的创始人之一。 海切尔是在ApacheCon提供基于Lucene和Solr培训,今年他与Lucene和Solr经验的会谈,他在ApacheCon即将举行的培训。 (孵化...
埃里克海切尔是一个开源的开发者,Apache软件基金会的成员,和露西德想象,这是一个纯粹的商业公司,在Lucene和Solr重点技术的创始人之一。

海切尔是在ApacheCon提供基于Lucene和Solr培训,今年他与Lucene和Solr经验的会谈,他在ApacheCon即将举行的培训。


(孵化器)
我首先是一个开放源码的开发。我一直在积极地与许多开源项目,主要是在Apache软件基金会,包括蚂蚁,分几个雅加达挂毯,项目,以及Lucene的生态系统。我专注于Solr的主要是这些天。我是提交者两Lucene的和Solr,是Apache Lucene的PMC成员,和一般的Apache软件基金会的成员。我合着几本书,Java的蚂蚁工程方面(现称蚂蚁在行动)和Lucene的行动。这些书籍的成功使我的许多演讲世界各地,包括ApacheCon,OSCON,无绒毛的小动作研讨会,JavaZone,许多用户群体。我是在露西德的想象力,技术人员,我们提供Lucene和Solr的服务,包括支持,附加价值服务和培训。

问:什么是正与Lucene的做了一些很酷的事情?与Solr?

埃里克海切尔:Lucene的杠杆已经多年,现在将近十年,建立多种类型的应用程序,包括电子商务,政府的情报,内容管理,医疗保健和学术研究为信息检索。申请的数目和公司使用Lucene是巨大的。输入的Solr,这使Lucene的权力,非Java应用程序由于其通用的HTTP接口。 Solr的应用迅速增加,正在为Lucene的同域使用,但在更大范围内,因为它可以与标准的PHP应用程序,微软集成。NET平台on Rails的,红宝石,等等。

我曾经对众多的应用程序和使用Lucene和Solr共事。就个人而言,我已经制定了19世纪的人文学者的搜索系统,甚至将社会网络标签和标签云功能(罗塞蒂档案和樱),以及大型图书馆findability(黑光灯)。露西德作为我工作的一部分,我一直在为Zappos,Orbitz的,The Motley Fool的,史密森,和其他几个名牌公司谁是构建下一代搜索Solr的应用。

凉爽的一些事情,我看到与Solr做了这些天,包括本地(地理)搜索,命名实体识别与提取,如退出姓名和非结构化的文本的地方,以及高度可扩展的近实时数据流不断摄取。我们还看到了一些社会化网络应用到Solr的优势。

问:什么是Lucene的最大的生产实施?与Solr?

埃里克海切尔:这里的露西德,我们一直与客户有100万份文件,以上,甚至达到800至在极端的情况下1亿个文件工作。大多数应用程序,我们处理的是少得多,但。超过100万任何文件,我们认为“大”。但即使你了10000 _只_文件,搜索是同样重要的。愉快,Solr的规模以及对从小到大,并具有适当的架构和部署结构,它处理了非常大的情况下也没关系。

至于Lucene的与Solr的可扩展性,但值得注意的是,Solr的提供开箱即用两个功能,允许它的规模远远超出了一个基本的Lucene的应用程序可以处理。复制允许Solr的Lucene索引复制到一个或多个其他服务器负载平衡,以提高查询的吞吐量高达需要。分布式搜索允许一个非常大的文档集合在多个Solr的情况下,当一个分裂Lucene索引是不够的。 Solr的分布式查询系统查询一样简单单的Solr服务器,允许应用程序规模不改变客户端代码。

问:什么是全文搜索,Lucene的基本能力?

埃里克海切尔:全文搜索是采取非结构化的文本艺术,例如Word或PDF文档内容,并使其字的组成玛丽萨在文档中。这听起来相当简单,但它需要得到进入有趣喜欢的是可以找到的文件中提到“投资”时,用户对“投资搜查”。质量的一个真正强大的全功能的文本系统的相关性排名,哪些订单提交文件,根据用户每如何对用户的查询产生的文件的分数。 Lucene的出的现成的相关性已被证实与看齐最佳的商业系统,它是透明的若干因素定制的,能够针对具体情况调整。

问:请告诉我们,在今年的ApacheCon一个关于Lucene和Solr的训练位。

埃里克海切尔:我的同事格兰特英格索兰也将通过为期两天的Lucene的新兵训练营,我会提供一天Solr的培训。 Lucene是潜在的“引擎”的Solr,提供了搜索功能的核心。格兰特的课程将集中于较低层次的细节在核心层,而我的Solr类,将在高一点的应用集成为重点的水平。 Lucene的诀窍是没有必要利用Solr的巨大优势,但是在实际方便的时候延长Solr的能力来。

问:什么技能将参加走开服用后在ApacheCon您Lucene和Solr的训练?

埃里克海切尔:中的“Solr日”当然参加者会离开能够整合到他们的应用Solr的立竿见影。事实上,课程参加者将有多种类型索引的数据源(PDF格式,Word和HTML文件,关系数据库,XML流,等),探索包括搜索,面Solr的强大功能,突出显示,拼写检查和多更多。在探讨的能力,我们将进入Solr是如何容易与各种平台的综合上述。

我有我的课程之前,参加者在一天内建立生产高质量的应用。 Solr的使这个迅速发展的类型,因为它是可以很简单,使数据和进行交互一旦被索引的文件。

这使我们的Solr的一个方面应用开发是不是科学的艺术,设计如何文档编制索引。该课程将深入探讨议题的架构设计和定制文本分析,以满足您的应用程序需要的胆量。这通常是一个反复的问题需要解决,允许应用程序开发并迅速推向生产和精细,需要调整。

问:有人要的软件工程师理解和执行提供的培训课程的概念?

埃里克泰瑞:在大多数情况是,软件开发技能,需要最有效地使用Solr目前。然而,我们越来越容易使用。对于不怕有人来编辑一些XML配置文件可以容易关系数据库的索引,没有编码。和一个没有经验的Java PHP的开发人员可以非常有效地建立一个小学习或如何使用Solr培训功能齐全的搜索应用程序。

问:什么是与会者将学习如何在Lucene和Solr的培训一些例子?

埃里克泰瑞:让我们来看看...我们将索引各种数据源,所有的(如Word,PDF格式,丰富的典型的文件等)的关系数据库,以Solr的非常灵活DataImportHandler,到索引,通过自定义代码和一个Solr的API。然后,我们将寻找它的内容索引,面,拼写检查它,突出显示它,并探讨如何将Java语言,Ruby,PHP和其他环境中这些功能。换句话说,我们将看到如何使用Solr的结束,在现实世界中看到的最典型的使用到年底。

文章来源:http://www.xinxilong.com

作者:不详 来源:网络
相关评论
发表我的评论
  • 大名:
  • 内容:
  • 论坛群发工具(www.xinxilong.com) © 2008 版权所有 All Rights Resverved.
  • Email:433168@qq.com 沪ICP备12025887号
  • Powered by 论坛群发大师