Solr实战(一)---Solr介绍与搭建

Solr搜索引擎的搭建以及使用

第一次听说Solr这个词是在亚信实习的时候,项目中用到搜索引擎来进行工单的模糊搜索,当时对Solr的工作原理和实战还不是很了解,只有个大概的了解,近期在做毕设,做了个爬虫项目,采集了上百万条微信公众号文章数据,有个需求就是对文章进行全文检索,故我的爬虫项目将加入Solr为我提供全文检索服务。

Solr介绍

Apache Solr 是一个开源的搜索服务器, Solr 使用 Java 语言开发,主要基于 HTTPApache Lucene 实现。定制 Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述所有 Field 及其内容的 XML 文档就可以了。定制搜索的时候只需要发送 HTTP GET 请求即可,然后对 Solr 返回的信息进行重新布局,以产生利于用户理解的页面内容布局。 Solr 1.3版本开始支持从数据库(通过 JDBC)、 RSS 提要、 Web 页面和文件中导入数据,但是不直接支持从二进制文件格式中提取内容,比如 MS Office、 Adobe PDF 或其他专有格式。
更重要的是, Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置,某些情况下可能需要进行编码, Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如 Nutch、 Luke)也可以使用 Solr 创建的索引。
Solr的特性包括如下:

  • 高级的全文搜索功能
  • 专为高通量的网络流量进行的优化
  • 基于开放接口( XML 和 HTTP)的标准
  • 综合的 HTML 管理界面
  • 可伸缩性-能够有效地复制到另外一个 Solr 搜索服务器
  • 使用 XML 配置达到灵活性和适配性
  • 可扩展的插件体系

Solr搭建

本机开发环境

  • Windows 10
  • JDK1.8
  • Tomcat 8
  • Solr5.5(传送门)

    开始搭建

  1. 选择一个合适的安装目录,新建一个文件夹,如:Solr。
  2. 将下载好的Tomcat8 拷贝到此目录下。
  3. 将下载好的Solr5.5解压,解压如下:
    Alt text
  4. 进入解压好的Solr5.5文件夹,将solr-5.5.0\server\solr-webapp 下的webapp文件夹拷贝到刚才准备好的Tomcat8\webapps目录下。
  5. 进入到solr-5.5.0\server 目录,将此目录下的solr文件夹,拷贝到与tomcat同一目录下,如图:Alt text
  6. 进入到Tomcat8\webapps\solr-webapp\WEB-INF,打开web.xml,在文件中找到env-entry,修改solr home如下:Alt text

  7. 进入到solr-5.5.0\server\lib\ext,将所有jar包,拷贝到solr_server\tomcat-8\webapps\solr-webapp\WEB-INF\lib下。

  8. 进入到solr-5.5.0\server\resources,将log4j.properties 拷贝到solr_server\tomcat-8\webapps\solr-webapp\WEB-INF\目录下。
  9. 启动tomcat服务器,在地址栏中输入http://localhost:8080/solr-webapp/admin.html,即可看到solr配置成功。![Alt text](admin.png)

  10. 进入solr管理页面,点击左侧的core admin,然后点击add core,在name 和instanceDir下都输入jobs(在步骤一中取得名称) ,点击add core即可。

  11. 在左侧即可看见刚刚建立的core。进入Solr目录下有个jobs文件夹,这个文件夹就是我们项目中用到的配置文件等必要的配置信息,包括索引文件等。
  12. 此时,我们的Solr服务基本已经搭建起来了。