Solr 实战 pdf

Solr 实战

内容简介

本书介绍了当下最流行的开源搜索技术解决方案Solr。在搜索引擎视域下,循序渐进地介绍了Solr是什么、Solr 能做什么,以及如何更好地使用Solr 进行开发。在搜索基础层,本书从Solr 的快速搭建入手,介绍了Solr 背后的信息检索基本概念,之后重点讲解了构建一个搜索引擎所需的核心模块:索引构建、文本分析、执行搜索及处理搜索结果。在搜索功能层,详细介绍了Solr 的四大增强型搜索功能:分面搜索、搜索结果高亮、查询建议、搜索结果分组等。在搜索研究的进阶层,介绍了SolrCloud、多语种搜索及复杂查询操作等。最后,围绕搜索引擎的本质核心问题“相关度”展开了讨论与展望。本书适合搜索技术工程师、搜索应用设计者以及对搜索引擎技术感兴趣的读者阅读,也可作为高校计算机专业信息技术方向、信息管理与信息系统专业等的课程参考资料。

作者简介

Trey Grainger 是 CareerBuilder 公司的工程总监。Timothy Potter 是 LucidWorks 公司工程组的资深成员。两位作者都在从事Solr的可扩展性和可靠性、推荐引擎及大数据分析技术等方面的工作。

范炜,四川大学信息管理技术系副教授,情报学硕士生导师。主要从事信息组织与检索方面的教学科研工作。参编《信息管理导论(第3版)》和《信息组织(第3版)》,技术审校《Web信息架构(第2版)》和《搜索模式》。中国图书馆学会信息组织专业委员会委员、国际十进制分类法UDC咨询委员会委员,国际信息科学与技术协会ASIS&T、国际知识组织学会ISKO会员。

目录

第1部分 初识Solr
1 Solr 入门
1.1 为什么需要搜索引擎
1.1.1 管理以文本为中心的数据
1.1.2 常见的搜索引擎用例
1.2 Solr是什么
1.2.1 信息检索引擎
1.2.2 灵活的模式管理
1.2.3 Java Web应用
1.2.4 一台服务器上的多个索引
1.2.5 可扩展性(插件)
1.2.6 可伸缩性 14
1.2.7 容错性 15
1.3 选择Solr的理由 15
1.3.1 面向软件架构师的Solr
1.3.2 面向系统管理员的Solr
1.3.3 面向CEO的Solr
1.4 功能概述
1.4.1 用户体验功能
1.4.2 数据建模功能
1.4.3 Solr 4 的新功能
1.5 本章小结
2 Solr上手
2.1 开始上手
2.1.1 Solr的安装
2.1.2 启动Solr的示例服务器
2.1.3 了解Solr主目录
2.1.4 对示例文档进行索引
2.2 一切都关乎搜索
2.2.1 Solr查询表单详解
2.2.2 Solr的搜索返回机制
2.2.3 排名检索
2.2.4 分页和排序
2.2.5 扩展的搜索功能
2.3 Solr管理控制台一览
2.4 根据需求改造搜索示例服务器
2.5 本章小结
3 Solr基础理论
3.1 搜索、匹配与找寻内容
3.1.1 何为文档
3.1.2 基本搜索问题
3.1.3 倒排索引
3.1.4 词项、短语与布尔逻辑
3.1.5 找到文档集
3.1.6 短语查询与术语位置
3.1.7 模糊匹配
3.1.8 快速小结
3.2 相关度
3.2.1 默认相似度
3.2.2 词项频次
3.2.3 反向文档频次
3.2.4 词项权重
……
4 配置Solr
5 创建索引
6 文本分析

第2部分 Solr的核心功能
7 执行查询和处理搜索结果
8 分面搜索
9 搜索结果高亮
10 查询建议
11 结果分组/字段折叠
12 搭建Solr生产环节

第3部分 Solr进阶
13 SolrCloud
14 多语种搜索
15 复杂查询操作
16 精通相关度

附录A 与Solr代码库打交道
附录B 语种字段类型配置
附录C 有用的数据导入配置

感悟与笔记

solr擅长处理的数据类型

以文本为中心

因为搜索引擎是专门用于将文本的隐含结构抽取到索引中,从而改善搜索的。以文本为中心的数据意味着,文档中的文本包含用户在寻找的感兴趣的信息,虽然搜索引擎也支持非文本数据,如日期和数字,但他主要优势还是处理基于自然语言的文本数据,如果用户对文本中的信息不感兴趣,搜索引擎可能就不是解决问题的最佳方案了,考虑一下你的数据是否以文本为中心吧,主要考虑数据中的文本字段是否包含用户想要查询的信息,如果是,搜索引擎可能是个不错的选择。

读主导

solr可以对索引中已有的文档进行更新,读主导就是 文档中读取的次数对于创建和更新的次数。搜索引擎最擅长的是查询操作,而非存储数据,如果必须对索引里已有的数据经常更新,那么搜索引擎可能不是最佳方案。

面向文档

在搜索引擎中,文档是字段的自包含集合,每个字段仅包含数据而不包含嵌套字段。还要考虑到,哪些数据必须存储在solr,哪些数据需要存储在其他系统,搜索引擎应该存储的是每个文档信息的最小集合。

灵活的模式

搜索引擎最擅长处理的数据主要特征就是具有灵活的模式,索引的文档不必拥有统一的结构,文档可以有不同的字段。

信息检索是从大规模集合中查找满足特定信息需求的具有非结构化性质资料的过程

会员免费下载

链接:https://pan.baidu.com/s/1N0bTM924PvPsGUygh5srGw

提取码: ****** 查看

¥69/年 开通VIP会员

成为本站VIP会员即可无限下载。 请先点击百度网盘,看资源是否还在,不在请点击链接通知站长补资源。

资源标签点击标签可查看对应分类的资源

其他数据科学

资源推荐

免费 图解数据结构:使用Java

CSS世界

C++ 程序设计语言:第4部分 标准库(原书第4版)

Vue.js快速入门

Java编程思想(第4版) [thinking in java]

JavaScript DOM编程艺术(第2版)

C++ Primer Plus(第6版) 中文版

大数据技术原理与应用(第2版)

Copyright © 2021-2022 知识猫. All Rights Reserved.