# 搜索引擎架构
## 什么是软件架构
搜索引擎的两个主要目的
- 效果（质量）
- 效率（速度）

## 基本的构件
- 索引处理(indexing process)
  - 文本采集(text acquisition)
  - 文本转换(text transformation)：将文档转换为索引项(index term)或特征(feature)。
  - 索引创建(index creation)
- 查询处理(query process)
  - 用户交互(user interaction)
  - 排序(ranking)
  - 评价(evaluation)：一个重要的任务是利用日志数据来记录和分析用户的行为。

## 组件及其功能
### 文本采集
- 爬虫(crawler)
- 信息源(feed):RSS
- 转换
  - 将HTML,XML,PDF,WORD,PPT转换成统一格式和文档的元数据格式。
  - 保证它们使用统一的编码方案进行转换。
- 文档数据库

### 文本转换
- 解析器：处理文本词素(token)序列，词素切分。
- 停用词去除
- 词干提取器(stemmer)把同一个词干(stem)得到的派生词进行归类。
- 超链接抽取和分析
- 信息抽取：抽取句法特征，如名词短语，需要某种形式的句法分析和词性标注(part-of-speech tagging)。抽取具有指定语义内容的特征，例如，命名实体(named entity)识别器，识别如人名、公司名、日期和地点等。
- 分类器
  - 给文档分配事先定义好的类别标签。
  - 判别一个文档是否是垃圾文档，以及识别文档中的广告。
  - 聚类用于事先没有定义类别标签的基础上，将相关文档聚集在一起。

### 索引的创建
- 文档统计：简单汇总和记录词、特征及文档的统计信息。结果存在查找表(lookup table)。
  - 索引项在各文档中出现次数（词及更加复杂的特征）
  - 索引项在文档中出现位置
  - 索引项在一组文档（如标记“体育”）中出现次数
  - 按照词素数量统计文档长度
- 加权：利用文档统计结果计算权值，并将权值存储在查找表中。如tf·idf
- 倒排(inversion):将文本转换组件传递过来的文档-词信息流转换为词项-文档信息，以便于建立倒排索引。
- 索引分派：将索引分发给多台计算机。

### 用户交互
- 查询输入
- 查询转换：用于在生成好序的文档之前和之后改善初始查询。
  - 文本转换技术:在查询文本上，需要进行词素切分、停用词去除和词干提取。
  - 拼写检查(spell checking)和查询建议(query suggestion):向用户提供初始查询的一些候选查询，这些候选查询可能纠正了拼写错误或是对用户所需信息的更规范描述。
  - 查询扩展(query expansion):对查询进行推荐或增加一些额外的词项，在对文档中词项的出现情况分析的基础上进行。
  - 相关反馈(relevance feedback):一种查询扩展技术，利用用户认为相关的文档中出现的词项对查询进行扩展。
- 结果输出
  - 生成网页摘要(snippets)
  - 强调(highlighting)文档中重要的词和段落
  - 对输出结果聚类以找到文档相关的类别
  - 将相应广告增加到结果中

### 排序
- 打分机制
  - $\sum_iq_id_i$ ,qi是查询中第i个词项的权值，di是文档词项的权值。
- 性能优化：降低系统的响应时间，提高查询吞吐量。
  - term-at-a-time
  - document-at-a-time
  - 安全的(safe)的优化方式与不安全的(unsafe)的优化方式
- 分布式

### 评价
- 日志
  - 点击日志(点击数据)
  - 驻留时间(dwell time)
- 排序分析
- 性能分析
