# 基于索引的相关排序
## 抽象的相关排序模型
- 主题（topical）特征
- 质量（quality）特征
  - 链接到该文档的网页数量
  - 这个页面上次更新至今的天数

相关排序函数R：$R(Q,D)=\sum_ig_i(Q)f_i(D)$
- $f_i$是某个特征函数，它从文档文本中获得一个数值。
- $g_i$是一个相似特征函数，它从查询中获得一个值。

## 倒排索引
- 通常认为单词是文档的一部分，但是如果转变这个想法，认为文档是附着在单词上的，这样的索引就被称作倒排（inverted）了。
- 每个索引项有其自身的倒排列表（inverted list），它们含有和该项相关的数据。
- 在搜索引擎中，数据可能是文档列表或者单词所在位置的列表。列表的每个项被称作posting，在posting中，指向特定文档或位置的部分称作指针（pointer）。

## 压缩
- 某处理器每秒处理p个倒排表的posting。
- 该处理器附在每秒能够提供m个posting的存储器上。
- 压缩率为r。
- 处理速度为d的压缩因子。
- 当不使用压缩时，r=1，d=1。任何可行的压缩技术使得r>1,d<1。
- 理想情况是选择一种使得min(mr,dp)最大的压缩方法，这将发生在mr=dp时。
- 有损（lossless）压缩 、无损（lossy）压缩

## 辅助结构
倒排文件通常存储在一个文件中，在倒排文件中，还有一个被称作词汇（vocabulary或lexicon）的目录结构，它包含一个从索引到倒排文件字节偏移量的查找表。

迄今为止介绍的搜索引擎都是返回文档编号的列表和分数。一个真正面向用户的搜索引擎，需要显示关于每个文档的文本信息，如文档标题，URL或者文本摘要。

## 索引构建
### 简单构建
```
procudure BuildIndex(D)       # D是一个文本文档集
  I <- HashTable()            # 倒排表存储
  n <- 0                      # 文档编号
  for all ducuments d in D do
    n <- n + 1
    T <- Parse(d)             # 将文档分拆成标记
    Remove duplicates from T
    for all tokens t in T do
      if It not in I then
          It <- Array()
      end if
      It.append(n)
    end for
  end for
  return I
end procudure
```

两点限制
- 它要求所有的倒排表都存于内存中，对于较大文档集，会存在问题。
- 算法是顺序的，不便于并行。

### 融合
内存问题的典型解法是融合（merging）。可以构建倒排表结构I直到内存耗尽。这时，将部分索引I写到磁盘上，然后开始建造新的索引。最终，磁盘存放了许多部分索引，I1,I2,I3,...,In。然后系统将这些文件融合为一个。

### 更新
索引合并和结果合并。

## 查询处理
- document-at-a-time评价
- term-at-a-time评价
- 优化技术
  - 倒排表跳转
  - 联合处理
  - 阈值方法
  - MaxScore
  - 提早终止
  - 缓存：文档中词频遵从zipf分布
