# 优化NLP算法
有些算法复杂度较高的算法，通常是O(n^2)或更高，比如：
1. 根据word2vec向量相似度进行编撰同义词词典
2. 根据主题向量对网页进行聚类
3. 根据主题向量对期刊文章或其他文章聚类
4. 在问答语料库中对问题聚类以自动生成FAQ

## 索引
下面几种不同的索引数据结构可以解决连续向量的索引问题：  
1. KD树：Elasticsearch工具在即将发布的版本中将实现多达8个维度的索引。
2. Rtree：PostgreSQL在>=9.0版本实现了这一功能，最多可支持200个维度。  
3. Minhash或局部敏感哈希
  
上述工具在一定的维度范围内可用，这个范围大约是12维以内。  
对于12维以上的向量可以通过近似算法。近似最近邻搜索算法不会试图给出与查询向量最相似的向量集，而只是试图找到一些相对较好的匹配结果。  
  

## 高级索引
语义向量难以查找是因为其高维、实数值、稠密。  
在稠密的语义向量中，每个维度都是一个有意义的值，不能再跳过或忽略。  
近似最近邻(approximate nearest neighbors, ANN)：牺牲准确性来换取速度的大幅提升。  
1. Spotify 的Annoy
2. BallTree使用nmslib


In [None]:
# 加载word2vec向量
from nlpia.loaders import get_data
wv = get_data('word2vec')
len(wv.vocab), len(wv[next(iter(wv.vocab))])
wv.vector.shape()

In [None]:
# 初始化300维的AnnoyIndex
from annoy import AnnoyIndex
num_words, num_dimensions = wv.vectors.shape
index = AnnoyIndex(num_dimensions)

In [None]:
# 将每个向量添加到AnnoyIndex
from tqdm import tqdm  # tqdm()接受一个迭代器并返回一个迭代器，然后在循环过程中插入代码以显示一个进度条
for i, word in enumerate(tqdm(wv.index2word)):
    index.add_item(i, wv[word])

In [None]:
# AnnoyIndex对象需要执行最后的一个操作是读取整个索引并尝试将向量聚类成可以在树状结构中索引的小块
# 基于15颗树构建欧几里得距离索引
import numpy as np
num_trees = int(np.log(num_words).round(0))  # 这只是一个经验，若这个索引无法满足精度，可以调整
print(num_trees)

index.build(num_trees)  # 300万个向量需要round(ln(3000000)) => 15个索引树
index.save('Word2vec_euc_index.ann')    # 将索引保存到本地文件并释放内存
  
w2id = dict(zip(range(len(wv.vocab)), wv.vocab))

Annoy算法是随机的，类似于随机森林机器学习算法，因此每次看到的结果可能不同。可以设置种子初始化随机数生成器。