## 稀疏矩阵Compressed Sparse Row(csr)
当对离散数据进行拟合预测时，往往要对特征进行onehot处理，但onehot是高度稀疏的向量，如果使用List或其他常规的存储方式，对内存占用极大。 
这时稀疏矩阵类型 coo_matrix / csr_matrix 就派上用场了！

这两种稀疏矩阵类型csr_matrix存储密度更大，但不易手工构建。coo_matrix存储密度相对小，但易于手工构建，常用方法为先手工构建coo_matrix，如果对内存要求高则使用 tocsr() 方法把coo_matrix转换为csr_matrix类型。

csr_matrix内存使用约为coo_matrix的70%。

In [1]:
from scipy.sparse.csr import csr_matrix

In [2]:
docs = [["hello", "world", "hello"], ["goodbye", "cruel", "world"]]
indptr = [0]        # 存放的是行偏移量
indices = []        # 存放的是data中元素对应的列编号（列编号可重复）
data = []           # 存放的是非0数据元素
vocabulary = {}     # key是word词汇，value是列编号
for d in docs:      # 遍历每个文档
    for term in d:  # 遍历文档的每个词汇term
        # setdefault如果term不存在，则将新term和他的列
        # 编号len(vocabulary)加入到词典中，返回他的编号；
        # 如果term存在，则不填加，返回已存在的编号
        index = vocabulary.setdefault(term, len(vocabulary))
        indices.append(index)
        data.append(1)
    indptr.append(len(indices))
# csr_matrix可以将同一个词汇次数求和
csr_matrix((data, indices, indptr), dtype=int).toarray()

array([[2, 1, 0, 0],
       [0, 1, 1, 1]])

In [3]:
vocabulary

{'hello': 0, 'world': 1, 'goodbye': 2, 'cruel': 3}

In [4]:
index

1

In [5]:
indices

[0, 1, 0, 2, 3, 1]

In [6]:
data

[1, 1, 1, 1, 1, 1]

In [7]:
indptr

[0, 3, 6]