# A.08 花式索引（fancy indexing）

### 8.1 引言

#### 回顾 —— 访问和修改数组元素的方法

- 使用下标（如 ``arr[0]``）
- 使用切片（如 ``arr[:5]``）
- 布尔掩码（如 ``arr[arr > 0]``)

#### 引入 —— 花式索引

- 用于快速访问和修改数组的复杂子集

### 8.2 花式索引的概念

- 传递<font color="red">索引数组</font>，以实现访问多个数组元素

In [None]:
import numpy as np
rand = np.random.RandomState(42)

x = rand.randint(100, size=10)
print(x)

#### 问题

- 考虑访问以下三个元素

In [None]:
[x[3], x[7], x[2]]

#### 更有效率的处理

- 传递索引数组，获得同样结果

In [None]:
ind = [3, 7, 2]
x[ind]

#### 非拷贝视

In [None]:
x[ind]=[-1, -2, -3]
x

#### 结果维度

使用花式索引时

- 结果的维度与索引数组的维度相同
- 结果的维度不同于原数组的维度

In [None]:
ind = np.array([[3, 7],
                [4, 5]])
x[ind]

#### 花式索引用于多维数组

In [None]:
X = np.arange(12).reshape((3, 4))
X

同于标准索引方式

- 第一下标代表行号
- 第二下标表示列号

In [None]:
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
X[row, col]

####  注意要点

- 上例，首元素是 ``X[0, 2]``、次元素是 ``X[1, 1]``、再次元素是 ``X[2, 3]``
- 花式索引的配对方式服从广播规则，详见[A.06 数组计算之广播(Broadcasting)](A.06 数组计算之广播(Broadcasting))
- 如果两个索引数组分别是行向量和列向量，结果将是二维数组

In [None]:
X[row[:, np.newaxis], col]

这里，行与列匹配，按前述广播操作方式

### 花式索引的返回结果反映了

- 下标的广播维度
- 非原数组的维度

### 8.3 花式索引结合

- 更强的操作方式

In [None]:
print(X)

#### 花式和简式索引相结合

In [None]:
X[2, [2, 0, 1]]

#### 花式索引和切片相结合

In [None]:
X[1:, [2, 0, 1]]

#### 花式索引和掩码相结合

In [None]:
mask = np.array([1, 0, 1, 0], dtype=bool)
X[row[:, np.newaxis], mask]

结合上述各索引选项，将产生更灵活的访问修改数组元素方式

### 8.4 示例 —— 选取随机点

- 从矩阵中选取若干行的子集合

例如，某 $N\times D$ 矩阵代表 $N$ 个 $D$ 维点，下例即给出服从二维正态分布的多个点

In [None]:
mean = [0, 0]
cov = [[1, 2],
       [2, 5]]
X = rand.multivariate_normal(mean, cov, 100)
X.shape

#### 绘制散点图

- 采用绘图工具 Matplotlib, 将这些点可视化为散点图

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set()  # 设置绘图风格

plt.scatter(X[:, 0], X[:, 1]);
plt.show()

#### 采用花式索引选取20个点

- 选取20个非重复的随机索引
- 用选取的这些索引再从原数组中做部分选取

In [None]:
indices = np.random.choice(X.shape[0], 20, replace=False)
indices

In [None]:
selection = X[indices]  # 采用花式索引
selection.shape

- 观察所选取的点
- 二次绘制散点图（所选点绘制成更大的圆）

In [None]:
plt.scatter(X[:, 0], X[:, 1], alpha=0.7)
plt.scatter(selection[:, 0], selection[:, 1],
            facecolor='red', s=80);

#### 利用花式索引修改值

花式索引可用于

- 访问数组的部分
- 修改数组的部分

如下例，利用索引数组修改原数组中的元素值

In [None]:
x = np.arange(10)
i = np.array([2, 1, 8, 4])
x[i] = 99
print(x)

#### 使用赋值类运算符

In [None]:
x[i] -= 10
print(x)

#### *注意重复索引

- 可能导致不可预测的结果，例如

In [None]:
x = np.zeros(10)
x[[0, 0]] = [4, 6]
print(x)

#### *问题 —— 4在哪儿？

- 先赋值``x[0] = 4``
- 接着赋值``x[0] = 6``

结果当然是``x[0]``的值为 6

再考虑下例

In [None]:
i = [2, 3, 3, 4, 4, 4]
x[i] += 1
x

考虑到索引的重复次数，容易认为``x[3]``的值为 2，以及``x[4]``的值为 3，怎么得到这个结果？

概念上看，``x[i] += 1``表示``x[i] = x[i] + 1``，即，先算出``x[i] + 1``，然后赋给相应的元素。

因此，这里<font color="red">并不是增值多次，而是赋值多次</font>，当然就导致了不同于直觉的结果。

如果，确实想实现重复运算操作，该怎么办呢？

- 使用通用函数中的``at()``方法（要求NumPy 1.8版本）
- 然后，执行...

In [None]:
x = np.zeros(10)
np.add.at(x, i, 1)
print(x)

``at()``方法，对特定索引（这里，``i``）按给定值（这里，1）操作给定的运算符

另一高度类似的是通用函数中的``reduceat()``方法, 可参考NumPy文档

### *8.5 示例 —— 分箱数据(Binning Data)

有效地数据分箱以便创建柱图

例如，假设已有1000个值，现欲快速了解这些数据各自落在哪一个箱中

可以使用``ufunc.at``

In [None]:
np.random.seed(42)
x = np.random.randn(100)

# compute a histogram by hand
bins = np.linspace(-5, 5, 20)
counts = np.zeros_like(bins)

# find the appropriate bin for each x
i = np.searchsorted(bins, x)

# add 1 to each of these bins
np.add.at(counts, i, 1)

现在，计数代表了每一箱中的点数，换一句话，柱图

In [None]:
# plot the results
plt.plot(bins, counts, linestyle='steps');

不过，并不需要每次都这样操作，这是因为 Matplotlib 提供了``plt.hist()``例程，只用一行指令就可画出柱图

```python
plt.hist(x, bins, histtype='step');
```

该函数创建的柱图与前述几乎一致

分箱计算，``matplotlib``还使用``np.histogram``函数，完成非常相似的工作

比较两者

In [None]:
print("NumPy routine:")
%timeit counts, edges = np.histogram(x, bins)

print("Custom routine:")
%timeit np.add.at(counts, np.searchsorted(bins, x), 1)

我们的单行算法几倍快于NumPy的优化算法！

这是怎么回事？

深入剖析``np.histogram``源代码(使用``np.histogram??``)，发现原来相比我们所用的简单搜索计数方法，它涉及更多因素，这是因为NumPy设计的算法更灵活，尤其是当数据量变大时其表现将变得更好。

In [None]:
x = np.random.randn(1000000)
print("NumPy routine:")
%timeit counts, edges = np.histogram(x, bins)

print("Custom routine:")
%timeit np.add.at(counts, np.searchsorted(bins, x), 1)

### 结束