## 基础索引

NumPy数组索引是一个大话题，有很多种方式可以让你选中数据的子集或某个单个元素。一维数组比较简单，看起来和Python的列表很类似：

In [2]:
import numpy as np

arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
arr[5]

5

In [4]:
arr[5:8]

array([5, 6, 7])

In [5]:
arr[5:8] =12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

如你所见，如果你传入了一个数值给数组的切片，例如arr[5:8] = 12，数值被传递给了整个切片。区别于Python的内建列表，数组的切片是原数组的视图。这意味着数据并不是被复制了，任何对于视图的修改都会反映到原数组上。例子如下：

In [7]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [None]:
当我改变arr_slice，变化也会体现在原数组上：

In [8]:
arr_slice[0] = 222
arr

array([  0,   1,   2,   3,   4, 222,  12,  12,   8,   9])

In [10]:
list = [1, 2, 4, 6, 9]
list[2:3] = 1
list

TypeError: can only assign an iterable

如果你还是想要一份数组切片的拷贝而不是一份视图的话，你就必须显式地复制这个数组，例如arr[5:8].copy()对更高维度的数组，你会有更多选择。在一个二维数组中，每个索引值对应的元素不再是一个值，而是一个一维数组：

In [12]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

因此，单个元素可以通过递归的方式获得。但是要多写点代码，你可以通过传递一个索引的逗号分隔列表去选择单个元素，以下两种方式效果一样：

In [13]:
arr2d[0][2]

3

In [14]:
arr2d[0, 2]

3

在多维数组中，你可以省略后续索引值，返回的对象将是降低一个维度的数组。因此在一个2×2×3的数组arr3d中：

In [17]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

arr3d[0]是一个2×3的数组：

In [18]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

标量和数组都可以传递给arr3d[0]：

In [19]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [20]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

类似地，arr3d[1, 0]返回的是一个一维数组：

In [21]:
arr3d[1, 0]

array([7, 8, 9])

## 数组的切片索引

与Python列表的一维对象类似，数组可以通过类似的语法进行切片：

In [22]:
arr

array([  0,   1,   2,   3,   4, 222,  12,  12,   8,   9])

In [23]:
arr[1:6]

array([  1,   2,   3,   4, 222])

再回想下前面的二维数组，arr2d，对数组进行切片略有不同：

In [24]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [25]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

如你所见，数组沿着轴0进行了切片。表达式arrzd[:2]的含义为选择arr2d的前两“行”。你可以进行多组切片，与多组索引类似：

In [29]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

当你像在上面这个例子中那样切片时，你需要按照原数组的维度进行切片。如果将索引和切片混合，就可以得到低维度的切片。

例如，我可以选择第二行但是只选择前两列：

In [30]:
arr2d[1, :2]

array([4, 5])

类似地，我也可以选择第三列，但是只选择前两行：

In [32]:
arr2d[:2, 2]

array([3, 6])

当然对切片表达式赋值时，整个切片都会重新赋值：

In [33]:
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

## 布尔索引

让我们考虑以下例子，假设我们的数据都在数组中，并且数组中的数据是一些存在重复的人名。我会使用numpy.random中的randn函数来生成一些随机正态分布的数据：

In [34]:
names= np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [35]:
data = np.random.randn(7, 4)
data

array([[-0.44426206,  0.73983454, -1.20058499,  0.57518369],
       [-0.21402368, -1.47504891,  0.1426836 ,  0.49262465],
       [ 0.57720563, -1.28133011, -0.55721735, -0.6366097 ],
       [ 0.03947973, -2.79651034,  0.39338977,  0.26760521],
       [ 0.77536835, -0.23812997,  0.53301874,  0.31535067],
       [ 0.41576581,  0.90233805,  0.18427392, -1.15283122],
       [ 0.90388893, -1.20501506, -1.25760467,  0.97782482]])

假设每个人名都和data数组中的一行相对应，并且我们想要选中所有’Bob’对应的行。与数学操作类似，数组的比较操作（比如==）也是可以向量化的。因此，比较names数组和字符串’Bob’会产生一个布尔值数组：

In [36]:
names == "Bob"

array([ True, False, False,  True, False, False, False])

In [38]:
data[names=="Bob"]

array([[-0.44426206,  0.73983454, -1.20058499,  0.57518369],
       [ 0.03947973, -2.79651034,  0.39338977,  0.26760521]])

布尔值数组的长度必须和数组轴索引长度一致。你甚至还可以用切片或整数值（或整数值的序列，后续会介绍）对布尔值数组进行混合和匹配。

当布尔值数组的长度不正确时，布尔值选择数据的方法并不会报错，因此我建议在使用该特性的时候要小心。

当要选择三个名字中的两个时，可以对多个布尔值条件进行联合，需要使用数学操作符如&（and）和|（or）：

In [42]:
mask = (names == "Bob") | (names=="Will")
mask

array([ True, False,  True,  True,  True, False, False])

In [43]:
data[mask]

array([[-0.44426206,  0.73983454, -1.20058499,  0.57518369],
       [ 0.57720563, -1.28133011, -0.55721735, -0.6366097 ],
       [ 0.03947973, -2.79651034,  0.39338977,  0.26760521],
       [ 0.77536835, -0.23812997,  0.53301874,  0.31535067]])

使用布尔值索引选择数据时，总是生成数据的拷贝，即使返回的数组并没有任何变化。

Python的关键字and和or对布尔值数组并没有用，请使用&（and）和|（or）来代替。

基于常识来设置布尔值数组的值也是可行的。将data中所有的负值设置为0，我们需要做：

In [44]:
data[data < 0] = 0
data

array([[0.        , 0.73983454, 0.        , 0.57518369],
       [0.        , 0.        , 0.1426836 , 0.49262465],
       [0.57720563, 0.        , 0.        , 0.        ],
       [0.03947973, 0.        , 0.39338977, 0.26760521],
       [0.77536835, 0.        , 0.53301874, 0.31535067],
       [0.41576581, 0.90233805, 0.18427392, 0.        ],
       [0.90388893, 0.        , 0.        , 0.97782482]])