## 基本的索引与切片

In [1]:
## Python2.7
import numpy as np

In [2]:
arr = np.arange(10)

In [3]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
arr[5]

5

In [6]:
arr[5:8] = 12

In [7]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

数组的切片是原始数据的视图，这意味着数据不会被复制，视图上的所有修改会反应到源数组上

In [8]:
arr_slice = arr[5:8]

In [9]:
arr_slice[1] = 12345

In [10]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

对于高维数组，各索引位置上的元素不再是标量而是一维数组：

In [12]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

以下两种访问元素的方式是等价的：

In [13]:
print arr2d[0][2]
print arr2d[0, 2]

3
3


在高位数组中，如果省略了后面的索引，则返回对象会是一个维度低一点的ndarray（它包含高一级轴上的所有数据）。

下面的例子是一个$2 \times 2 \times 3$的例子，其可以理解成2个$2 \times 3$的数组。式子最左边代表最高维，最右边代表最低维。

In [14]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]],
                  [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [15]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [16]:
arr3d.shape

(2L, 2L, 3L)

标量值和数组都可以被赋值给arr3d[0]（不会改变原数组的形状，维度不足的进行广播，维度超出原先范围，则报错）

In [17]:
old_values = arr3d[0].copy()
arr3d[0] = 43

In [18]:
arr3d

array([[[43, 43, 43],
        [43, 43, 43]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [20]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [23]:
test = np.array([4, 8, 3, 5])
arr3d[0] = test
arr3d

ValueError: could not broadcast input array from shape (4) into shape (2,3)

In [24]:
arr3d[1, 0]

array([7, 8, 9])

In [25]:
arr3d[1, 0, 2]

9

### 切片索引

对二维数组执行切片操作，当只给出一个索引值时，此索引值代表最高维度的那个轴，即第0轴。

In [34]:
arr2d[2:]

array([[7, 8, 9]])

下面的情况就是分别在第0轴和第1轴上执行切片操作。

In [39]:
arr2d[:2, 1:]  # 0轴从头取到第1位（:2左闭右开，取不到第2位），1轴从第一位取到最后一位

array([[2, 3],
       [5, 6]])

下面的操作只取特定轴上的特定元素

In [35]:
arr2d[2, 1] # 零轴只取第2位，1轴只取第1位

8

下面的操作对特定的轴取切片操作

In [36]:
arr2d[:2, 1]  # 零轴从头取到第1位，一轴只取第1位

array([2, 5])

只加冒号代表索引整个轴。

In [30]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [32]:
arr3d[:1]

array([[[4, 8, 3],
        [4, 8, 3]]])

### 布尔型索引

假设有一个用于存储数据的数组以及一个存储姓名的数组（含有重复项）。这里，我们使用np.random.randn([shape])函数生成一些正太分布的随机数据：

In [40]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)

In [41]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], 
      dtype='|S4')

In [42]:
data

array([[ 0.95685817, -1.09410319, -1.37397005, -0.63375788],
       [ 0.33263869, -0.53507432, -1.28676437,  1.01602618],
       [ 1.20620671,  1.37793124, -0.7702841 ,  0.73165662],
       [ 0.2554341 ,  0.84910328,  1.42403747,  0.30950998],
       [-0.93802236, -0.66729157, -1.39806755, -0.12863794],
       [-1.08383097,  0.84208288, -0.40168278,  1.70952463],
       [-0.28093381,  0.11304535, -0.8661587 , -0.67375262]])

假设每个名字都对应data数组中的一行，而我们想拣选出对应于名字'Bob'的所有行。

In [43]:
names == 'Bob'

array([ True, False, False,  True, False, False, False], dtype=bool)

In [45]:
data[names == 'Bob']  # 只显示索引为True的元素。

array([[ 0.95685817, -1.09410319, -1.37397005, -0.63375788],
       [ 0.2554341 ,  0.84910328,  1.42403747,  0.30950998]])

In [50]:
data[names == 'Bob', 3:]  # 在低维轴的边缘加冒号会保留高维轴的值，
                          # 此处高维轴（代表行数的轴）为2被保留。

array([[-0.63375788],
       [ 0.30950998]])

In [48]:
data[names == 'Bob', 3]  # 这里不带冒号，高维轴的值被抹去，返回的值重新组成一个新的低维数组，但其中元素仍是源数组元素的视图。

array([-0.63375788,  0.30950998])

同理可得：

In [51]:
data[names == 'Bob', :1]

array([[ 0.95685817],
       [ 0.2554341 ]])

In [53]:
data[names == 'Bob', 0]

array([ 0.95685817,  0.2554341 ])

可以使用不等号（!=）或负号（-）对条件进行否定，来选取'Bob'以外的其他值。

In [55]:
data[names != 'Bob']

array([[ 0.33263869, -0.53507432, -1.28676437,  1.01602618],
       [ 1.20620671,  1.37793124, -0.7702841 ,  0.73165662],
       [-0.93802236, -0.66729157, -1.39806755, -0.12863794],
       [-1.08383097,  0.84208288, -0.40168278,  1.70952463],
       [-0.28093381,  0.11304535, -0.8661587 , -0.67375262]])

In [56]:
data[-(names == 'Bob')]

  if __name__ == '__main__':


array([[ 0.33263869, -0.53507432, -1.28676437,  1.01602618],
       [ 1.20620671,  1.37793124, -0.7702841 ,  0.73165662],
       [-0.93802236, -0.66729157, -1.39806755, -0.12863794],
       [-1.08383097,  0.84208288, -0.40168278,  1.70952463],
       [-0.28093381,  0.11304535, -0.8661587 , -0.67375262]])

**布尔算术符** &：和， |：或，等等。**警告**，Python关键字and和or在布尔型数组中无效。 

In [57]:
mask = (names == 'Bob') | (names == 'Will')
data[mask]

array([[ 0.95685817, -1.09410319, -1.37397005, -0.63375788],
       [ 1.20620671,  1.37793124, -0.7702841 ,  0.73165662],
       [ 0.2554341 ,  0.84910328,  1.42403747,  0.30950998],
       [-0.93802236, -0.66729157, -1.39806755, -0.12863794]])

通过布尔型数组设置值是一种经常用到的手段。

In [59]:
data[data < 0] = 0
data

array([[ 0.95685817,  0.        ,  0.        ,  0.        ],
       [ 0.33263869,  0.        ,  0.        ,  1.01602618],
       [ 1.20620671,  1.37793124,  0.        ,  0.73165662],
       [ 0.2554341 ,  0.84910328,  1.42403747,  0.30950998],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.84208288,  0.        ,  1.70952463],
       [ 0.        ,  0.11304535,  0.        ,  0.        ]])

In [60]:
data[names != 'Joe'] = 7
data

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.33263869,  0.        ,  0.        ,  1.01602618],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.        ,  0.84208288,  0.        ,  1.70952463],
       [ 0.        ,  0.11304535,  0.        ,  0.        ]])

### 花式索引

花式索引（Fansy indexing）是一个numpy术语，指的是利用整数数组进行索引。

In [63]:
arr = np.empty((8, 4))
