In [1]:
import numpy as np
import matplotlib.pyplot as plt
import sys

## numpy array的基本操作: indexing

### 第3类操作：索引 indexing

#### 3.1 普通索引
1. 每个dim一个index，反向索引时index用负数
2. 多维索引用‘,‘隔开
3. 索引维度d<=原array维度D，如果d==D，那么每个维度都根据索引取值；如果d<D，那么原array的最后(D-d)个维度上取所有数据。如果要取后面的维度，缺省前面或者中间的维度，用‘...’。x[1, 2, ...] 相当于x[1, 2, :, :, :],x[4, ..., 5, :] 相当于x[4, :, :, 5, :]
4. 直接用index取单个元素，提出来的是该元素本身的数据类型；如果用start:stop:step，即使实际上提取的也是一个元素，但是得到的是array

In [13]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729])

In [14]:
a[:6:2] = 1000
a

array([1000,    1, 1000,   27, 1000,  125,  216,  343,  512,  729])

In [94]:
# 直接用index取单个元素，提出来的是该元素本身的数据类型；
# 如果用start:stop:step，即使实际上提取的也是一个元素，但是得到的是array
a[6], a[6:7]

(6, array([6]))

In [16]:
a[::-1]  # reversed a

array([ 729,  512,  343,  216,  125, 1000,   27, 1000,    1, 1000])

In [17]:
b = np.array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [18]:
b[2, 3], b[:5, 1]

(23, array([ 1, 11, 21, 31, 41]))

In [19]:
# 索引维度d=1，元数据维度D=2，取整个dim2
b[-1]   # the last row，相当于b[-1, :]

array([40, 41, 42, 43])

In [98]:
# 索引维度d=2，元数据维度D=3，可以用'...'来表示缺省的维度
c = np.array([[[  0,  1,  2], 
               [ 10, 12, 13]],
              [[100, 101, 102],
               [110, 112, 113]]])
c.shape

(2, 2, 3)

In [99]:
# 取整个dim2和dim3
c[1, ...]  # same as c[1, :, :] or c[1]

array([[100, 101, 102],
       [110, 112, 113]])

In [22]:
# 取整个dim1和dim2
c[..., 2]  # same as c[:, :, 2]

array([[  2,  13],
       [102, 113]])

#### 3.2 advanced indexing
1. 如果index是一下情况，会触发advanced indexing规则：\
(1) non-tuple sequence \
(2) index本身是ndarray \
(3) tuple中至少一个元素是sequence或者ndarray
2. 有两种类型的advanced indexing：整数索引和布尔索引

#### 3.3 fancy indexing
1. 用arrays of indices来做indexing
 - 如果index是array，即使它有多维，也被视为单一index，每个元素都检索原始array的dim1
 - 如果index是两个独立的index，那么分别作为row和col的index，此时两个index的shape要相同，如果不同，必须符合broadcast规则。他们的元素pair提取原始array对应$(row_i, col_i)$位置的元素
2. 常见用途
 - 用indexing来改变特定维度的排序
 - 用mask=argmax, argmin等方式定位特征元素的位置，然后用index[mask]提取特征元素
 - 用boolean函数做mask，然后用index[mask]提取特征元素

In [23]:
# 例1：一维索引和一维原始array
a1 = np.arange(12)*2
ind = np.array([1, 1, 3, 8, 5]) 
a1[ind] 

array([ 2,  2,  6, 16, 10])

In [24]:
# 例2：利用索引功能改变位置
a = np.arange(6).reshape(2, 3)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [25]:
ind_move_dim1 = [1, 0] # 改变第一个维度
a[ind_move_dim1]

array([[3, 4, 5],
       [0, 1, 2]])

In [26]:
a[:,[2, 1, 0]]       # 改变第二个维度

array([[2, 1, 0],
       [5, 4, 3]])

In [27]:
# 例3：索引和mask配合
mask = np.array([[3, 4], [9, 7]])
a1[mask]

array([[ 6,  8],
       [18, 14]])

In [28]:
# 例4：不同形态索引的index效果不同
palette = np.array([[0, 0, 0],    
                    [254, 0, 0],  
                    [0, 253, 0],  
                    [0, 0, 252],  
                    [251, 205, 225]])
palette.shape

(5, 3)

In [29]:
# (1)单一index
# 如果一个index是array，即使它有多维，也被视为单一index，每个元素都检索原始array的dim1
ind = np.array([[0, 1, 2, 0],   # 如果索引是单个array，则索引中每个元素对应提取原始array的第一个dim
                  [0, 3, 4, 0]])
x = palette[ind]
x, ind.shape, x.shape

(array([[[  0,   0,   0],
         [254,   0,   0],
         [  0, 253,   0],
         [  0,   0,   0]],
 
        [[  0,   0,   0],
         [  0,   0, 252],
         [251, 205, 225],
         [  0,   0,   0]]]),
 (2, 4),
 (2, 4, 3))

In [30]:
# (2)两个index，一维
row_ind = [0, 3, 4, 0]     # 如果索引index是两个一维array，则他们的元素分别作为dim1和dim2的index
col_ind = [0, 1, 2, 0]     # 提取出来的结果是一维array
y = palette[row_ind, col_ind]
y

array([  0,   0, 225,   0])

In [31]:
ind_2D = [row_ind, col_ind] # 如果把他们合并成一个list，就会和index是单一array一样，提取原始array的dim1
palette[ind_2D]

array([[[  0,   0,   0],
        [  0,   0, 252],
        [251, 205, 225],
        [  0,   0,   0]],

       [[  0,   0,   0],
        [254,   0,   0],
        [  0, 253,   0],
        [  0,   0,   0]]])

In [32]:
ind_2D_tuple = (row_ind, col_ind) # 但如果把他们合并成一个tuple, 此时和两个index效果一致
print(ind_2D_tuple)
print(palette[ind_2D_tuple])

([0, 3, 4, 0], [0, 1, 2, 0])
[  0   0 225   0]


In [33]:
# (3)两个index，二维
row_ind = np.array([0, 1, 2])
col_ind = np.array([2, 1, 0])
row_ind_2D = row_ind[:,np.newaxis] # 相当于row_ind.reshape(3, 1)
col_ind_2D = col_ind[np.newaxis, :] # 相当于col_ind.reshape(1, 3)
row_ind_2D, col_ind_2D

(array([[0],
        [1],
        [2]]),
 array([[2, 1, 0]]))

In [34]:
# 如果两个index分别是多维矩阵，当他们形状不同时，用broadcast规则将他们扩展成相同的形状
# 扩展完后，提取原array元素的方式与index形状相同时一致，见下例
palette[row_ind_2D, col_ind_2D] 

array([[  0,   0,   0],
       [  0,   0, 254],
       [  0, 253,   0]])

In [35]:
# 如果两个index分别是多维矩阵，如果他们shape相同，那么他们最后两个维度分别是row和col的index
row = row_ind_2D[:, (0,0,0)]    
col = col_ind_2D[[0, 0, 0], :]  
row, col

(array([[0, 0, 0],
        [1, 1, 1],
        [2, 2, 2]]),
 array([[2, 1, 0],
        [2, 1, 0],
        [2, 1, 0]]))

In [36]:
palette[row, col] 

array([[  0,   0,   0],
       [  0,   0, 254],
       [  0, 253,   0]])

In [37]:
# 例5：配合argmax得到的特征mask提取元素
time = np.arange(5)*2 + 12# 从12点到20点举行了5场比赛
data = np.sin(np.arange(20)).reshape(5, 4)**2  # 5个时点上4个人的成绩
time, data

(array([12, 14, 16, 18, 20]),
 array([[0.        , 0.70807342, 0.82682181, 0.01991486],
        [0.57275002, 0.91953576, 0.07807302, 0.43163139],
        [0.97882974, 0.16984165, 0.29595897, 0.99998041],
        [0.2879105 , 0.17654034, 0.98130293, 0.42287428],
        [0.08288832, 0.92428514, 0.56398184, 0.02246318]]))

In [38]:
ind = data.argmax(axis=0) # 每个人最好的成绩发生在第几场
ind

array([2, 4, 3, 2])

In [39]:
best_time = time[ind]    # 查出这些场次对应的具体时间
best_time

array([16, 20, 18, 16])

### 第4类操作：切片 slicing
1. 每个维度都用一组start:stop:step, 各个维度之间用','隔开，反向时step取负数
2. slice是引用而非复制，改变slice中的value会同时改变原array中对应位置的值。
3. 如果slice得到结果之后原array不需要使用，最好用copy()。这样可以释放原array占用的空间

In [40]:
a = np.arange(int(1e8))
b = a[:100].copy()
del a  # the memory of ``a`` can be released.