In [1]:
import numpy as np

## numpy array的基本操作: indexing (含slicing)

### I. 普通索引

#### I.1 index是简单的tuple：$ind = (i_{dim1}, i_{dim2}, ..., i_{dimN})$
1. 每个dim一个index，反向索引时index用负数
2. 多维索引用‘,‘隔开
3. 索引维度d<=原array维度D，如果d==D，那么每个维度都根据索引取值；如果d<D，那么原array的最后(D-d)个维度取所有数据,这时候做的是dim index。

In [2]:
# 每个dim一个index，反向索引时index用负数
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729])

In [3]:
a[2], a[-2]

(8, 512)

In [4]:
a.shape = (2, 5)
a

array([[  0,   1,   8,  27,  64],
       [125, 216, 343, 512, 729]])

In [5]:
a[1, 3], a[1, -2] # 这里index是(1, 3), (1, -2)

(512, 512)

In [6]:
# 如果d<D，那么原array的最后(D-d)个维度取所有数据。
b = np.array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [7]:
b[2, 3], b[:5, 1]

(23, array([ 1, 11, 21, 31, 41]))

#### I.2 basic slicing: index是slice obj或者slice obj与int构成的tuple
<font color=green>slice obj指的是'(start:stop:step)'</font>
1. 每个维度都用一组start:stop:step, 各个维度之间用','隔开，反向时step取负数
2. basic slicing是view而非copy，改变slice中的value会同时改变原array中对应位置的值。
3. 直接用index取单个元素，提出来的是该元素本身的数据类型；如果用start:stop:step，即使实际上提取的也是一个元素，但是得到的是array
4. 如果slice得到结果之后原array不需要使用，最好用copy()。这样可以释放原array占用的空间。

In [8]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729])

In [9]:
# 每个维度都用一组start:stop:step
a[:6:2]

array([ 0,  8, 64])

In [10]:
a[-8:5:-1], a[-2:5:-1] # 前一种方式没有提到任何东西

(array([], dtype=int64), array([512, 343, 216]))

In [11]:
# reversed a
a[::-1] 

array([729, 512, 343, 216, 125,  64,  27,   8,   1,   0])

In [12]:
# 改变slice中的value会同时改变原array中对应位置的值
# 利用这个性质可以结合mask来改变array中的data value
a[:6:2] = 1000
a

array([1000,    1, 1000,   27, 1000,  125,  216,  343,  512,  729])

In [13]:
# 直接用index取单个元素，提出来的是该元素本身的数据类型；
# 如果用start:stop:step，即使实际上提取的也是一个元素，但是得到的是array
a[6], a[6:7]

(216, array([216]))

In [14]:
# 用int作为index取出来的结果维度比原array少1
# 用slice作为index取出来的和原array的维度一样
x = np.array([[[5], [7]], [[9], [10]]])
x.shape

(2, 2, 1)

In [15]:
x[1], x[1:2]

(array([[ 9],
        [10]]),
 array([[[ 9],
         [10]]]))

In [16]:
a = np.arange(int(1e8))
b = a[:100].copy()
del a  # the memory of ``a`` can be released.

#### I.3 dimension index
1. 在tuple做index的普通indexing中，如果index的维度d<原array的维度D，那么原array的最后(D-d)个维度取所有数据,这时候做的是dim index。
2. 如果要提取后面的维度，缺省前面或者中间的维度，用‘...’。x[1, 2, ...] 相当于x[1, 2, :, :, :],x[4, ..., 5, :] 相当于x[4, :, :, 5, :]

In [17]:
b = np.array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [18]:
# 索引维度d=1，元数据维度D=2，取整个dim2
b[1]

array([10, 11, 12, 13])

In [19]:
b[-1]   # the last row，相当于b[-1, :]

array([40, 41, 42, 43])

In [20]:
# 索引维度d=2，元数据维度D=3，可以用'...'来表示缺省的维度
c = np.array([[[  0,  1,  2], 
               [ 10, 12, 13]],
              [[100, 101, 102],
               [110, 112, 113]]])
c.shape

(2, 2, 3)

In [21]:
# 取整个dim2和dim3
c[1, ...]  # same as c[1, :, :] or c[1]

array([[100, 101, 102],
       [110, 112, 113]])

In [22]:
# 取整个dim1和dim2
c[..., 2]  # same as c[:, :, 2]

array([[  2,  13],
       [102, 113]])

### II. advanced indexing
1. 如果index是一下情况，会触发advanced indexing规则：\
(1) non-tuple sequence \
(2) index本身是int array \
(3) tuple中至少一个元素是sequence或者ndarray
2. 有两种类型的advanced indexing：整数索引和布尔索引

#### II.1 单个integer array index
1. 单个int array或int list作为dim index，能同时索引该dim中的多个元素。
   - N维原array的index形如(ind1, ind2, ..., indN),逗号分隔N个ind
     - tuple做index时，每个ind都是一个integer，对应索引原array中对应dim的1个元素
     - array或list做index时，一个ind是一个array或者list，整个array索引原array中对应dim。
   - 索引方式是，int array的位置决定索引的dim，int array中的单个int element用于索引1次该dim中的元素（如果原array是多维，索引到的元素可能是整个后续维度的data）
2. 可以利用多次索引同一dim的功能改变原array的元素排序

In [23]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729])

In [24]:
# 直接用tuple不能同时索引一个dim中的多个元素
# a[2, 3, 4] # Error, too many indices for array

# 例1：作为dim index索引一个dim中的多个元素
ind_a = np.array([2, 2, 3, 4])
a[ind_a], a[[2, 2, 3, 4]]

(array([ 8,  8, 27, 64]), array([ 8,  8, 27, 64]))

In [25]:
b = np.arange(6).reshape(3, 2)
b

array([[0, 1],
       [2, 3],
       [4, 5]])

In [26]:
# 例2：dim index
# array作为index时，其elements对应提取原array某个dim的整个维度
b[np.array([1, -1])] # 作为dim1的index，提取dim1第2、3个元素

array([[2, 3],
       [4, 5]])

In [27]:
c = np.arange(12).reshape(2, 3, 2)
c

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [28]:
# array和list作为dim2的index，提取dim2中的第2、3个元素
c[0, np.array([1, 2])], c[0, [1, 2]] 

(array([[2, 3],
        [4, 5]]),
 array([[2, 3],
        [4, 5]]))

In [29]:
# 例3：改变元素排序
a = np.arange(6).reshape(2, 3)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [30]:
ind_move_dim1 = [1, 0] # 改变第一个维度
a[ind_move_dim1]

array([[3, 4, 5],
       [0, 1, 2]])

In [31]:
a[:,[2, 1, 0]]       # 改变第二个维度

array([[2, 1, 0],
       [5, 4, 3]])

#### II.2 多个integer array index
如果多个index array作为index，要么index array的数量和原array的维度数相同，要么符合broadcast规则。
1. 原array的维度数为D，如果index array的数量也是D，且每个index array自身是1维。他们会以zip方式，每一组D个元素定位原始array的1个基本元素
2. 原array的维度数为D，如果index array的数量也是D，且每个index array自身至少是2维。
   - 当每个index array维度相同时，他们也是zip提取原array的基本元素。只是提取数量与index array的结构相同。
   - 当每个index array维度不同时，要符合broadcast规则，做了broadcast之后，再zip提取原array的基本元素

In [32]:
palette = np.array([[0, 0, 0],    
                    [254, 0, 0],  
                    [0, 253, 0],  
                    [0, 0, 252],  
                    [251, 205, 225]])
palette.ndim, palette.shape

(2, (5, 3))

In [33]:
# 例1：单一index
# 如果一个index是array，即使有多维也是单一index
# 每个元素都检索原始array的dim1
ind = np.array([[0, 1, 2, 0],   
                [0, 3, 4, 0]])
x = palette[ind]
x, ind.shape, x.shape

(array([[[  0,   0,   0],
         [254,   0,   0],
         [  0, 253,   0],
         [  0,   0,   0]],
 
        [[  0,   0,   0],
         [  0,   0, 252],
         [251, 205, 225],
         [  0,   0,   0]]]),
 (2, 4),
 (2, 4, 3))

In [34]:
# 例2：index array数量与原array维度数相同，且index array是1维
dim1_ind = np.array([0, 3, 4, 0])  # 元素分别是dim1和dim2的index
dim2_ind = np.array([0, 1, 2, 0])  
y = palette[dim1_ind, dim2_ind]
y       # 提取出来的结果数量取决于index array的element数量

array([  0,   0, 225,   0])

In [35]:
# 如果把他们合并成一个list，和index是单一array一样，提取原始array的dim1
ind_2D = [dim1_ind, dim2_ind]     
palette[ind_2D]

array([[[  0,   0,   0],
        [  0,   0, 252],
        [251, 205, 225],
        [  0,   0,   0]],

       [[  0,   0,   0],
        [254,   0,   0],
        [  0, 253,   0],
        [  0,   0,   0]]])

In [36]:
# 但如果把他们合并成一个tuple, 此时和两个index效果一致
palette[ind_2D_tuple]
ind_2D_tuple = (dim1_ind, dim2_ind) 

NameError: name 'ind_2D_tuple' is not defined

In [None]:
# 例3：index array数量与原array维度数相同，是多维矩阵，shape相同
row_ind = np.array([0, 1, 2])
col_ind = np.array([2, 1, 0])
row_ind_2D = row_ind[:,np.newaxis] # 相当于row_ind.reshape(3, 1)
col_ind_2D = col_ind[np.newaxis, :] # 相当于col_ind.reshape(1, 3)
row_ind_2D, col_ind_2D

In [None]:
row = row_ind_2D[:, (0, 0, 0)]    
col = col_ind_2D[[0, 0, 0], :]  
row, col

In [None]:
palette[row, col] 

In [None]:
# 例4：broadcast
# index array数量与原array维度数相同，是多维矩阵，shape不同
row_ind = np.array([0, 1, 2])
col_ind = np.array([2, 1, 0])

In [None]:
# 两个index是多维矩阵，形状不同，broadcast扩展成相同的形状
# 扩展完后，提取原array元素的方式与index形状相同时一致
palette[row_ind_2D, col_ind_2D] 

#### II.3 常见用途
 - 用mask=argmax, argmin等方式定位特征元素的位置，然后用index[mask]提取特征元素
 - 用boolean函数做mask，然后用index[mask]提取特征元素

In [None]:
# 例1：索引和mask配合
a1 = np.arange(10)**3
mask = np.array([[3, 4], [9, 7]])
a1[mask]

In [None]:
# 例2：配合argmax得到的特征mask提取元素
time = np.arange(5)*2 + 12# 从12点到20点举行了5场比赛
data = np.sin(np.arange(20)).reshape(5, 4)**2  # 5个时点4人成绩
time, data

In [None]:
ind = data.argmax(axis=0) # 每个人最好的成绩发生在第几场
ind

In [None]:
best_time = time[ind]    # 查出这些场次对应的具体时间
best_time