## 演示0103：数组元素筛选

### 案例1：直接给定下标索引

> **通过下标索引数组返回多个元素** 
* 不仅可以使用*[start:end:step]*形式来返回数组中的某个切片，也可以直接指定一个一维索引数组，返回每个索引对应的元素
* *take*方法可以起到类似的作用
* 对于二维数组，仅指定行索引数组，或仅指定列索引数组，可以返回对应的行或列

In [1]:
import numpy as np

a = np.array([4, 3, 5, 7, 6, 8])
indices = [0, 1, 4]    # 指定返回索引为0，1，4的三个元素
b = np.take(a, indices)
c = a[indices]
print(b)
print(c)

[4 3 6]
[4 3 6]


In [2]:
a = np.array([[1,2,3,4,5],[2,3,4,5,6],[3,4,5,6,7],[4,5,6,7,8]])
indices = [0, 3]    # 索引为0和3
print(a[indices])    # 索引为0和3的两行
print(a[:, indices])    #索引为0和3的两列

[[1 2 3 4 5]
 [4 5 6 7 8]]
[[1 4]
 [2 5]
 [3 6]
 [4 7]]


> **从二维数组中返回指定行和列索引的数据**  
* 同时给定行索引数组$rows$和列索引数组$cols$：$a[rows, cols]$
 * 此时rows和cols的对应位置元素将组合成若干个**维度索引对**，每个维度索引对分别给定一个行索引和一个列索引
 * 然后从数组中返回每个维度索引对对应的元素，形成一个一维数组
 * 这种情况下，要求rows和cols必须能够组合。例如：
  * $rows=[1,3], cols=[0,4]$，此时可以组合成2个维度索引对：$[[1,0],[3,4]]$
  * $rows=[1,2,3], cols=[0,1,1]$，此时可以组合成3个维度索引对：$[[1,0],[2,1],[4,1]]$
  * $rows=[1,2,3], cols=[4]$, 此时可以组合成3个维度索引对：$[[1,4],[2,4],[3,4]]$。可以看到$cols$虽然只有1个元素，但是可以与$rows$中每个元素分别组合
  * $rows=[1,2,3], cols[0,4]$，此时rows与cols无法进行合理的组合，因此将出现错误
* 先给定行索引数组，再从返回的行中给定列索引数组：$a[rows][:, cols]$
 * $a[rows]$返回指定行索引的所有行集合b，然后$b[:,cols]$用于返回行集合$b$中$cols$指定的列集合。请注意不要漏写$:$
 * 特别要注意：$rows,cols$必须是数组形式(即：使用[]将各个索引包起来)
 * 如果写成$a[row][cols]$形式，则被解释为：先返回指定行索引的所有行集合$b$，然后从$b$中返回由$cols$指定索引的所有行集合$c$。两次返回的都是行的子集和，并没有对列进行选择。

In [3]:
a = np.array([[1,2,3,4,5],[2,3,4,5,6],[3,4,5,6,7],[4,5,6,7,8]])
print(a[[1,3],[0,4]])    # 返回维度索引对[1,0]和[3,4]对应的元素
print(a[[1,2,3],[0,1,1]])
print(a[[1,2,3],[4]])

[2 8]
[2 4 5]
[6 7 8]


In [4]:
a = np.array([[1,2,3,4,5],[2,3,4,5,6],[3,4,5,6,7],[4,5,6,7,8]])
print(a[[0,2,3]][:, [0,4]])    # 返回行索引为0,2,3，列索引为0,4的子矩阵
#print(a[[0,2,3]][[0,4]])    # 错误，a[[0,2,3]]仅返回了3行数据的子集合，但[0,4]要返回子集合中索引为0和4的行
print(a[[0,2,3]][0,4])    # 忘记将0,4写成数组形式，因此0相当于子集中的行索引，4相当于自己中的列索引

[[1 5]
 [3 7]
 [4 8]]
5


> ** 通过下标索引数组返回的子集合，是对原有数组的拷贝，并不共享数据内存**  
* 与*[start:end:step]*形式的数组切片不同，数组切片返回是与原始数组共享内存的数据；而通过索引数组返回的子集合，则是对原始数组中数据的拷贝

In [5]:
a = np.array([1,2,3,4,5])
a[[0,1]][0] = 100
print(a)    # a不会发生变化 

[1 2 3 4 5]


### 案例2：基于元素值间接给定下标索引

> **返回非零元素**  
* *nonzero*函数返回数组中所有非零元素的下标索引
* 对于二维数组，该函数返回两个下标索引数组。其中，第一个数组存放所有非零元素的行索引，第二个数组存放所有非零元素的列索引。将两个数组中对应元素组合，就得到所有非零元素的维度索引对

In [6]:
a = np.array([1,0,0,3,5,0,8])
b = np.nonzero(a)    # 非零元素的索引组成的一维数组
print(b)
c = a[b]    # 返回对应的非零元素值
print(c)

(array([0, 3, 4, 6], dtype=int64),)
[1 3 5 8]


In [7]:
a = np.array([[1,0,0], [0,2,0], [1,1,0]])
b = np.nonzero(a)   # 返回两个数组，第一个数组存放行索引，第二个数组存放列索引
print(b)
c = a[b]    # 行、列索引对应位置组合，形成维度索引对[0,0],[1,1],[2,0],[2,1]，共4个
print(c)

(array([0, 1, 2, 2], dtype=int64), array([0, 1, 0, 1], dtype=int64))
[1 2 1 1]


> **根据元素值大小进行过滤**  
* *np.where*函数可返回元素值大小满足某种条件的所有元素下标
* 对于二维数组，其返回值与*np.nonzero*的类似

In [8]:
a = np.arange(10)*3
b = np.where(a>20)   # 返回所有元素值大于20的元素下标索引
print(b)
print(a[b])

(array([7, 8, 9], dtype=int64),)
[21 24 27]


> **检查数组及其子集合的数据内存是否共享**

In [9]:
a = np.array([1,2,3,4,5])
b = np.where(a>0)
c = a[b]    # 此处相当于通过索引数组获得a的子集，这个过程将执行数据拷贝
c[0] = 100
print(a)    # a不会发生变化

[1 2 3 4 5]


### 案例3：基于True/False条件返回对应的元素

> **通过指定一个*True/False*数组，返回所有*True*位置的元素**  
* 对数组执行逻辑判断，将返回一个*True/False*数组，然后可以根据该数组返回*True*对应位置的元素

In [10]:
a = np.arange(5)
b = np.array([True, False, False, True, True])
print(a[b])

[0 3 4]


In [11]:
a = np.arange(10)
b = a > 5    # 根据判断，获得True/False数组
print(b)
print(a[b])

[False False False False False False  True  True  True  True]
[6 7 8 9]
