## 10 ``Numpy`` 中的比较和Fancy Indexing

### Fancy Indexing

In [1]:
import numpy as np

x = np.arange(16)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [2]:
x[3]

3

In [4]:
x[3:9] #[3,9)切片索引

array([3, 4, 5, 6, 7, 8])

In [5]:
x[3:9:2] #步长为2

array([3, 5, 7])

In [6]:
[x[3], x[5], x[8]]

[3, 5, 8]

In [7]:
ind = [3, 5, 8] #将索引放到数组中
x[ind] #numpy的fancy indexing

array([3, 5, 8])

In [8]:
ind = np.array([[0, 2], [1, 3]]) #索引数组还可以是二维
x[ind]

array([[0, 2],
       [1, 3]])

从一维向量中取出的值，按二维索引排成二维矩阵

#### Fancy Indexing 应用在二维数组

In [10]:
X = x.reshape(4, -1) #不知道几列，反正是4行 -> 4行4列
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [11]:
row = np.array([0, 1, 2]) #要取的行
col = np.array([1, 2, 3]) #要取的列
X[row, col] #取3个点(0,1) (1,2) (2,3) 得到一个向量 分别对应这三个位置的值

array([ 1,  6, 11])

In [12]:
X[0, col] #(0,1) (0,2) (0,3)

array([1, 2, 3])

In [13]:
X[:2, col] #前两行的相应的col

array([[1, 2, 3],
       [5, 6, 7]])

In [13]:
col = [True, False, True, True] #第0、2、3列

In [14]:
X[0, col]

array([0, 2, 3])

### ``numpy.array`` 的比较

In [17]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [15]:
x < 3

array([ True,  True,  True, False, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [16]:
x > 3

array([False, False, False, False,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True])

In [17]:
x <= 3

array([ True,  True,  True,  True, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [18]:
x >= 3

array([False, False, False,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True])

In [19]:
x == 3

array([False, False, False,  True, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [21]:
x != 3

array([ True,  True,  True, False,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True])

In [23]:
2 * x == 24 - 4 * x

array([False, False, False, False,  True, False, False, False, False,
       False, False, False, False, False, False, False])

In [24]:
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [26]:
X < 6

array([[ True,  True,  True,  True],
       [ True,  True, False, False],
       [False, False, False, False],
       [False, False, False, False]])

### 使用 ``numpy.array`` 的比较结果 

In [27]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [28]:
np.count_nonzero( x <= 3) #有多少个<=3的数(<=3是1 否则是0 统计非0)

4

In [32]:
np.sum(x <= 3) #有多少个<=3的数

4

In [37]:
np.any(x == 0) #是否有0（一旦有就返回true）

True

In [38]:
np.any(x < 0) #是否有<0的元素

False

In [40]:
np.all(x >= 0) #所有都>=0 返回true

True

In [29]:
np.all(x > 0)

False

以上操作对二维矩阵也适用

In [31]:
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [30]:
np.sum(X%2==0) #有几个偶数

8

In [34]:
np.sum(X % 2 == 0, axis=1) #沿着列的方向 每一行有多少偶数

array([2, 2, 2, 2])

In [32]:
np.sum(X % 2 == 0, axis=0) #沿着行的方向 每一列有多少偶数

array([4, 0, 4, 0])

In [41]:
np.all(X > 0, axis=1) #沿着列的方向 每行是否全>0

array([False,  True,  True,  True], dtype=bool)

In [44]:
np.sum((x > 3) & (x < 10)) #两个数组 位运算

6

In [33]:
np.sum((x > 3) && (x < 10))

SyntaxError: invalid syntax (<ipython-input-33-d834f65999a2>, line 1)

In [34]:
np.sum((x % 2 == 0) | (x > 10))

11

In [36]:
np.sum(~(x == 0)) #不等于0的个数

15

### 比较结果和Fancy Indexing

In [38]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [37]:
x < 5

array([ True,  True,  True,  True,  True, False, False, False, False,
       False, False, False, False, False, False, False])

In [18]:
x[x < 5] # 小于5的值都是谁

array([0, 1, 2, 3, 4])

In [20]:
x[x % 2 == 0]

array([ 0,  2,  4,  6,  8, 10, 12, 14])

In [39]:
X[X[:,3] % 3 == 0, :] 
#取出一些行 该行最后一个值可以被3整除 
#对于行：取出最后一列能被3整除的行 -> X[:,3]取出第3列的值
#对于列：取出该行所有列

array([[ 0,  1,  2,  3],
       [12, 13, 14, 15]])

年龄大于40岁/卧室数量<=2/离地铁距离<1000m

对于更加高级的表格处理，可能不会用numpy，用pandas库 dataframe数据结构，可以更加灵活地处理。但是机器学习scikit-learn中的函数封装的都是接收numpy矩阵，所以一般先用pandas对数据进行预处理，处理完后转换成numpy矩阵，传输给机器学习算法。