# Fancy Indexing  花式索引  

In [1]:
import numpy as np

In [4]:
x = np.arange(16)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [3]:
x[4]

4

In [4]:
x[3:9]

array([3, 4, 5, 6, 7, 8])

In [5]:
x[3:9:2]

array([3, 5, 7])

如何访问索引不成等间距步长的元素？

In [6]:
ind = [3,5,8] #索引列表
x[ind]

array([3, 5, 8])

In [7]:
x[[3,5,8]]

array([3, 5, 8])

In [2]:
ind = np.array([[0,2],
                [1,3]])
ind

array([[0, 2],
       [1, 3]])

In [5]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [13]:
x[ind]

array([[0, 2],
       [1, 3]])

In [6]:
X = x.reshape(4,-1)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [7]:
# 取三个点，坐标分别是 (0,1) (1,2) (2,3)
row = np.array([0,1,2])
col = np.array([1,2,3])
X[row,col]

array([ 1,  6, 11])

In [18]:
X[:2,:3]

array([[0, 1, 2],
       [4, 5, 6]])

In [8]:
X[[0,1,2],[1,2,3]]

array([ 1,  6, 11])

In [22]:
col = [True,False,True,True] # 传入布尔值，也可以作为索引访问元素
X[1:3,col]

array([[ 4,  6,  7],
       [ 8, 10, 11]])

使用布尔数组获取元素是非常重要的方式，因为我们经常要按照条件在矩阵中获取子矩阵

## numpy.ndarray的比较

In [23]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

### 获取布尔矩阵

In [24]:
x < 3 # x中所有元素都和3进行比较，如果小于3，返回True；大于等于3，返回False

array([ True,  True,  True, False, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [25]:
x > 3

array([False, False, False, False,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True])

In [26]:
x <= 3

array([ True,  True,  True,  True, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [27]:
x == 3

array([False, False, False,  True, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [28]:
x != 3

array([ True,  True,  True, False,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True])

In [29]:
2 * x == 24 - 4 * x

array([False, False, False, False,  True, False, False, False, False,
       False, False, False, False, False, False, False])

In [30]:
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [31]:
X < 6

array([[ True,  True,  True,  True],
       [ True,  True, False, False],
       [False, False, False, False],
       [False, False, False, False]])

In [32]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

假设这里有16个数据样本，每一个样本只有一个特征。比如16个人的年龄，我们现在统计有多少人年龄小于3岁

In [33]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [34]:
x < 3

array([ True,  True,  True, False, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [12]:
np.sum(x < 4)

4

np.sum 把 x <= 3 返回的数组里，True当做1，False当做0进行了累加计算。

In [37]:
np.count_nonzero(x < 3) # 统计非零元素（True）的个数

3

In [38]:
np.any(x == 0) # 只有有任一一个元素为0，那么返回都为true

True

In [39]:
np.any(x<0)

False

In [40]:
np.all(x >= 0) # 是不是所有元素都大于等于0

True

In [41]:
np.all(x > 0)

False

帮助我们判断数据样本中是否都满足某一些性值，或者存在哪些数据不满足某些性值

In [9]:
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [14]:
np.sum(X%2 == 0)

8

In [15]:
np.sum(X%2 == 0, axis=1)

array([2, 2, 2, 2])

In [13]:
np.sum(X%2 == 0, axis=0)

array([4, 0, 4, 0])

In [46]:
np.all(X>0,axis=1)

array([False,  True,  True,  True])

In [47]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [52]:
np.sum((x>3) & (x<10)) 

6

In [16]:
np.sum((x%2 == 0) | (x > 10))

11

In [17]:
np.sum(~(x==0))

15

当然也可以直接用布尔表达式筛选元素

In [57]:
x[x<5]

array([0, 1, 2, 3, 4])

In [58]:
x[x%2==0]

array([ 0,  2,  4,  6,  8, 10, 12, 14])

In [19]:
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [21]:
a1 = X[:, 3]
a1

array([ 3,  7, 11, 15])

In [22]:
X[X[:,3]%3 == 0,:] # 访问矩阵中最后一列数字能够被3整除的行

array([[ 0,  1,  2,  3],
       [12, 13, 14, 15]])

对于表格数据的高级操作更多使用的是pandas库，pandas提供了一个DataFrame的数据结构。但是由于Scikit-learn包（机器学习包）使用numpy的数据，因此我们通常使用pandas对数据进行预处理，然后将pandas数据转换成numpy矩阵，再送入scikit-learn机器学习算法里。