# Fancy Indexing

In [1]:
import numpy as np
x = np.arange(16)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [2]:
x[3]

3

In [3]:
# 取索引从3到9的数据
x[3:9]

array([3, 4, 5, 6, 7, 8])

In [4]:
# 取索引从3到9的数据且步长为2
x[3:9:2]

array([3, 5, 7])

In [5]:
# 但是我们想取3，5，8该怎么办，目前看来只能这样了

In [7]:
[x[3],x[5],x[8]]

[3, 5, 8]

In [8]:
# 可以用下面的方式，这就是numpy中的fancy indexing
ind = [3,5,8]
x[ind]

array([3, 5, 8])

In [11]:
# ind还可以是二维数组,甚至可以把一维数组通过ind变为二维数组
ind = np.array([[0,4],[1,3]])
x[ind]

array([[0, 4],
       [1, 3]])

In [12]:
# fancy不止可以使用在一维的向量中，还可以使用在二维的矩阵里
X = x.reshape(4,-1)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [13]:
# 得到的结果为 （0，1） （1，2） （2，3）  ，即 1，6，11
row = np.array([0,1,2])
col = np.array([1,2,3])
X[row,col]

array([ 1,  6, 11])

In [14]:
# 得到的结果为 （0，1） （0，2） （0，3） ， 即 1，2，3
X[0,col]

array([1, 2, 3])

In [17]:
# 得到的结果为 前两行的 1，2，3列  （0，1）（1，1）（0，2）（1，2）（0，3）（1，3） ，即 [[1，2，3],[5,6,7]]  
X[:2,col]

array([[0, 2, 3],
       [4, 6, 7]])

In [18]:
# 用布尔数组也可以做fancy indexing, False代表不感兴趣的列
col = [True,False,True,True]
X[1:3,col]

array([[ 4,  6,  7],
       [ 8, 10, 11]])

### numpy.array的比较

In [19]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [20]:
# 获得小于3的数组 ，结果用Ture,False表示，通常结合fancy indexing来使用
x < 3

array([ True,  True,  True, False, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [21]:
x[x<3]

array([0, 1, 2])

In [23]:
# 也可以是更复杂点的表达式
x[2*x == 24-4*x]

array([4])

In [24]:
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [26]:
# 也可以是二给矩阵
X[X<10]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
# 元素个数总和
np.sum(X<10)

10

In [31]:
# 元素值总和
np.sum(X[X<10])

45

In [33]:
# numpy.count_nozero 用于计算传进来的数组中有多少非0元素 (Ture = 1 ; False = 0)
np.count_nonzero(x<=3)

4

In [34]:
x<=3

array([ True,  True,  True,  True, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [35]:
# numpy.any  表示数组中有任务一个值满Ture都会返回Ture
np.any(x==0)

True

In [36]:
np.any(x<0)

False

In [37]:
# numpy.all 所有元素都满表达式（True）才是True,否则为False
np.all(x<0)

False

In [38]:
np.all(x>0)

False

In [39]:
np.all(x>=0)

True

In [40]:
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [41]:
# 查看X中有多少偶数
np.sum(X%2 == 0)

8

In [42]:
# 查看每一行有多少偶数
np.sum(X%2 == 0, axis=1)

array([2, 2, 2, 2])

In [44]:
# 查看每一列有多少偶数
np.sum(X%2==0,axis=0)

array([4, 0, 4, 0])

In [45]:
np.all(X>0,axis=1)

array([False,  True,  True,  True])

In [46]:
# >3 且 <10   
np.sum((x>3)&(x<10))

6

In [50]:
# 偶数 或者 大于10
np.sum((x%2==0) | (x>10))

11

In [51]:
# 非运算 不等于0
np.sum(~(x==0))

15

In [57]:
# 思考： 
# 从二维矩阵中抽出一些行，这些行满足以下特点：
# 最后一个特征值可以被3整除
# 思路-> 
#   从X中取出第三列的值 X[:,3]  
#   用让它能被3整除 X[X[:,3]%3 == 0]
#   拿出这些行所有的列 X[X[:,3]%3 == 0,:]
X[X[:,3]%3 == 0,:]

array([[ 0,  1,  2,  3],
       [12, 13, 14, 15]])

# Pandas模块处理这些数据会更加的灵活
### 由于本次使用scikit-learn，这个库一般使用numpy的结果集
### 一般比较常用的是，用pandas处理完数据后转换成numpy再交由scikit-learn使用
