# 10 Fancy Indexing and Comparison in Numpy

### 10.1 高级的索引取值
- 提供一个索引列表，可以根据索引建立对应值的数组或矩阵
- x[3]  根据索引获取值
- x[3:8]  切片的方式获取索引的值
- x[3:8:2]  等步长地切片获取索引的值
- [x[3], x[5], x[8]]  多次获得不规律索引的值，创建数组
- ind = [3, 5, 8]; x[ind]  一次获取多个不规律索引的值，创建数组
- ind2 = np.array([[0, 2], [1, 3]]); x[ind2] 一次获取多个不规律索引的值，创建矩阵

In [1]:
import numpy as np

x = np.arange(16)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [2]:
x[3]

3

In [3]:
# 索引3-7的元素
x[3:8]

array([3, 4, 5, 6, 7])

In [4]:
# 等步长的索引
x[3:8:2]

array([3, 5, 7])

In [5]:
# 非等步长的索引可以通过多次获取单个索引的方式
[x[3], x[5], x[8]]

[3, 5, 8]

In [6]:
# 可以建立一个想要获取的索引列表，numpy支持批量获取
ind = [3, 5, 8]
x[ind]

array([3, 5, 8])

In [7]:
# 同理可以建一个二维数组的索引列表，会根据索引填入对应的值
ind2 = np.array([[0, 2],
                [1, 3]])
x[ind2]

array([[0, 2],
       [1, 3]])

In [8]:
X = x.reshape(4, -1)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [9]:
# 设定感兴趣的行的索引 和 列的索引
# 对应了3个点为[0,1],[1,2],[2,3]
row = np.array([0, 1, 2])
col = np.array([1, 2, 3])
X[row, col]

array([ 1,  6, 11])

In [10]:
X[0, col]

array([1, 2, 3])

In [11]:
X[:2, col]

array([[1, 2, 3],
       [5, 6, 7]])

In [12]:
# 也可以使用布尔数据作为索引来获取
col = [True, False, True, True]

In [13]:
X[1:3, col]

array([[ 4,  6,  7],
       [ 8, 10, 11]])

### 10.2 numpy.array的比较
- 批量比较返回一个布尔数组
    - 比较运算符
    - />/</>=/<=/==/!=/
- True对应的值为1，False对应的值为0
- 因此可以使用np.sum(x <= 3)  统计True的个数
- np.count_nonzero(x <= 3)  统计非0个个数，即统计False的个数
- np.any()  任意有1个true，则返回true
- np.all()  所有都等于true，才返回true  
  
- np.sum(X % 2 == 0)
- np.sum(X % 2 == 0, axis=1)
- np.sum(X % 2 == 0, axis=0)
- np.all(X > 0, axis=1)  沿着列的方向，即每一行是否都大于0  
  
  
#### 注意是使用&/| 而不是&&/||
- 条件运算符&&前后连接的是两个条件，即布尔值，最终的结果也是一个布尔值
- 位运算符&前后连接的是两个数组，希望两个数组按照索引分别得进行与或的运算，最后的结果依然是一个数组
- 相当于这两个数组中，每个元素都看作成了一位
- np.sum((x > 3) & (x < 10))  使用&&会报错
- np.sum((x > 3) | (x < 10))  使用||会报错
- np.sum(~(x==0))  numpy.array比较中的非运算符
  
  
#### 通过比较来取出一个子数组
- x[x % 2 == 0]  取出偶数的元素
- X[X[:,3] % 3 == 0, :]  去除第四列能被3整除的行。

In [14]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [15]:
x < 3

array([ True,  True,  True, False, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [16]:
x <= 3

array([ True,  True,  True,  True, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [17]:
x > 3

array([False, False, False, False,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True])

In [18]:
x == 3

array([False, False, False,  True, False, False, False, False, False,
       False, False, False, False, False, False, False])

In [19]:
x != 3

array([ True,  True,  True, False,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True])

In [20]:
# 只有4满足，即索引为4的元素
2 * x == 24 - 4 * x

array([False, False, False, False,  True, False, False, False, False,
       False, False, False, False, False, False, False])

In [21]:
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [22]:
X < 6

array([[ True,  True,  True,  True],
       [ True,  True, False, False],
       [False, False, False, False],
       [False, False, False, False]])

In [23]:
x 

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [24]:
np.sum(x <= 3)

4

In [25]:
np.count_nonzero(x <= 3)

4

In [26]:
# 有任意一个是true的话，返回true
np.any(x == 0)

True

In [27]:
np.any(x < 0)

False

In [28]:
# 所有都是true的话，返回true
np.all(x > 0)

False

In [29]:
np.all(x >= 0)

True

In [30]:
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [31]:
# true对应的值为1，可以通过sum的值来看ture的个数
# 偶数的个数
np.sum(X % 2 == 0)

8

In [32]:
np.sum(X % 2 == 0, axis=1)

array([2, 2, 2, 2])

In [33]:
np.sum(X % 2 == 0, axis=0)

array([4, 0, 4, 0])

In [34]:
# 第1行有0，不满足all的要求，所以false
np.all(X > 0, axis=1)

array([False,  True,  True,  True])

In [35]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [36]:
# 连接符号是一个& 而不是&&.
# 类似于位运算
np.sum((x > 3) & (x < 10))

6

In [37]:
np.sum((x > 3) && (x < 10))

SyntaxError: invalid syntax (<ipython-input-37-d834f65999a2>, line 1)

In [38]:
np.sum((x % 2 == 0) | (x > 10))

11

In [39]:
# numpy的非运算~
np.sum(~(x == 0))

15

In [40]:
# 所有小于5的值是哪些
x[x < 5]

array([0, 1, 2, 3, 4])

In [41]:
# 偶数有哪些
x[x % 2 == 0]

array([ 0,  2,  4,  6,  8, 10, 12, 14])

In [42]:
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [43]:
# 最终行 X[:,3] % 3 == 0 ，原矩阵中第4列中所有能被3整除的元素->所在的行数;
# 最终列 ：；即所有列
X[X[:,3] % 3 == 0, :]

array([[ 0,  1,  2,  3],
       [12, 13, 14, 15]])

### 10.3 Pandas
- 更高级的表格处理，使用Pandas
- data.frame
- 通常的模式是Pandas对信息进行预处理，转化为numpy的矩阵后，在送给机器学习的算法
- 自行扩展学习