# Numpy笔记(二)

目录:
- [1.3 numpy数组的操作](#1.3-numpy数组的操作)
    - [1.3.1 索引](#1.3.1-索引)
    - [1.3.2 高级索引](#1.3.2-高级索引)
    - [1.3.3 赋值](#1.3.3-赋值)
    - [1.3.4 切片](#1.3.4-切片)
    - [1.3.5 遍历数组元素](#1.3.5-遍历数组元素)
    - [1.3.6 改变numpy数组的shape](#1.3.6-改变numpy数组的shape)
    - [1.3.7 numpy数组的合并](#1.3.7-numpy数组的合并)
    - [1.3.8 numpy数组的拆分](#1.3.8-numpy数组的拆分)
    - [1.3.9 numpy数组的条件过滤](#1.3.9-numpy数组的条件过滤)
    - [1.3.10 numpy数组的repeat操作](#1.3.10-numpy数组的repeat操作)
    - [1.3.11 排序](#1.3.11-排序)

## 1.3 numpy数组的操作

In [1]:
import numpy as np
from numpy import random
import warnings
warnings.filterwarnings('ignore')

### 1.3.1 索引

操作对象是一维numpy数组时, 索引和python中的列表的索引类似

In [2]:
# 向量的第二个元素
vec = np.array([1,2,3])
vec[1]

2

In [3]:
mat = np.array([[1,2,3], [4,5,6], [7,8,9]])

当操作对象是二维numpy数组时, 需要提供行索引和列索引.

In [4]:
# 矩阵第二行第三列的元素
mat[1,2]

6

若省略了列索引, 那么其将返回整行元素.

In [5]:
# 矩阵第二行所有元素
mat[1,]

array([4, 5, 6])

或者直接只提供一个行索引:

In [6]:
mat[1]

array([4, 5, 6])

若想要返回整列元素, 则需要使用冒号. 

In [7]:
# 想要返回整列元素, 则需要使用":"来填充行索引
# 矩阵第三列所有元素
mat[:, 2]

array([3, 6, 9])

In [8]:
# 不可以直接省略行索引, 以下报错
mat[, 2]

SyntaxError: invalid syntax (<ipython-input-8-4e18a58b1330>, line 2)

In [9]:
# 刚才返回第二行所有元素我们是这样写的
mat[1,]

array([4, 5, 6])

In [10]:
# 完整写法为
mat[1,:]

array([4, 5, 6])

### 1.3.2 高级索引

In [11]:
mat = np.array([[1,2,3,4,5], [3,4,5,6,7], [5,6,7,8,9], [7,8,9,10,11], [9,10,11,12,13]])
print(mat)

[[ 1  2  3  4  5]
 [ 3  4  5  6  7]
 [ 5  6  7  8  9]
 [ 7  8  9 10 11]
 [ 9 10 11 12 13]]


我们可以使用numpy数组或list来作为索引.

In [12]:
# 使用list作为行索引
row_index = [0, 2, 4]
mat[row_index]

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [ 9, 10, 11, 12, 13]])

In [13]:
# 也可以使用take
mat.take(row_index, axis=0)

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [ 9, 10, 11, 12, 13]])

In [14]:
# 使用numpy数组作为列索引
col_index = np.array([1, 2, 3])
mat[:, col_index]

array([[ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10],
       [10, 11, 12]])

In [15]:
# 也可以使用take
mat.take(col_index, axis=1)

array([[ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10],
       [10, 11, 12]])

In [16]:
# 相当于 mat[[0, 2, 4], [1, 2, 3]]
# 返回 第0行第1列的元素, 第2行第2列的元素, 第4行第3列的元素 
mat[row_index, col_index]

array([ 2,  7, 12])

若同时使用row_index和col_index, 他们的维度一定要统一. 若不统一则会报错:

In [17]:
row_index = [0, 2, 4]
col_index = [1, 2]
mat[row_index, col_index]

IndexError: shape mismatch: indexing arrays could not be broadcast together with shapes (3,) (2,) 

我们也可以使用bool类型numpy数组作为索引

In [18]:
mat

array([[ 1,  2,  3,  4,  5],
       [ 3,  4,  5,  6,  7],
       [ 5,  6,  7,  8,  9],
       [ 7,  8,  9, 10, 11],
       [ 9, 10, 11, 12, 13]])

In [19]:
index = np.array([True, False, True, False, True])
# 选择第1行,第3行和第4行的元素
mat[index,]

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [ 9, 10, 11, 12, 13]])

这里需要注意一下的是, index是本身是个numpy数组, 而不是list.  
若写成了list那么结果就不一样了.

In [20]:
# 使用bool类型的list当做索引, numpy 会将True看成1, False看成0,
# 即这里的index相当于 [1, 0, 1, 0, 1]
index = [True, False, True, False, True]
mat[index]

array([[3, 4, 5, 6, 7],
       [1, 2, 3, 4, 5],
       [3, 4, 5, 6, 7],
       [1, 2, 3, 4, 5],
       [3, 4, 5, 6, 7]])

### 1.3.3 赋值

In [21]:
vec

array([1, 2, 3])

In [22]:
mat

array([[ 1,  2,  3,  4,  5],
       [ 3,  4,  5,  6,  7],
       [ 5,  6,  7,  8,  9],
       [ 7,  8,  9, 10, 11],
       [ 9, 10, 11, 12, 13]])

In [23]:
# 一维numpy数组的赋值
vec[1] = 9
vec

array([1, 9, 3])

In [24]:
# 也可以使用put
vec.put([0,1,2], [999, 998, 997])
vec

array([999, 998, 997])

In [25]:
# 二维numpy数组的赋值
mat[1,1] = 99
mat

array([[ 1,  2,  3,  4,  5],
       [ 3, 99,  5,  6,  7],
       [ 5,  6,  7,  8,  9],
       [ 7,  8,  9, 10, 11],
       [ 9, 10, 11, 12, 13]])

In [26]:
# 对整行赋值
mat[1,:] = [100, 101, 102, 103, 104]
mat

array([[  1,   2,   3,   4,   5],
       [100, 101, 102, 103, 104],
       [  5,   6,   7,   8,   9],
       [  7,   8,   9,  10,  11],
       [  9,  10,  11,  12,  13]])

In [27]:
# 对整列赋值
mat[:, 2] = [200, 201, 202, 203, 204]
mat

array([[  1,   2, 200,   4,   5],
       [100, 101, 201, 103, 104],
       [  5,   6, 202,   8,   9],
       [  7,   8, 203,  10,  11],
       [  9,  10, 204,  12,  13]])

In [28]:
# 可以将一行或一列的所有元素同时赋值为同一值
mat[2,:] = 99
mat

array([[  1,   2, 200,   4,   5],
       [100, 101, 201, 103, 104],
       [ 99,  99,  99,  99,  99],
       [  7,   8, 203,  10,  11],
       [  9,  10, 204,  12,  13]])

### 1.3.4 切片

In [29]:
vec = np.array([1,2,3,4,5])

In [30]:
# 不包含索引'3'
vec[0:3]

array([1, 2, 3])

In [31]:
# ':'左边默认值为0
vec[:3]

array([1, 2, 3])

In [32]:
# ':'右边默认值为元素个数
vec[1:]

array([2, 3, 4, 5])

In [33]:
# 输出索引为0, 2, 4的元素
vec[0:5:2]

array([1, 3, 5])

In [34]:
# 第三个参数默认为1
vec[0:5:]

array([1, 2, 3, 4, 5])

In [35]:
# 最后一个元素, 负号表示倒数第n个元素
vec[-1]

5

In [36]:
# 倒数第三个元素 - 倒数第一个元素
vec[-3:-1]

array([3, 4])

In [37]:
# 输出索引为: 4, 3, 2, 1, 0
vec[4::-1]

array([5, 4, 3, 2, 1])

In [38]:
# 输出元素为: 倒数第1个, 倒数第2个, 倒数第3个, 倒数第4个, 倒数第5个
vec[-1:-6:-1]

array([5, 4, 3, 2, 1])

In [39]:
# 可以直接省略前两个参数
vec[::-1]

array([5, 4, 3, 2, 1])

以上三种写法都可以表示一个一维numpy数组的逆序

对于二维的numpy数组, 原理是一样的.

In [40]:
mat = np.array([[1,2,3,4,5], [3,4,5,6,7], [5,6,7,8,9], [6,7,8,9,10], [7,8,9,10,11]])
mat

array([[ 1,  2,  3,  4,  5],
       [ 3,  4,  5,  6,  7],
       [ 5,  6,  7,  8,  9],
       [ 6,  7,  8,  9, 10],
       [ 7,  8,  9, 10, 11]])

In [41]:
# 第一行到第三行, 第二列到第四列
mat[1:4,2:5]

array([[ 5,  6,  7],
       [ 7,  8,  9],
       [ 8,  9, 10]])

In [42]:
mat[::2, ::2]

array([[ 1,  3,  5],
       [ 5,  7,  9],
       [ 7,  9, 11]])

### 1.3.5 遍历数组元素
一般来说, 我们应尽量避免使用循环来遍历numpy数组, 因为它相对于向量化的计算来说效率很低.

In [43]:
# 遍历一维numpu数组
vec = np.array([1,2,3,4,5])
for e in vec:
    print(e)

1
2
3
4
5


In [44]:
# 遍历二维numpu数组
mtrx = np.array([[1,2,3], [4,5,6], [7,8,9]])
for row in mtrx:
    print("row", row)
    for e in row:
        print(e)

row [1 2 3]
1
2
3
row [4 5 6]
4
5
6
row [7 8 9]
7
8
9


In [45]:
# 可以使用enumerate来获取索引
for i, row in enumerate(mat):
    print("第" + str(i+1) + "行:", row)
    for j, e in enumerate(row):
        print("第" + str(i+1) + "行" + str(j+1) + "列的元素:", e)

第1行: [1 2 3 4 5]
第1行1列的元素: 1
第1行2列的元素: 2
第1行3列的元素: 3
第1行4列的元素: 4
第1行5列的元素: 5
第2行: [3 4 5 6 7]
第2行1列的元素: 3
第2行2列的元素: 4
第2行3列的元素: 5
第2行4列的元素: 6
第2行5列的元素: 7
第3行: [5 6 7 8 9]
第3行1列的元素: 5
第3行2列的元素: 6
第3行3列的元素: 7
第3行4列的元素: 8
第3行5列的元素: 9
第4行: [ 6  7  8  9 10]
第4行1列的元素: 6
第4行2列的元素: 7
第4行3列的元素: 8
第4行4列的元素: 9
第4行5列的元素: 10
第5行: [ 7  8  9 10 11]
第5行1列的元素: 7
第5行2列的元素: 8
第5行3列的元素: 9
第5行4列的元素: 10
第5行5列的元素: 11


### 1.3.6 改变numpy数组的shape
#### 直接修改shape属性

In [46]:
m = np.arange(12)
m

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [47]:
# 维度为 1
print("Rank:", m.ndim)

Rank: 1


In [48]:
# 维度为 2
m.shape = (3, 4)
print(m)
print("Rank:", m.ndim)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
Rank: 2


In [49]:
# 维度为 3
m.shape = (2, 3, 2)
print(m)
print("Rank:", m.ndim)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]
Rank: 3


#### 使用numpy.reshape()

In [50]:
vec = np.arange(12)
# 使用reshape创建shape为(3,4)的数组
mat = vec.reshape((3,4))
mat

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [51]:
# reshape不会改变原来的数组
print(vec)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


由于vec的长度是已知的, 所以在reshape的时候, 可以这样:

In [52]:
vec.reshape((-1,4))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [53]:
# 可以直接使用flatten将高维数组转换为一维数组
a = mat.flatten()
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [54]:
# 或者使用ravel
b = mat.ravel()
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

注意这两种方式是有区别的.   
当使用flatten的时候, 返回的是一个copy.  
而使用ravel的时候, 返回的是view.

In [55]:
mat

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [56]:
a[0] = 999
print(mat)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [57]:
b[0] = 999
print(mat)

[[999   1   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]


### 1.3.7 numpy数组的合并

如下3个numpy数组:

In [58]:
a = np.full((2,3), 1, dtype=int)
b = np.full((3,3), 2, dtype=int)
c = np.full((3,2), 3, dtype=int)
print(a)

[[1 1 1]
 [1 1 1]]


In [59]:
print(b)

[[2 2 2]
 [2 2 2]
 [2 2 2]]


In [60]:
print(c)

[[3 3]
 [3 3]
 [3 3]]


#### vstack
两个数组垂直地合并使用vstack.

In [61]:
print(np.vstack((a, b)))

[[1 1 1]
 [1 1 1]
 [2 2 2]
 [2 2 2]
 [2 2 2]]


#### hstack
两个数组水平地合并使用hstack

In [62]:
print(np.hstack((b, c)))

[[2 2 2 3 3]
 [2 2 2 3 3]
 [2 2 2 3 3]]


#### concatenate

In [63]:
# 相当于vstack
print(np.concatenate((a, b), axis=0))

[[1 1 1]
 [1 1 1]
 [2 2 2]
 [2 2 2]
 [2 2 2]]


In [64]:
# 相当于hstack
print(np.concatenate((b, c), axis=1))

[[2 2 2 3 3]
 [2 2 2 3 3]
 [2 2 2 3 3]]


#### numpy.r\_,  numpy.c_

In [65]:
# 相当于vstack
print(np.r_[a,b])

[[1 1 1]
 [1 1 1]
 [2 2 2]
 [2 2 2]
 [2 2 2]]


In [66]:
# 相当于hstack
print(np.c_[b,c])

[[2 2 2 3 3]
 [2 2 2 3 3]
 [2 2 2 3 3]]


#### stack

In [67]:
d = np.full((3,3), 5, dtype=int)
print(d)
print("shape:", d.shape)

[[5 5 5]
 [5 5 5]
 [5 5 5]]
shape: (3, 3)


In [68]:
print(b)
print("shape:", d.shape)

[[2 2 2]
 [2 2 2]
 [2 2 2]]
shape: (3, 3)


In [69]:
# stack中的数组必须是同一维度, 合并后会增加维度
e = np.stack((b,d))
print(e)
print("shape:", e.shape)

[[[2 2 2]
  [2 2 2]
  [2 2 2]]

 [[5 5 5]
  [5 5 5]
  [5 5 5]]]
shape: (2, 3, 3)


### 1.3.8 numpy数组的拆分

In [70]:
mat = random.randint(9, size=(3,2))
mat

array([[6, 1],
       [2, 3],
       [4, 7]])

In [71]:
# 垂直拆分
a, b, c = np.vsplit(mat, 3)

In [72]:
a

array([[6, 1]])

In [73]:
b

array([[2, 3]])

In [74]:
c

array([[4, 7]])

In [75]:
# 或者使用split, 第二个参数表示要拆分的位置, aixs=0表示垂直拆分
a, b, c = np.split(mat, [1,2], axis=0)

In [76]:
a

array([[6, 1]])

In [77]:
b

array([[2, 3]])

In [78]:
c

array([[4, 7]])

In [79]:
# 水平拆分
d, e = np.hsplit(mat, 2)

In [80]:
d

array([[6],
       [2],
       [4]])

In [81]:
e

array([[1],
       [3],
       [7]])

In [82]:
# 或者使用split, aixs=1表示水平拆分 
d, e = np.split(mat, [1], axis=1)

In [83]:
d

array([[6],
       [2],
       [4]])

In [84]:
e

array([[1],
       [3],
       [7]])

### 1.3.8 numpy数组的复制

In [85]:
a = np.arange(6).reshape(2,3)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [86]:
# 传递的是view, 此时a,b都是这个数组的引用
b = a
b

array([[0, 1, 2],
       [3, 4, 5]])

In [87]:
# 此时更改b的值, a也会随之变化
b[1][2] = 10
print(b)

[[ 0  1  2]
 [ 3  4 10]]


In [88]:
print(a)

[[ 0  1  2]
 [ 3  4 10]]


numpy中有些操作返回的是一个copy有些返回的是view, 请参考:[Views versus copies in NumPy](http://scipy-cookbook.readthedocs.io/items/ViewsVsCopies.html)

### 1.3.9 numpy数组的条件过滤

In [89]:
mat = random.rand(3,3)
mat

array([[ 0.14043227,  0.75344289,  0.40891204],
       [ 0.82609219,  0.02492285,  0.84823184],
       [ 0.54483291,  0.05260413,  0.59534752]])

In [90]:
mat > 0.5

array([[False,  True, False],
       [ True, False,  True],
       [ True, False,  True]], dtype=bool)

In [91]:
print(mat[mat > 0.5])

[ 0.75344289  0.82609219  0.84823184  0.54483291  0.59534752]


### 1.3.10 numpy数组的repeat操作

In [92]:
vec = np.arange(3)
vec

array([0, 1, 2])

In [93]:
# 每个元素重复三次
vec.repeat(3)

array([0, 0, 0, 1, 1, 1, 2, 2, 2])

In [94]:
# 每个元素分别重复 1, 2, 3 次
vec.repeat([1,2,3])

array([0, 1, 1, 2, 2, 2])

In [95]:
mat = np.array([[1,2,3], [4,5,6]])
mat

array([[1, 2, 3],
       [4, 5, 6]])

In [96]:
# 按行重复
mat.repeat(2, axis=0)

array([[1, 2, 3],
       [1, 2, 3],
       [4, 5, 6],
       [4, 5, 6]])

In [97]:
# 按列重复
mat.repeat(2, axis=1)

array([[1, 1, 2, 2, 3, 3],
       [4, 4, 5, 5, 6, 6]])

### 1.3.11 排序

In [98]:
vec = random.randn(5)
vec

array([-0.42276643, -0.33857089,  1.12737913,  0.15105995,  0.19044078])

In [99]:
vec.sort()
vec

array([-0.42276643, -0.33857089,  0.15105995,  0.19044078,  1.12737913])

In [100]:
mat = random.randn(3,4)
mat

array([[-0.14240019,  0.22755077,  0.76414086,  1.01641823],
       [ 0.25409315,  1.29920282, -1.39951777,  0.90843587],
       [ 0.78007965, -0.10729866,  0.59251169, -0.21436073]])

In [101]:
# 按列进行排序
mat.sort(axis=1)
mat

array([[-0.14240019,  0.22755077,  0.76414086,  1.01641823],
       [-1.39951777,  0.25409315,  0.90843587,  1.29920282],
       [-0.21436073, -0.10729866,  0.59251169,  0.78007965]])

In [102]:
mat = random.randn(3,4)
mat

array([[-1.72306248,  0.08787925,  0.51042763, -0.11376183],
       [-0.16416724,  1.37180559,  0.57797922, -0.71067173],
       [-0.10491926, -0.0489557 , -0.74936499, -0.82221926]])

In [103]:
# 按行进行排序
mat.sort(axis=0)
mat

array([[-1.72306248, -0.0489557 , -0.74936499, -0.82221926],
       [-0.16416724,  0.08787925,  0.51042763, -0.71067173],
       [-0.10491926,  1.37180559,  0.57797922, -0.11376183]])

In [104]:
mat = random.randn(3,4)
mat

array([[-1.08914737,  1.04894066, -0.5993054 , -0.18911577],
       [-0.4460103 , -1.94114119,  0.26958927,  0.07422035],
       [ 0.34591742, -0.47580854, -1.2617504 , -1.20786865]])

In [105]:
# 按所有元素进行排序
mat.sort()
mat

array([[-1.08914737, -0.5993054 , -0.18911577,  1.04894066],
       [-1.94114119, -0.4460103 ,  0.07422035,  0.26958927],
       [-1.2617504 , -1.20786865, -0.47580854,  0.34591742]])