## NumPy 使用记录

NumPy提供了两种基本的对象：
- ndarray（N-dimensional array object）：存储单一数据类型的多维数组，快速和节省空间的多维数组，提供数组化的算术运算和高级的广播功能
- ufunc（universal function object）：能够对数组进行处理的函数

资料：
- [官网](https://numpy.org/)
- [中文教程](https://www.numpy.org.cn/user/setting-up.html#%E4%BB%80%E4%B9%88%E6%98%AF-numpy)
- [NumPy基础](http://www.feiguyunai.com/index.php/2020/11/24/python-dl-baseon-pytorch-01/)

知识点：
- 如何生成NumPy数组
- 如何存取元素
- NumPy的算术运算
- 数组变形
- 批量处理
- NumPy的通用函数
- NumPy的广播机制

In [2]:
import numpy as np

### 创建数组

- 已有数据转化
- 自动生成-random
- 特殊矩阵：创建特定形状的多维数组
- 利用 arange、linspace 函数生成数组

#### 已有数据转化

In [8]:
lst1 = [3.14, 2.17, 0, 1, 2]
nd1 = np.array(lst1)
nd1, type(nd1)

(array([3.14, 2.17, 0.  , 1.  , 2.  ]), numpy.ndarray)

In [7]:
lst2 = [[3.14, 2.17, 0, 1, 2], [1, 2, 3, 4, 5]]
nd2 = np.array(lst2)
nd2, type(nd2)

(array([[3.14, 2.17, 0.  , 1.  , 2.  ],
        [1.  , 2.  , 3.  , 4.  , 5.  ]]),
 numpy.ndarray)

#### 自动生成-random

In [9]:
nd3 = np.random.random([3, 3])
nd3, nd3.shape

(array([[0.66659304, 0.5423808 , 0.84951372],
        [0.26298347, 0.42253167, 0.65971227],
        [0.3453606 , 0.5414275 , 0.18585181]]),
 (3, 3))

In [16]:
np.random.seed(123)
nd4 = np.random.randn(2, 3)
print(nd4)
np.random.shuffle(nd4)
print("随机打乱后数据:")
print(nd4)
print(type(nd4))

[[-1.0856306   0.99734545  0.2829785 ]
 [-1.50629471 -0.57860025  1.65143654]]
随机打乱后数据:
[[-1.50629471 -0.57860025  1.65143654]
 [-1.0856306   0.99734545  0.2829785 ]]
<class 'numpy.ndarray'>


#### 特殊矩阵

In [17]:
# 生成全是 0 的 3x3 矩阵
nd5 = np.zeros([3, 3])
# 生成与nd5形状一样的全0矩阵
# np.zeros_like(nd5)
# 生成全是 1 的 3x3 矩阵
nd6 = np.ones([3, 3])
# 生成 3 阶的单位矩阵
nd7 = np.eye(3)
# 生成 3 阶对角矩阵
nd8 = np.diag([1, 2, 3])

print(nd5)
print(nd6)
print(nd7)
print(nd8)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1 0 0]
 [0 2 0]
 [0 0 3]]


#### arange、linspace 函数

In [18]:
np.arange(1, 4, 0.5)

array([1. , 1.5, 2. , 2.5, 3. , 3.5])

In [19]:
np.arange(9, -1, -1)

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [20]:
np.linspace(0, 1, 10)

array([0.        , 0.11111111, 0.22222222, 0.33333333, 0.44444444,
       0.55555556, 0.66666667, 0.77777778, 0.88888889, 1.        ])

### 获取数据

In [28]:
np.random.seed(2019)
nd11 = np.arange(0, 10, 1)
nd11

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
# 获取指定位置的数据，获取第4个元素
nd11[3]

3

In [30]:
# 截取一段数据
nd11[3:6]

array([3, 4, 5])

In [31]:
# 截取固定间隔数据
nd11[1:6:2]

array([1, 3, 5])

In [32]:
# 倒序取数
nd11[::-2]

array([9, 7, 5, 3, 1])

In [33]:
# 截取一个多维数组的一个区域内数据
nd12 = np.arange(25).reshape([5, 5])
nd12

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [34]:
nd12[1:3, 1:3]

array([[ 6,  7],
       [11, 12]])

In [35]:
# 截取一个多维数组中，数值在一个值域之内的数据
nd12[(nd12 > 3) & (nd12 < 10)]

array([4, 5, 6, 7, 8, 9])

In [36]:
# 截取多维数组中，指定的行,如读取第2,3行
nd12[[1, 2]]

array([[ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [38]:
# 截取多维数组中，指定的列,如读取第2,3列
nd12[:, 1:3]

array([[ 1,  2],
       [ 6,  7],
       [11, 12],
       [16, 17],
       [21, 22]])

In [39]:
a = np.arange(1, 25, dtype=float)
a

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12., 13.,
       14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24.])

In [41]:
c1 = np.random.choice(a, size=(3, 4))  # size指定输出数组形状
c2 = np.random.choice(a, size=(3, 4), replace=False)  # replace缺省为True，即可重复抽取

### NumPy的算术运算
- 对应元素相乘
- 点积运算

In [44]:
A = np.array([[1, 2], [-1, 4]])
B = np.array([[2, 0], [3, 4]])

In [45]:
A, B

(array([[ 1,  2],
        [-1,  4]]),
 array([[2, 0],
        [3, 4]]))

In [47]:
A * B, np.multiply(A, B)

(array([[ 2,  0],
        [-3, 16]]),
 array([[ 2,  0],
        [-3, 16]]))

In [48]:
# 1*2 + 2*3,  1*0 + 2*4
# -1*2 + 4*3, -1*0 + 4*4
np.dot(A, B)

array([[ 8,  8],
       [10, 16]])

### 数组变形

数据变形是常见的操作，常见方法如下：
- reshape：重新修改向量维度，不改变自身
- resize：重新修改向量维度，改变自身
- T：转置
- ravel：多维数组变成一维数组，返回的是视图
- flatten：多维数组变成一维数组，返回的是拷贝
- squeeze：对维数为1的维度降维
- transpose：对高维矩阵进行轴兑换

#### reshape

In [49]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [50]:
arr.reshape(2, 5), arr

(array([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]]),
 array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]))

In [51]:
# 仅仅指定行数
arr.reshape(5, -1)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [52]:
# 仅仅制定列数
arr.reshape(-1, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

#### resize

In [54]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [56]:
arr.resize(2, 5)
arr

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

#### T

In [57]:
arr = np.arange(12).reshape(3, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [58]:
arr.T

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

#### ravel

In [61]:
arr = np.arange(6).reshape(2, -1)
arr

array([[0, 1, 2],
       [3, 4, 5]])

In [62]:
# 按照列优先，展平
print("按照列优先，展平")
print(arr.ravel("F"))
# 按照行优先，展平
print("按照行优先，展平")
print(arr.ravel())

按照列优先，展平
[0 3 1 4 2 5]
按照行优先，展平
[0 1 2 3 4 5]


In [63]:
arr

array([[0, 1, 2],
       [3, 4, 5]])

#### flatten

In [70]:
arr = np.floor(10 * np.random.random((3, 4)))
arr

array([[1., 4., 6., 8.],
       [2., 2., 4., 5.],
       [3., 8., 1., 4.]])

In [71]:
arr.flatten()

array([1., 4., 6., 8., 2., 2., 4., 5., 3., 8., 1., 4.])

In [72]:
arr

array([[1., 4., 6., 8.],
       [2., 2., 4., 5.],
       [3., 8., 1., 4.]])

#### squeeze

In [74]:
arr = np.arange(3).reshape(3, 1)
arr

array([[0],
       [1],
       [2]])

In [75]:
arr.shape, arr.squeeze().shape

((3, 1), (3,))

In [77]:
arr.squeeze()

array([0, 1, 2])

In [78]:
arr1 = np.arange(6).reshape(3, 1, 2, 1)
arr1

array([[[[0],
         [1]]],


       [[[2],
         [3]]],


       [[[4],
         [5]]]])

#### transpose

In [79]:
arr2 = np.arange(24).reshape(2, 3, 4)
arr2

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [80]:
print(arr2.shape)  # (2, 3, 4)
print(arr2.transpose(1, 2, 0).shape)  # (3, 4, 2)

(2, 3, 4)
(3, 4, 2)


### 合并数组

常见方法如下：
- append：内存占用大
- concatenate：无内存问题
- stack：沿着新的轴加入一系列数组
- hstack：堆栈数组垂直顺序（行）
- vstack：堆栈数组垂直顺序（列）
- dstack：堆栈数组顺序深入（沿第三维）
- vsplit：将数组分解成垂直的多个子数组的列表

Tips：
- append、concatnate以及stack都有一个 axis 参数，用于控制数组合并是按行还是按列
- 对于append和concatnate，待合并的数组必须有相同的行数或列数(满足一个即可)
- stack、hstack、dstack待合并的数组必须具有相同的形状( shape)

#### append

In [82]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
np.append(a, b)

array([1, 2, 3, 4, 5, 6])

In [85]:
a = np.arange(4).reshape(2, 2)
b = np.arange(4).reshape(2, 2)
# 按行合并
c = np.append(a, b, axis=0)
c, c.shape

(array([[0, 1],
        [2, 3],
        [0, 1],
        [2, 3]]),
 (4, 2))

#### concatenate

In [86]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])

a, b

(array([[1, 2],
        [3, 4]]),
 array([[5, 6]]))

In [88]:
np.concatenate((a, b), axis=0)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [91]:
np.concatenate((a, b.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

#### stack

In [93]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

In [94]:
np.stack((a, b), axis=0)

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

### 批量处理

In [97]:
# 生成10000个形状为2X3的矩阵
data_train = np.random.randn(10000, 2, 3)
# 这是一个3维矩阵，第一个维度为样本数，后两个是数据形状
data_train, data_train.shape

(array([[[-0.80484663,  0.46612872, -1.44621236],
         [ 0.34344202, -0.58146471, -0.76437708]],
 
        [[-1.59127599, -2.23895823, -1.57461994],
         [-0.32137786, -1.44977613, -0.48431752]],
 
        [[ 0.08909971, -0.31362951,  0.78813146],
         [ 0.07407304, -0.18889816,  0.20179455]],
 
        ...,
 
        [[ 0.84928721, -0.17633295, -0.43681772],
         [ 2.05665088, -0.02074646, -0.39053659]],
 
        [[ 1.5283772 ,  1.38182411,  0.47649531],
         [-1.46963801, -1.43336609,  0.83442668]],
 
        [[ 1.05076296, -1.35789818,  1.38286485],
         [ 0.06700552, -0.71558284,  0.53213593]]]),
 (10000, 2, 3))

In [98]:
# 打乱这10000条数据
np.random.shuffle(data_train)

In [100]:
# 定义批量大小
batch_size = 100
# 进行批处理
for i in range(0, len(data_train), batch_size):
    x_batch_sum = np.sum(data_train[i : i + batch_size])
    print("第{}批次,该批次的数据之和:{}".format(i, x_batch_sum))

第0批次,该批次的数据之和:11.273504677796081
第100批次,该批次的数据之和:-5.226160888260223
第200批次,该批次的数据之和:10.602853421213297
第300批次,该批次的数据之和:4.026118443824856
第400批次,该批次的数据之和:-8.196296068151259
第500批次,该批次的数据之和:-6.476705949778854
第600批次,该批次的数据之和:20.987047115756788
第700批次,该批次的数据之和:5.519237338533823
第800批次,该批次的数据之和:10.064035414333969
第900批次,该批次的数据之和:-9.944819140000984
第1000批次,该批次的数据之和:-29.111349371564597
第1100批次,该批次的数据之和:40.62334623278004
第1200批次,该批次的数据之和:-0.5900452726959688
第1300批次,该批次的数据之和:-1.9742702077281358
第1400批次,该批次的数据之和:18.862547008513676
第1500批次,该批次的数据之和:22.050906840794212
第1600批次,该批次的数据之和:-31.820597174786165
第1700批次,该批次的数据之和:41.56568652544743
第1800批次,该批次的数据之和:19.155735997391698
第1900批次,该批次的数据之和:-15.041967098176732
第2000批次,该批次的数据之和:-18.90938545905068
第2100批次,该批次的数据之和:-19.003711493240793
第2200批次,该批次的数据之和:12.967925181883913
第2300批次,该批次的数据之和:12.810269973436714
第2400批次,该批次的数据之和:-10.655663171721592
第2500批次,该批次的数据之和:-1.3709593004051435
第2600批次,该批次的数据之和:0.2081671431976595
第2700批次,该批次的数据之和:-6.706685020389507


### 通用函数

#### math与numpy函数的性能比较

In [103]:
import math
import time

import numpy as np

x = [i * 0.001 for i in np.arange(1000000)]
start = time.time()
for i, t in enumerate(x):
    x[i] = math.sin(t)
print("math.sin:", time.time() - start)

x = [i * 0.001 for i in np.arange(1000000)]
x = np.array(x)
start = time.time()
np.sin(x)
print("numpy.sin:", time.time() - start)

math.sin: 0.12942218780517578
numpy.sin: 0.009285211563110352


### 广播机制

In [104]:
A = np.arange(0, 40, 10).reshape(4, 1)
# 一维向量
B = np.arange(0, 3)

In [105]:
A, B

(array([[ 0],
        [10],
        [20],
        [30]]),
 array([0, 1, 2]))

In [108]:
A + B

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])