# Numpy课程

In [1]:
list1 = [[1, 2, 3, 4, 5], [11, 22, 33, 44, 55], [12, 13, 14, 15, 16]]
list1*2

[[1, 2, 3, 4, 5],
 [11, 22, 33, 44, 55],
 [12, 13, 14, 15, 16],
 [1, 2, 3, 4, 5],
 [11, 22, 33, 44, 55],
 [12, 13, 14, 15, 16]]

In [2]:
import numpy as np

## 1. 创建数组

In [3]:
array1 = np.array(list1) # use list to convert
array1

array([[ 1,  2,  3,  4,  5],
       [11, 22, 33, 44, 55],
       [12, 13, 14, 15, 16]])

## 2. 数组的基本属性

### 2.1 查看数组的大小（元素个数）

In [4]:
array1.size

15

### 2.2 查看数组的尺寸

In [5]:
array1.shape

(3, 5)

### 2.3 查看数组的维度

In [6]:
array1.ndim

2

### 2.4 查看数组的数据类型

In [7]:
array1.dtype

dtype('int32')

## 3. 创建特殊数组

### 3.1 等差数列

#### np.linspace()方法

`np.linspace(start, stop, num, endpoint)`:
1. start: 起点
2. stop: 终点
3. num: 生成的数据量
4. endpoint: 生成的数据中是否包含终止点

In [8]:
np.linspace(1, 10, num=10, endpoint=True)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

#### np.arange()方法

`np.arange(start, end, step)`:
1. start: 起点
2. stop: 终点
3. step: 步长/公差

In [9]:
np.arange(2, 10, 2) # [2, 10)

array([2, 4, 6, 8])

### 3.2 等比数列

base: 公比/底数

In [10]:
np.logspace(start=1, stop=10, num=10, endpoint=True, base=2) # [base^start, base^stop]

array([   2.,    4.,    8.,   16.,   32.,   64.,  128.,  256.,  512.,
       1024.])

### 3.3 案例 - 定积分

In [11]:
def intergral_sin(func, left: float, right: float, scale: int=100000) -> float:
    x = np.linspace(left, right, num=scale)
    y = np.abs(func(x))
    width = (right - left) / scale
    return np.sum(y * width)
print("The area enclosed by 'y=sin(x)' from 0 to 2*pi is:", intergral_sin(np.sin, 0, 2*np.pi))

The area enclosed by 'y=sin(x)' from 0 to 2*pi is: 3.9999599996710096


### 3.4 生成全零数组

In [12]:
np.zeros((3, 4)) # 生成指定尺寸的全零数组

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [13]:
np.zeros_like(array1) # 生成和某个数组尺寸一致的全零数组

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

### 3.5 生成全1数组

In [14]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [15]:
np.ones_like(array1)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

### 3.6 生成单位矩阵

In [16]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

### 3.7 生成对角矩阵

In [17]:
np.diag([2, 3, 4, 5])

array([[2, 0, 0, 0],
       [0, 3, 0, 0],
       [0, 0, 4, 0],
       [0, 0, 0, 5]])

In [18]:
np.diag([2, 3, 4, 5], 1)

array([[0, 2, 0, 0, 0],
       [0, 0, 3, 0, 0],
       [0, 0, 0, 4, 0],
       [0, 0, 0, 0, 5],
       [0, 0, 0, 0, 0]])

### 练习

In [19]:
array1 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [11, 12, 13, 14], [22, 25, 28, 29]])

In [20]:
array1 -= np.diag([1, 1, 1, 1])
array1

array([[ 0,  2,  3,  4],
       [ 5,  5,  7,  8],
       [11, 12, 12, 14],
       [22, 25, 28, 28]])

In [21]:
array1 += np.diag([1, 2, 3, 4])
array1

array([[ 1,  2,  3,  4],
       [ 5,  7,  7,  8],
       [11, 12, 15, 14],
       [22, 25, 28, 32]])

In [22]:
array1 -= np.diag([2, 2, 2], 1) # np.eye(4, k=1)*2
array1

array([[ 1,  0,  3,  4],
       [ 5,  7,  5,  8],
       [11, 12, 15, 12],
       [22, 25, 28, 32]])

### 3.9 生成随机数

#### 生成无约束条件的随机数

In [23]:
np.random.random()

0.19085773680927154

In [24]:
np.random.random(size=(4, 4))

array([[0.33326631, 0.99691881, 0.69570824, 0.28449618],
       [0.82255258, 0.06366261, 0.29242071, 0.57931196],
       [0.21435522, 0.55020686, 0.50064097, 0.50692347],
       [0.7794881 , 0.85775694, 0.13988046, 0.9989722 ]])

#### 生成指定分布的随机数

In [25]:
np.random.rand(4, 4) # 生成均匀分布的随机数

array([[0.13540855, 0.35410819, 0.1568377 , 0.03828139],
       [0.40762783, 0.62254007, 0.61532475, 0.71710555],
       [0.54574225, 0.30335304, 0.97747923, 0.65894413],
       [0.17913394, 0.86202   , 0.04157563, 0.46170288]])

In [26]:
np.random.randn(4, 4) # 正态分布的随机数：mean=0, var=1

array([[-0.9067631 ,  2.43635581, -1.69209919, -0.30894239],
       [ 0.17642365,  1.72668516,  1.11671961, -0.32636958],
       [-0.22192124,  0.70223612, -0.44704243, -2.05838643],
       [ 0.62678035, -1.69465323,  0.13285324,  1.34267532]])

#### 生成随机整数

In [27]:
np.random.randint(low=5, high=None, size=(3, 3)) # 当 high=None, [0, low)

array([[3, 4, 2],
       [1, 3, 0],
       [3, 4, 2]])

In [28]:
np.random.randint(low=5, high=10, size=(3, 3)) # 当 high!=None, [low, high)

array([[6, 6, 7],
       [6, 5, 6],
       [8, 5, 5]])

#### 指定随机种子数固定随机数的生成结果

In [29]:
np.random.seed(1234)
np.random.randint(low=5, high=10, size=(3, 3))

array([[8, 9, 9],
       [5, 6, 6],
       [6, 7, 8]])

## 4. 数据的存储与读取

In [30]:
array2 = np.random.rand(3, 3)
array2

array([[0.81516293, 0.15881535, 0.11613783],
       [0.01290753, 0.48683344, 0.33101543],
       [0.80263957, 0.09825194, 0.05599345]])

### 4.1 二进制文件的存储与读取

#### 单个数组文件的存储

In [31]:
np.save('../data/array2', array2) # 在存储文件时，支持不写文件后缀，会自动加上npy

#### 单个数组文件的读取

In [32]:
np.load('../data/array2.npy')

array([[0.81516293, 0.15881535, 0.11613783],
       [0.01290753, 0.48683344, 0.33101543],
       [0.80263957, 0.09825194, 0.05599345]])

#### 多个数组文件的存储

In [33]:
array3 = np.random.randint(low=5, size=(3, 3))
array3

array([[3, 4, 2],
       [2, 3, 3],
       [0, 1, 3]])

In [34]:
np.savez('../data/all_array', arr2=array2, arr3=array3) # 在存储文件时，支持不写后缀，会自动加上npz

#### 多个数组文件的读取

In [35]:
array_file = np.load('../data/all_array.npz')

In [36]:
array_file.files

['arr2', 'arr3']

In [37]:
array_file['arr2'] # 根据数组名称获取相应的数组内容

array([[0.81516293, 0.15881535, 0.11613783],
       [0.01290753, 0.48683344, 0.33101543],
       [0.80263957, 0.09825194, 0.05599345]])

In [38]:
array_file['arr3']

array([[3, 4, 2],
       [2, 3, 3],
       [0, 1, 3]])

### 4.2 文件文件的存储和读取

#### 文件的存储

In [39]:
np.savetxt('../data/array.txt', array3, fmt='%d') # fmt: 存储数据的精度

#### 文件的读取

In [40]:
np.loadtxt('../data/array.txt')

array([[3., 4., 2.],
       [2., 3., 3.],
       [0., 1., 3.]])

### 练习

In [41]:
array1 = np.random.rand(3, 3) * 10
array1

array([[9.87139302, 1.1744339 , 3.93782352],
       [4.52729809, 5.38147835, 7.90622103],
       [4.65836343, 4.35332253, 5.69478657]])

In [42]:
array2 = np.random.randint(low=0, high=9, size=(3, 3))
array2

array([[1, 7, 4],
       [0, 5, 1],
       [5, 4, 0]])

In [43]:
np.random.seed(2021)
array3 = np.random.rand(3, 3) * 10
array3

array([[6.05978279, 7.33369361, 1.38947157],
       [3.12673084, 9.97243281, 1.28162375],
       [1.78993106, 7.52925429, 6.62160514]])

In [44]:
print(array1 == array3)

[[False False False]
 [False False False]
 [False False False]]


In [45]:
np.savez('../data/all_array', arr1=array1, arr2=array2)

In [46]:
all_files = np.load('../data/all_array.npz')

In [47]:
new_array1 = all_files['arr1']
new_array2 = all_files['arr2']

In [48]:
array4 = new_array1 + new_array2
array4

array([[10.87139302,  8.1744339 ,  7.93782352],
       [ 4.52729809, 10.38147835,  8.90622103],
       [ 9.65836343,  8.35332253,  5.69478657]])

## 5. 数组的索引和切片

### 5.1 关于一维数组的索引和切片

In [49]:
array4 = np.array([11, 21, 34, 51, 2, 1])
array4

array([11, 21, 34, 51,  2,  1])

#### 取出单个数值

In [50]:
print(array4[4]) # 正向索引
print(array4[-2]) # 反向索引

2
2


#### 连续取值

In [51]:
array4[1:4] # [1, 4)

array([21, 34, 51])

In [52]:
array4[0:3] # 从第一个元素开始取值

array([11, 21, 34])

In [53]:
array4[:3] # 可以省略第一个起点下标0

array([11, 21, 34])

In [54]:
array4[3:6] # 从某个元素开始取值，一直取到最后一位

array([51,  2,  1])

In [55]:
array4[3:] # 可以省略最后一个结束位置的下标

array([51,  2,  1])

#### 非连续取值
有规律

In [56]:
array4[:] # 使用切片的方式取出整个数组

array([11, 21, 34, 51,  2,  1])

In [57]:
array4[::2] # 取出奇数项

array([11, 34,  2])

In [58]:
array4[1::2] # 取出偶数项

array([21, 51,  1])

无规律

In [59]:
array4[[True, False, True, True, False, False]] # 使用布尔值索引方式进行取值

array([11, 34, 51])

### 5.2 关于二维数组的索引和切片

In [60]:
array5 = np.random.randint(100, size=(5, 5))
array5

array([[70, 33,  7,  1, 97],
       [26, 66, 48, 99, 63],
       [49, 16, 50, 54, 52],
       [93,  5, 49, 38, 14],
       [71, 85, 70, 41, 21]])

#### 取出单个数值

In [61]:
array5[2, 3]

54

In [62]:
array5[0, -1]

97

In [63]:
array5[-1, -1]

21

#### 取出指定的行、列

In [64]:
array5[2, :]

array([49, 16, 50, 54, 52])

In [65]:
array5[:, 3]

array([ 1, 99, 54, 38, 41])

#### 取出指定区域内的数据

In [66]:
array5[1:4, 1:4] # 取出中间 3x3 区域内的数据

array([[66, 48, 99],
       [16, 50, 54],
       [ 5, 49, 38]])

In [67]:
array5[:3, 2:] # 取出右上角3x3区域内的数据

array([[ 7,  1, 97],
       [48, 99, 63],
       [50, 54, 52]])

#### 非连续取值

有规律

In [68]:
array5[1::2, 1:] # 取出偶数行和第二列到最后一列的所有数据

array([[66, 48, 99, 63],
       [ 5, 49, 38, 14]])

In [69]:
array5[1::2, 1::2] # 取出偶数行和偶数列包含的所有值

array([[66, 99],
       [ 5, 38]])

无规律

In [70]:
array5[[False, True, True, False, True], :][:, [False, True, False, False, True]]

array([[66, 63],
       [16, 52],
       [85, 21]])

In [71]:
array5[[1, 2, 4], :][:, [1, 4]]

array([[66, 63],
       [16, 52],
       [85, 21]])

## 6. 数组的计算

In [72]:
array6 = np.random.randint(100, size=(3, 3))
array6

array([[25, 10, 36],
       [19, 57, 82],
       [90, 15, 40]])

### 6.1 数组和标量间的计算

In [73]:
array6 - 5

array([[20,  5, 31],
       [14, 52, 77],
       [85, 10, 35]])

### 6.2 数组和数组间的计算

In [74]:
array7 = np.eye(3)
array7

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

#### 当两个数组的尺寸一致

In [75]:
array6 + array7 # 对应元素做相关运算

array([[26., 10., 36.],
       [19., 58., 82.],
       [90., 15., 41.]])

In [76]:
array6 * array7 # 两个数组作惩罚也是对应元素相乘

array([[25.,  0.,  0.],
       [ 0., 57.,  0.],
       [ 0.,  0., 40.]])

In [77]:
array6 @ array7 # 矩阵乘法

array([[25., 10., 36.],
       [19., 57., 82.],
       [90., 15., 40.]])

#### 当两个数组的尺寸不一致时

- 规则1：如果两个数组的维度数不相同，那么小维度数组的形状会在最左边补一；
- 规则2：如果两个数组的形状在任何一个维度上都不匹配，那么数组的形状会沿着维度为1的维度扩展以匹配另一个数组的形状；
- 规则3：如果两个数组的形状在任何一个维度上都不匹配并且没有任何一个维度等于1，那么会引发异常。

In [78]:
array6

array([[25, 10, 36],
       [19, 57, 82],
       [90, 15, 40]])

In [79]:
array8 = np.array([1, 2, 3])
array8

array([1, 2, 3])

In [80]:
array6 - array8

array([[24,  8, 33],
       [18, 55, 79],
       [89, 13, 37]])

## 7. 数组尺寸修改

In [81]:
array9 = np.random.randint(100, size=(4, 3))
array9

array([[76, 53, 11],
       [19, 33, 78],
       [17, 89, 50],
       [ 7, 27, 63]])

### 7.1 修改数组形状

In [82]:
np.reshape(array9, (3, 4)) # 修改数据形状前后必须满足数组的大小不变

array([[76, 53, 11, 19],
       [33, 78, 17, 89],
       [50,  7, 27, 63]])

In [83]:
# np.reshape(array9, (3, 3)) # 错误示范

### 7.2 修改数组的维度数

#### 增加维度

In [84]:
array9.shape

(4, 3)

In [85]:
tmp_array = np.expand_dims(array9, -1)
tmp_array.shape

(4, 3, 1)

#### 删除维度

In [86]:
np.squeeze(tmp_array).shape

(4, 3)

### 7.3 数组的展平

In [87]:
array9

array([[76, 53, 11],
       [19, 33, 78],
       [17, 89, 50],
       [ 7, 27, 63]])

In [88]:
np.ravel(array9)

array([76, 53, 11, 19, 33, 78, 17, 89, 50,  7, 27, 63])

In [89]:
array9.flatten() # 默认按行展平

array([76, 53, 11, 19, 33, 78, 17, 89, 50,  7, 27, 63])

In [90]:
array9.flatten(order='F') # 按列展平

array([76, 19, 17,  7, 53, 33, 89, 27, 11, 78, 50, 63])

### 7.4 组合

#### 纵向组合

In [91]:
np.vstack([array6, array7])

array([[25., 10., 36.],
       [19., 57., 82.],
       [90., 15., 40.],
       [ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [92]:
np.concatenate([array6, array7], axis=0)

array([[25., 10., 36.],
       [19., 57., 82.],
       [90., 15., 40.],
       [ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

#### 横向组合

In [93]:
np.hstack([array6, array7])

array([[25., 10., 36.,  1.,  0.,  0.],
       [19., 57., 82.,  0.,  1.,  0.],
       [90., 15., 40.,  0.,  0.,  1.]])

In [94]:
np.concatenate([array6, array7], axis=1)

array([[25., 10., 36.,  1.,  0.,  0.],
       [19., 57., 82.,  0.,  1.,  0.],
       [90., 15., 40.,  0.,  0.,  1.]])

### 7.5 切分

#### 横向切分

In [95]:
np.vsplit(array6, 3)

[array([[25, 10, 36]]), array([[19, 57, 82]]), array([[90, 15, 40]])]

In [96]:
np.split(array6, 3, axis=0)

[array([[25, 10, 36]]), array([[19, 57, 82]]), array([[90, 15, 40]])]

#### 纵向切分

In [97]:
np.hsplit(array6, 3)

[array([[25],
        [19],
        [90]]),
 array([[10],
        [57],
        [15]]),
 array([[36],
        [82],
        [40]])]

In [98]:
np.split(array6, 3, axis=1)

[array([[25],
        [19],
        [90]]),
 array([[10],
        [57],
        [15]]),
 array([[36],
        [82],
        [40]])]

## 8. 排序

### 8.1 直接排序

In [99]:
array6

array([[25, 10, 36],
       [19, 57, 82],
       [90, 15, 40]])

In [100]:
np.sort(array6, axis=0) # 列排序

array([[19, 10, 36],
       [25, 15, 40],
       [90, 57, 82]])

In [101]:
np.sort(array6, axis=1)

array([[10, 25, 36],
       [19, 57, 82],
       [15, 40, 90]])

### 8.2 间接排序

不直接返回排序后的数组，返回排序后的数组下标

In [102]:
array10 = np.array([2, 3, 1, 7, 10, 9, 11])
array10

array([ 2,  3,  1,  7, 10,  9, 11])

In [103]:
np.argsort(array10)

array([2, 0, 1, 3, 5, 4, 6], dtype=int64)

In [104]:
array10[np.argsort(array10)] # 按照下标排序的结果对原始数据进行排序

array([ 1,  2,  3,  7,  9, 10, 11])

## 9. 去重和重复

In [105]:
array11 = np.random.randint(low=5, high=10, size=(4, 4))
array11

array([[8, 6, 9, 6],
       [6, 9, 8, 8],
       [8, 8, 7, 6],
       [8, 7, 7, 7]])

### 9.1 去重

In [106]:
np.unique(array11) # 去除数组中重复值，并且数组变为一维数组，将不同元素按照从小到大的顺序进行排序

array([6, 7, 8, 9])

### 9.2 重复

In [107]:
array10

array([ 2,  3,  1,  7, 10,  9, 11])

In [108]:
np.tile(array10, 2)

array([ 2,  3,  1,  7, 10,  9, 11,  2,  3,  1,  7, 10,  9, 11])

In [109]:
np.repeat(array10, 2) # 会进行排序

array([ 2,  2,  3,  3,  1,  1,  7,  7, 10, 10,  9,  9, 11, 11])

## 10. 数组的简单统计函数

### 10.1 求均值

In [110]:
array6

array([[25, 10, 36],
       [19, 57, 82],
       [90, 15, 40]])

In [111]:
np.mean(array6) # 如果只给定一个数组作为参数，对整个数组所有数据求均值

41.55555555555556

In [112]:
np.mean(array6, axis=0) # 针对每一列求均值 axis=0

array([44.66666667, 27.33333333, 52.66666667])

In [113]:
np.mean(array6, axis=1)

array([23.66666667, 52.66666667, 48.33333333])

### 10.2 求数组中最小元素出现的位置

In [114]:
np.argmin(array6)

1

In [115]:
np.argmin(array6, axis=1) # 返回每行中最小元素出现的位置

array([1, 0, 1], dtype=int64)

In [116]:
np.argmin(array6, axis=0) # 返回每列中最小元素的位置

array([1, 0, 0], dtype=int64)