# numpy
Numpy是Numerical Python的简写，是Python数值计算的基石。它提供多种数据结构、算法以及大部分设计Python数值计算所需的接口。包括：
- 快速高效的多维数组对象ndarray
- 基于元素的数组计算或数组间数学操作函数
- 用于读写硬盘中基于数组的数据集的工具
- 线性代数操作、傅里叶变换以及随机数生成
- 成熟的C语言API，允许Python扩展和本地的C或C++代码访问Numpy的数据结构和计算设施
- 在算法和库之间作为数据传递的数据容器。对于数值数据的存储和操作比Python内建数据结构更高效
- 用底层语言编写的库，可以在Numpy数组存储的数据上直接操作，而无须将数据复制到其他内存中后再操作

## 创建一维数组
数组元素类型必须相同。
```
numpy.array(tuple|list)
```

In [1]:
import numpy as np
a = np.array([1, 2, 3, 4])
print(a)

[1 2 3 4]


### 数组的数据类型


 | 数据类型 | 类型代码 | 描述 |
 | :------- | :------- | :--- |
 | int_    |       | 默认的语言类型，类似C语言中的long,int32或int64 |
 | intc    |       | 与C的int类型一样，一般是int32或int64        |
 | int8    | i1     | 一个字节的有符号整数，-128 to 127          |
 | int16   | i2     | 2个字节的有符号整数，-32768 to 32767        |
 | int32   | i4     | 4字节有符号整数，-2147483648 to 2147483647    |
 | int64   | i8     | 8字节的有符号整数，-9223372036854775808 to 9223372036854775807 |
 | uint8   | u1     | 1个字节的无符号整数,0 to 255             |
 | uint16  | u2      | 2字节无符号整数，0 to 65535  |
 | uint32  | u4      | 4字节无符号整数，0 to 4294967295 |
 | uint64  | u8      | 8字节无符号整数，0 to 18446744073709551615 |
 | float_  |        | float64的简写  |
 | float16 | f2      | 半精度浮点数 |
 | float32 | f4或f    | 单精度浮点数 |
 | float64 | f8或d    | 双精度浮点数 |
 | complex_  |       | complex128的简写 |
 | complex64 | c8     | 复数，双32位浮点数（实数部分和虚数部分） |
 | complex128 | c16    | 复数，双64位浮点数（实数部分和虚数部分） |
 | string_   | S     | ASCII字符串，例如S7表示长度为7的ASCII字符串 |
 | unicode_  | U      | unicode字符串，U5表示长度为5的unicode编码的字符串 |
 | bool_    |       | boolean，True or False


In [15]:
print(a, a.dtype)

[1 2 3 4] int32


In [19]:
# 指定数据类型为int64
b = np.array([1, 4, 7, 9], dtype=np.int64)
# 或者使用类型代码
b = np.array([1, 8, 10], dtype='i8')
# 转为字符串
b = np.array([3, 5], dtype=np.unicode_)
print(b, b.dtype)

['3' '5'] <U1


> 其他生成一维数组的方法

### arange函数
创建数值范围并返回数组对象
```
# 包含start,不包含stop
numpy.arange(start, stop, step, dtype)
```
### linspace函数
创建等差数组
```
# num设置生成的元素个数，endpoint设置是否包含结束值，True包含（默认）/False不包含，retstep设置是否返回步长（即公差），True返回/False不返回（默认），为True时返回值是二元组，包括数组和步长
numpy.linspace(start, stop, num, endpoint, retstep)
```

### logspace函数
创建等比数组
```
#开始值为base**start,结束值为base**stop
numpy.logspace(start, stop, num, endpoint, base, dtype)
```

In [26]:
a = np.linspace(0, 20, 5, True, True)
print(a)
b = np.linspace(0, 20, 5, False, True)
print(b)
b = np.linspace(0, 20, 5)
print(b)

# 开始值为2**1，结束值为2**8
a = np.logspace(1, 8, 5, True, 2, np.int64)
print(a)

(array([ 0.,  5., 10., 15., 20.]), 5.0)
(array([ 0.,  4.,  8., 12., 16.]), 4.0)
[ 0.  5. 10. 15. 20.]
[  2   6  22  76 256]


## 创建二维数组

In [27]:
b = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
print(b)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


### 数组转置
相当于行列翻转


In [28]:
a = np.array([
    [1, 2, 3],
    [4, 5, 6]
])
b = a.T
print(b)

[[1 4]
 [2 5]
 [3 6]]


> 其他生成二维数组的方法

### ones函数
根据指定的形状和数据类型生成值全为1的数组
```
# shape是数组的形状
numpy.ones(shape, dtype=None)
```
### zeros函数
根据指定的形状和数据类型生成值全为0的数组
```
numpy.zeros(shape, dtype=None)
```
### full函数
根据指定的形状和数据类型生成数组，并用指定数据填充
```
# fill_value是填充的数据
numpy.full(shape, fill_value, dtype=None)
```
### identity函数
创建单位矩阵（即0轴索引和1轴索引相等,对角线元素为1，其他元素为0的矩阵）
```
# n是数组形状
numpy.identity(n, dtype=None)
```

In [37]:
# ones函数:创建2行3列值全为1的二维数组
a = np.ones([2, 3], dtype=np.int32)
print(a)
b = np.zeros([2, 3])
print(b)
c = np.full([2, 3], 9)
print(c)
# 行列数相等
d = np.identity(4)
print(d)

[[1 1 1]
 [1 1 1]]
[[0. 0. 0.]
 [0. 0. 0.]]
[[9 9 9]
 [9 9 9]]
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


## 索引访问

- 一维数组的索引访问与python相同：arr[index]
- 二维数组的索引访问：arr[x][y]或arr[x, y],x为0轴索引即行，y为1轴索引即列
- 索引下标第一位是0，最后一位是-1



In [39]:
print(d[3, 2])
print(d[3][2])


0.0
0.0


## 切片访问

浅层复制：切片出来的值修改会影响源数组

In [64]:
# 一维数组的切片访问与python列表切片相同
a = np.array([1, 2, 3, 4, 5])
print(a[1:4], a.shape)
# 二维数组的切片访问：arr[0轴切片, 1轴切片]
b = np.array([
    [1, 2, 3, 4, 5],
    [6, 7, 8, 9, 10],
    [11, 12, 13, 14, 15]
])
print(b.shape)
c = b[1:2, 2:3]
# 二维数组切出来的也是二维数组
print(c, c.shape)
print(b[:, 1:4])
# 0轴切片，1轴取值，得到一维数组
print(b[:, 3])
print(b[1, :])

# 切片的值修改会影响源数组
c[0][0] = 10
print(c)
print(b)

d = a[2:4]
d[0] = 20
print(d)
print(a)



[2 3 4] (5,)
(3, 5)
[[8]] (1, 1)
[[ 2  3  4]
 [ 7  8  9]
 [12 13 14]]
[ 4  9 14]
[ 6  7  8  9 10]
[[10]]
[[ 1  2  3  4  5]
 [ 6  7 10  9 10]
 [11 12 13 14 15]]
[20  4]
[ 1  2 20  4  5]
[22, 3] [1, 2, 3]


## 布尔索引
深层复制:在新空间中完成，修改不会影响源数组

In [67]:
a = np.array([1, 2, 3, 4])
b = np.array([True, False, True, False])
# 索引数组的形状必须与源数组形状一致
c = a[b]
print(c)
c[0] = 10
print(a, b, c)

a2 = np.array([
    [2, 4, 9],
    [2, 5, 10]
])
b2 = np.array([
    [True, False, False],
    [False, True, True]
])
# 输出一维数组
print(a2[b2])

[1 3]
[1 2 3 4] [ True False  True False] [10  3]
[ 2  5 10]


## 花式索引

In [73]:
# 一维数组的花式索引
a = np.array([6, 29, 10, 33, 66])
# 整数列表作为索引
b = [2, 3]
print(a[b]) # b的每个元素作为a的下标
# 一维数组作为索引
print(a[np.array([2, 3])])
# 二维数组作为索引
b2 = np.array([
    [1, 3],
    [2, 4]
])
print(a[b2]) # 返回二维数组，值依次从a里取

[10 33]
[10 33]
[[29 33]
 [10 66]]


In [78]:
# 二维数组的花式索引
a2 = np.array([
    [4, 10, 9],
    [17, 23, 98],
    [12, 34, 19]
])
# 一维数组作为索引
m = [1, 2]
n = [0, 1]
print(a2[m, n]) # 返回一维数组[a2[1][0], a2[2][1]]
print(a2[m][n]) # 先取a2[m],得到后两行，再从得到的结果上取result[n]
print(a2[m, 2]) # 取a2[1][2],a2[2][2]

# 二维数组作为索引
m = np.array([
    [1, 1],
    [2, 0]
])
n = np.array([
    [2, 0],
    [1, 2]
])
print(a2[m, n]) # 返回二维数组,用m和n的元素一一对应a2的下标
print(a2[m, 2])

[17 34]
[[17 23 98]
 [12 34 19]]
[98 19]
[[98 17]
 [34  9]]
[[98 98]
 [19  9]]


## 连接数组

### concatenate()函数
```
# a1,a2是要连接的数组，除了指定轴外，其他轴的元素个数必须相同
# axis是延指定轴的索引，默认为0轴
numpy.concatenate((a1, a2, ...), axis)
```

### vstack函数
沿垂直堆叠多个数组，相当于concatenate的axis=0的情况
```
numpy.vstack((a1, a2))
```

### hstack函数
沿水平堆叠多个数组，相当于concatenate的axis=1的情况
```
numpy.hstack((a1, a2))
```

In [84]:
a = np.array([
    [1, 2]
])
b = np.array([
    [3, 4]
])
print(np.concatenate((a, b))) # 默认沿0轴堆叠,1行+1行=2行
print(np.concatenate((a, b), axis=1)) # 沿1轴堆叠，2列+2列=4列
print(np.vstack((a, b)))
print(np.hstack((a, b)))

[[1 2]
 [3 4]]
[[1 2 3 4]]
[[1 2]
 [3 4]]
[[1 2 3 4]]


## 分割数组

### split()函数
沿指定轴分割多个数组
```
# arr是要分割的数组
# indices_or_sections可以是整数或数组。如果是整数就用该数平均分割，如果是数组，则沿指定轴切片操作
# axis 指轴的分割方向，默认0轴
numpy.split(arr, indices_or_sections, axis)
```
### vsplit函数
相当于split的axis=0的情况

### hsplit函数
相当于split的axis=1的情况


In [102]:
a = np.arange(10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [91]:
b = np.split(a, [0, 1, 2])
print(b)
print(len(b))
print(np.split(a, [2, 8]))

[array([], dtype=int32), array([0]), array([1]), array([2, 3, 4, 5, 6, 7, 8, 9])]
4
[array([0, 1]), array([2, 3, 4, 5, 6, 7]), array([8, 9])]


In [98]:
b = np.split(a, np.array([2, 8]))
print(b)

[array([0, 1]), array([2, 3, 4, 5, 6, 7]), array([8, 9])]


In [107]:
a = np.array([
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12],
    [13, 14, 15, 16]
])
b = np.split(a, 4) # 分成4个数组,每个都是1行4列的二维数组。分成的数组个数必须整除元素个数
print(b)
print(b[0].shape)
c = np.split(a, 4, axis=1) # 分成4个数组，每个都是4行1列的二维数组
print(c)
print(c[0].shape)


[array([[1, 2, 3, 4]]), array([[5, 6, 7, 8]]), array([[ 9, 10, 11, 12]]), array([[13, 14, 15, 16]])]
(1, 4)
[array([[ 1],
       [ 5],
       [ 9],
       [13]]), array([[ 2],
       [ 6],
       [10],
       [14]]), array([[ 3],
       [ 7],
       [11],
       [15]]), array([[ 4],
       [ 8],
       [12],
       [16]])]
(4, 1)


In [115]:
a = np.array([
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12],
    [13, 14, 15, 16]
])
b = np.array([1, 2])
print(np.split(a, b)) # 按b沿0轴切片，即切片：a[1:2]
print(np.split(a, b, axis=1)) # 沿1轴切片a[:, 1:2]

[array([[1, 2, 3, 4]]), array([[5, 6, 7, 8]]), array([[ 9, 10, 11, 12],
       [13, 14, 15, 16]])]
[array([[ 1],
       [ 5],
       [ 9],
       [13]]), array([[ 2],
       [ 6],
       [10],
       [14]]), array([[ 3,  4],
       [ 7,  8],
       [11, 12],
       [15, 16]])]
[[5 6 7 8]]


## 数组的算术运算


In [119]:
a = np.array([1, 2, 3])
b = np.array([3, 4, 5])

# + 把对应位置的元素相加
print(a + b)

[4 6 8]


In [120]:
print(a ** 2)

[1 4 9]


In [121]:
print(a * 3)

[3 6 9]


In [123]:
# 二维数组的算术运算
a = np.array([
    [1, 2],
    [3, 4]
])
b = np.array([
    [4, 7],
    [5, 10]
])
print(a + b)
print(a ** 2)

[[ 5  9]
 [ 8 14]]
[[ 1  4]
 [ 9 16]]


## 数组广播

数组和标量进行算术运算，相当于先将标量广播为与数组形状相同的数组，再进行2个数组的算术运算。

In [125]:
a = np.array([1, 2, 3])
print(a + 2) # 广播为[2, 2, 2]

[3 4 5]


In [126]:
# 先比较形状 ： (2,) vs (2, 2) 
# 再比较维度: 一维数组 vs 二维数组，a广播为2维数组=》(1, 2) vs (2, 2)
# 再比较轴长度: 0轴长度为1(轴长度为1，可广播) vs 0轴长度为2， a广播为0轴长度为2 =》 array([[1, 2], [1, 2]]) 
a = np.array([1, 2]) 
b = np.array([
    [3, 4],
    [5, 6]
])
print(a + b)


[[4 6]
 [6 8]]


In [127]:
a = np.array([1, 2]) # 广播为：array([[1, 2],[1, 2]])
b = np.array([  # 广播为：array([[3, 3], [4, 4]])
    [3],
    [4]
])
print(a + b)

[[4 5]
 [5 6]]


## 随机数函数

### rand函数
返回[0.0,1.0)的随机浮点数,>=0 且 < 1

### randint()

返回[low, high)的随机整数，如果high省略，返回[0, low)的随机整数

```
# size表示数组形状，传元组
numpyt.random.randint(low, high, size, dtype)
```

### normal
返回正态分布随机数
```
# loc表示平均值
# scale表示标准差
# size表示形状
numpy.random.normal(loc, scale, size)
```

### randn()
返回标准正态分布随机数，即平均数为0，标准差1的正态分布随机数
```
numpy.random.randn(d0, d1,.....)
```



In [130]:
a = np.random.rand(10) # 10个随机数，>=0且<1
print(a)
print(a.shape)

[0.54436198 0.93614277 0.52305208 0.09284249 0.3293429  0.95387374
 0.02654216 0.6297645  0.65220802 0.3123867 ]
(10,)


In [131]:
a = np.random.rand(3, 4) # 3行4列
print(a)
print(a.shape)

[[0.02861354 0.28209082 0.46717515 0.10713823]
 [0.71288506 0.24743799 0.93352946 0.47373742]
 [0.03917216 0.32659781 0.93069749 0.30354448]]
(3, 4)


In [133]:
a = np.random.randint(1, 20, 5)
print(a)

[14 10  2  4 14]


In [135]:
print(np.random.randint(3, size=(5,)))

[1 1 2 0 2]


In [136]:
print(np.random.randint(3, 5, size=(3, 4)))

[[4 4 4 3]
 [3 3 4 4]
 [3 3 4 3]]


In [139]:
print(np.random.normal(10, 1, size=(3, 4)))

[[ 9.75148968 12.77952529 11.05078786 10.94168447]
 [10.93317771 10.08505066 11.29650679  8.5710365 ]
 [ 8.43806269  7.87744513  9.30756949 12.15621782]]


In [141]:
print(np.random.randn(3, 4))

[[ 1.57977677 -0.28812567 -0.5147047   0.956609  ]
 [ 0.04196001  1.89789459 -0.83070987  0.68127608]
 [-0.11236122 -0.14385129  0.90473287 -2.45657891]]


## 排序函数

### sort函数
按照轴对数组进行排序
```
# a表示要排序的数组
# 表示排序的轴索引，-1表示最后一个轴
# kind:quiksort-快速排序，heapsort-堆排序，mergesort-归并排序
# order表示排序字段
numpy.sort(a, axis=-1, kind='quiksort', order=None)
```
### argsort
按照轴对数组进行排序索引，即轴排序索引。最终结果是元素对应的索引
```
numpy.argsort(a, axis=-1, kind='quiksort', order=None)
```


In [143]:
a = np.random.randint(1, 30, size=(3, 4))
print(a)

[[26 21 22 10]
 [ 6  7 13 25]
 [ 7 29 17  3]]


In [145]:
print(np.sort(a, axis=-1)) # 按1轴排序

[[10 21 22 26]
 [ 6  7 13 25]
 [ 3  7 17 29]]


In [146]:
print(np.sort(a, axis=0)) # 按0轴排序

[[ 6  7 13  3]
 [ 7 21 17 10]
 [26 29 22 25]]


In [148]:
print(a) # 原数组
print(np.argsort(a)) # 返回排序后的索引

[[26 21 22 10]
 [ 6  7 13 25]
 [ 7 29 17  3]]
[[3 1 2 0]
 [0 1 2 3]
 [3 0 2 1]]


## 聚合函数

### 求和
```
numpy.sum(a, axis=None)
# 会忽略NaN
numpy.nansum(a, axis=None)
# 使用数组对象的sum方法
ndarray.sum(axis=None)
```
### 求最大值
```
numpy.amax(a, axis=None)
numpy.nanmax(a, axis=None)
ndarray.max(axis=None)

```
### 求最小值
```
numpy.amin(a, axis=None)
numpy.nanmin(a, axis=None)
ndarray.min(axis=None)
```

### 求平均值
```
numpy.mean(a, axis=None)
numpy.nanmean(a, axis=None)
ndarray.mean(axis=None)

```
### 求加权平均值
```
# weights表示权重
numpy.average(a, axis=None, weights=None)

```



In [171]:
a = np.array([
    [2, 3],
    [4, 5]
])
print(np.sum(a))
print(np.sum(a, axis=1))
print(a.sum())
print(np.amax(a, axis=1))
print(a.max())
print(np.amin(a))
print(a.min())
print(np.mean(a))
print(a.mean())
print(np.average(a, axis=None, weights=[[0.6, 0.1],[0.1, 0.2]]))

14
[5 9]
14
[3 5]
5
2
2
3.5
3.5
2.9


In [167]:
a = np.array([
    [2, 3],
    [4, np.nan]
])
print(np.nansum(a))
print(np.sum(a))
print(np.nanmax(a, axis=1))
print(np.nanmin(a))
print(np.nanmean(a))

9.0
nan
[3. 4.]
2.0
3.0


## 数组的保存

### save函数
将1个数组保存到后缀名为“.npy”的二进制文件中
```
# file:目标文件
# allow_pickle:是否允许使用pickle来保存数组对象
# fix_imports:是否允许在python2中读取python3保存的数据
numpy.save(file, arr, allow_pickle=True, fix_imports=True)
```
### savez函数
将多个数组保存到未压缩的后缀名为“.npz”的二进制文件中
```
# array_a,array_b是键，a1 a2是要保存的数组
numpy.savez(file, array_a=a1, array_b=a2)
```
### savez_compressed函数
将多个数组保存到压缩的后缀名为“.npz”的二进制文件中
```
numpy.savez_compressed(file, array_a=a1, array_b=a2)
```
## 数组的读取
### load函数
读取".npy"和".npz"文件中的数组
```
# mmap_mode:内存映射模式，即读取较大的numpy数组时的模式，默认为None
numpy.load(file, mmap_mode, allow_pickle, fix_imports)
```