<a href="https://colab.research.google.com/github/ElwinGao4444/colab/blob/main/NumPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy介绍

NumPy是一个数学库，主要用于数组计算

NumPy与SciPy和MatPlotLib

(官方文档：https://numpy.org/doc/stable/)

In [None]:
import numpy as np

# 基础数据结构与用法
Numpy的核心数据结构为：ndarray

## 基本数据结构

（官方文档：https://numpy.org/doc/stable/user/basics.types.html）

In [None]:
# python内置的数据结构，都可以直接转化为numpy的数据结构
print(np.dtype((str,64))) # '<'表示小端模式
print(np.dtype(int))
print(np.dtype(float))

<U64
int64
float64


In [None]:
# 更常用的方法，是用dtype指定numpy的数据类型
print(np.dtype((np.str_,32)))
print(np.dtype(np.int32))
print(np.dtype(np.float32))

<U32
int32
float32


In [None]:
# 也可以用前缀字母直接指定numpy内置数据类型
print(np.dtype("S16"))  # '|'表示多种类型（不是很确定）
print(np.dtype("i2"))
print(np.dtype('f2'))

|S16
int16
float16


In [None]:
# numpy通过dtype来指定和获取数据类型
z = np.arange(3, dtype=np.uint8)
print(z.dtype)

uint8


## 数据初始化

说明：numpy的数组，要求元素类型必须统一

（官方文档：https://numpy.org/doc/stable/user/basics.creation.html）

### 直接初始化

In [None]:
# array方法
print('创建一维数组：', np.array([1,2,3]))
print('创建二维数组：', np.array([[1,2,3],[4,5,6]]))
print('创建数组时指定最小维度：', np.array([1,2,3], ndmin=2))  # 数组至少是二维的
print('创建数组时指定数据类型：', np.array([1,2,3], dtype=float)) # dtype支持数据结构的三种表达方式（详见上节）

创建一维数组： [1 2 3]
创建二维数组： [[1 2 3]
 [4 5 6]]
创建数组时指定最小维度： [[1 2 3]]
创建数组时指定数据类型： [1. 2. 3.]


In [None]:
# 构造结构体数组
student = np.dtype([('name',(str,10)), ('age',int), ('score',np.float32)])  # 使用dtype定义结构体
print('创建结构体数组：', np.array([('a',1,99),('b',2,98),('c',3,97)], dtype=student))
print('创建结构体数组（简单方式）：', np.array([('a',1,99),('b',2,98),('c',3,97)], dtype=('S16, i, f')))  # S默认是bytes类型，我们习惯上的字符串用U表示
np.array(['a','b','c'])

创建结构体数组： [('a', 1, 99.) ('b', 2, 98.) ('c', 3, 97.)]
创建结构体数组（简单方式）： [(b'a', 1, 99.) (b'b', 2, 98.) (b'c', 3, 97.)]


array(['a', 'b', 'c'], dtype='<U1')

In [None]:
# asarray方法
# asarray和array用法非常相似
# 二者最重要的区别为，asarray在转化ndarray时会共用内存，而array会新建内存
print('使用asarray对将现有结构转化为ndarray：', np.asarray([1,2,3]))

使用asarray对将现有结构转化为ndarray： [1 2 3]


### 结构初始化

In [None]:
# empty用于创建未初始化的数组（未初始化不代表全0）
print('创建一个1维空数组：', np.empty(3, dtype=int))
print('创建一个2行3列的空数组：\n', np.empty([3,2], dtype=int))

创建一个1维空数组： [0 0 0]
创建一个2行3列的空数组：
 [[0 0]
 [0 0]
 [0 0]]


In [None]:
# zeros用于创建初始化为0的数组
print('创建一个1维零数组：', np.zeros(3, dtype=int))
print('创建一个2行3列的零数组：\n', np.zeros([3,2], dtype=int))

创建一个1维零数组： [0 0 0]
创建一个2行3列的零数组：
 [[0 0]
 [0 0]
 [0 0]]


In [None]:
# ones用于创建初始化为1的数组
print('创建一个1维一数组：', np.ones(3, dtype=int))
print('创建一个2行3列的一数组：\n', np.ones([3,2], dtype=int))

创建一个1维一数组： [1 1 1]
创建一个2行3列的一数组：
 [[1 1]
 [1 1]
 [1 1]]


In [None]:
# full用于创建初始化为指定值的数组
print('创建一个1维一数组：', np.full(3, 4, dtype=int))
print('创建一个2行3列的一数组：\n', np.full([3,2], fill_value=5, dtype=int))

创建一个1维一数组： [4 4 4]
创建一个2行3列的一数组：
 [[5 5]
 [5 5]
 [5 5]]


In [None]:
# eye用于创建对角线为1其他位置为0的矩阵
print('创建一个10*10的：\n', np.eye(10, 10, dtype=int)) # 列参数（第二个参数）可以省略，默认与行参数相同生成方阵

创建一个10*10的：
 [[1 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [0 0 1 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 0 1]]


### 序列初始化

In [None]:
# arange用于按照自然数递增的顺序生成一个有序一维数组
print('创建一个自然数序列：', np.arange(0, 10, 2, dtype=int))  # 0开始，10结束（不包含），步长为2的等差数列
print('创建一个自然数序列（简单方法）：', np.arange(10)) # 起始位置默认为0，步长默认为1

创建一个自然数序列： [0 2 4 6 8]
创建一个自然数序列（简单方法）： [0 1 2 3 4 5 6 7 8 9]


In [None]:
# 等差数列
# linspace和arange的最大区别，就是linspace是否包含结尾值是可选的（默认包含），而arange不包含
print('创建一个等差数列：', np.linspace(0, 10, 6, dtype=int))  # 0开始，10结束（包含），6个样本值

创建一个等差数列： [ 0  2  4  6  8 10]


In [None]:
# 等比数列
# logspace的start和stop两个函数，指的分别是以base为底数的几次幂，而不是实际值
print('创建一个等比数列：', np.logspace(0, 2, 3, base=10, dtype=float))  # base^0开始，base^10结束（包含），3个样本值

创建一个等比数列： [  1.  10. 100.]


### 批量初始化

In [None]:
# frombuffer用于以流的形式读入数据，并转化为ndarray对象，例如：读文件
s = b'hello world'  # numpy的字符串对应python的bytes类型
print('流式读取一个buffer：', np.frombuffer(s, dtype='S1')) # 按字节读取一个流
print('流式读取一个buffer（指定起始位置和长度）：', np.frombuffer(s, dtype='S1', count=5, offset=6))

流式读取一个buffer： [b'h' b'e' b'l' b'l' b'o' b' ' b'w' b'o' b'r' b'l' b'd']
流式读取一个buffer（指定起始位置和长度）： [b'w' b'o' b'r' b'l' b'd']


In [None]:
# fromiter用于使用迭代对象创建一个一维数组
print('读取一个迭代对象：', np.fromiter(iter([1,2,3,4]), dtype=int))
print('读取一个迭代对象（读取指定个数）：', np.fromiter(iter([1,2,3,4]), dtype=int, count=3)) # 只读出3个值

读取一个迭代对象： [1 2 3 4]
读取一个迭代对象（读取指定个数）： [1 2 3]


### 随机初始化

In [None]:
# rand用于生成0-1之间的随机数序列（均匀分布）
print('生成一个0-1随机数：', np.random.rand())
print('生成一个0-1的一维随机数序列：', np.random.rand(3))
print('生成一个0-1的二维随机数序列：\n', np.random.rand(3,2))

生成一个0-1随机数： 0.9965107901594218
生成一个0-1的一维随机数序列： [0.72765165 0.82431191 0.28215474]
生成一个0-1的二维随机数序列：
 [[0.96451593 0.76874759]
 [0.81082382 0.0727731 ]
 [0.85677529 0.20022166]]


In [None]:
# random和rand的区别，在于生成高维随机数的时候，rand使用参数列表，而random使用元组
print('生成一个0-1的二维随机数序列：\n', np.random.random((3,2)))

生成一个0-1的二维随机数序列：
 [[0.98746516 0.93536111]
 [0.66831794 0.9842695 ]
 [0.90449035 0.66969608]]


In [None]:
# randint用于生成整型随机数（均匀分布）
print('生成一个随机整数：', np.random.randint(0,10))
print('生成一组随机整数序列：', np.random.randint(low=0,high=10,size=3))

生成一个随机整数： 7
生成一组随机整数序列： [1 0 6]


In [None]:
# randn用于生成满足均值为0，标准差为1的正态分布的随机数样本
print('生成一个满足正态分布的随机数：', np.random.randn())
print('生成一组满足正态分布的一维随机数序列：', np.random.randn(3))
print('生成一组满足正态分布的二维随机数序列：\n', np.random.randn(3,2))

生成一个满足正态分布的随机数： 0.7111286380370515
生成一组满足正态分布的一维随机数序列： [0.00487664 2.01400243 0.30938427]
生成一组满足正态分布的二维随机数序列：
 [[-0.44163294 -0.24773796]
 [-1.16732361 -0.07546173]
 [ 0.14603447  0.56767803]]


In [None]:
# normal相比randn，可以自己指定均值和标准差
print('生成一个满足正态分布的随机数：', np.random.normal())  # 默认以0为均值，1为标准差
print('生成一组满足正态分布的一维随机数序列：', np.random.normal(100,10,3))
print('生成一组满足正态分布的二维随机数序列：\n', np.random.normal(loc=100,scale=10,size=(3,2)))

生成一个满足正态分布的随机数： 1.1042150044165944
生成一组满足正态分布的一维随机数序列： [ 99.26892508 107.18049011  99.19827444]
生成一组满足正态分布的二维随机数序列：
 [[117.96978084  88.81451795]
 [ 92.02562663 101.12138408]
 [102.39928343  99.34266857]]


## 基础用法

### 基本属性

In [None]:
# ndim表示数组的秩，也就是维数
# shape表示每一维度的长度
# size表示总元素个数
# itemsize表示每个元素的字节数
# dtype表示数据类型
arr = np.arange(24)
print(arr.ndim, arr.shape, arr.size, arr.itemsize, arr.dtype, arr)

1 (24,) 24 8 int64 [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]


In [None]:
# 通过reshape来修改数组的结构
arr = np.arange(24)
arr = arr.reshape(2,3,4)  # 也可以直接赋值arr.shape=(2,3,4)，效果是一样的
print(arr.ndim, arr.shape, arr.size, arr.itemsize, arr.dtype)
print(arr)

3 (2, 3, 4) 24 8 int64
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


### 切片操作

In [None]:
# 一维数组切片和索引
arr = np.arange(10)
print('使用slice函数做切片：', arr[slice(2,8,2)])
print('使用冒号形式做切片：', arr[2:8:2])

使用slice函数做切片： [2 4 6]
使用冒号形式做切片： [2 4 6]


In [None]:
# 二维数组的切片与索引
arr = np.arange(15).reshape(5,3)
print('取二维数组元素的两种方式：', arr[0,0], arr[0][0])
print('使用切片操作二维数组：\n', arr[0:5:2]) # 将二维数组看作元素是一维数组的一维数组
print('通过逗号分隔，对两个维度同时切片：\n', arr[0:3:1,0:2:1]) # 取矩阵左上角3行2列的子矩阵
print('只对一个维度切片：\n', arr[::,0:2:1])
print('使用省略号化简双冒号：\n', arr[...,0:2:1])

取二维数组元素的两种方式： 0 0
使用切片操作二维数组：
 [[ 0  1  2]
 [ 6  7  8]
 [12 13 14]]
通过逗号分隔，对两个维度同时切片：
 [[0 1]
 [3 4]
 [6 7]]
只对一个维度切片：
 [[ 0  1]
 [ 3  4]
 [ 6  7]
 [ 9 10]
 [12 13]]
使用省略号化简双冒号：
 [[ 0  1]
 [ 3  4]
 [ 6  7]
 [ 9 10]
 [12 13]]


In [None]:
# 三维数组的切片与索引
arr = np.arange(24).reshape(2,3,4)
print('逗号分隔也可用于多维数组：\n', arr[::,::,::])
print('多维数组中的省略号表达，只能使用1次：\n', arr[::,...,::])

逗号分隔也可用于多维数组：
 [[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
多维数组中的省略号表达，只能使用1次：
 [[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


### 高级索引操作

In [None]:
# 整数数组索引

# 使用整数数组作为下标进行索引
arr = np.arange(10)
print('使用下标数组进行索引：', arr[[2,4,6,8]])
print('使用下标数组进行索引，并定义结果的shape：\n', arr[np.array([[2,4],[6,8]])])

# 二维数组定点取值
# 使用zip是为了让取值直观
arr = np.arange(15).reshape(5,3)
print('通过索引下标进行定点批量取值（直观方法）：', arr[tuple(zip([0,0],[1,1],[2,2]))]) # 取下标为[0,0][1,1][2,2]三个位置的去值

# 更标准的做法，应该是
row = np.array([0,1,2]) # 每个元素行的下标
col = np.array([0,1,2]) # 每个元素列的下标
print('通过索引下标进行定点批量取值（标准方法）：', arr[row,col])

使用下标数组进行索引： [2 4 6 8]
使用下标数组进行索引，并定义结果的shape：
 [[2 4]
 [6 8]]
通过索引下标进行定点批量取值（直观方法）： [0 4 8]
通过索引下标进行定点批量取值（标准方法）： [0 4 8]


In [None]:
# 把行和列分开，虽然不够直观，但当结果集需要复杂shape的时候，就表现出了它的优势
arr = np.arange(15).reshape(5,3)
rows = np.array([[0,0],[3,3]])  # rows说明了结果集的shape，与每个位置的行坐标
cols = np.array([[0,2],[0,2]])  # cols需要保持一样的shape，并说明每一个列坐标
print('通过下标取四个角元素：\n', arr[rows,cols]) # arr的取值分rows与cols是因为arr本身是二维

通过下标取四个角元素：
 [[ 0  2]
 [ 9 11]]


In [None]:
# 布尔索引
arr = np.arange(15).reshape(5,3)
print('通过布尔索引进行取值：', arr[arr>10])
print('过滤数组中的空值：', arr[~np.isnan(arr)])

通过布尔索引进行取值： [11 12 13 14]
过滤数组中的空值： [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


### 广播

In [None]:
# 广播
x = np.ones([4,4])
y = np.arange(4)
print('通过广播机制，对shape比较小的数组进行平铺：\n', x+y)

通过广播机制，对shape比较小的数组进行平铺：
 [[1. 2. 3. 4.]
 [1. 2. 3. 4.]
 [1. 2. 3. 4.]
 [1. 2. 3. 4.]]


In [None]:
# 对y的平铺过程，有专门的函数可以体现
x = np.ones([4,4])
y = np.arange(4)
print('通过tile函数来观察y平铺：\n', np.tile(y,(4,1)))  # 按行平铺4次，按列平铺1次

通过tile函数来观察y平铺：
 [[0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]]


### 迭代

In [None]:
# 对ndarray进行遍历与shape无关，numpy只会按数据的内存顺序进行迭代
arr = np.arange(15).reshape(5,3)
for i in np.nditer(arr):
  print(i, end=',')
print('')

# 可以通过指定order参数，来切换行列优先的模式
for i in np.nditer(arr, order='F'):
  print(i, end=',')
print('')

# 在遍历的时候进行修改
for i in np.nditer(arr, op_flags=['readwrite']):
  i[...] = i * 2  # 这种赋值方法没见过，原生python也不能真么用，感觉像是numpy的语法糖
print(arr)

# 广播迭代（将广播和迭代组合使用）
x = np.ones([4,4])
y = np.arange(4)
for i,j in np.nditer([x,y]):
  print('(%d, %d)' % (i,j), end=',')

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,
0,3,6,9,12,1,4,7,10,13,2,5,8,11,14,
[[ 0  2  4]
 [ 6  8 10]
 [12 14 16]
 [18 20 22]
 [24 26 28]]
(1, 0),(1, 1),(1, 2),(1, 3),(1, 0),(1, 1),(1, 2),(1, 3),(1, 0),(1, 1),(1, 2),(1, 3),(1, 0),(1, 1),(1, 2),(1, 3),

# 常用库函数

## 数组操作

### 修改数组形状

In [None]:
# 修改数组的形状
arr = np.arange(9).reshape(3,3)
print('使用reshape修改数组的形状：\n', arr)

使用reshape修改数组的形状：
 [[0 1 2]
 [3 4 5]
 [6 7 8]]


In [None]:
# flat函数可以将任何shape平坦化（一维化）
arr = np.arange(9).reshape(3,3)
print('使用flat修改数组的形状：')
for i in arr.flat:
  print(i, end=',')
print('')

使用flat修改数组的形状：
0,1,2,3,4,5,6,7,8,


In [None]:
# flatten会生成原数据的拷贝，不会对原数据产生影响
# flatten函数可以将任何shape平坦化（可调整行列优先）
arr = np.arange(9).reshape(3,3)
print('使用flatten修改数组的形状：', arr.flatten(order='F'))

使用flatten修改数组的形状： [0 3 6 1 4 7 2 5 8]


In [None]:
# ravel会返回原数据的视图（引用），其他与flatten相似
arr = np.arange(9).reshape(3,3)
print('使用ravel修改数组的形状：', arr.ravel(order='F'))

使用ravel修改数组的形状： [0 3 6 1 4 7 2 5 8]


### 翻转数组

In [None]:
arr = np.arange(9).reshape(3,3)
print('使用transpose对矩阵进行转置：\n', arr.transpose())

对矩阵进行转置：
 [[0 3 6]
 [1 4 7]
 [2 5 8]]


In [None]:
arr = np.arange(9).reshape(3,3)
print('使用T成员变量对矩阵进行转置：\n', arr.T)

使用T成员变量对矩阵进行转置：
 [[0 3 6]
 [1 4 7]
 [2 5 8]]


In [None]:
# 第二个参数axis，即表示roll第几个维度
# 这里所谓的roll更像是"插入"的含义
arr = np.arange(9).reshape(3,3)
print('使用rollaxis方法对矩阵进行转置：\n', np.rollaxis(arr, 1))

使用T成员变量对矩阵进行转置：
 [[0 3 6]
 [1 4 7]
 [2 5 8]]


在高维数组中使用转置，从几何上来想象，其实是比较困难的，所以并不常用，更常用的还是在二维数组上的转置操作

In [None]:
# 在多维数组中更能看清rollaxis的本质
# rollaxis本质就是将axis（第二个参数）放到start参数的位置，从start开始，维数依次向后挪动
arr = np.arange(24).reshape(2,3,4)
print('使用rollaxis方法转置3维数组：\n', np.rollaxis(arr, 2, start=0).shape)

使用rollaxis方法转置3维数组：
 (4, 2, 3)


In [None]:
# 对照rollaxis进行比较，swapaxes表达的是"交换"的含义
arr = np.arange(24).reshape(2,3,4)
print('使用swapaxes方法转置3维数组：\n', np.swapaxes(arr, 1, 2).shape)

使用swapaxes方法转置3维数组：
 (2, 4, 3)


### 修改数组维度

In [None]:
# 使用广播对数组维度进行扩展
x = np.array([[1],[2],[3]])
y = np.array([1,2,3])
x,y = np.broadcast(x,y).iters
print('使用广播对数组维度进行扩展：\n', np.fromiter(x, dtype=int).reshape(3,3))

使用广播对数组维度进行扩展：
 [[1 1 1]
 [2 2 2]
 [3 3 3]]


In [None]:
# 指定维度进行广播
arr = np.array([[1],[2],[3]])
print('指定维度进行广播：\n', np.broadcast_to(arr, (3,3)))

指定维度进行广播：
 [[1 1 1]
 [2 2 2]
 [3 3 3]]


In [None]:
# 给数组增加一个新的维度（但不做数据扩充）
# 与广播不同expand_dims只增加了维度，但没有增加数据量
arr = np.arange(9).reshape(3,3)
print('增加一个新维度：', np.expand_dims(arr, axis=0).shape)

增加一个新维度：
 (1, 3, 3)


In [None]:
# 与expand_dims相反的操作，删除数组中的一个维度
# 需要注意，只有维度的size为1的时候，才能删除
arr = np.arange(9).reshape(3,3)
arr = np.expand_dims(arr, axis=0)
print('删除一个维度：', np.squeeze(arr, axis=0).shape)

删除一个维度： (3, 3)


### 连接数组

In [None]:
# 使用concatenate进行数据连接（形状必须相同）
x = np.zeros([2,2])
y = np.ones([2,2])
print('竖向连接：\n', np.concatenate((x,y), axis=0))
print('横向连接：\n', np.concatenate((x,y), axis=1))

竖向连接：
 [[0. 0.]
 [0. 0.]
 [1. 1.]
 [1. 1.]]
横向连接：
 [[0. 0. 1. 1.]
 [0. 0. 1. 1.]]


In [None]:
# 使用stack进行数据堆叠（形状必须相同）
# stack与concatenate最大的不同是，stack会增加新的维度，而concatenate是在原有维度上扩充
x = np.zeros([2,2])
y = np.ones([2,2])
print('行优先堆叠：\n', np.stack((x,y), axis=0))
print('列优先堆叠：\n', np.stack((x,y), axis=1))

行优先堆叠：
 [[[0. 0.]
  [0. 0.]]

 [[1. 1.]
  [1. 1.]]]
列优先堆叠：
 [[[0. 0.]
  [1. 1.]]

 [[0. 0.]
  [1. 1.]]]


In [None]:
# 使用hstack进行数据水平堆叠（形状必须相同）
# 效果和concatenate的横向连接效果相同
x = np.zeros([2,2])
y = np.ones([2,2])
print('水平堆叠：\n', np.hstack((x,y)))

水平堆叠：
 [[0. 0. 1. 1.]
 [0. 0. 1. 1.]]


In [None]:
# 使用vstack进行数据竖直堆叠（形状必须相同）
# 效果和concatenate的纵向连接效果相同
x = np.zeros([2,2])
y = np.ones([2,2])
print('水平堆叠：\n', np.vstack((x,y)))

水平堆叠：
 [[0. 0.]
 [0. 0.]
 [1. 1.]
 [1. 1.]]


### 分割数组

In [None]:
# 分割一维数组
arr = np.arange(9)
print('分割一维数组：\n', np.split(arr, 3))

# 不均等分割(数组用于指定分割点)
arr = np.arange(9)
print('不均等分割：\n', np.split(arr, [2,5,8]))

分割一维数组：
 [array([0, 1, 2]), array([3, 4, 5]), array([6, 7, 8])]
不均等分割：
 [array([0, 1]), array([2, 3, 4]), array([5, 6, 7]), array([8])]


In [None]:
# 沿两个轴进行分隔
# 这里对照hsplit和vsplit定义的横向和纵向，形状与叫法有一些反直觉
# 所谓的横与纵，不要理解成生活中切菜的横与纵
# 而是分割完以后，数据是横向排列，还是纵向排列
arr = np.arange(12).reshape(3,4)
print('竖向分割：\n', np.split(arr, 3, axis=0))
print('横向分割：\n', np.split(arr, 4, axis=1))

竖向分割：
 [array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]
横向分割：
 [array([[0],
       [4],
       [8]]), array([[1],
       [5],
       [9]]), array([[ 2],
       [ 6],
       [10]]), array([[ 3],
       [ 7],
       [11]])]


In [None]:
# hsplit与split(axis=1)等效
arr = np.arange(12).reshape(3,4)
print('横向分割：\n', np.hsplit(arr, 4))

横向分割：
 [array([[0],
       [4],
       [8]]), array([[1],
       [5],
       [9]]), array([[ 2],
       [ 6],
       [10]]), array([[ 3],
       [ 7],
       [11]])]


In [None]:
# vsplit与split(axis=0)等效
arr = np.arange(12).reshape(3,4)
print('纵向分割：\n', np.vsplit(arr, 3))

纵向分割：
 [array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]


### 数组元组操作

In [None]:
# resize和reshape的区别在于，resize可以扩充数组大小
# 新增数据不做初始化
arr = np.arange(6)
arr.resize(3,3)
print("使用resize生成一个新数组：\n", arr)
print("使用resize生成一个新数组：\n", np.resize(arr, (3,4)))

使用resize生成一个新数组：
 [[0 1 2]
 [3 4 5]
 [0 0 0]]
使用resize生成一个新数组：
 [[0 1 2 3]
 [4 5 0 0]
 [0 0 1 2]]


In [None]:
# 使用append进行横向和纵向追加
arr = np.arange(9).reshape(3,3)
print("纵向追加：\n", np.append(arr, np.zeros([1,3]), axis=0))
print("横向追加：\n", np.append(arr, np.zeros([3,1]), axis=1))

纵向追加：
 [[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]
 [0. 0. 0.]]
横向追加：
 [[0. 1. 2. 0.]
 [3. 4. 5. 0.]
 [6. 7. 8. 0.]]


In [None]:
# 使用insert进行插入，获得新数组（插入无法原地操作）
arr = np.arange(9).reshape(3,3)
print("展开插入：\n", np.insert(arr, 2, np.zeros([1,1])))
print("纵向插入：\n", np.insert(arr, 2, np.zeros([1,3]), axis=0))
print("横向插入：\n", np.insert(arr, 2, np.zeros([1,3]), axis=1)) # 这里用[1,3]就很反直觉

展开插入：
 [0 1 0 2 3 4 5 6 7 8]
纵向插入：
 [[0 1 2]
 [3 4 5]
 [0 0 0]
 [6 7 8]]
横向插入：
 [[0 1 0 2]
 [3 4 0 5]
 [6 7 0 8]]


In [None]:
# 使用delete删除数组元素
arr = np.arange(9).reshape(3,3)
print("展开删除：\n", np.delete(arr, 2))
print("纵向删除：\n", np.delete(arr, 2, axis=0))
print("横向删除：\n", np.delete(arr, 2, axis=1))

展开删除：
 [0 1 3 4 5 6 7 8]
纵向删除：
 [[0 1 2]
 [3 4 5]]
横向删除：
 [[0 1]
 [3 4]
 [6 7]]


In [None]:
# 通过unique去掉数组中重复的元素
arr = np.array([1,1,2,2,3,3,4,4])
print("数组去重：\n", np.unique(arr))
print("数组去重（并返回元素在原数组中的下标）：\n", np.unique(arr, return_index=True))
print("数组去重（全部旧列表元素在新列表中的下标）：\n", np.unique(arr, return_inverse=True))
print("数组去重（并返回元素的重复数量）：\n", np.unique(arr, return_counts=True))

数组去重：
 [1 2 3 4]
数组去重（并返回元素在原数组中的下标）：
 (array([1, 2, 3, 4]), array([0, 2, 4, 6]))
数组去重（全部旧列表元素在新列表中的下标）：
 (array([1, 2, 3, 4]), array([0, 0, 1, 1, 2, 2, 3, 3]))
数组去重（并返回元素的重复数量）：
 (array([1, 2, 3, 4]), array([2, 2, 2, 2]))


## 常用函数

### 字符串函数

In [None]:
# numpy的字符串处理和python原生的字符串处理，最大的区别是
# numpy即支持普通字符串操作，也支持字符串数组的操作
print('字符串连接：', np.char.add(['hello', 'a'], ['world', 'b']))
print('字符串重复：', np.char.multiply(['hello'], 3))
print('字符串居中并填充：', np.char.center(['hello', 'world'], 10, fillchar='*'))
print('字符串首字母大写：', np.char.capitalize(['hello world']))
print('字符串每个单词首字母大写：', np.char.title(['hello world']))
print('字符串转小写：', np.char.lower(['Hello', 'World']))
print('字符串转大写：', np.char.upper(['Hello', 'World']))
print('字符串按词分割：', np.char.split(['hello world']))
print('字符串按行分割：', np.char.splitlines(['hello \n world']))
print('字符串移除首尾字符：', np.char.strip(['***hello', 'world***'], '*'))
print('字符串通过分隔符连接：', np.char.join(['-', ':'], ['hello', 'world']))  # 这个join和python原生的join区别很大
print('字符串转替换：', np.char.replace(['Hello', 'World'], 'o', 'x'))
origin_str = ['Hello', 'World']
encode_str = np.char.encode(origin_str, 'utf-8')
print('字符串转编码：', np.char.encode(origin_str, 'utf-8'))
print('字符串转解码：', np.char.decode(encode_str, 'utf-8'))

字符串连接： ['helloworld' 'ab']
字符串重复： ['hellohellohello']
字符串居中并填充： ['**hello***' '**world***']
字符串首字母大写： ['Hello world']
字符串每个单词首字母大写： ['Hello World']
字符串转小写： ['hello' 'world']
字符串转大写： ['HELLO' 'WORLD']
字符串按词分割： [list(['hello', 'world'])]
字符串按行分割： [list(['hello ', ' world'])]
字符串移除首尾字符： ['hello' 'world']
字符串通过分隔符连接： ['h-e-l-l-o' 'w:o:r:l:d']
字符串转替换： ['Hellx' 'Wxrld']
字符串转编码： [b'Hello' b'World']
字符串转解码： ['Hello' 'World']


### 数学函数

In [None]:
# 数据的舍入
print('四舍五入：', np.around([1.1, 1.3, 1.5, 1.8]))
print('四舍五入（保留1位小数）：', np.around([1.11, 1.33, 1.55, 1.88], decimals=1))
print('向下取整：', np.floor([1.1, 1.3, 1.5, 1.8]))
print('向上取整：', np.ceil([1.1, 1.3, 1.5, 1.8]))

四舍五入： [1. 1. 2. 2.]
四舍五入（保留1位小数）： [1.1 1.3 1.6 1.9]
向下取整： [1. 1. 1. 1.]
向上取整： [2. 2. 2. 2.]


In [None]:
# 三角函数（此处只简单介绍最常用的3个，其他略）
angle = np.array([0, 15, 30, 45, 60, 90], dtype=float)
print('正弦函数：', np.sin(angle * np.pi / 180))
print('余弦函数：', np.cos(angle * np.pi / 180))
print('正切函数：', np.tan(angle * np.pi / 180))

正弦函数： [0.         0.25881905 0.5        0.70710678 0.8660254  1.        ]
余弦函数： [1.00000000e+00 9.65925826e-01 8.66025404e-01 7.07106781e-01
 5.00000000e-01 6.12323400e-17]
正切函数： [0.00000000e+00 2.67949192e-01 5.77350269e-01 1.00000000e+00
 1.73205081e+00 1.63312394e+16]


### 算数函数

In [None]:
# 四则运算
x = np.arange(1, 9)
y = np.arange(1, 9)
print('加法', np.add(x, y)) # 也可简写成：x+y
print('减法', np.subtract(x, y)) # 也可简写成：x-y
print('乘法', np.multiply(x, y)) # 也可简写成：x*y
print('除法', np.divide(x, y)) # 也可简写成：x/y
print('求倒数', np.reciprocal([0.25, 0.5, 1, 10]))
print('求指数', np.power([2, 2, 2], [2, 3, 4]))
print('求模', np.mod([10, 10, 10], [2, 3, 4]))  # 不懂为什么同一个东西要写2遍
print('求余', np.remainder([10, 10, 10], [2, 3, 4]))

加法 [ 2  4  6  8 10 12 14 16]
减法 [0 0 0 0 0 0 0 0]
乘法 [ 1  4  9 16 25 36 49 64]
除法 [1. 1. 1. 1. 1. 1. 1. 1.]
求倒数 [4.  2.  1.  0.1]
求指数 [ 4  8 16]
求模 [0 1 2]
求余 [0 1 2]


### 统计函数

In [None]:
# 找最值
# axis默认位None，即全局找最值
arr = np.arange(9).reshape(3,3)
print('求最小值：', np.amin(arr, axis=0))
print('求最大值：', np.amin(arr, axis=1))

求最小值： [0 1 2]
求最大值： [0 3 6]


In [None]:
# 求最大差值
arr = np.arange(9).reshape(3,3)
print('求最大差值：', np.ptp(arr))
print('求最大差值：', np.ptp(arr, axis=0))

求最大差值： 8
求最大差值： [6 6 6]


In [None]:
# 计算分位点
arr = np.arange(100).reshape(10,10)
print('求中位数：', np.median(arr))
print('求90分位点：', np.percentile(arr, 90, axis=0))
print('求95分位点：', np.percentile(arr, 95, axis=1))

求中位数： 49.5
求90分位点： [81. 82. 83. 84. 85. 86. 87. 88. 89. 90.]
求95分位点： [ 8.55 18.55 28.55 38.55 48.55 58.55 68.55 78.55 88.55 98.55]


In [None]:
# 求均值与方差
# 所有求均值和方差的方法，都可以指定axis
arr = np.arange(100).reshape(10,10)
print('求算数平均值：', np.mean(arr))
print('求加权平均值：', np.average(arr, weights=[9,8,7,6,5,4,3,2,1,0], axis=0))
print('求标准差：', np.std(arr, axis=0))
print('求方差：', np.var(arr, axis=1))

求算数平均值： 49.5
求加权平均值： [26.66666667 27.66666667 28.66666667 29.66666667 30.66666667 31.66666667
 32.66666667 33.66666667 34.66666667 35.66666667]
求标准差： [28.72281323 28.72281323 28.72281323 28.72281323 28.72281323 28.72281323
 28.72281323 28.72281323 28.72281323 28.72281323]
求方差： [8.25 8.25 8.25 8.25 8.25 8.25 8.25 8.25 8.25 8.25]


### 排序函数

In [None]:
# 直接排序
arr = np.random.randint(0, 1000, 100).reshape(10, 10)
print('快速排序：\n', np.sort(arr, kind='quicksort')) # 速度最快，最快情况短板（默认kind）
print('归并排序：\n', np.sort(arr, kind='mergesort', axis=0)) # 速度居中，消耗空间，排序稳定
print('堆排序：\n', np.sort(arr, kind='heapsort', axis=1))  # 速度最慢，最为均衡

快速排序：
 [[ 57  59 133 136 148 341 545 638 926 975]
 [229 313 388 545 788 828 852 875 977 992]
 [128 162 231 305 480 511 592 635 894 987]
 [ 18  59 136 177 221 253 370 386 405 981]
 [269 336 530 582 630 690 752 796 806 909]
 [ 49 291 296 298 327 425 509 529 741 941]
 [ 64  95 249 265 474 537 596 844 935 987]
 [ 32  57 274 300 304 444 592 891 905 965]
 [ 98  99 321 334 597 689 705 876 964 982]
 [132 316 373 626 642 693 704 785 867 999]]
归并排序：
 [[ 95  18 132  49 177  59  32  57  57 162]
 [229 148 133 136 296 253  99  64  59 304]
 [298 231 249 370 300 305 221  98 128 327]
 [334 509 274 592 511 336 265 136 269 405]
 [386 545 530 689 704 444 313 291 316 537]
 [480 582 635 844 705 474 373 388 321 597]
 [592 596 741 852 796 529 425 690 341 693]
 [626 642 964 905 875 785 545 867 828 752]
 [638 891 981 909 926 876 630 894 935 788]
 [806 982 992 999 987 977 987 965 941 975]]
堆排序：
 [[ 57  59 133 136 148 341 545 638 926 975]
 [229 313 388 545 788 828 852 875 977 992]
 [128 162 231 305 480 511 592 63

In [None]:
# 指定字段排序
dt = np.dtype([('name', (str, 10)), ('age', int)])
arr = np.array([('b', 30), ('a', 20), ('c', 10)], dtype=dt)
print('指定排序字段：\n', np.sort(arr, order='name'))
print('指定排序字段：\n', np.sort(arr, order='age'))

指定排序字段：
 [('a', 20) ('b', 30) ('c', 10)]
指定排序字段：
 [('c', 10) ('a', 20) ('b', 30)]


In [None]:
# 间接排序
arr = np.random.randint(0, 100, 10)
print(arr)
s = np.argsort(arr)
print(s)
print('通过排序索引数组，进行间接排序：', arr[s])

[ 3 29 68 76 34 91 33 62 20 85]
[0 8 1 6 4 7 2 3 9 5]
通过排序索引数组，进行间接排序： [ 3 20 29 33 34 62 68 76 85 91]


In [None]:
# 多级排序
a = np.array([2,5,8,4,3,7,6])
b = np.array([9,4,0,4,0,2,1])
c = np.stack([a,b], axis=0)
index = np.lexsort((a,b))
print('多级排序索引：', index)
print('多级排序结果：\n', c[...,index])

多级排序索引： [4 2 6 5 3 1 0]
多级排序结果：
 [[3 8 6 7 4 5 2]
 [0 0 1 2 4 4 9]]


In [None]:
# 按指定数字作为分割将数据分区
print('二分：', np.partition(np.random.randint(0,10,10), 5))
print('指定分区：', np.partition(np.random.randint(0,10,10), (3,6)))

二分： [0 2 2 1 3 5 6 8 9 9]
指定分区： [2 2 3 4 5 6 7 8 9 9]


### 搜索函数

In [None]:
# 根据官方文档的说明：amin is an alias of min
arr = np.random.randint(0, 100, 9).reshape(3,3)
print(arr)
print('数组展开：', arr.flatten())
print('搜索最小值：', np.min(arr))
print('搜索最小值（返回索引）：', np.argmin(arr))
print('搜索最大值：', np.max(arr))
print('搜索最大值（返回索引）：', np.argmax(arr))
print('返回非0元素的索引：', np.nonzero(arr))
print('返回满足条件的索引：', np.where(np.mod(arr,2)==0)) # 返回索引
print('返回满足条件的索引：', np.extract(np.mod(arr,2)==0, arr))  # 返回值

[[68  9 62]
 [94 88 22]
 [44 26 33]]
数组展开： [68  9 62 94 88 22 44 26 33]
搜索最小值： 9
搜索最小值（返回索引）： 1
搜索最大值： 94
搜索最大值（返回索引）： 3
返回非0元素的索引： (array([0, 0, 0, 1, 1, 1, 2, 2, 2]), array([0, 1, 2, 0, 1, 2, 0, 1, 2]))
返回满足条件的索引： (array([0, 0, 1, 1, 1, 2, 2]), array([0, 2, 0, 1, 2, 0, 1]))
返回满足条件的索引： [68 62 94 88 22 44 26]


# 高级用法

## 赋值、视图和副本

In [None]:
# 赋值（直接引用）
a = np.arange(10)
b = a
print('赋值不改变id：', id(a), id(b), id(a)==id(b))

赋值不改变id： 138784847965680 138784847965680 True


In [None]:
# 视图（浅拷贝）
# 切片操作返回的是视图
# reshape返回的是视图
# arr.view()方法专门用于返回视图
a = np.arange(10)
b = a[:]
print('切片改变id：', id(a), id(b), id(a)==id(b))
a[0] = 10
print('切片共享内存：', a==b)

切片改变id： 138784847966352 138784847964336 False
[10  1  2  3  4  5  6  7  8  9]
[10  1  2  3  4  5  6  7  8  9]
切片共享内存： [ True  True  True  True  True  True  True  True  True  True]


In [None]:
# 副本（深拷贝）
# numpy的copy()方法专门用于返回副本
# python的切片返回副本（特别注意，python的切片和numpy的切片，行为是完全不同的）
# python的deepCopy()方法专门用于返回副本
a = np.arange(10)
b = a.copy()
a[0] = 10
print('切片共享内存：', a==b)

切片共享内存： [False  True  True  True  True  True  True  True  True  True]


## IO函数

In [None]:
# 保存到文件
# 单个数组默认扩展名位npy
arr = np.random.randint(0,1000,100).reshape(10,10)
np.save('arr.npy', arr, allow_pickle=True, fix_imports=True)

import os
print(os.popen('ls').read())

arr.npy
arr.npz.npy
sample_data
xyz.npy.npz
xyz.npz



In [None]:
# 保存多个数组到文件
# 多个数组默认扩展名位npz
x = np.array([1,2,3])
y = np.array([4,5,6])
z = np.array([7,8,9])
np.savez('xyz.npz', x, y, sin_arr=z)

In [None]:
# 读取单数组文件
file = np.load('arr.npy')
print(file)

[[983 168 881 182 584 643 541 364 576 648]
 [544 238 620 777 457 401 661  59 413 476]
 [819 803 635 595 380 943 677 408 212 185]
 [  2 424 794 637 627 154 383 672 575 491]
 [232 565  43 157 573 236 253 566 276 303]
 [674 705   4  43 760 423 385 602 499 297]
 [969 568 966 790 319 350 605 610 277  84]
 [ 53 937 176 156   9 376  33  84 417 146]
 [835 866 481 688 989 517 539 760  23 189]
 [810 598   6 184 830 794  32 292 129 916]]


In [None]:
# 读取多数组文件
file = np.load('xyz.npz')
print(file)
print(file['arr_0'])
print(file['arr_1'])
print(file['sin_arr'])

<numpy.lib.npyio.NpzFile object at 0x7e397aa6c1c0>
[1 2 3]
[4 5 6]
[7 8 9]
