In [None]:
import numpy as np

print(np.__version__) # 1.21.5
np.show_config() # 配置
'''
1. numpy数组的创建
2. numpy数组的属性信息
3. 对numpy数组进行操作
4. numpy数组运算
5. 存储和下载
6. numpy的其他功能

参考链接:
	https://github.com/rougier/numpy-100
'''

In [None]:
# numpy数组的创建

# (1): 指定生成
# 返回一个指定形状, 类型和数值的数组
np.full((2, 2), 10)
'''
array([[10, 10],
       [10, 10]])
'''

np.zeros((3, 5), dtype=np.int64)
np.zeros(1) # array([0.])
# np.ones

np.nan
np.array([np.nan]).astype(int).astype(float) # array([-9.22337204e+18])
0 * np.nan # nan
np.nan - np.nan # nan
np.nan in set([np.nan]) # True
np.nan == np.nan # False
np.isnan(np.nan) # True
np.inf > np.nan # False
np.inf == np.Inf # True

np.isfinite(10), np.isinf(np.inf) # True, True, 等价于math.isfinite和math.isinf
np.isfinite(float('inf')), np.isinf(float('nan')), np.isinf(float('-inf')) # False, False, True
# numpy.nan_to_num(x, copy=True, nan=0.0, posinf=None, neginf=None)
# copy: if True, 则创建x的副本; if False, 则在原对象上替换
# nan: 用于填充NaN值的值
# posinf: 用于填充正无穷大值的值, 如果未传递任何值, 则正无穷大值将被替换为非常大的数字
# neginf: 用于填充负无穷大值的值, 如果未传递任何值, 则负无穷大值将替换为非常小的(或负的)数字
np.nan_to_num(np.inf) # 1.7976931348623157e+308
np.nan_to_num(-np.inf) # -1.7976931348623157e+308
np.nan_to_num(np.nan) # 0.0
x = np.array([np.inf, -np.inf, np.nan, 128, -128])
np.nan_to_num(x, nan=-9999, posinf=33333333, neginf=33333333) # array([ 3.3333333e+07,  3.3333333e+07, -9.9990000e+03,  1.2800000e+02, -1.2800000e+02])
y = np.array([complex(np.inf, np.nan), np.nan, complex(np.nan, np.inf)]) # array([inf+nanj, nan +0.j, nan+infj])
np.nan_to_num(y, nan=111111, posinf=222222) # array([222222.+111111.j, 111111.     +0.j, 111111.+222222.j])

np.pi

np.arange(5) # array([0, 1, 2, 3, 4]), dtype('int64')
np.arange(5.0) # array([0., 1., 2., 3., 4.]), dtype('float64')

# 单位矩阵
np.eye(3)
'''
array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])
'''

# 创建对角矩阵
np.diag(1+np.arange(4),k=0) # k值默认为0, 若为负则在主对角线下方, 若为正则在上方
'''
[[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]
'''
np.diag(1+np.arange(4),k=-1)
'''
[[0 0 0 0 0]
 [1 0 0 0 0]
 [0 2 0 0 0]
 [0 0 3 0 0]
 [0 0 0 4 0]]
'''
# 当np.diag的输入是一个一维数组时, 结果是以一维数组为对角线元素的矩阵; 若输入是一个矩阵时, 则输出矩阵的对角线元素
b = np.arange(1, 10).reshape(3, 3)
np.diag(b) # [1 5 9]
# 得到dot product的对角元素
# np.diag(np.dot(A, B)) # 较慢
# np.sum(A * B.T, axis=1) # 较快
# np.einsum("ij,ji->i", A, B) # 更快

# 上三角矩阵
np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]],k=0) # k=0包括对角线元素
'''
array([[1, 2, 3],
       [0, 5, 6],
       [0, 0, 9],
       [0, 0, 0]])
'''
np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]],k=-1) # k=-1多向下包括一行元素
'''
array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 0,  8,  9],
       [ 0,  0, 12]])
'''
np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]],k=1)
'''
array([[0, 2, 3],
       [0, 0, 6],
       [0, 0, 0],
       [0, 0, 0]])
'''
# 下三角矩阵
np.tril([[1,2,3],[4,5,6],[7,8,9],[10,11,12]],k=0)
'''
array([[ 1,  0,  0],
       [ 4,  5,  0],
       [ 7,  8,  9],
       [10, 11, 12]])
'''

# 构建Cauchy矩阵C(Cij =1/(xi - yj))
X = np.arange(8)
Y = X + 0.5
C = 1.0 / np.subtract.outer(X, Y)

a = np.array([[1,2],[3,4],[5,6]]) # 3x2
b = a[:,np.newaxis] # 3x1x2
# np.array与np.asarray的区别
	# 在于输入为ndarray时, np.array是将输入copy过去, 占用新的内存, 而np.asarray不会
	# 所以随着输入的改变, np.array的输出不变, 而np.asarray的输出在变化
a = np.array([1,2])
b = np.array(a)
c = np.asarray(a)
print(a, b, c) # [1 2] [1 2] [1 2]
a[0] = 2
print(a, b, c) # [2 2] [1 2] [2 2]
# 设置输出形式
print(np.array([1.123456789])) # [1.12345679]
np.set_printoptions(precision=4) # 还有参数threshold, 可取float("inf")
print(np.array([1.123456789])) # [1.1235]
Z = np.zeros((40,40))
print(Z)
'''
[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
'''
# 添加np.set_printoptions(threshold=float("inf"))可将所有值输出

np.linspace(.2, 1, 5) # array([0.2, 0.4, 0.6, 0.8, 1. ]), 参数endpoint=False则不包括尾
np.logspace(-4, 0, 5) # array([1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00]), 创建等比数列, 10的幂

# 从bytes生成bit数组
def _bitarray_from_bytes(b):
	return np.unpackbits(np.frombuffer(b, dtype='>B'))
test_b = b'\xda\x15\xa0\xf9\xd0\x87\x8aA'
test_c = b'\xf0p\xaai\xf8\xd76P\xda\x15\xa0\xf9\xd0\x87\x8aA'
result = _bitarray_from_bytes(test_b)
print(result)
'''
[1 1 0 1 1 0 1 0 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 0 1 1 1 1 1 0 0 1 1 1 0 1 0
 0 0 0 1 0 0 0 0 1 1 1 1 0 0 0 1 0 1 0 0 1 0 0 0 0 0 1]
'''
print(len(result)) # 64

# 从generator生成数组
def generate():
    for x in range(10):
        yield x
Z = np.fromiter(generate(),dtype=float,count=-1)
print(Z) # [0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]

# (2): 随机生成
np.random.seed(10)
# rng = np.random.RandomState(42); rng.rand(5)

np.random.permutation(7) # array([3, 1, 6, 2, 5, 4, 0])

# numpy.random.choice(a, size=None, replace=True, p=None)
# a需为一维数组或者int(取np.arange); 除了numpy中的数组, python内建的list, tuple也可以使用
# size为生成数组的大小
# replace: True表示可以取相同数字, False表示不可以取相同数字
# 数组p与数组a相对应, 表示取数组a中每个元素的概率, 默认为选取每个元素的概率相同
np.random.choice(5) # 3, 相当于np.random.randint(0, 5)
np.random.choice(5, 3) # array([2, 3, 0]), 相当于np.random.randint(0, 5, 3)
np.random.choice(5, 6, replace=True) # array([3, 0, 0, 0, 2, 2])
arr = ['pooh', 'rabbit', 'piglet', 'Christopher']
np.random.choice(arr, 5, p=[0.5, 0.1, 0.1, 0.3]) # array(['Christopher', 'pooh', 'pooh', 'pooh', 'pooh'], dtype='<U11')

np.random.rand(5) # 均匀分布, 表示在(0,1)之间随机产生5个数, array([0.36634886, 0.58366905, 0.98123018, 0.82943758, 0.74865311])
# np.random.randn(5)
np.random.rand(5, 1)
'''
array([[0.53709932],
       [0.61859653],
       [0.5992866 ],
       [0.80841493],
       [0.61611822]])
'''

np.random.uniform(-10,+10,5) # array([-7.17944597, -6.86830073, -5.94271165,  1.89473657, -8.40683164])
# 默认生成一个数

# np.random.normal(loc/均值, scale/标准差, size)

np.random.random((2, 3)) # 0-1随机浮点数
'''
array([[0.93891809, 0.94858219, 0.98125802],
       [0.3863558 , 0.42383519, 0.03267744]])
'''

# (3): 与csr矩阵转换
import scipy.sparse
# ndarry 转 csr_matrix
my_matrix = scipy.sparse.csr_matrix((2,2))
my_array = my_matrix.A
print(type(my_array), type(my_matrix)) # <class 'numpy.ndarray'> <class 'scipy.sparse.csr.csr_matrix'>
# csr_matrix 转 ndarray
A = np.array([[1,2,0],[0,0,3],[1,0,4]])
sA = scipy.sparse.csr_matrix(A)  
print(type(A), type(sA)) # <class 'numpy.ndarray'> <class 'scipy.sparse.csr.csr_matrix'>

In [None]:
# numpy数组的属性信息

# (1): 数据类型
a = np.array([[1,2],[3,4],[5,6]])
a.dtype # dtype('int64')
a = a.astype(np.float32)
a.dtype # dtype('float32')
a = np.array([1.,2.])
a.dtype # dtype('float64')
arr1 = np.array([True, False, True, False, True, False])
arr1.dtype # dtype('bool')
arr1 = np.array(['a', 'b', 'c', 'd', 'e', 'f'])
arr1.dtype # dtype('<U1') 第一个字符是字节序, < 表示小端, > 表示大端, | 表示平台的字节序; U是Unicode, 1代表长度字符串的长度
arr1 = np.array(['1.2', '2.8', '3.7'])
print(arr1.dtype) # <U3
arr1 = arr1.astype('float64') 
arr1, arr1.dtype # array([1.2, 2.8, 3.7]), dtype('float64')
# int(取代np.int/np.long, 相当于np.int64), np.int32, np.uint8
# float(取代np.float, 相当于np.float64), np.float32
# np.ubyte, unsigned bytes
# 时间: datetime64[ns](毫秒), datetime64[D](天)

# in place更改数据类型
Z = (np.random.rand(10)*100).astype(np.float32)
print(Z) # [95.7681   55.350002 90.88457  23.329954 15.345828 64.03281  68.99723 24.956596 28.849766 86.336426]
Y = Z.view(np.int32)
Y[:] = Z
print(Y) # [95 55 90 23 15 64 68 24 28 86]

np.arange('2016-07', '2016-08', dtype='datetime64[D]')
'''
array(['2016-07-01', '2016-07-02', '2016-07-03', '2016-07-04',
       '2016-07-05', '2016-07-06', '2016-07-07', '2016-07-08',
       '2016-07-09', '2016-07-10', '2016-07-11', '2016-07-12',
       '2016-07-13', '2016-07-14', '2016-07-15', '2016-07-16',
       '2016-07-17', '2016-07-18', '2016-07-19', '2016-07-20',
       '2016-07-21', '2016-07-22', '2016-07-23', '2016-07-24',
       '2016-07-25', '2016-07-26', '2016-07-27', '2016-07-28',
       '2016-07-29', '2016-07-30', '2016-07-31'], dtype='datetime64[D]')
'''

# 自定义数据类型
color = np.dtype([("r", np.ubyte),
                  ("g", np.ubyte),
                  ("b", np.ubyte),
                  ("a", np.ubyte)])
Z = np.zeros((5,5), [('x',float),('y',float)])
Z['x'], Z['y'] = np.meshgrid(np.linspace(0,1,5),
                             np.linspace(0,1,5))
print(Z)
'''
[[(0.  , 0.  ) (0.25, 0.  ) (0.5 , 0.  ) (0.75, 0.  ) (1.  , 0.  )]
 [(0.  , 0.25) (0.25, 0.25) (0.5 , 0.25) (0.75, 0.25) (1.  , 0.25)]
 [(0.  , 0.5 ) (0.25, 0.5 ) (0.5 , 0.5 ) (0.75, 0.5 ) (1.  , 0.5 )]
 [(0.  , 0.75) (0.25, 0.75) (0.5 , 0.75) (0.75, 0.75) (1.  , 0.75)]
 [(0.  , 1.  ) (0.25, 1.  ) (0.5 , 1.  ) (0.75, 1.  ) (1.  , 1.  )]]
'''
Z = np.zeros(10, [ ('position', [ ('x', float),
                                  ('y', float)]),
                   ('color',    [ ('r', float),
                                  ('g', float),
                                  ('b', float)])])
print(Z)
'''
[((0., 0.), (0., 0., 0.)) ((0., 0.), (0., 0., 0.))
 ((0., 0.), (0., 0., 0.)) ((0., 0.), (0., 0., 0.))
 ((0., 0.), (0., 0., 0.)) ((0., 0.), (0., 0., 0.))
 ((0., 0.), (0., 0., 0.)) ((0., 0.), (0., 0., 0.))
 ((0., 0.), (0., 0., 0.)) ((0., 0.), (0., 0., 0.))]
'''

# 将数组转成字符串
c = np.array([1.4567, 1.2222, 5.3452])
np.array2string(c, separator=',', formatter={'float_kind': lambda x: "%.3f" % x}) # '[1.457,1.222,5.345]'

# tolist()用于将数组或矩阵转为列表
a = np.array([3, 1, 2]) # array([3, 1, 2])
b = a.tolist() # [3, 1, 2]

# np.mat()将数组转换为矩阵
a = np.array([0,3,1,1,0])
np.mat(a)
'''
matrix([[0, 3],
        [1, 1]])
'''

for dtype in [np.int8, np.int32, np.int64]:
       print(np.iinfo(dtype).min) # -128 | -2147483648 | -9223372036854775808
       print(np.iinfo(dtype).max) # 127 | 2147483647 | 9223372036854775807
for dtype in [np.float32, np.float64]:
       print(np.finfo(dtype).min) # -3.4028235e+38 | -1.7976931348623157e+308
       print(np.finfo(dtype).max) # 3.4028235e+38 | 1.7976931348623157e+308
       print(np.finfo(dtype).eps) # 1.1920929e-07 | 2.220446049250313e-16

# (2): 统计
np.sign(-2), np.sign(2) # -1, 1, 0取0
np.abs(-2) # 2
Z = np.array([2.5,-3.3,1.6,-1.2])
print(np.copysign(np.ceil(np.abs(Z)), Z)) # [ 3. -4.  2. -2.], 等价于np.where(Z>0, np.ceil(Z), np.floor(Z))

A = np.ones(3)*1
np.negative(A, out=A) # A=array([-1., -1., -1.])

targets_np = np.array([2,3,1,1,4])
np.unique(targets_np) # array([1, 2, 3, 4])

a = np.array([0,3,1,1,0])
np.nonzero(a) # (array([1, 2, 3]),)

x = np.array([0,1,1,3,2,1,7]) 
np.bincount(x) # 统计每个索引值出现的次数; array([1, 3, 1, 1, 0, 0, 0, 1])
# 参数weights与x形状相同, 还有参数minlength
x = np.array([3, 2, 1, 3, 1])
np.bincount(x, minlength=7) # array([0, 2, 1, 2, 0, 0, 0])
np.bincount(x, minlength=1) # array([0, 2, 1, 2])
w = np.array([0.3, 0.5, 0.2, 0.7, 1., -0.6])
x = np.array([2, 1, 3, 4, 4, 3])
np.bincount(x, weights=w) # array([ 0. ,  0.5,  0.3, -0.4,  1.7])

a = np.random.rand(100) 
np.histogram(a,bins=5,range=(0,1)) # array([22, 22, 18, 20, 18]), array([0. , 0.2, 0.4, 0.6, 0.8, 1. ]), 表示在[0,0.2)之间有22个数，以此类推; 其中bins可指定为[0,0.2,0.5,0.8,1]
# bins指定统计的区间个数, 可自定义
# range是一个长度为2的元组， 表示统计范围的最小值和最大值
# density默认为False, 返回每个区间中元素的个数; 为True时, 返回每个区间的概率密度

# numpy.percentile(a, q, axis, keepdims)
# q: 要计算的百分位数, 在 0 ~ 100 之间
# 输出值表示小于这个值的观察值占总数的百分比为q%
a = np.arange(1,101)
np.percentile(a, 90) # 90.10000000000001, 表示有百分之九十的数小于90.1

data = np.array([0,1,1,3,2,1,7]) 
data.mean(), data.std() # 2.142857142857143, 2.166535841157586; np.mean, np.std
# Normalization
data = (data - data.mean()) / data.std() # .mean(axis, keepdims)

# 查找两个数组共有的元素
Z1 = np.random.randint(0,10,10)
print(Z1) # [1 6 2 9 3 2 9 3 8 6]
Z2 = np.random.randint(0,10,10)
print(Z2) # [7 3 9 5 4 8 7 0 7 0]
print(np.intersect1d(Z1,Z2)) # [3 8 9]

# (3): 形状
np.arange(1, 10).reshape(3, 3)
'''
[[1 2 3]
 [4 5 6]
 [7 8 9]]
'''
a = np.array([[1,2],[3,4],[5,6]])
a.shape # (3, 2)
np.reshape(a, [2,3])
'''
array([[1, 2, 3],
       [4, 5, 6]])
'''

a = np.array([[3, 1, 3], [2, 4, 5]]) # .size: 数组元素总数; .itemsize: 每个元素的bytes; 综合size和itemsize可计算a的memory
a.size, a.shape, a.ndim, a.itemsize # 6, (2, 3), 2, 8

# (4): 其他属性
# 只读
Z = np.zeros(10)
Z.flags.writeable = False
Z[0] = 1 # 会报错, ValueError: assignment destination is read-only

In [None]:
# 对numpy数组进行操作

# (1): 维度变换
# numpy中的ravel(), flatten(), squeeze()都有将多维数组转换为一维数组的功能
# 区别: 
       # ravel(): 如果没有必要, 不会产生源数据的副本  
       # flatten(): 返回源数据的副本; .flat返回数组的一维迭代器, 类型为<class 'numpy.flatiter'>, 可使用索引, 如.flat[3]
       # squeeze(): 只能对维数为1的维度降维  
       # 另外, reshape(-1)也可以"拉平"多维数组
a = np.array([[1,2],[3,4],[5,6]])
a.flatten() # array([1, 2, 3, 4, 5, 6])
a.reshape(-1) # array([1, 2, 3, 4, 5, 6])
a.ravel() # array([1, 2, 3, 4, 5, 6])
np.unravel_index(99,(6,7,8)) # (1, 5, 3), 在形如(6,7,8)的数组中第100个元素的索引

a = np.array([[1,2],[3,5]])
y = np.expand_dims(a, axis=2)
z = np.expand_dims(a, axis=1)
print(a.shape) # (2, 2)
print(y.shape) # (2, 2, 1)
print(z.shape) # (2, 1, 2)

x = np.array([1, 2, 3])
x[:, np.newaxis] # np.newaxis就是None
'''
array([[1],
       [2],
       [3]])
'''

# 转置
np.transpose()

x = np.array([[1,2],[3,4],[5,6]])
np.random.shuffle(x)
x # 洗牌, 对x进行顺序打乱; 对多维数组进行打乱排列时, 只对第一个维度进行随机打乱
'''
array([[1, 2],
       [5, 6],
       [3, 4]])
'''

# 将输入的数组转化为至少两维
np.atleast_2d(3.0), np.atleast_2d(1, [1, 2], [[1, 2]]) # array([[3.]]), [array([[1]]), array([[1, 2]]), array([[1, 2]])]

# (2): 切片(索引)
l = [5,1,2,3]
order = [0,3,2,1] # order为打乱后的索引
np.take(l, order) # array([5, 3, 2, 1])

a = np.arange(5)
np.put(a, [0, 2], [-44, -55]) # 第二个参数和第三个参数分别对应目标索引和目标值
print(a) # array([-44,   1, -55,   3,   4])
n = 3
p = 3
Z = np.zeros((n,n))
np.put(Z, np.random.choice(range(n*n), p, replace=False),1)
print(Z)
'''
[[1. 0. 0.]
 [0. 1. 1.]
 [0. 0. 0.]]
'''

a = np.array([5,1,2,3])
a[::-1] # array([3, 2, 1, 5])

Z = np.array([1,2,3,4,5])
nz = 3
Z0 = np.zeros(len(Z) + (len(Z)-1)*(nz))
Z0[::nz+1] = Z
print(Z0) # [1. 0. 0. 0. 2. 0. 0. 0. 3. 0. 0. 0. 4. 0. 0. 0. 5.]

# 将矩阵内部的值进行更改
Z = np.ones((4,4))
Z[1:-1,1:-1] = 0
'''
array([[1., 1., 1., 1.],
       [1., 0., 0., 1.],
       [1., 0., 0., 1.],
       [1., 1., 1., 1.]])
'''
# 将矩阵外部的值进行更改
Z[:, [0, -1]] = 0
Z[[0, -1], :] = 0
'''
array([[0., 0., 0., 0.],
       [0., 1., 1., 0.],
       [0., 1., 1., 0.],
       [0., 0., 0., 0.]])
'''
# 以checkerboard模式填充
Z = np.zeros((8,8),dtype=int)
Z[1::2,::2] = 1
Z[::2,1::2] = 1
'''
array([[0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0]])
'''

Z = np.arange(11)
Z[(3 < Z) & (Z < 8)] *= -1 # array([ 0,  1,  2,  3, -4, -5, -6, -7,  8,  9, 10])

# 枚举: np.ndenumerate()效果等同与enumerate(同时列出数据和数据下标), 并且支持对多维数据的输出
Z = np.arange(9).reshape(3,3)
for index, value in np.ndenumerate(Z):
    print(index, value)
'''
(0, 0) 0
(0, 1) 1
(0, 2) 2
(1, 0) 3
(1, 1) 4
(1, 2) 5
(2, 0) 6
(2, 1) 7
(2, 2) 8
'''
# 或
for index in np.ndindex(Z.shape):
    print(index, Z[index]) # 输出同上

# 逐个读取元素: np.nditer
a = np.arange(4).reshape(2, 2)
for i in a:
    print(i)
for i in np.nditer(a):
    print(i)
'''
[0 1]
[2 3]
0
1
2
3
'''
# 广播数组迭代
a = np.arange(3)
b = np.arange(6).reshape(2,3)
for x, y in np.nditer([a,b]):
    print("%d:%d" % (x,y))
'''
0:0
1:1
2:2
0:3
1:4
2:5
'''
A = np.arange(3).reshape(3,1)
B = np.arange(3).reshape(1,3)
it = np.nditer([A,B,None])
for x,y,z in it: z[...] = x + y
print(it.operands[0])
print(it.operands[1])
print(it.operands[2])
'''
[[0]
 [1]
 [2]]
[[0 1 2]]
[[0 1 2]
 [1 2 3]
 [2 3 4]]
'''

# (3): 条件选择
# numpy.where() 
# 有两种用法: 
	# 1. np.where(condition, x, y): 满足条件(condition), 输出x, 不满足输出y
	# 2. np.where(condition): 只有条件(condition), 没有x和y, 则输出满足条件(即非0)元素的坐标(等价于numpy.nonzero); 这里的坐标以tuple的形式给出, 通常原数组有多少维, 输出的tuple中就包含几个数组, 分别对应符合条件元素的各维坐标
a = np.arange(10)
print(np.where(a > 5,1,-1)) # [-1 -1 -1 -1 -1 -1  1  1  1  1]
print(np.where(a > 5)) # (array([6, 7, 8, 9]),)
print(np.argwhere(a>5)) # 输出满足要求的元素的坐标索引
'''
array([[6],
       [7],
       [8],
       [9]])
'''

# (4): 堆叠和拼接
# np.vstack(): 按垂直方向(行顺序)堆叠数组构成一个新的数组
ia = np.array([[1,2],[3,4]])
b = np.array([[1,2],[3,4]])
np.vstack((a, b))
'''
array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])
'''
# np.hstack(): 按水平方向(列顺序)堆叠数组构成一个新的数组
np.hstack((a, b))
'''
array([[1, 2, 1, 2],
       [3, 4, 3, 4]])
'''

a = np.array([[1,2],[3,4]])
b = np.array([[1], [2]])
np.concatenate([a,b], axis=1)
'''
array([[1, 2, 1],
       [3, 4, 2]])
'''

# (5): 排序
a = np.array([2,3,1,1,4])
np.argsort(a) # array([2, 3, 0, 1, 4]; .argsort()
np.sort(a) # array([1, 1, 2, 3, 4]), .sort()

# 按照第2列来排序数组
Z[Z[:,1].argsort()]

test = np.array([5, 1, 2, 7, 3, 6, 4])
test[np.argpartition(test, 4)] # 要求最后结果test[0:4]均小于等于test[4], test[4:]均大于等于test[4]
# array([3, 4, 2, 1, 5, 6, 7])
test[np.argpartition(test, [3, 4])] # [2 1 3 4 5 6 7]

# (6): 删除
# np.delete(array,obj,axis)
# obj: 需要处理的位置, 比如要删除的第一行或者第一行和第二行
# axis: 如果输入为None, array会先按行展开, 然后按照obj, 删除第obj(从0开始)位置的数, 返回一个行矩阵; 如果输入为0, 按行删除; 如果输入为1, 按列删除
a = np.array([[1,2],[3,4],[5,6]])
np.delete(a,4,None) # array([1, 2, 3, 4, 6])
np.delete(a,[0,1],0) # array([[5, 6]])

# (7): 复制
a = np.array([[1,2],[3,4]])
np.tile(a, (2, 1))
'''
array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])
'''
np.tile(a, 2)
'''
array([[1, 2, 1, 2],
       [3, 4, 3, 4]])
'''
# 创建checkerboard矩阵
np.tile(np.array([[0,1],[1,0]]), (4,4))
'''
array([[0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0]])
'''

# (8): 添加值
Z = np.ones((2,2))
np.pad(Z, pad_width=1, mode='constant', constant_values=0)
'''
array([[0., 0., 0., 0.],
       [0., 1., 1., 0.],
       [0., 1., 1., 0.],
       [0., 0., 0., 0.]])
'''

# (9): 排列组合
# X, Y = np.meshgrid(x, y) 
# 将x中每一个数据和y中每一个数据组合生成很多点, 然后将这些点的x坐标放入到X中, y坐标放入Y中, 并且相应位置是对应的
x = np.linspace(1, 4, 4)
y = np.linspace(7, 9, 3)
X, Y = np.meshgrid(x, y)
'''
x和y中的每一个元素组合生成
[[[1, 7], [2, 7], [3, 7], [4, 7]],
 [[1, 8], [2, 8], [3, 8], [4, 8]],
 [[1, 9], [2, 9], [3, 9], [4, 9]]]
X = [[1, 2, 3, 4],
	 [1, 2, 3, 4],
	 [1, 2, 3, 4]]

Y = [[7, 7, 7, 7],
	 [8, 8, 8, 8],
	 [9, 9, 9, 9]]
'''

# (10): 拆分
x = np.arange(8.0)
np.split(x, 2) # [array([0., 1., 2., 3.]), array([4., 5., 6., 7.])]; 不等分会报错
np.split(x, [3, 5, 6, 7]) # [array([0., 1., 2.]), array([3., 4.]), array([5.]), array([6.]), array([7.])]
np.split(x, [3, 5, 6, 10])
'''
[array([0., 1., 2.]),
 array([3., 4.]),
 array([5.]),
 array([6., 7.]),
 array([], dtype=float64)]
'''

# 不等分可使用array_split
x = np.arange(8.0)
np.array_split(x, 3) # [array([0., 1., 2.]), array([3., 4., 5.]), array([6., 7.])]
x = np.arange(7.0)
np.array_split(x, 3) # [array([0., 1., 2.]), array([3., 4.]), array([5., 6.])]

In [None]:
# numpy数组运算

# (1): 四则运算
sums = [np.array([1,2,3]), np.array([1,2,3])]
np.sum(sums, 0) # array([2, 4, 6]), 参数axis
np.sum(sums) # 12
# np.add.reduce() 更快

A = np.random.randint(0,10,(3,4,3,4))
sum = A.sum(axis=(-2,-1))
print(sum)
'''
[[50 49 63 55]
 [58 46 65 58]
 [49 63 36 55]]
'''
# 等价于sum = A.reshape(A.shape[:-2] + (-1,)).sum(axis=-1)

A = np.ones(3)*1
B = np.ones(3)*2
np.add(A,B,out=B) # in place, B=array([3., 3., 3.])

# 按照一个给定索引向量给另一个给定向量加1
Z = np.ones(10)
I = np.random.randint(0,len(Z),20)
np.add.at(Z, I, 1)
print(Z)
'''
[1. 2. 2. 4. 2. 3. 5. 2. 5. 4.]
'''

print(sum([0,1,2], -1)) # 2, sum(iterable, start), start指定相加的参数, 如果没有设置这个值, 默认为0
print(np.sum([0,1,2], -1)) # 3

a = np.array([[1,2,3],[4,5,6]])
np.cumsum(a, axis=0)
'''
array([[1, 2, 3],
       [5, 7, 9]])
'''

Z = np.zeros((5,5))
Z += np.arange(5)
print(Z) # 等价于np.tile(np.arange(0, 5), (5,1))
'''
[[0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]]
'''

a = np.array([5,6,7])
b = np.array([9,12,10])
np.subtract.outer(b,a)
'''
array([[4, 3, 2],
       [7, 6, 5],
       [5, 4, 3]])
'''

a = np.array([[1,2],[3,4],[5,6]])
b = np.array([[1,2],[3,4],[5,6]])
np.dot(a, b.T) # 矩阵乘法, 等价于a @ b.T
'''
array([[ 5, 11, 17],
       [11, 25, 39],
       [17, 39, 61]])
'''
A=[1,2,3]
B=[4,5,6]
print(np.inner(A,B)) # 32
print(np.dot(A,B)) # 32
# 两个函数对于一维数据来说, 效果是相同的
A=[[1 ,10], 
    [100,1000]]
B=[[1,2], 
    [3,4]]
print(np.inner(A,B)) # A的第i行乘以B的第j行得到最终结果的ij元素
print(np.dot(A,B))
'''
[[  21   43]
 [2100 4300]]
[[  31   42]
 [3100 4200]]
'''

A = np.array([[1, 2], [3, 4]])
B = np.array([[0, 1], [2, 3]])
np.multiply(A,B) # 对应元素位置相乘
'''
array([[ 0,  2],
       [ 6, 12]])
'''

data = np.array([1,1,3,2]) 
np.prod(data) # 6

np.divide(A,2,out=A)

# (2): 范数计算
a = np.array([1,2])
# 向量的2范数, 即向量的每个元素的平方和再开平方根
np.linalg.norm(a, ord=2) # 2.23606797749979
b = np.array([[1,2], [1,2]])
np.linalg.norm(b, ord=2, axis=1, keepdims=True)
# linalg=linear(线性)+algebra(代数), 同torch.norm
'''
array([[2.23606798],
       [2.23606798]])
'''

# (3): 对数计算/指数
from numpy import log1p 
# 返回1+x的自然对数, 对数据进行了压缩(数据平滑处理), 逆运算expm1(最后需要将预测出的平滑数据进行一个还原)
np.log() # 以e为底
np.log2() # 以2为底, np.log10()

np.exp()

# (4): 取整运算
np.ceil(5.6), np.floor(5.6) # 6.0, 5.0
np.ceil(-5.6) # -5.0

# (5): 比较大小
np.equal([0, 1, 3], np.arange(3)) # array([ True, True, False])
# 等价于==

0.3 == 3 * 0.1 # False

a = np.array([1.4560000001, 1.22200001, 5.34500000001])
b = np.array([1.456, 1.222, 5.345])
np.allclose(a,b), np.array_equal(a,b) # True, False; 均要求相同的形状, 但前者可容忍一定的误差, 默认在1e-05的误差范围内

a = np.random.randint(1, 10, [5, 3])
print(a)
'''
[[2 4 4]
 [5 1 9]
 [8 8 6]
 [3 3 1]
 [1 3 4]]
'''
b = np.amax(a, axis=1)  # 找一个每行最大的
print(b) # [4 9 8 3 4]
# np.max与np.amax是同名函数
a = np.random.randint(1, 10, [5, 3])
print(a)
'''
[[9 2 1]
 [8 3 6]
 [9 8 8]
 [6 8 7]
 [2 9 1]]
'''
a.min(), a.max() # 1, 9

Z = np.random.random(10)
print(Z) # [0.03246488 0.55984931 0.29469178 0.89297405 0.56741542 0.19136789 0.79136429 0.13915116 0.87468693 0.40730072]
Z[Z.argmax()] = 0 # array([0.03246488, 0.55984931, 0.29469178, 0.        , 0.56741542, 0.19136789, 0.79136429, 0.13915116, 0.87468693, 0.40730072])

# (6): 逻辑计算
np.all([[True, False], [True, True]]) # False, 不指明axis则对所有维度做与操作(any是做或操作)
np.any([[True, False], [True, False]], axis=0) # array([True, False]); .any()
# 确定二维数组中是否存在全零列
Z = np.random.randint(0,3,(3,10))
print(Z)
print(Z.any(axis=0))
print(~Z.any(axis=0))
print((~Z.any(axis=0)).any())
'''
[[2 2 0 1 2 1 0 0 0 2]
 [0 2 2 0 0 1 1 1 1 2]
 [1 2 0 0 0 2 2 2 1 2]]
[ True  True  True  True  True  True  True  True  True  True]
[False False False False False False False False False False]
False
'''

# (7): 线性代数
# np.linalg模块包含线性代数的函数. 使用这个模块, 可以计算逆矩阵, 求特征值, 解线性方程组以及求解行列式等
np.linalg.det() # 计算矩阵的行列式, 要求矩阵是方阵
# 使用inv函数计算逆矩阵, inv函数只接受方阵作为输入矩阵, 而pinv函数则没有这个限制, 即广义逆矩阵
# np.linalg.solve(a, b), 方程组ax=b的解, x的shape与b一样
# u, s, vh = np.linalg.svd(b) SVD分解
np.linalg.qr() # 计算矩阵的QR分解, Q是正交的, R是上三角形

# (8): 整数向量的相关运算
Z = np.array([1,2,3])
Z**Z # array([ 1, 4, 27])
2 << Z >> 2 # array([1, 2, 4])
1j*Z # array([0.+1.j, 0.+2.j, 0.+3.j])

# (9): 根号计算
np.emath.sqrt(-1) # 1j
np.sqrt()

# (10): 取余
Z = np.random.uniform(0,10,10)
print(Z) # [9.81714106 4.8699804  2.98709515 0.9690929  2.23580204 5.22423231 1.62736499 1.36419253 8.26793513 0.73241923]
Z - Z%1 # array([9., 4., 2., 0., 2., 5., 1., 1., 8., 0.]) 等价于Z // 1, np.floor(Z), Z.astype(int), np.trunc(Z)

# (11): 三角函数
# 将直角坐标系转成极坐标系
Z = np.random.random((10,2))
X,Y = Z[:,0], Z[:,1]
R = np.sqrt(X**2+Y**2)
T = np.arctan2(Y,X)

np.cos(), np.sin()

# (12): 距离计算
Z = np.random.random((10,2))
X,Y = np.atleast_2d(Z[:,0], Z[:,1])
D = np.sqrt( (X-X.T)**2 + (Y-Y.T)**2)
# 可使用scipy进行快速计算

In [None]:
# 存储和下载

a = np.array([[1,2,3], [1,2,3]])
b = np.array([1,2])
np.savez("xxx.npz", a=a, b=b) # 适用于多个数组的保存, 且保存到一个未压缩的文件中; 如需压缩则使用np.savez.compressed
data = np.load("xxx.npz") 
# 如果对象是字典, 则需要参数allow_pickle=True
data["a"] # 返回array([[1,2,3], [1,2,3]]), 如果值是字典, 则array中的dtype=object, 使用.tolist()可得到原始值
data.close()

np.save("xxx.npy", a) # 以未压缩的原始二进制格式保存在扩展名为 .npy 的文件中
dict(np.load("xxx.npy", encoding='bytes').item())

np.savetxt("xxx.txt", a) # 对应于loadtxt()

# np.genfromtxt(fname, dtype, delimiter) # 从文本文件加载数据, 并按指定处理缺失值
# delimiter可取','
# 当没有数据缺失时, 与loadtxt()等价
from io import StringIO
s = StringIO('''1, 2, 3, 4, 5
                6,  ,  , 7, 8
                 ,  , 9,10,11
''')
Z = np.genfromtxt(s, delimiter=",", dtype=int)
print(Z)
'''
[[ 1  2  3  4  5]
 [ 6 -1 -1  7  8]
 [-1 -1  9 10 11]]
'''

In [None]:
# numpy的其他功能

# (1): 时间
yesterday = np.datetime64('today') - np.timedelta64(1) # numpy.datetime64('2022-06-13')
today     = np.datetime64('today') # numpy.datetime64('2022-06-14')
tomorrow  = np.datetime64('today') + np.timedelta64(1) # numpy.datetime64('2022-06-15')