# Numpy

In [1]:
import numpy as np

## Tips
- 使用copy()函数返回数组的一个复制：subdata = data[2:4,5:9].copy()

# 几种常用属性
- array.ndim 秩，即轴的数量或维度的数量
- array.shape 数组的维度，对于矩阵，n 行 m 列
- array.size 数组元素的总个数，相当于 .shape 中 n*m 的值
- array.dtype 返回元素的类型
- array = np.reshape(array, shape) 改变形状

In [3]:
np.inf # 真无穷
-np.inf # 负无穷
np.nan # 溢出非法值
# 判断是否为无穷/非法
array = np.arange(12)
np.isinf(array)
np.isnan(array)

array([False, False, False, False, False, False, False, False, False,
       False, False, False])

# 创建array
### 凭空创建
#### np.array()
使用'np.array(object=, dtype=)' 可以创建数组或者二维矩阵，指定dtype可以指定数据类型
#### np.zeros()
使用'np.zeros(shape=, dtype=)' 创建一个形状为shape的全零矩阵
#### np.ones()
同np.zeros() 创建一个指定形状的全1矩阵
#### np.empty()
用来创建一个指定形状（shape）、数据类型（dtype）且未初始化的数组
#### np.full(shape, value)
用指定值填满一个指定形状的array
#### np.eye(2)
创建一个2*2的单位矩阵
#### np.random.random(shape)
创建一个指定形状的随机数array


### 根据取值范围创建
#### np.arange(start, stop, step)
创建连续数组，参数用法同关键字range(), 可以指定起始值，终了值以及步长
#### np.linspace(start, stop, num)
创建根据start和end创建指定个数num的array


### 根据已存在数组创建
#### np.zeros_like(array)
#### np.ones_like(array)
按照已经存在的array的形状，创建新的值为0或1的array
#### np.asarray()
从一个已经存在的np数组新建一个数组
#### np.frombuffer(buffer)
用于实现动态数组。
接受 buffer 输入参数，以流的形式读入转化成 ndarray 对象。buffer 可以是任意对象，会以流的形式读入。

In [4]:
import numpy as np
s = b'hello world'
a = np.frombuffer(s, dtype='S1')
print(a)

[b'h' b'e' b'l' b'l' b'o' b' ' b'w' b'o' b'r' b'l' b'd']


In [5]:
a = np.linspace(1, 10 ,20).reshape(4,5) #开始端为1，结束端为10，且分割成等距的20个数据，生成线段
print(a)

[[ 1.          1.47368421  1.94736842  2.42105263  2.89473684]
 [ 3.36842105  3.84210526  4.31578947  4.78947368  5.26315789]
 [ 5.73684211  6.21052632  6.68421053  7.15789474  7.63157895]
 [ 8.10526316  8.57894737  9.05263158  9.52631579 10.        ]]


# 使用index

In [6]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

b = a[:2, 1:3]
# [[2 3]
#  [6 7]]
print(a[0, 1])   # Prints "2"

row_r1 = a[1, :]    # Rank 1 view of the second row of a
row_r2 = a[1:2, :]  # Rank 2 view of the second row of a
print(row_r1, row_r1.shape)  # Prints "[5 6 7 8] (4,)"
print(row_r2, row_r2.shape)  # Prints "[[5 6 7 8]] (1, 4)"

2
[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)


### 使用array作为索引

In [7]:
a = np.array([[1,2], [3, 4], [5, 6]])

print(a)
print(a[[0, 1, 2], [0, 1, 0]])  # Prints "[1 4 5]"

[[1 2]
 [3 4]
 [5 6]]
[1 4 5]


###### 使用array作为索引的一个用处是，用np.arange 选择每一行的元素

In [8]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)  
# Create an array of indices
b = np.array([0, 2, 0, 1])

# Select one element from each row of a using the indices in b
print(a[np.arange(4), b])  # Prints "[ 1  6  7 11]"

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[ 1  6  7 11]


### 布尔索引

In [9]:
a = np.array([[1,2], [3, 4], [5, 6]])
bool_idx = (a > 2)   
print(bool_idx) 
print(a[bool_idx])  # Prints "[3 4 5 6]"

[[False False]
 [ True  True]
 [ True  True]]
[3 4 5 6]


# 数学运算
### 常规运算及数学函数

1. numpy 同形array之间做加减乘除，等价于对应位的元素进行加减乘除。
2. 想要求出矩阵中各个元素的乘方使用 '\**'
3. numpy 中内置了很多数学函数工具

In [6]:
a = np.arange(10,0,-1)
b = np.arange(0,10)
c = a - b
print(c)
c = b**2
print(c)
c = 10 * np.sin(b)
print(c)

[10  8  6  4  2  0 -2 -4 -6 -8]
[ 0  1  4  9 16 25 36 49 64 81]
[ 0.          8.41470985  9.09297427  1.41120008 -7.56802495 -9.58924275
 -2.79415498  6.56986599  9.89358247  4.12118485]


### 对值舍取
#### np.around(arr, decimals)
对所有元素进行四舍五入
a: 数组
decimals: 舍入的小数位数。 默认值为0。 如果为负，整数将四舍五入到小数点左侧的位置

#### np.floor()
 返回数字的下舍整数。即向下舍掉小数点后所有值
 
#### np.ceil()
返回上入整数

### 数理统计

2. 对矩阵内元素进行求解sum(), min()...
    1. 如果你需要对行或者列进行查找运算，就需要在上述代码中为 axis 进行赋值。 当axis的值为0的时候，将会以列作为查找单元， 当axis的值为1的时候，将会以行作为查找单元。
    2. 当不声明axis时，默认对整个矩阵所有元素进行运算
3. 对矩阵元素进行统计计算：mean(), median(), average()，方差np.var(arr)

In [7]:
a = np.array([[1,1], [0,1]])
b = np.arange(4).reshape((2,2))

In [6]:
# 1
c = np.dot(a, b)
print('矩阵乘法：\n', c)

# 2
minAll = np.min(b)
maxRow = np.max(b, axis=1)
sumCol = np.sum(b, axis=0)
print('minAll', minAll)
print('maxRow', maxRow)
print('sumCol', sumCol)

# 3
c = np.mean(b)
print('均值：', c)
c = np.median(b)
print('中位数：', c)
c = np.average(b)
print('平均数：', c)

矩阵乘法：
 [[2 4]
 [2 3]]
minAll 0
maxRow [1 3]
sumCol [2 4]
均值： 1.5
中位数： 1.5
平均数： 1.5


### array内元素返回索引
#### np.argmax() 和 np.argmin()
两个函数分别为求矩阵中最小元素和最大元素的索引
    1. 同理也可以使用axis声明仅对行或列进行操作
    2. 如果是对行或列进行求索引的话会返回一个list表示各行或各列的index
#### diff()
计算的便是每一行中后一项与前一项之差。故一个3行4列矩阵通过函数计算得到的矩阵便是3行3列的矩阵。
#### np.sort()
对矩阵的每一行进行从小到大的排序操作，可以通过axis指定排序方向，0表示按照列，1表示按照行
#### np.argsort()
返回的是数组值从小到大的索引值。
#### np.nonzero()
返回输入数组中非零元素的索引。
#### np.where()
返回输入数组中满足给定条件的元素的索引。
#### np.extract()
根据某个条件从数组中抽取元素，返回满条件的元素。
#### clip(Array, Array_min, Array_max)
将array中所有大于Array_max的值置为Array_max，小于Array_min的值置为Array_min

In [12]:
import numpy as np 
 
x = np.arange(9.).reshape(3,  3)  
print ('我们的数组是：')
print (x)
print ( '大于 3 的元素的索引：')
y = np.where(x >  3)  
print (y)
print ('使用这些索引来获取满足条件的元素：')
print (x[y])

我们的数组是：
[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
大于 3 的元素的索引：
(array([1, 1, 2, 2, 2]), array([1, 2, 0, 1, 2]))
使用这些索引来获取满足条件的元素：
[4. 5. 6. 7. 8.]


In [12]:
import numpy as np 
 
x = np.arange(9.).reshape(3,  3)  
print ('我们的数组是：')
print (x)
# 定义条件, 选择偶数元素
condition = np.mod(x,2)  ==  0  
print ('按元素的条件值：')
print (condition)
print ('使用条件提取元素：')
print (np.extract(condition, x))# == print(x[condition])

我们的数组是：
[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
按元素的条件值：
[[ True False  True]
 [False  True False]
 [ True False  True]]
使用条件提取元素：
[0. 2. 4. 6. 8.]
[0. 2. 4. 6. 8.]


In [14]:
A = np.arange(12).reshape((3,4))
# 1
minId = np.argmin(A)
maxId = np.argmax(A)
print('index of min: ', minId)
print('index of max: ', maxId)
# 3
print(np.diff(A))
# 4
A = np.arange(14, 2, -1).reshape((3, 4))
print(np.sort(A))
# 5
print(np.clip(A, 5, 9)) #将所有大于9的元素置为9，小于5的元素置为5

index of min:  0
index of max:  11
[[1 1 1]
 [1 1 1]
 [1 1 1]]
[[11 12 13 14]
 [ 7  8  9 10]
 [ 3  4  5  6]]
[[9 9 9 9]
 [9 9 8 7]
 [6 5 5 5]]


# array拼接
#### np.stack(arr_list, axis)
用于沿新轴连接数组序列
#### np.vstack()
对输入的两个矩阵进行上下合并（沿着列）
#### np.hstack()
对输入的两个矩阵进行左右合并（沿着行）
#### np.concatenate()
可以一次性合并多个矩阵

In [10]:
A = np.array([1,1,1]).reshape(1, 3)
B = np.array([2,2,2]).reshape(1, 3)

# 1
c = np.vstack((A, B))
print(c)

# 2
c = np.hstack((A, B))
print(c)

# 3
C = np.concatenate((A,B,B,A), axis=0)
print(C)

D = np.concatenate((A,B,B,A), axis=1)
print(D)

[[1 1 1]
 [2 2 2]]
[[1 1 1 2 2 2]]
[[1 1 1]
 [2 2 2]
 [2 2 2]
 [1 1 1]]
[[1 1 1 2 2 2 2 2 2 1 1 1]]


# array 分割
#### split()
对矩阵按照给定的分数进行切割，返回切割后子矩阵组成的一个list，可以使用axis控制从哪个维度切割
    1. 当声明的切割分数等于行数/列数时，默认将矩阵切割成多个1*m的向量
    2. split()切割后返回list中所有子矩阵的形状必须是一样的
#### np.array_split()
该函数可以强行按照给定的切割数量进行切割，也就是说返回的list中的子矩阵形状可以是不同的


In [1]:
import numpy as np
A = np.arange(18).reshape((3,6))
print(A)

# 1
b = np.split(A, 2, axis=1)
print(b)

c = np.split(A, 3, axis=0)
print(c)

# 2
d = np.array_split(A, 3, axis=1)
print(d)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]]
[array([[ 0,  1,  2],
       [ 6,  7,  8],
       [12, 13, 14]]), array([[ 3,  4,  5],
       [ 9, 10, 11],
       [15, 16, 17]])]
[array([[0, 1, 2, 3, 4, 5]]), array([[ 6,  7,  8,  9, 10, 11]]), array([[12, 13, 14, 15, 16, 17]])]
[array([[ 0,  1],
       [ 6,  7],
       [12, 13]]), array([[ 2,  3],
       [ 8,  9],
       [14, 15]]), array([[ 4,  5],
       [10, 11],
       [16, 17]])]


# 维度，形状，变换

### 使用newaxis增加数组维度
#### np.expand_dims(arr, axis)
扩展数组的维度,axis表示新轴插入的位置

In [12]:
a = np.arange(6).reshape(2,3)
print(a.shape)
b = a[np.newaxis,:,np.newaxis,:]
print(b.shape)

(2, 3)
(1, 2, 1, 3)


### 使用np.squeeze()方法除去多余的轴
该函数自动删除长度为1的维度，起到降维作用

In [13]:
a = np.arange(6).reshape(1,2,1,3)
print(a.shape)
b = np.squeeze(a)
print(b.shape)

(1, 2, 1, 3)
(2, 3)


### 数组转置
使用np.transpose()或者np.T对数组进行转置，本质上是把所有维度翻转。

In [14]:
a = np.arange(24).reshape(1,2,3,4)
print(a.shape)
b = a.transpose()
print(b.shape)

(1, 2, 3, 4)
(4, 3, 2, 1)


### array铺平
#### np.flatten()
flatten方法将多维数组转换为一位数组，效果等于np.reshape(arr, (-1))
#### numpy.nditer(a, op_flags=['readwrite']) 
提供了一种灵活访问一个或者多个数组元素的方式。迭代器最基本的任务的可以完成对数组元素的访问。

In [2]:
a = np.arange(24).reshape(2, 3, 4)
b = a.flatten()
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

#### np.append(arr, value, axis)
arr：输入数组
values：要向arr添加的值，需要和arr形状相同（除了要添加的轴）
axis：默认为 None。当axis无定义时，是横向加成，返回总是为一维数组！当axis有定义的时候，分别为0和1的时候。当axis有定义的时候，分别为0和1的时候（列数要相同）。当axis为1时，数组是加在右边（行数要相同）。


In [10]:
import numpy as np
 
a = np.array([[1,2,3],[4,5,6]])
 
print ('向数组添加元素：')
print (np.append(a, [7,8,9]))
 
print ('沿轴 0 添加元素：')
print (np.append(a, [[7,8,9]],axis = 0))
 
print ('沿轴 1 添加元素：')
print (np.append(a, [[5,5,5],[7,8,9]],axis = 1))

向数组添加元素：
[1 2 3 4 5 6 7 8 9]
沿轴 0 添加元素：
[[1 2 3]
 [4 5 6]
 [7 8 9]]
沿轴 1 添加元素：
[[1 2 3 5 5 5]
 [4 5 6 7 8 9]]


#### np.insert(arr, obj, values, axis)
在给定索引之前，沿给定轴在输入数组中插入值。
如果值的类型转换为要插入，则它与输入数组不同。 插入没有原地的，函数会返回一个新数组。 此外，如果未提供轴，则输入数组会被展开。
arr：输入数组
obj：在其之前插入值的索引
values：要插入的值
axis：沿着它插入的轴，如果未提供，则输入数组会被展开

In [11]:
import numpy as np
a = np.array([[1,2],[3,4],[5,6]])
 
print ('未传递 Axis 参数。 在插入之前输入数组会被展开。')
print (np.insert(a,3,[11,12]))
print ('\n')
print ('传递了 Axis 参数。 会广播值数组来配输入数组。')
 
print ('沿轴 0 广播：')
print (np.insert(a,1,[11],axis = 0))
print ('\n')
 
print ('沿轴 1 广播：')
print (np.insert(a,1,11,axis = 1))

未传递 Axis 参数。 在插入之前输入数组会被展开。
[ 1  2  3 11 12  4  5  6]


传递了 Axis 参数。 会广播值数组来配输入数组。
沿轴 0 广播：
[[ 1  2]
 [11 11]
 [ 3  4]
 [ 5  6]]


沿轴 1 广播：
[[ 1 11  2]
 [ 3 11  4]
 [ 5 11  6]]


In [14]:
import numpy as np 
# 二维和一维运算
a = [[1,0],[0,1]] 
b = [1,2] 
print (np.matmul(a,b))
print (np.matmul(b,a))

[1 2]
[1 2]


In [15]:
#维度大于二的数组 
import numpy as np 
 
a = np.arange(8).reshape(2,2,2) 
b = np.arange(4).reshape(2,2) 
print (np.matmul(a,b))

[[[ 2  3]
  [ 6 11]]

 [[10 19]
  [14 27]]]


# 线性代数
#### np.dot(a, b)
两个数组点乘
#### np.vdot(a, b)
两个数组的点积，即对应元素相乘后相加，得到一个实数
#### np.inner(a, b)
两个数组内积，对应元素相乘，但不相加，得到的是和输入数组相同形状的矩阵
#### np.determinant(a)
行列式
#### np.matmul()
返回两个数组的矩阵乘积。 虽然它返回二维数组的正常乘积（常规矩阵乘法），但如果任一参数的维数大于2，则将其视为存在于最后两个索引的矩阵的栈，并进行相应广播。
另一方面，如果任一参数是一维数组，则通过在其维度上附加 1 来将其提升为矩阵，并在乘法之后被去除。

#### np.delete(arr, obj, axis)
返回从输入数组中删除指定子数组的新数组。 与 insert() 函数的情况一样，如果未提供轴参数，则输入数组将展开。
arr：输入数组
obj：可以被切片，整数或者整数数组，表明要从输入数组删除的子数组
axis：沿着它删除给定子数组的轴，如果未提供，则输入数组会被展开

#### np.unique(arr, return_index, return_inverse, return_counts)
用于去除数组中的重复元素。
arr：输入数组，如果不是一维数组则会展开
return_index：如果为true，返回新列表元素在旧列表中的位置（下标），并以列表形式储
return_inverse：如果为true，返回旧列表元素在新列表中的位置（下标），并以列表形式储
return_counts：如果为true，返回去重数组中的元素在原数组中的出现次数

# 元素遍历
数组自带的flat属性相当于返回一个迭代器，用于遍历数组的每个元素
同时，数组的ravel()方法具有同样的效果。
不同的是，flat返回的是指针，对flat对象内容的修改会导致原数组内容变化，而ravel返回的是一个复制，修改不会影响原始数组。

In [4]:
a = np.arange(24).reshape(2,3,4)
for i in b.flat:
    print(i,end=' ')
print()
for i in b.ravel():
    print(i, end=' ')

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 

### 对角线操作

In [20]:
a = np.arange(9).reshape((3,3))
a.diagonal()

array([0, 4, 8])

通过改变参数offset，来查看它的次对角线，正数表示右移，负数表示左移

In [22]:
print(a.diagonal(offset=1))
print(a.diagonal(offset=-1))

[1 5]
[3 7]


也可以使用花式索引得到对角线

In [23]:
i = [0,1,2]
a[i,i]

array([0, 4, 8])

# 矩阵库
NumPy 中包含了一个矩阵库 numpy.matlib，该模块中的函数返回的是一个矩阵，而不是 ndarray 对象。

一个 m*n 的矩阵是一个由m行（row）n列（column）元素排列成的矩形阵列。

矩阵常用的创建函数和ndarray大致相同

# IO
Numpy 可以读写磁盘上的文本数据或二进制数据。

NumPy 为 ndarray 对象引入了一个简单的文件格式：npy。

npy 文件用于存储重建 ndarray 所需的数据、图形、dtype 和其他信息。

常用的 IO 函数有：

load() 和 save() 函数是读写文件数组数据的两个主要函数，默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为 .npy 的文件中。
savze() 函数用于将多个数组写入文件，默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为 .npz 的文件中。
loadtxt() 和 savetxt() 函数处理正常的文本文件(.txt 等)


In [None]:
np.save('file.npy', array, allow_pickle=True, fix_imports=True)
b = np.load('file.npy')

#### savetxt()
savetxt() 函数是以简单的文本文件格式存储数据，对应的使用 loadtxt() 函数来获取数据。