## 科学计算库Numpy
#### · N维数组（矩阵）为基础，快速高效，矢量数学运算
#### · 高效的index，直接访问矩阵元素或者进行运算，不需要循环

### 1. 数学基础回顾之矩阵运算matrix

#### （1）矩阵概念

#### · 矩阵：二维数组。其中向量和标量都是矩阵的特例
#### · 向量：是指1 x n 或者n x 1的矩阵
#### · 标量： 1 x 1 的矩阵
#### · 数组：N维的数组，是矩阵的延伸。可以是一维或者二维或者三维


#### （2）特殊矩阵

#### · 全0或者全1的矩阵
#### · 单位矩阵：矩阵是n x n的，并且对角线都是1。任何矩阵和单位矩阵相乘，原先矩阵保持不变
![image.png](attachment:image.png)

#### （3）矩阵加减运算

#### · 相加相减的两个矩阵必须要有相同的行或者列
#### · 行和列对应元素相加减
![image.png](attachment:image.png)

#### （4） 矩阵或数组的乘法

#### 数组乘法（点乘）Array
##### 数组乘法是对应元素之间的乘法
![image.png](attachment:image.png)

#### 矩阵乘法
##### 设A为m x p的矩阵，B为p x n矩阵，m x n的矩阵C为A和B的乘积，记为C=AB，其中矩阵C中的第i行第j列元素可以表示为：
![image.png](attachment:image.png)

### 2. 数组的创建和访问

#### （1）从list里面创建数组 create from python list

#### 创建一维数组

In [26]:
import numpy as np
list1 = [1,2,3,4]
array1 = np.array(list1)
array1  #一维数组

array([1, 2, 3, 4])

#### 创建二维数组

In [27]:
import numpy as np
list1 = [1,2,3,4]
list2 = [5,8,7,4]
array2 = np.array([list1,list2])  #传入一个数组，而数组里面又是包含两个数组，这里容易弄错的就是里面传入的list并不是以[]形式存在的
array2  #二维数组

array([[1, 2, 3, 4],
       [5, 8, 7, 4]])

In [28]:
from numpy import *     #把numpy里面所有的包和功能进行导入
array([[1,2],[3,4,5]])   #创建不规范数组的时候就会出现：[list([1, 2]) list([3, 4, 5])]，如果是规范数组，那么就会直接print出正常数组

array([list([1, 2]), list([3, 4, 5])], dtype=object)

#### （2）通过arange创建一维数组（批量创建数组）

In [29]:
import numpy as np
array4 = np.arange(1,10,2)  #从1-9跳2个step
array4  #[1 3 5 7 9]  这其实就和python里面的range一样抽取，只不过这里改成了数组

array([1, 3, 5, 7, 9])

#### （3）通过特殊函数创建数组

#### 全零一维矩阵

In [30]:
import numpy as np
np.zeros(5)   #[0. 0. 0. 0. 0.]  创建有五个元素的全零矩阵

array([0., 0., 0., 0., 0.])

#### 全零二维矩阵

In [31]:
import numpy as np
np.zeros([2,3])   #这时候就返回的是2 x 3的全零矩阵

array([[0., 0., 0.],
       [0., 0., 0.]])

#### 单位矩阵

In [32]:
import numpy as np
np.eye(5)
#返回一个5 x 5的单位矩阵  之所以如果要产生多维的全零矩阵需要加list但是多维单位矩阵直接写数字，是因为，单位矩阵是必须n x n的类型
#上面无论是全零矩阵还是单位矩阵返回的都是float类型

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

#### （4）如何获取数组属性？

#### shape -> 是n行m列数组

In [33]:
import numpy as np
list1 = [1,2,3,4]
list2 = [5,8,7,4]
array2 = np.array([list1,list2])
array2.shape   #返回(2, 4)，即2 x 4两行四列的数组

(2, 4)

#### size -> 数组里面元素个数

In [34]:
import numpy as np
list1 = [1,2,3,4]
list2 = [5,8,7,4]
array2 = np.array([list1,list2])
array2.size  #结果为8

8

#### dtype -> 返回数组内元素的数据类型

In [35]:
import numpy as np
list1 = [1,2,3,4]
list2 = [5,8,7,4]
array2 = np.array([list1,list2])
array2.dtype  #int32

dtype('int32')

#### 如果数组里面元素类型不一致怎么办？

In [36]:
import numpy as np
array3 = np.array([[1.0,2,3],[4.0,5,6]])
array3.dtype  #显示出float64，所以当数组内元素类型不一致，就会取元素精确度最高的

dtype('float64')

#### （5）如何访问数组里面的元素

#### 一维数组访问

In [37]:
import numpy as np
a = np.arange(1,10)
a  #[1 2 3 4 5 6 7 8 9]  然后访问方法和list是基本一致的

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
a[1]  #访问第二个元素

2

In [39]:
a[1:5]  #[2 3 4 5]  这里是要访问第二个到第五个元素，这其实和list里面的slice是一样的，其实array就是list

array([2, 3, 4, 5])

#### n维数组访问

In [40]:
import numpy as np
b = np.array([[1,2,3],[4,5,6]])
print(b)
#我想访问第一行第0个元素
b[1][0]  #这里返回的是4，所以要注意了，对于数组而言，其实所谓的第一行就是实际的第二行，所谓的第零列就是实际的第一列


[[1 2 3]
 [4 5 6]]


4

In [42]:
#也可以通过这种方式来访问
b[1,0]

4

#### Numpy数组切片

In [43]:
from numpy import * 
b = arange(1,20,2) 
b #[ 1  3  5  7  9 11 13 15 17 19]

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19])

In [44]:
b[1:3] #[3 5] 在这里其实是对b的第1-3进行切割，但是不包括第三个（7）#这里注意，是从0开始的，所以第一个是3，第二个是5

array([3, 5])

In [45]:
b[1:] #[ 3  5  7  9 11 13 15 17 19]

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

#### 在多维数组里也有切片的概念

In [46]:
import numpy as np
c = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(c)
#然后我想进行一个切片，但是这是二维数组的切片
c[:2,1:]  #前面一部分是属于行的范围，也就是说我从第0行到第2行。第二部分是列数，是从第1列开始

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[2, 3],
       [5, 6]])

In [16]:
from numpy import * 

c = arange(12).reshape(3,4)
print(c)
##[[ 0  1  2  3]
## [ 4  5  6  7]
## [ 8  9 10 11]]
print(c[1]) #[4 5 6 7] 切第一行
print(c[...,1]) #[1 5 9]切第一列，而这个逗号则是行列的区分
print(c[1,]) #[4 5 6 7]
print(c[1,...]) #[4 5 6 7] ...其实都不需要加
print(c[1:,])  #从第一行切到最后
##[[ 4  5  6  7]
## [ 8  9 10 11]]
print(c[c>7]) #[ 8  9 10 11]

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[4 5 6 7]
[1 5 9]
[4 5 6 7]
[4 5 6 7]
[[ 4  5  6  7]
 [ 8  9 10 11]]
[ 8  9 10 11]


### 3. 数组和矩阵运算

#### （1）快速创建数组

#### random.randn ->从标准正态分布中返回一个或多个样本值

In [47]:
import numpy as np
np.random.randn(10)  #创建长度为10的一维数组，同时每一次数组内部的元素都是不一样的，但是是符合标准的正态分布

array([-1.09135065, -0.66803304,  0.41482545, -0.26665988, -1.05255466,
        0.49541721,  1.6941855 , -0.61455559, -1.29022838,  0.18505721])

#### random.rand -> 返回0-1的随机数

In [49]:
from numpy import * 

random.rand()

0.8247546884820588

In [50]:
random.rand(2) #需要两个元素

array([0.11880199, 0.18262952])

In [51]:
random.rand(3,2) #生成三行两列的结果

array([[0.384101  , 0.7645125 ],
       [0.23187771, 0.49640741],
       [0.79235222, 0.16243197]])

In [52]:
random.rand(3,2).reshape(2,3) #生成3*2但是reshape成2*3

array([[0.75079021, 0.97374812, 0.13583388],
       [0.29002675, 0.56676582, 0.62048339]])

In [53]:
shape(random.rand(3,2).reshape(2,3)) #这里前面加shape其实就是要python告诉我这是x * x的矩阵，而不是把结果print出来

(2, 3)

#### random.randint -> 返回随机整数

In [24]:
import numpy as np
np.random.randint(10)  #返回10以内的一个int型随机数

2

In [25]:
np.random.randint(10,size = (2,3)) #这就可以创建一个2 x 3的每个元素都是10以内整数的数组,randint不能像rand一样直接（）这样子创建，而需要用size进行一个辅助

array([[8, 4, 0],
       [0, 5, 9]])

#### 我也可以通过加size去创建一个一维数组

In [22]:
a = np.random.randint(10,size = 20) #即第一个参数可以舍弃，默认为1
a

array([4, 0, 8, 4, 8, 1, 7, 2, 7, 7, 3, 4, 3, 0, 0, 4, 8, 1, 2, 6])

#### random.choice() -> 进行内容的随机选择

In [54]:
from numpy import * 

list=['python','c','c++']
random.choice(list)

'c'

In [55]:
random.choice(list,size=5) #多结果的选择，就是在上面的list里面随机选五个

array(['python', 'c++', 'python', 'python', 'c++'], dtype='<U6')

In [56]:
random.choice(list,size = (2,3)) #随机选，构成2*3的矩阵

array([['c++', 'c', 'c++'],
       ['c', 'c++', 'c']], dtype='<U6')

In [57]:
random.choice(list,size=(2,3),p=[0.1,0.5,0.4]) #这里的p是概率的指定

array([['c', 'c', 'c++'],
       ['c++', 'c++', 'c']], dtype='<U6')

#### 设置seed

In [58]:
from numpy import *
#帮我们指定锁定一个固定的种子，但是之后调取这个种子是固定的 #也就是说虽然是随机数，但是调用出来后他就被锁死了
#比较方便做数据跟踪和数据检查
random.seed(0)
random.rand() #这时候我们发现，不同于上面的random，这里的random出来一个数后无论运行多少次都是一样的数

0.5488135039273248

In [59]:
random.seed(10)
random.rand()
#所以就可以用seed来进行锁定，便于日后的复查

0.771320643266746

#### reshape -> 将数组重新组合
#### 而我们上面创建的数组a，如果我们想将其变为多维数组

In [60]:
import numpy as np
a = np.random.randint(10,size = 20) 
a

array([4, 0, 1, 9, 0, 1, 8, 9, 0, 8, 6, 4, 3, 0, 4, 6, 8, 1, 8, 4])

In [61]:
a = a.reshape(4,5)  #我把上面的数组a变成了4 x 5的一个二维新数组
a

array([[4, 0, 1, 9, 0],
       [1, 8, 9, 0, 8],
       [6, 4, 3, 0, 4],
       [6, 8, 1, 8, 4]])

#### （2）数组的运算

In [63]:
import numpy as np
a = np.random.randint(10,size = 20).reshape(4,5)
b = np.random.randint(10,size = 20).reshape(4,5)
a

array([[5, 6, 0, 0, 6],
       [9, 1, 8, 9, 1],
       [2, 8, 9, 9, 5],
       [0, 2, 7, 3, 0]])

In [64]:
b

array([[4, 2, 0, 3, 3],
       [1, 2, 5, 9, 0],
       [1, 0, 1, 9, 0],
       [9, 2, 1, 1, 0]])

In [65]:
#加法
a+b  #结果还是4 x 5的数组，结果就是每个位置上对应位置的元素相加

array([[ 9,  8,  0,  3,  9],
       [10,  3, 13, 18,  1],
       [ 3,  8, 10, 18,  5],
       [ 9,  4,  8,  4,  0]])

In [66]:
#减法
a-b  #结果还是4 x 5的数组，结果就是每个位置上对应位置的元素相减

array([[ 1,  4,  0, -3,  3],
       [ 8, -1,  3,  0,  1],
       [ 1,  8,  8,  0,  5],
       [-9,  0,  6,  2,  0]])

In [67]:
#乘法
a*b  #结果还是4 x 5的数组，结果就是每个位置上对应位置的元素相乘

array([[20, 12,  0,  0, 18],
       [ 9,  2, 40, 81,  0],
       [ 2,  0,  9, 81,  0],
       [ 0,  4,  7,  3,  0]])

In [68]:
#除法
a/b  
#结果还是4 x 5的数组，结果就是每个位置上对应位置的元素相除，注意这里是有一个报警，而不是错误，这是因为b有些元素为0，遇到这样的情况，返回值会有提醒

  
  


array([[1.25, 3.  ,  nan, 0.  , 2.  ],
       [9.  , 0.5 , 1.6 , 1.  ,  inf],
       [2.  ,  inf, 9.  , 1.  ,  inf],
       [0.  , 1.  , 7.  , 3.  ,  nan]])

#### （3）矩阵Matrix

#### 创建一个矩阵

In [69]:
import numpy as np
np.mat([[1,2,3],[4,5,6]])

matrix([[1, 2, 3],
        [4, 5, 6]])

#### 数组array和矩阵matrix之间是可以相互转换的

In [70]:
a = np.random.randint(10,size = 20).reshape(4,5)
np.mat(a)
#所以前面所有创建array的方法都可以用来创建matrix

matrix([[0, 5, 9, 0, 4],
        [6, 6, 0, 2, 3],
        [3, 2, 6, 0, 5],
        [1, 3, 6, 5, 5]])

#### 矩阵的运算

In [71]:
import numpy as np
a = np.random.randint(10,size = 20).reshape(4,5)
b = np.random.randint(10,size = 20).reshape(4,5)
A = np.mat(a)
B = np.mat(b)

In [72]:
A

matrix([[1, 8, 0, 5, 9],
        [8, 5, 7, 8, 5],
        [8, 9, 9, 1, 5],
        [9, 1, 4, 7, 7]])

In [73]:
B

matrix([[7, 9, 7, 6, 0],
        [3, 9, 4, 4, 6],
        [8, 4, 9, 2, 1],
        [1, 6, 3, 4, 5]])

In [74]:
#加法
A+B  #和array一样，结果就是每个位置上对应位置的元素相加

matrix([[ 8, 17,  7, 11,  9],
        [11, 14, 11, 12, 11],
        [16, 13, 18,  3,  6],
        [10,  7,  7, 11, 12]])

In [75]:
#减法
A-B  #和array一样，结果就是每个位置上对应位置的元素相减

matrix([[-6, -1, -7, -1,  9],
        [ 5, -4,  3,  4, -1],
        [ 0,  5,  0, -1,  4],
        [ 8, -5,  1,  3,  2]])

In [76]:
#乘法
A*B  #直接敲就会报错，因为如果两个矩阵要做乘法运算，比如说A = n x m,  B = p x q，那么如果他们两个可以做乘法运算，那么必须m = p

ValueError: shapes (4,5) and (4,5) not aligned: 5 (dim 1) != 4 (dim 0)

In [77]:
import numpy as np
a = np.random.randint(10,size = 20).reshape(4,5)
c = np.random.randint(10,size = 20).reshape(5,4)
A = np.mat(a)
C = np.mat(c)
print(A)
print(C)
A*C #然后就会生成一个 4 x 4的乘法运算

[[4 0 2 8 0]
 [7 6 5 8 2]
 [2 0 1 2 3]
 [5 7 8 7 7]]
[[6 9 2 0]
 [4 5 4 6]
 [9 0 4 6]
 [4 9 8 0]
 [7 1 7 1]]


matrix([[ 74, 108,  80,  12],
        [157, 167, 136,  68],
        [ 50,  39,  45,   9],
        [207, 150, 175,  97]])

#### （4）array常用函数

#### np.unique -> 返回array中唯一的元素

In [78]:
a = np.random.randint(10,size = 20).reshape(4,5)
a

array([[1, 5, 5, 0, 8],
       [3, 7, 1, 5, 2],
       [3, 4, 5, 7, 6],
       [8, 0, 4, 6, 3]])

In [79]:
np.unique(a)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

#### sum -> 求和

In [80]:
import numpy as np
a = np.random.randint(10,size = 20).reshape(4,5)
print(a)
sum(a)  #数组a所有列的和

[[5 9 3 8 3]
 [0 9 6 2 3]
 [9 1 4 0 5]
 [0 8 1 3 6]]


85

In [81]:
#求具体某一行的和
sum(a[0])

28

In [82]:
#求具体某一列的和
sum(a[:,0]) #求第一列的和 

14

#### max -> 看最大值

In [83]:
import numpy as np
a = np.random.randint(10,size = 20).reshape(4,5)
print(a)
a.max()

[[0 0 6 5 7]
 [4 9 0 0 9]
 [2 2 1 6 6]
 [7 3 9 0 7]]


9

In [84]:
#求具体某一行或者某一列的最大值
max(a[0])  #求第0行的最大值

7

In [85]:
max(a[:,0]) #求第0列的最大值

7

### 4. Array的input和output  -> 将array存入硬盘中

#### （1）使用pickle序列化numpy array  -> 传统方法

In [86]:
import pickle
import numpy as np
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [87]:
#接下来我们思考如果使用pickle把array存到硬盘上？
f = open('x.pkl','wb')
pickle.dump(x,f)  #然后发现创建了一个新的文件x.pkl

In [88]:
#读取pickle
f = open('x.pkl','rb')
pickle.load(f)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

#### （2）numpy的方法直接序列化

#### 单个array序列化

In [89]:
import pickle
import numpy as np
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [90]:
np.save('One_Array',x)  #把x序列化到One_Array这个文件中，我们看到创建了一个新的文件

In [91]:
#如何读取？
np.load('One_Array.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

#### 多个array序列化

In [92]:
import pickle
import numpy as np
x = np.arange(10)
y = np.arange(20)
np.savez('two_array',a = x,b=y)

In [93]:
#如何读取？
c = np.load('two_array.npz')  #注意这个时候的文件名后缀是.npz,同时这个c其实是包含两个array的

In [94]:
c['a']  #第一个array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [95]:
c['b']  #第二个array

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [96]:
#这里其实相当于是产生了一个压缩的文件，我们把多个array压缩到一个文件中去