# Lecture 2 NumPy and SciPy

## [Numpy](https://numpy.org)

`NumPy`给我们提供一个高效的数据结构，底层基于C++/Fortran库；    
[Array programming with NumPy, Nature **585**,357(2020).](https://www.nature.com/articles/s41586-020-2649-2)

> "Now, 15 years later, NumPy underpins almost every Python library that does scientific or numerical computation, including SciPy, Matplotlib, pandas, scikit-learn and scikit-image. NumPy is a community-developed, open-source library, which provides a multidimensional Python array object along with array-aware functions that operate on it. Because of its inherent simplicity, the NumPy array is the de facto exchange format for array data in Python."




- 知道基本属性(`attribute`)，基本`method`；   
- 常见新数组的创建、初始化、赋值；  
- 基础数学运算：+-*/, 数组的广播；        
- 线性代数运算：内积，外积（张量积）；    
- 数组的拼接、组合、压平、查找、切片等。。。

### 简介
Numpy(Numerical Python)是Python科学计算的基础包。它提供以下功能(不限于此):<br>
* 快速高效的多维数组对象ndarray。
* 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。
* 用于集成由c/c++/Fortran代码的API。
* 线性代数运算、傅里叶变换，以及随机数生成。

In [3]:
import numpy as np

In [4]:
np.__version__

'1.21.5'

In [1]:
# `np.[Tab?]`
np.

### Ndarray对象

#### 从已有对象（`object`）实例化：     

Numpy中最重要的一个特点就是其N维数组对象(即ndarray)，它是一系列同类型数据的集合。可以通过调用Numpy的array函数来创建ndarray:<br>
``` python
np.array(object,dtype = None ,copy = True ,order = 'K',subok = False ,ndmin = 0,like = None)
```

In [44]:
a1D = np.array([1,2,3,4,5])
a1D

array([1, 2, 3, 4, 5])

In [5]:
np.asarray([1,2,3,4,5])

array([1, 2, 3, 4, 5])

#### Ndarray数组属性

| 属性| 说明 |
| ------ | ------ | 
| `ndarray.ndim` | 秩，即轴的数量或维度的数量 | 
| `ndarray.shape` | 数组的维度，对于矩阵，n 行 m 列 |
| `ndarray.size` | 数组元素的总个数 |
| `ndarray.dtype` |ndarray 对象的元素类型| 
| `ndarray.itemsize ` | ndarray 对象中每个元素的大小，以字节为单位| 
| `ndarray.flags` | ndarray 对象的内存信息| 
| `ndarray.dtype` |ndarray 对象的元素类型| 
| `ndarray.real ` | ndarray元素的实部| 
| `ndarray.imag` | ndarray 元素的虚部| 
| `ndarray.data` | 包含实际数组元素的缓冲区，由于一般通过数组的索引获取元素，所以通常不需要使用这个属性| 

In [6]:
a3D = np.array([[[1,3],[4,5]],[[2,6],[4,8]]])
a3D.ndim

3

In [7]:
a3D.shape

(2, 2, 2)

In [8]:
print(a3D)

[[[1 3]
  [4 5]]

 [[2 6]
  [4 8]]]


#### Ndarray数组的创建（直接生成一个`array`对象）

Ndarray除了用`np.array`创建，还可以通过`np.zeros()`,`np.ones()`,`np.empty()`,`np.arange()`,`np.linspace()`等方式来创建数组

| 属性| 说明 |
| ------ | ------ | 
| `np.zeros(shape,dtype,order)` | 创建指定shape和dtype的数组，数组元素用`0`来填充 | 
| `np.ones(shape,dtype,order)` | 创建指定shape和dtype的数组，数组元素用`1`来填充 |
| `np.empty(shape,dtype,order)` | 法用来创建一个指定shape和dtype且未初始化的数组 |
| `np.arange(start, stop, step, dtype)` |根据 start 与 stop 指定的范围以及 step 设定的步长，创建一维数组| 
| `np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None) ` |根据start 与 stop 指定的范围以及 num 设定的元素总数生成一维等差数组| 
| `np.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None)` |序列起始值为base^start终止值为base^stop,num为数组元素数目，生成等比数列 | 
| `np.random.rand(d1,d2,d3...)` |生成指定shape，元素为[0,1)均匀分布的随机样本| 


In [None]:
np.full()

In [9]:
np.zeros((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [10]:
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [49]:
a=np.empty((2,2))

In [51]:
a[0]

array([2.71828183, 7.3890561 ])

In [16]:
range(1,10)

range(1, 10)

In [37]:
np.linspace(0,20,21)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15., 16., 17., 18., 19., 20.])

In [20]:
a2d=np.random.rand(2,4)
a2d

array([[0.71968454, 0.6977147 , 0.25706825, 0.683458  ],
       [0.10367606, 0.525417  , 0.97487161, 0.16314838]])

#### Ndarray数组的切片和索引


Ndarray对象的内容可以通过索引或切片来进行访问和修改，与Python中list的切片操作相似。Ndarray数组可以基于下标进行索引，切片对象可以通过内置的`slice`函数,并设置start,stop和step参数进行，从原数组中切割一个新数组。

In [23]:
a2d[0:,1:-1]

array([[0.6977147 , 0.25706825],
       [0.525417  , 0.97487161]])

In [11]:
s = slice(1,4,1)
a1D[s]

array([2, 3, 4])

In [46]:
a1D

array([1, 2, 3, 4, 5])

In [45]:
a1D[0:-1:2]

array([1, 3])

In [13]:
a1D[3:]

array([4, 5])

In [25]:
a3D

array([[[1, 3],
        [4, 5]],

       [[2, 6],
        [4, 8]]])

In [24]:
a3D

array([[[1, 3],
        [4, 5]],

       [[2, 6],
        [4, 8]]])

In [21]:
a3D[0:,1:]

array([[[4, 5]],

       [[4, 8]]])

除了切片和按索引访问数组元素，还可以通过`np.where`函数条件选取数组。

| 函数 | 说明 |
| ------ | ------ | 
| `np.where(conditions)` | 当函数只有一个参数时，该参数表示条件，当条件成立时，函数返回的是每个符合`condition`条件元素的坐标,返回的是以元组的形式输出| 
| `np.where(conditions,x,y)` |  当函数内有三个参数时，第一个参数表示条件，当条件成立时函数返回`x`，当条件不成立时返回`y` |

In [26]:
np.where(a1D==4)

NameError: name 'a1D' is not defined

In [17]:
np.where(a1D==4 , a1D ,-2)

array([-2, -2, -2,  4, -2])

#### Ndarray数组操作

`numpy`中

| 函数 | 说明 |
| ------ | ------ | 
| `np.reshape(array,newshape)`或`ndarray.reshape(newshape) ` | 不改变数据的条件下修改数组形状,`array`为输入数组，`newshape`为改变后数组形状 | 
| `ndarray.ravel()` |展平的数组元素，将数组变为一维数组，修改会影响原始数组  |
| `ndarray.flatten()` |将数组变直，变为一维数组,返回一份数组拷贝，对拷贝所做的修改不会影响原始数组 |
| `np.transpose(array,axes)` | 调换数组的行列值的索引值，类似于求矩阵的转置，对二维数组而言操作类似矩阵转置 |
| `ndarray.T` | 二维数组的转置 |
| `np.column_stack(), np.row_stack()` | 按列合并数组，按行合并数组 |
| `np.vstack(), np.hstack(), np.stack()` | 竖直堆叠合并数组，水平堆叠合并数组，沿着新的轴加入一系列数组 |
| `np.concatenate()` | 连接沿现有轴的数组序列 |
| `np.vsplit(), np.hsplit(), np.split()` | 竖直拆分数组(可理解为vstack反向操作)，水平拆分数组，按指定轴拆分数组 |

In [18]:
np.reshape(a1D,(5,-1))

array([[1],
       [2],
       [3],
       [4],
       [5]])

In [37]:
a3D_reshape= a3D.reshape(4,2)
a3D_reshape

array([[1, 3],
       [4, 5],
       [2, 6],
       [4, 8]])

In [42]:
a3D_reshape[:,1]

array([3, 5, 6, 8])

In [35]:
a3D[0,]

array([[1, 3],
       [4, 5]])

In [20]:
a1D

array([1, 2, 3, 4, 5])

In [21]:
test1 = a3D.flatten()
test1
test1[1] = 2

In [22]:
a3D

array([[[1, 3],
        [4, 5]],

       [[2, 6],
        [4, 8]]])

In [23]:
test2  = a3D.ravel()
test2
test2[1] = 2

In [24]:
a2D = np.arange(0,6).reshape(2,3)
a2D

array([[0, 1, 2],
       [3, 4, 5]])

In [25]:
a2D.T

array([[0, 3],
       [1, 4],
       [2, 5]])

In [27]:
time = np.linspace(0,10,11) 
print(time)
print('\n')
grade = np.random.rand(11,)*100
print(grade)
print('\n')

[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]


[97.4669159  31.60688591 35.57610001  0.32659888 19.18706583 32.03511881
 98.76276311 21.35289944 17.93147823 70.3854878  56.73417923]




In [35]:
np.column_stack((time,grade))

array([[ 0.        , 92.0397391 ],
       [ 1.        ,  0.18365079],
       [ 2.        , 89.89981118],
       [ 3.        , 10.65636534],
       [ 4.        , 75.83332455],
       [ 5.        , 10.52939703],
       [ 6.        , 52.00724131],
       [ 7.        , 43.08896644],
       [ 8.        , 35.79822399],
       [ 9.        , 74.43382282],
       [10.        , 53.0865614 ]])

In [36]:
np.row_stack((time,grade))

array([[ 0.        ,  1.        ,  2.        ,  3.        ,  4.        ,
         5.        ,  6.        ,  7.        ,  8.        ,  9.        ,
        10.        ],
       [92.0397391 ,  0.18365079, 89.89981118, 10.65636534, 75.83332455,
        10.52939703, 52.00724131, 43.08896644, 35.79822399, 74.43382282,
        53.0865614 ]])

In [33]:
np.vstack((time,grade))

array([[ 0.        ,  1.        ,  2.        ,  3.        ,  4.        ,
         5.        ,  6.        ,  7.        ,  8.        ,  9.        ,
        10.        ],
       [92.0397391 ,  0.18365079, 89.89981118, 10.65636534, 75.83332455,
        10.52939703, 52.00724131, 43.08896644, 35.79822399, 74.43382282,
        53.0865614 ]])

In [34]:
np.hstack((time,grade))

array([ 0.        ,  1.        ,  2.        ,  3.        ,  4.        ,
        5.        ,  6.        ,  7.        ,  8.        ,  9.        ,
       10.        , 92.0397391 ,  0.18365079, 89.89981118, 10.65636534,
       75.83332455, 10.52939703, 52.00724131, 43.08896644, 35.79822399,
       74.43382282, 53.0865614 ])

### 通用函数

`numpy`中

| 函数 | 说明 |
| ------ | ------ | 
| `np.sin()` `np.cos()` ` np.tan() `|  三角函数 | 
| `np.arcsin()` `np.arccos()` ` np.arctan() `| 反三角函数 | 
| `np.sqrt()` | 开方函数 |
| `np.exp()` | 指数函数 |
| `np.around(a, decimals=0, out=None)` | 保留a到小数点后第decimals位(当近似位)，当近似的小数为5时，前一位近似为偶数 |
| `np.ceil()`,`np.floor()` | 向上取整，向下取整 |
| `np.max() np.min() np.sum() np.prod() `|找到数组最大值，最小值，对数组所有元素求和，求所有元素的乘积 |
| `np.clip(a,amin,amax) `| 将a中元素截断到amin和amax区间中 |
| `np.std() np.mean() np.median()` | 数组的标准差，平均值，中位数 |
| `np.argmax() np.argmin()` | 返回数组最大值的索引，返回数组最小值的索引 |
| `np.dot(a,b)` |a,b都是一维向量时，为向量点乘，都为二维矩阵时，为矩阵的乘法运算 |

In [42]:
np.cos(np.pi)

-1.0

In [44]:
np.sqrt(np.linspace(0,10,11))

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ,
       3.16227766])

In [46]:
np.around([0.5,1.5,2.5,3.5,4.5],decimals=0)

array([0., 2., 2., 4., 4.])

In [48]:
print(np.sum(a1D))
print(np.prod(a1D))

15
120


In [49]:
np.clip(a1D,2,4)

array([2, 2, 3, 4, 4])

### 线性代数基础   

- 矩阵    
- 线性变换    
- 矩阵分解    

-------------------

## [SciPy](https://scipy.org)


Scipy是一组专门解决科学计算中各种标准问题域的包的集合，主要包括下面这些包：<br>
* scipy.integrate: 数值积分例程和微分方程求解器。
* scipy.linalg: 扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能。
* scipy.optimize: 函数优化器(最小化器)以及根查找算法。
* scipy.signal: 信号处理工具。
* scipy.sparse: 稀疏矩阵和稀疏线性系统求解器。
* scipy.special: SPECFN(实现许多常用数学函数(如伽马函数)的Fortran库)的包装器。
* scipy.stats: 标准连续和离散概率分布(如密度函数、采样器、连续分布函数等)、各种统计检验方法，以及更好的描述统计法。

In [50]:
import scipy 

### [scipy.linalg](https://docs.scipy.org/doc/scipy/tutorial/linalg.html)

> scipy.linalg contains all the functions in numpy.linalg. plus some other more advanced ones not contained in numpy.linalg.

- [线性代数科普](https://www.3blue1brown.com/topics/linear-algebra)   
- 书:[线性代数应该这样学（第2版）](https://ochicken.top/Library/Mathematics/Linear_Algebra/Sheldon%20Axler%20-%20%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0%E5%BA%94%E8%AF%A5%E8%BF%99%E6%A0%B7%E5%AD%A6.pdf)

`scipy.linalg`是负责处理线性代数部分计算的模块，`numpy`库中也有处理线性代数的模块`numpy.linalg`，而`scipy.linalg`除了包含`numpy.linalg`所有函数，也有许多`numpy.linalg`中没有的函数，与此同时`scipy.linalg`能确保在函数使用BLAS/LAPACK加速，因此我们往往在处理线性代数相关问题时往往采用`scipy.linalg`。

In [28]:
import scipy.linalg as linalg

线性代数中的基本操作对象是矩阵，可以用二维`numpy.ndarray`(或者`numpy.matrix`)来表示矩阵。

$$
A = \left[
\begin{array}{ccc}
1 & 2  \\
3 & 4  
\end{array}
\right]
$$

In [29]:
A = np.array([[1,2],
              [3,4]])

####  基础操作

1. 矩阵求逆<br>
矩阵 $\mathbf{A}$ 的逆 $\mathbf{B}$ 满足：$\mathbf{BA}=\mathbf{AB}=I$，记作 $\mathbf{B} = \mathbf{A}^{-1}$。


In [32]:
# pseodu-inverse 'pinv
B = linalg.inv(A)
B

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

In [23]:
np.dot(A,B)

array([[1.0000000e+00, 0.0000000e+00],
       [8.8817842e-16, 1.0000000e+00]])

2. 求解线性方程组<br>
例如，下列方程组
$$
\begin{eqnarray*} 
x + 3y + 5z & = & 10 \\
2x + 5y + z & = & 8  \\
2x + 3y + 8z & = & 3
\end{eqnarray*}
$$的解为：
$$
\begin{split}\left[\begin{array}{c} x\\ y\\ z\end{array}\right]=\left[\begin{array}{ccc} 1 & 3 & 5\\ 2 & 5 & 1\\ 2 & 3 & 8\end{array}\right]^{-1}\left[\begin{array}{c} 10\\ 8\\ 3\end{array}\right]=\frac{1}{25}\left[\begin{array}{c} -232\\ 129\\ 19\end{array}\right]=\left[\begin{array}{c} -9.28\\ 5.16\\ 0.76\end{array}\right].\end{split}
$$

我们可以使用 `linalg.solve` 求解方程组，也可以先求逆再相乘，两者中 `solve` 比较快。

In [24]:
A = np.array([[1,2],
              [3,4]])
b = np.array([5,6])
x = linalg.inv(A).dot(b)
x

array([-4. ,  4.5])

In [26]:
A.dot(x)

array([5., 6.])

In [28]:
linalg.solve(A,b)

array([-4. ,  4.5])

3.  计算行列式

方阵的行列式为
$$
\left|\mathbf{A}\right|=\sum_{j}\left(-1\right)^{i+j}a_{ij}M_{ij}.
$$

其中 $a_{ij}$ 表示 $\mathbf{A}$ 的第 $i$ 行 第 $j$ 列的元素，$M_{ij}$ 表示矩阵 $\mathbf{A}$ 去掉第 $i$ 行 第 $j$ 列的新矩阵的行列式。

例如，矩阵
$$
\begin{split}\mathbf{A=}\left[\begin{array}{ccc} 1 & 3 & 5\\ 2 & 5 & 1\\ 2 & 3 & 8\end{array}\right]\end{split}
$$
的行列式是：
$$
\begin{eqnarray*} \left|\mathbf{A}\right| & = & 1\left|\begin{array}{cc} 5 & 1\\ 3 & 8\end{array}\right|-3\left|\begin{array}{cc} 2 & 1\\ 2 & 8\end{array}\right|+5\left|\begin{array}{cc} 2 & 5\\ 2 & 3\end{array}\right|\\  & = & 1\left(5\cdot8-3\cdot1\right)-3\left(2\cdot8-2\cdot1\right)+5\left(2\cdot3-2\cdot5\right)=-25.\end{eqnarray*}
$$

可以用 `linalg.det` 计算行列式：

In [32]:
A1 = np.array([[1, 3, 5],
              [2, 5, 1],
              [2, 3, 8]])

linalg.det(A1)

-25.000000000000004

In [33]:
linalg.det(A)

-2.0

####  矩阵分解

1. 特征值和特征向量<br>
对于给定的 $N \times N$ 矩阵 $\mathbf A$，特征值和特征向量问题相当与寻找标量 $\lambda$ 和对应的向量 $\mathbf v$ 使得：
$$
\mathbf{Av} = \lambda \mathbf{v}
$$<br>
矩阵的 $N$ 个特征值（可能相同）可以通过计算特征方程的根得到：
$$
\left|\mathbf{A} - \lambda \mathbf{I}\right| = 0
$$<br>
然后利用这些特征值求（归一化的）特征向量。

| 函数 | 说明 |
| ------ | ------ | 
| `linalg.eig(A)`  | 返回矩阵的特征值与特征向量 | 
| `linalg.eigvals(A)` |返回矩阵的特征值  |
| `linalg.eig(A, B)` |求解 $\mathbf{Av} = \lambda\mathbf{Bv}$ 的问题  |



如矩阵为
$$
\begin{split}\mathbf{A}=\left[\begin{array}{ccc} 1 & 5 & 2\\ 2 & 4 & 1\\ 3 & 6 & 2\end{array}\right].\end{split}
$$

特征多项式为：
$$
\begin{eqnarray*} \left|\mathbf{A}-\lambda\mathbf{I}\right| & = & \left(1-\lambda\right)\left[\left(4-\lambda\right)\left(2-\lambda\right)-6\right]-\\  &  & 5\left[2\left(2-\lambda\right)-3\right]+2\left[12-3\left(4-\lambda\right)\right]\\  & = & -\lambda^{3}+7\lambda^{2}+8\lambda-3.\end{eqnarray*}
$$

特征根为：
$$
\begin{eqnarray*} \lambda_{1} & = & 7.9579\\ \lambda_{2} & = & -1.2577\\ \lambda_{3} & = & 0.2997.\end{eqnarray*}
$$

In [58]:
A2 = np.array([[1, 5, 2], 
              [2, 4, 1],
              [3, 6, 2]])

la, v = linalg.eig(A2)

print(la)

# 验证特征向量是否归一化
print(np.sum(abs(v**2),axis=0))

# 第一个特征值
l1 = la[0]
# 对应的特征向量
v1 = v[:, 0].T

# 验证是否为特征值和特征向量对
print(linalg.norm(A2.dot(v1)-l1*v1))

[ 7.9579162 +0.j -1.25766471+0.j  0.2997485 +0.j]
[1. 1. 1.]
2.0350724194510405e-15


2. 奇异值分解<br>
$M \times N$ 矩阵 $\mathbf A$ 的奇异值分解为：
$$
\mathbf{A=U}\boldsymbol{\Sigma}\mathbf{V}^{H}
$$

  其中 $\boldsymbol{\Sigma} (M \times N)$ 只有对角线上的元素不为 0，$\mathbf U (M \times M)$ 和 $\mathbf V (N \times N)$ 为正交矩阵。

其具体原理可以查看维基百科：
https://en.wikipedia.org/wiki/Singular_value_decomposition

####  矩阵函数

| 函数 | 说明 |
| ------ | ------ | 
| `linalg.expm(A)` | 计算矩阵以e为底的指数 | 
| `linalg.logm(A)` |计算矩阵的对数  |
| `linalg.cosm(A)` |计算矩阵的余弦  |
| `linalg.sinm(A)` |计算矩阵的正弦  |
| `linalg.tanm(A)` |计算矩阵的正切  |
| `linalg.sqrtm(A)` |计算矩阵的开方  |


In [33]:
A = np.array([[1, 2], [3, 4]])

print(linalg.expm(A))

[[ 51.9689562   74.73656457]
 [112.10484685 164.07380305]]


In [61]:
linalg.logm(linalg.expm(A))

array([[1., 2.],
       [3., 4.]])

In [53]:
np.exp(A)

array([[ 2.71828183,  7.3890561 ],
       [20.08553692, 54.59815003]])

---------------------------

$$
A = \left[
\begin{array}{ccc}
1 & 0 & 0 \\
1 & 0 & 0 \\
1 & 0 & 0
\end{array}
\right]
$$

## Homework

1. 生成一个$n\times n$随机矩阵,取n=10:
    - 初始化一个零矩阵，并向里面赋值的形式来完成（其实没必要这样）；    
    - 记为矩阵A，矩阵元实部为[-2.,2.]之间的均匀分布，虚部为[-1.0,1.0]之间的正太分布；   
    - 将A对称化，记为H，满足H的转置复共轭等于自己，$(H^T)^*=H$，将H的数值保存到本地文件（比如`txt`格式或者`npy`）并读取；  
    - 读取你保存到本地文件，对角化H，得到其本征值和对应的本征矢量；  
    - (*)尝试扩大n，探究对角化H的时间和n的关系。   

2. 假设上述矩阵H可以作如下分解：$H=U^\dagger\Lambda U$,其中$\Lambda$为对角矩阵，
试验证:
$$
\exp(H)=?= U^\dagger \exp(\Lambda) U,
$$
可以的话，查资料再想想为什么？   

> 注意矩阵的指数通常不等于矩阵的每个矩阵元逐元素取指数，可以参考`scipy.linalg.expm`的函数官方文档说明，并且可以直接使用这个函数。   

3（*）. 尝试将上面做的事情封装成一个`class`并尝试使用它,比如可以类似这样：

```python

class someClass():
    # 定义一些可以初始化的类属性
    def __init__(n):
        self.dim = n
    
    def symetrize(A):
        # 实现传入任何矩阵检查是否为厄米共轭矩阵，如果是直接返回，不是将其厄米对称化。
        # some codes...
        pass
    
    def diagonalize():
        pass
    
    # 其他方法或者是想增加的功能。。。
```