## 科学数据分析的基本原则

- <u>复现</u> 原则

   http://statements.ufl.edu/statements/2019/july/university-statement-regarding-student-death.html

> 有人说造假也分种类，有些问题不大呢，好多人都修改数据为求结果好看一些。
> 那我觉得说这些话的人也许已经忘记了自己读PhD的时候，在重复不出别人文章里的结果时是有多么的抓狂了。

- <u>透明</u>, <u>一次</u>, <u>最佳工具</u> 原则

## 2019年的最佳工具
- 版本控制: Git
- 大数据方法的载体：Python
  - 易读懂易书写，功能丰富，可调用其它语言的工具库
  - 使用计算机时间换取人类时间
- 保持开放的心态，保持好奇心，锻炼自学能力

## Python 的注释

- 注释使用 '#' 号引出

In [32]:
# 高精度整数举例
2**1000

10715086071862673209484250490600018105614048117055336074437503883703510511249361224931983788156958581275946729175531468251871452856923140435984577574698574803934567774824230985421074605062371141877954182153046474983581941267398767559165543946077062914571196477686542167660429831652624386837205668069376

### 多行注释

多行注释可多次使用 '#'

In [33]:
# 在这个程序中，我们将使用计算球谐函数对任意
# 球面上的连续函数进行拟合

### 函数的文档

- 在函数定义后，紧跟一个字符串，可以定义函数的文档。
- 用多行字符串很方便。

In [34]:
def spherical_harmonic_fitter(grid, order):
    "求球谐函数拟合的系数"
    
    # 具体实现省略
    pass

help(spherical_harmonic_fitter)

Help on function spherical_harmonic_fitter in module __main__:

spherical_harmonic_fitter(grid, order)
    求球谐函数拟合的系数



In [35]:
def spherical_harmonic_fitter(grid, order):
    '''
    求球谐函数拟合的系数
    
    输入
    ~~~
    grid: 球面上连续函数在固定格点上的取值
    order: 拟合时球谐函数近似截断的阶数
    
    输出
    ~~~
    拟合系数矩阵
    '''
    
    # 具体实现省略
    pass

help(spherical_harmonic_fitter)

Help on function spherical_harmonic_fitter in module __main__:

spherical_harmonic_fitter(grid, order)
    求球谐函数拟合的系数
    
    输入
    ~~~
    grid: 球面上连续函数在固定格点上的取值
    order: 拟合时球谐函数近似截断的阶数
    
    输出
    ~~~
    拟合系数矩阵



## 文档的普遍性

- 我们学习过的内容都有帮助文档可以随时查阅

In [36]:
help(None)

Help on NoneType object:

class NoneType(object)
 |  Methods defined here:
 |  
 |  __bool__(self, /)
 |      self != 0
 |  
 |  __new__(*args, **kwargs) from builtins.type
 |      Create and return a new object.  See help(type) for accurate signature.
 |  
 |  __repr__(self, /)
 |      Return repr(self).



## Python 的模块系统

- 函数用来实现代码复用的目的，践行 <u>一次</u> 原则
- 模块的直观理解：相关的函数集合起来，整理到相应的名字空间 (namespace) 中
  - 模块可以用 Python 实现，也可以由 C 等编译语言实现

In [37]:
import math # 加载 math 模块
help(math.factorial)

Help on built-in function factorial in module math:

factorial(...)
    factorial(x) -> Integral
    
    Find x!. Raise a ValueError if x is negative or non-integral.



In [38]:
math.factorial(10)

3628800

### 加载模块时，可以自定义名称

- 对于较长的模块名很有用

In [39]:
import math as m
m.factorial(10)

3628800

### 多层名字的加载方法

1. 直接使用多层名字空间
2. 使用 `from`

In [40]:
import os
help(os.path.abspath)

Help on function abspath in module posixpath:

abspath(path)
    Return an absolute path.



In [41]:
from os.path import abspath
abspath is os.path.abspath

True

In [42]:
from os.path import abspath as absp
absp is os.path.abspath

True

## 程序的测试

- 如何保证程序是对的？
  - 程序越长，越容易出错吗？
- 如果保证修改程序不引入新的问题？
  - 修改越多，引入新问题的概率越大吗？

- 使用 Git 会有什么帮助吗？
  - 除了 Git 还需要什么？
- 实验室为何会有谁都不敢动的“祖传代码”出现？

### 编写测试数据

- 根据需求，用已知的输入输出检验程序是否正确
  - 单元测试：对函数进行测试
  - 集成测试：对各部分总体进行测试
- 测试程序与功能程序可以交替进行：

```
,-------       ,-------
| 测试         | 测试
`-------       `-------
       ,-------       ,-------
       | 功能         | 功能
       `-------       `-------

```

## Python 的 Numpy 数组

- Numpy 起源于使用 Python 语言调用 fortran 进行线性代数运算的需求。
- 已经发展成为 Python 科学计算的基石

### 安装 Numpy

- 以 APT 为例，其它工具类同

```
$ sudo apt install python3-numpy

Preparing to unpack .../python3-numpy_1%3a1.16.2-1_amd64.deb ...
Unpacking python3-numpy (1:1.16.2-1) ...
Setting up python3-numpy (1:1.16.2-1) ...
```

In [43]:
import numpy as np

nv = np.array([1,2,3,4,3,2,1])
print(nv)

[1 2 3 4 3 2 1]


### 数组与列表的联系与区别

- 数组操作的语法与列表相似
- 数组 (Numpy array) 要求元素的数据类型被预设且一致，列表 (List) 无此要求
- 数组的存储是一段连续的内存空间，列表不是
- 以上两点使得在数值计算中，数组的效率比列表高很多

In [44]:
nv[2], nv[5:], nv[-1]

(3, array([2, 1]), 1)

### 二维数组用来表示矩阵

In [45]:
ma = np.array([[1,0], [0,1]])
print(ma)

[[1 0]
 [0 1]]


In [46]:
type(ma), ma.shape

(numpy.ndarray, (2, 2))

## 数组的创建与索引

In [47]:
print(np.ones((3, 3)))
print(np.zeros((4,4)))

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [48]:
nl = np.arange(10)
print(nl)
print(nl[::2])
print(nl[::-1])

[0 1 2 3 4 5 6 7 8 9]
[0 2 4 6 8]
[9 8 7 6 5 4 3 2 1 0]


![image.png](attachment:image.png)

## 数组运算

- 一般的运算符都可以在数组上使用
- 可以省去循环，使用程序更简明易懂

In [49]:
n = np.arange(10)
n**2

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [51]:
nr = n[::-1]
nr + n

array([9, 9, 9, 9, 9, 9, 9, 9, 9, 9])

In [52]:
[v**2 for v in n] # 对比

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [54]:
np.sum(n), np.mean(n), np.median(n)

(45, 4.5, 4.5)

## 矩阵运算

- 以 Pauli 矩阵为例

In [6]:
pauli = []
pauli.append(np.array([0,1,1,0]).reshape(2,2))
pauli.append(np.array([0,-1j,1j,0]).reshape(2,2))
pauli.append(np.array([1,0,0,-1]).reshape(2,2))
for m in pauli:
    print(m)

[[0 1]
 [1 0]]
[[ 0.+0.j -0.-1.j]
 [ 0.+1.j  0.+0.j]]
[[ 1  0]
 [ 0 -1]]


In [20]:
for m in pauli:
    print("trace is {};".format(np.trace(m)), "eigenvalues are: ", np.linalg.eigvals(m))

trace is 0; eigenvalues are:  [ 1. -1.]
trace is 0j; eigenvalues are:  [ 1.+0.00000000e+00j -1.+1.23259516e-32j]
trace is 0; eigenvalues are:  [ 1. -1.]


In [14]:
def commute(a,b):
    '''
    commutation operator: ab-ba
    '''
    return np.dot(a, b) - np.dot(b, a)

# 浮点运算要注意测试，忌随手写 '=='
commute(pauli[0], pauli[1]) == 2j * pauli[2]

array([[ True,  True],
       [ True,  True]])

In [13]:
commute(pauli[1], pauli[2]) == 2j * pauli[0]

array([[ True,  True],
       [ True,  True]])

## Numpy

- Numpy 的数组功能十分丰富
  - 参考 http://scipy-lectures.org/intro/numpy/index.html
  - 做更多的练习
- 课上难免挂一漏万，今后随用随讲