## 作业的评分器
- 评分器本质上是自动测试框架
  - 自动测试是目前为止，软件工程中最有效的保证程序可靠性的做法
  - 不仅保证程序逻辑正确，还要保证输入输出符合约定
- 实验的数据处理中，上游程序的输出是下游程序的输入
  - 程序出界仅仅被人类理解是不够的
  - 如果不符合格式约定，后一个程序或者会崩溃，或者误读数据造成不易察觉的错误
  - 一旦科学结果被发表，纠正错误将牵扯诸多非科学因素

### 测试框架可以促进协作
- 上游程序使用测试器模拟下游的读入
- 下游程序使用测试器模拟上游的输出

- 请主动设计测试输入样例，与同学分享刁钻的测试输入

## 特别作业预告
- 星期三下午 4 到 5 点，一次快速小作业
  - 星期三请假的同学，注意在 4 到 5 点的时间窗口线上完成作业。
- 内容是关于 Numpy 数组和矩阵的数值计算

- 禁代码交流和抄袭，其它无要求。

## 数据格式

- <u>透明</u> 原则，数据格式默认由计算机处理，但要易于被人类理解和检查。
- CSV, HDF5, JSON
- 数据格式本质上是数据转化：
  - 转化过程中是否有损失？
  - 转化是否方便？

## Comma separated values (CSV)

- 文本文件，易于阅读
  - 文本天然是一个表格
- 适合传递整数，文字或者对精度没有要求的浮点数


In [1]:
import numpy as np
hz = np.arange(100)
hz.shape = (10,10)


In [2]:
opt = open("hz.csv", "wb")
np.savetxt(opt, hz)
opt.close()

# 等价于：
with open("hz.csv", "wb") as opt:
    np.savetxt(opt, hz)


## 查看保存的文件

- `cat` 命令，"concatenate" 的缩写，可以显示文件内容，即向标准输出写入。

```
0.000000000000000000e+00 1.000000000000000000e+00 2.000000000000000000e+00 3.000000000000000000e+00
1.000000000000000000e+01 1.100000000000000000e+01 1.200000000000000000e+01 1.300000000000000000e+01
```

- 不是很易读，因为 `np.savetxt()` 的默认格式是 `fmt='%.18e'`.
- `fmt=%d` 按整数输出。
  - 深入学习关键字：C format specifiers

In [3]:
with open("hz.csv", "w") as opt:
    np.savetxt(opt, hz, fmt="%d")


In [4]:
# 读入
with open("hz.csv") as ipt:
    csv_hz = np.loadtxt(ipt)
print(csv_hz)

[[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14. 15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24. 25. 26. 27. 28. 29.]
 [30. 31. 32. 33. 34. 35. 36. 37. 38. 39.]
 [40. 41. 42. 43. 44. 45. 46. 47. 48. 49.]
 [50. 51. 52. 53. 54. 55. 56. 57. 58. 59.]
 [60. 61. 62. 63. 64. 65. 66. 67. 68. 69.]
 [70. 71. 72. 73. 74. 75. 76. 77. 78. 79.]
 [80. 81. 82. 83. 84. 85. 86. 87. 88. 89.]
 [90. 91. 92. 93. 94. 95. 96. 97. 98. 99.]]


## 数据类型
- Numpy 数组需要指定数据类型
  - `np.int16`, `np.int32`, `np.int64`, `int`
  - `np.float16`, `np.float32`, `np.float64`, `float`
  - `np.complex64`


In [8]:
print(hz.dtype) # np.arange(100) 接受整型参数返回整型

int64


In [9]:
print(r_hz.dtype) # loadtxt 默认以 float 类型读入

float64


In [13]:
with open("hz.csv") as ipt:
    ri_hz = np.loadtxt(ipt, dtype=int)
print(ri_hz.dtype)
print(ri_hz)

int64
[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]


## CSV的特点

- 优点：简单直观，兼容性极强
- 缺点：需要每次都指定格式和读入时的数据类型
  - 只能表示表格
- 是否可以把数据类型也存到文件中？
  - 人类还可以直接读取吗？
  - 另加约定是否可以成为标准？
  - HDF5
- 表格之外的格式怎么办？
  - 使用 JSON，具有额外的格式定义


## Hierarchical Data Format (HDF)
- 起源于高性能计算领域，目前标准由 The HDF Group 非盈利组织开发和维护
- 从 HDF 第 4 代起，获得广泛应用，特别是天文学
- 现在是第 5 代，因为叫做 HDF5
  - 原始表示：数据不必转换成文本。不涉及转换误差，但丧失了对人类的可读性。
  - 自我描述：数据类型写在文件中，可以被自动识别
  - 支持所有主流语言，有多种查看器
  - 缺点：对 ASCII 之外的字符支持没有标准，不保证可以处理中文。
    

### HDF5 的结构
- 数据集(Dataset): 多维数组
- 组(Group): 数据集的容器
- 组可以嵌套，使用 `/` 分隔
  - `/calibration/water/waveform`
- 元数据(Metadata)：用于描述数据集或组的特征
  

### Python 的 HDF5 工具
- H5PY: 极简的工具库，允许 Python 调用 HDF5 的 C++ 库。
  - 数据格式兼容性好，可以与其它语言交换数据。
- PyTables: 在 HDF5 之上进行了自定义格式，对读写有优化，但是损失了兼容性。
  - 可以读入标准 HDF5 文件，但是容易不小心写出非标准 HDF5 文件。
- 课程选择 H5PY，当兼容性和性能冲突时，优先选择兼容性。
  - Eric S. Raymond, The art of unix programming
  

### 安装 H5PY

```
sudo apt install python3-h5py
```

In [14]:
import h5py

with h5py.File("hz.h5", "w") as opt:
    opt["hz"] = hz


- 注意写入风格与 CSV 的异同
- h5py.File 返回的 opt 可以看作一个字典。


In [17]:
with h5py.File("hz.h5") as ipt:
    h5_hz = ipt["hz"][...]
print(h5_hz)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]


- `[...]` 或 `[()]` 代表把数据全部读入内存。
- 如果内存不够，H5PY 提供了部分读入的功能，也叫做 "Out of core computing"。


In [19]:
ipt = h5py.File("hz.h5")
ipt["hz"][2::3, ::5]

array([[20, 25],
       [50, 55],
       [80, 85]])

In [20]:
ipt.close() # 关闭之后就无法使用了
ipt["hz"][2::3, ::5]

ValueError: Not a location (invalid object ID)

## 创建组

- 当有多个数据集时，可以通过组来对其进行归类和整理。


In [22]:
with h5py.File("hzg.h5", "w") as opt:
    opt.create_group("/demo")
    opt["demo"]["hz"] = hz


In [25]:
with h5py.File("hzg.h5") as ipt:
    h5_hz = ipt["demo"]["hz"][()]
print(h5_hz)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]


## JavaScript Object Notation (JSON) 

- JSON 最早从网站前端的 javascript 社区出现，用于代替 Extensible
  Markup Language (XML)。
  - 更加易于人类理解
  - 适合传递有层次的数据，特别是文本
  - 优点：与 Python 的字典结构相近
  - 缺点：数字的表达能力较弱

In [29]:
import json

events = json.load(open("BBH_events_v3.json","r"))
type(events) # 就是一个字典

dict

In [28]:
print(events.keys())

dict_keys(['GW150914', 'LVT151012', 'GW151226', 'GW170104'])


In [30]:
events['GW150914']

{'name': 'GW150914',
 'fn_H1': 'H-H1_LOSC_4_V2-1126259446-32.hdf5',
 'fn_L1': 'L-L1_LOSC_4_V2-1126259446-32.hdf5',
 'fn_template': 'GW150914_4_template.hdf5',
 'fs': 4096,
 'tevent': 1126259462.44,
 'utcevent': '2015-09-14T09:50:45.44',
 'm1': 41.743,
 'm2': 29.237,
 'a1': 0.355,
 'a2': -0.769,
 'approx': 'lalsim.SEOBNRv2',
 'fband': [43.0, 300.0],
 'f_min': 10.0}

- JSON 输出


In [31]:
json.dump(events, open("BBH_events_rewrite.json", 'w'))

In [33]:
json.dump(events, open("BBH_events_indent.json", 'w'), indent=2)

## 大作业的具体形式

- 第一二周课程：生成数据
  - TOLA
  - 扫描隧道显微镜
  - 中微子实验光电子信号
- 第三四周课程：分析数据
  - 无限的探索空间