# 第7章 分析和可视化

## 7.1 准备数据

1.将数据转换为可供分析的格式
（1）转成中间数据存储格式：CSV、HDF5、SQL、FITS、ENDF、ENSDF
（2）转成易于访问的格式：NumPy数组、Pandas数据框等

2.数据清理

（1）处理缺失值，方法包括：
    统计缺失数据的数量，分析影响
    抛弃数据
    用默认值（0,1，Inf）替代
    插值填补

（2）修复有问题的项
    检测错误
    对无序数据排序
    标准化数据格式

（3）处理样式问题
    重命名较长或无关字段
    重新格式化日期、时间、数字、字符串等内容

（4）数据与元数据结合
    根据额外数据生结果成表格
    添加用于表示出处的识别数字和日期
    将来自不同检测器的结果合并

自动化处理数据的优点（也为实现目标）：
    提高论文发表的速度
    提高实验的可重现性

### 实验数据

实验数据根据特点选择存储格式。

时间序列：CSV格式
复杂的结构化数据：使用标准格式如：望远镜数据-FITS，核物理截面-ENDF

### 模拟数据

模拟相当于在计算机上进行的实验。与实验相比，控制程度

元数据：关于数据的数据，如：
·模拟ID号
·运行模拟的日期
·输入文件的名称和内容
·所使用的库的版本号
通常还需要和实验或模拟的数据库关联。
应该具有与模拟或实验数据相同标准的格式化和重现能力。

## 7.2 载入数据

Python工具的选择：
·数据大小
·数据类型
·数据组织结构

常用的Python工具：

**1.NumPy：数组形式。**
可使用loadtxt函数将逗号、空格或制表符分隔的多列文本的纯文本文件直接加载到NumPy数组。

In [None]:
# numpy加载和打印
import numpy as np


arr = np.loadtxt('example7-1.csv', delimiter=",", skiprows=1)  # 加载文件，指定分隔符、步长
print(arr)

**2.PyTables：将HDF5转换为NumPy数组。**
适用于存储和操作密集数组。

HDF5（Hierarchical Data Format version 5）是一种存储相同类型数值的大数组的机制，适用于可被层次性组织且数据集需要被元数据标记的数据模型。
HDF5以分层结构组织，其中包含两个主要结构：组和数据集。
HDF5 group：分组结构包含零个或多个组或数据集的实例，以及支持元数据。
HDF5 dataset：数据元素的多维数组，以及支持元数据。

**3.Pandas：最易用的Python数据分析工具**
可读取的常见数据格式：CSV, Excel, HDF, SQL, JSON, HTML, stata, clipboard, pickle等

特性：加载后的数据可以转换格式。

In [None]:
# Pandas加载数据
import pandas as pd


df = pd.read_csv('example7-1.csv')  # 加载数据
df.to_hdf('result7-1.h5', 'experimental')  # 转换为HDF5，文件名result7-1，节点experimental

print(df)

**4.Blaze：格式转换的Python工具。**

仅支持Python 3.4<=version<=3.7.

## 7.3 清理和改写数据

数据改写：将数据从原始形式转换到另一种结构化形式。
操作：分组、过滤、聚合、折叠、展开。
通常用于处理有缺陷、缺失、无序的数据。

数据的质量问题和不一致在科学中很常见

### 数据缺失

有时实验数据会缺失一部分，缺失的数据点可能是预料之内的。
通常缺失值需要用默认值来替换，这时需要重新考虑默认值对结果的统计分析的影响，或者选择直接丢弃这些数据点。

Pandas解决：

In [None]:
import pandas as pd


df = pd.read_csv('example7-2.csv')  # 读取文件
df.count()  # 数据框方法，计数时忽略NaN行
df.dropna()  # 返回去除NaN后的数据

## 7.4 分析

主要软件包：NumPy、SciPy、Pandas

SciPy生态系统：
**1．天文学和天体物理学。**
Astropy：天文学和天体物理学的核心工具，含有FITS、ASCII、
VOTable、XML文件的接口。
PyRAF：基于Python的IRAF接口。
SpacePy：用于空间科学的数据处理、分析、绘制工具。
SunPy：太阳数据分析环境。
**2．地球物理。**
OSGeo：GIS数据导入、导出和分析。
Basemap：二维绘图。
**3．工程。**
PyNE：核工程工具包。
scikit-aero：Python航空工程计算包。
**4．数学。**
SymPy：Python数学符号包。
**5．神经系统科学。**
NIPY：神经影像。
**6．量子物理和化学。**
QuTiP：Python量子化学包，模拟动态开放的量子系统。
PyQuante：Python量子化学处理包。

物理学中的大部分分析，只要模型是基于实验数据衍生、确认或推断出来的，就将其称为推理或抽象。
一般来说，方程两侧的模型和数据都能驱动分析过程。

### 模型驱动

建立物理过程的数学模型并进行分析。大多数分析都需要许多步骤来过滤和合并数据，还需要集成、插值、缩放等操作。
可拟合参数，可利用模型直接进行预测。

### 数据驱动

使用各种算法和机器学习方法进行分析，通常用于从数据中推断出模型（而不是使用数据确认或拒绝模型）

工具：
**1．机器学习和聚类：** scikit-learn, PyBrain, Monte, PyPR, scipy-cluster。
**2．统计：** Statsmodels, PyBayes。

## 7.5 可视化

科学可视化的目的：展示、说明和解释数据。
可视化的基本原则：Python之禅。

In [None]:
# 打印Python之禅
import this

**科学可视化之禅：**
美观胜于丑陋。
简单胜于复杂。
复杂胜于晦涩。
简洁胜于繁杂。
沟通胜于说服。
文本不能分散注意力。
人们不是虾蛄。（不要使用过于复杂的色彩）

### 可视化工具

Gnuplot：用于绘制简单的图表，语法有些古怪。
matplotlib：Python中强大的绘制库，健壮且应用广泛。
Bokeh：在Web上生成交互式图表，与matplotlib有接口。
Inkscape：用于手工编辑可缩放的矢量图。

### gnuplot

并不是Python工具，是一个独立工具。
可以使用gnuplot来启动gnuplot解释器。在该解释器中，可以输入命令来构建绘图。编写脚本就能重用代码，将脚本作为参数提供给gnuplot命令。

```gnuplot
set title 'Decays'  # 定义标题
set ylabel 'Decays'  # 定义y坐标
set xlabel 'Time'  # 定义x坐标
set grid  # 打开网格
set term png  # 输出文件设为svg格式
set output 'plot_gnuplot.png'  # 输出文件的文件名
plot 'example7-1.csv' every :: 1 using 1:2 with lines
# 从输入文件接收数据，使用输入文件的1、2列中的数据，绘制除第一行之外的数据
```
脚本放在decay_plot.gnuplot的文件中，用<code>gnuplot decay_plot.gnuplot</code>命令运行。
默认颜色为红色。

### matplotlib

matplotlib中能够设置大量的绘制类型和样式。

主要使用画廊（gallery）有大量的示例图表和相关的源代码。
画廊包含matplotlib的示例脚本。

matplotlib还提供了一个与其他工具连接的框架。

In [None]:
import numpy as np
import pylab as plt

data = np.loadtxt('example7-3.csv', delimiter=',', skiprows=1)  # 加载数据
x = data[:,0]  # 提取x数据
y = data[:,1]  # 提取y数据

plt.plot(x, y)  # 画图

plt.xlabel('data_x')  # x坐标轴命名
plt.ylabel('data_y')  # y坐标轴命名
plt.title('plotting')  # 设置标题
plt.grid(True)  # 网格开启
plt.savefig('result_matplotlib.png') # 保存文件

### Bokeh

一个非常简单的兼容matplotlib API，可以生成适合于Web的交互图。
目的是产生用于在浏览器中查看的交互式图表。

可用于在网上发布的图表。但如果图表很复杂或准备打印，那么最好使用matplotlib或gnuplot。

**figure-tools参数：**
pan：允许通过鼠标拖动平移图形。
box_zoom：允许使用鼠标框选区域进行缩放。
wheel_zoom：允许使用鼠标滚轮进行缩放。
reset：允许使用鼠标单击重置图形。
save：允许使用鼠标单击保存图形。
box_select：允许使用鼠标框选多个点进行选择。
lasso_select：允许使用鼠标绘制多边形进行选择。
preview：允许使用鼠标拖动预览图形。
tap：允许使用鼠标单击选择单个点。
crosshair：在图形中启用十字线，以帮助定位坐标轴上的位置。

In [5]:
import numpy as np
from bokeh import plotting as bp


data = np.loadtxt('example7-3.csv', delimiter=',', skiprows=1)
x = data[:,0]
y = data[:,1]

bp.output_file("result_bokeh.html", title="Bokeh Plotting")
fig = bp.figure(tools="pan,wheel_zoom,box_zoom,reset") # 设置一个图形
fig.line(x, y, x="Datax", y="Datay",color='#1F78B4', legend='Time series') # 画直线
# line,包括下两个都是figure中的方法，要对figure对象使用
fig.curplot().title = "Decays"
fig.grid().grid_line_alpha=0.3
bp.show(fig)

KeyError: 'legend'

### Inkscape

快速调整图像，编辑、裁剪、注释或以其他方式处理已经存在的图像文件。
是一个开源项目，用于生成和编辑可缩放矢量图形。
操作很难自动化，因为这是一个依靠图形用户界面来手动操作图形的工具。