# netcdf-python 介绍

nc格式数据是水文模型应用中常见的一种格式，很多软件比如WRF、VIC等都会用到，至于为什么经常用，可以参考官方[用户手册](https://www.unidata.ucar.edu/software/netcdf/docs/index.html)。python是水文水资源领域常用的编程语言，因此这里介绍netcdf4-python，它是netcdf C库的python接口。

## netcdf数据格式

首先了解一下netcdf是种什么类型的数据格式。

NetCDF（网络公用数据格式）是一种用来存储温度、湿度、气压、风速和风向等 **多维科学数据（变量)** 的文件格式，是一种设计用于支持科学数据的创建、访问和共享的文件格式，这种文件格式在大气和海洋研究领域中广泛用于存储变量。

NetCDF 数据的特性包括：

- 自描述性，即 netCDF 文件**包括关于其中所含数据的信息**，如捕获数据元素的时间以及使用的测量单位。
- 可移植性，或称**跨平台性**，即在一种操作系统上创建的 netCDF 文件通常可被其他操作系统上的软件读取。
- 可扩展性，即**可有效地读取一个大 netCDF 文件的一个小子集**，而无需读取整个文件。

### netcdf基本词汇

对netcdf的一些特点进行说明：

- 尺寸：NetCDF 维度包含**名称和大小**。维度大小是一个任意的正整数。每个 NetCDF 文件中**只有一个维度的大小是“无限制”的**。这类维度是无限维度或记录维度。无限维度的变量可以沿着该维度增加到任意长度。维度可以用来**表示实际物理维度**，例如时间、经度、纬度或高度。维度还可以用来**为其他量建立索引**，例如，站点或模型的运行数。指定变量的 shape 时，可以多次使用同一个维度。
- 变量：变量代表**相同类型的值数组**。变量用来**存储 NetCDF 文件中的大部分数据**。变量具有**名称**、**数据类型**以及在创建该变量时指定的维度列表所描述的 **shape**。维度数称为秩（或维数）。标量变量的秩为 0，矢量的秩为 1，矩阵的秩为 2。变量还可以具有能够在变量创建后进行添加、删除或更改的相关属性。
- 坐标变量：**与维度同名**的一维变量称为坐标变量。坐标变量与一个或多个数据变量的维度相关，通常用来定义与该维度相对应的物理坐标。
- 属性：NetCDF 的属性用于存储**辅助数据或元数据**。大部分属性提供有关特定变量的信息。这些属性由变量名称与属性名称共同标识。有些属性提供有关整个 NetCDF 文件的信息，因而称为全局属性。
- 约定：约定用来定义为每个变量中的数据提供确切描述的**元数据及其空间和时态属性**。约定有助于使用不同数据源的用户确定哪些量具有可比性。约定名称在 NetCDF 文件中以**全局属性的形式表示**。

以nasa earthdata的daymet数据为例对上述词汇做些举例说明，这里是用的daymet_v3_prcp_2017_na.nc4数据文件。根据上述定义，如下文本所示，
尺寸也即Dimensions，有四个维度，x,y,time,nv，其中time是无限制维度，维度中包括size值；
变量Variables中，x,y,time等是坐标变量，坐标变量和所有其他变量一样都有size, dimensions, datatype和Attributes. 
属性有全局属性也即Global Attributes，也有变量内部的Attributes说明，约定也是全局属性的话，那就也是Global Attributes了。

Source:
           xxx\daymet_v3_prcp_2017_na.nc4
           
Format:
           netcdf4_classic
           
Global Attributes:
           start_year       = 2017
           source           = 'Daymet Software Version 3.0'
           Version_software = 'Daymet Software Version 3.0'
           Version_data     = 'Daymet Data Version 3.0'
           Conventions      = 'CF-1.6'
           citation         = 'Please see http://daymet.ornl.gov/ for current Daymet data citation information'
           references       = 'Please see http://daymet.ornl.gov/ for current information on Daymet references'
           
Dimensions:
           x    = 7814
           y    = 8075
           time = 365   (UNLIMITED)
           nv   = 2
           
Variables:
    x                      
           Size:       7814x1
           Dimensions: x
           Datatype:   single
           Attributes:
                       units         = 'm'
                       long_name     = 'x coordinate of projection'
                       standard_name = 'projection_x_coordinate'
    y                      
           Size:       8075x1
           Dimensions: y
           Datatype:   single
           Attributes:
                       units         = 'm'
                       long_name     = 'y coordinate of projection'
                       standard_name = 'projection_y_coordinate'
    lat                    
           Size:       7814x8075
           Dimensions: x,y
           Datatype:   single
           Attributes:
                       units         = 'degrees_north'
                       long_name     = 'latitude coordinate'
                       standard_name = 'latitude'
    lon                    
           Size:       7814x8075
           Dimensions: x,y
           Datatype:   single
           Attributes:
                       units         = 'degrees_east'
                       long_name     = 'longitude coordinate'
                       standard_name = 'longitude'
    time                   
           Size:       365x1
           Dimensions: time
           Datatype:   single
           Attributes:
                       long_name = 'time'
                       calendar  = 'standard'
                       units     = 'days since 1980-01-01 00:00:00 UTC'
                       bounds    = 'time_bnds'
    yearday                
           Size:       365x1
           Dimensions: time
           Datatype:   int16
           Attributes:
                       long_name = 'yearday'
    time_bnds              
           Size:       2x365
           Dimensions: nv,time
           Datatype:   single
    lambert_conformal_conic
           Size:       1x1
           Dimensions: 
           Datatype:   int16
           Attributes:
                       grid_mapping_name             = 'lambert_conformal_conic'
                       longitude_of_central_meridian = -100
                       latitude_of_projection_origin = 42.5
                       false_easting                 = 0
                       false_northing                = 0
                       standard_parallel             = [25  60]
                       semi_major_axis               = 6378137
                       inverse_flattening            = 298.2572
    prcp                   
           Size:       7814x8075x365
           Dimensions: x,y,time
           Datatype:   single
           Attributes:
                       _FillValue    = -9999
                       long_name     = 'daily total precipitation'
                       units         = 'mm/day'
                       missing_value = -9999
                       coordinates   = 'lat lon'
                       grid_mapping  = 'lambert_conformal_conic'
                       cell_methods  = 'area: mean time: sum'

### netcdf 数据存储基础知识

NetCDF 文件中的数据以**数组形式**存储。例如：某个位置处随时间变化的温度以一维数组的形式存储。某个区域内在指定时间的温度以二维数组的形式存储。

三维 (3D) 数据（如某个区域内随时间变化的温度）或四维 (4D) 数据（如某个区域内随时间和高度变化的温度）以一系列二维数组的形式存储。如下图所示：
![3d-data](GUID-D872A4C3-749E-4159-A6C0-FB6D3B47C5D8-web.gif)
![4d-data](GUID-1D7240CD-54D4-45FF-A150-43B1AFFBF7D6-web.gif)

NetCDF 文件包含维度、变量和属性。将这几部分结合起来使用可以说明数据以及面向数组的数据集中各数据字段之间关系的含义。下图显示的是采用 CDL（网络公用数据格式语言）表示法来描述的 NetCDF 文件结构。CDL 是用于描述 NetCDF 文件内容的 ASCII 格式。上面也已经举过例子说明过了。
![cdl](GUID-41416463-CDBA-4D6F-A9C4-57D745DDE958-web.gif)

维度、变量和属性的名称由**任意的字母数字字符串（包括下划线和连字符）** 组成，并且以字母或下划线开头。但是，以下划线开头的名称是供系统使用的保留名称。NetCDF 名称区分大小写。

### 其他多维栅格数据

多维格式（包括 NetCDF、GRIB 和 HDF）常用于在科学社区中存储气象及海洋数据（如温度、湿度、风速和风向等）。数据通常以**变量的形式**进行存储，**每一个变量均为一个多维数组**，可表示在多个压力高度进行多次捕获得到的数据。

比较常见的多维栅格类型有：netCDF、GRIB 和 HDF，分别对应以这些格式存储的多维栅格数据。

- GRIB：常规二进制规则分布信息世界气象组织是一种简明的数据格式，在气象学中较为常用，用于存储历史及预报天气数据。GRIB 栅格类型可用于将 GRIB 1 和 GRIB 2 数据添加至镶嵌数据集中。要查看示例工作流，请参阅使用矢量字段模板创建镶嵌数据集。
- HDF：层次数据格式HDF 组是由美国国家超级计算应用中心 (NCSA) 设计用于存储科学数据的格式。HDF 栅格类型可用于将 HDF4 和 HDF5 中存储的栅格数据添加到镶嵌数据集中。HDF 文件中存储的非栅格数据将会被 HDF 栅格类型忽略。
- NetCDF：NetCDF（网络公用数据格式）是一种用于存储多维数据的文件格式。有关详细信息，请参阅 NetCDF 数据存储的基础知识。目前，netCDF 栅格类型支持气候和预测 (CF)CF 公约和元数据以及海洋/大气合作研究数据服务 (COARDS) 公约。采用其他约定创建的 NetCDF 文件也可用，但并不受 netCDF 栅格类型支持。要查看示例工作流，请参阅创建和可视化 netCDF 镶嵌数据集。

GRIB数据也是一种很常见的数据格式，以后用到再介绍，这里简单介绍下HDF数据，因为安装netcdf的时候会需要先安装它。



## 安装netcdf

水文上很多模型算法使用的社区人员不多，因此软件持续开发的能力相对较弱，所以使用的依赖库的版本很多都不是最新的，包括netcdf，因此如果是为了特定目的安装，则需要注意下netcdf版本，如果只是读取netcdf数据，那依据官方[用户手册](https://www.unidata.ucar.edu/software/netcdf/docs/getting_and_building_netcdf.html)安装最新的稳定版本即可。

### Ubuntu18.04下安装

由于netcdf4-python是基于netcdf C库的，因此首先需要进行netCDF-C的安装，因为其他库都依赖netCDF，比如Fortran、Python、Java、C++等库，C库的安装是必要条件。

#### 获取netCDF-C

可以通过apt-get获取pre-built的库，也可以直接获取最新版本的源码，这里选择从源码安装，因为下载[源码](https://github.com/Unidata/netcdf-c/releases)，这里选择下载tar.gz版本，zip版应该也没区别。

#### 构建netCDF-C

netCDF库需要第三方的库才能实现完整的功能。

依赖有：

- 对netCDF-4的支持需要：
  - HDF5 1.8.9 or later.
  - HDF5 1.10.1 or later.
- zlib 1.2.5 or later (for netCDF-4 compression)
- curl 7.18.0 or later (for DAP remote access client support)
- For parallel I/O support on classic netCDF files
  - PnetCDF 1.6.0 or later

注意：对4.4.1以前的版本，只能使用HDF5 1.8.X版本。

这里的构建采用支持netCDF-4和远程数据客户端以及并行计算的方式。并行需要的mpicc可以是openmpi也可以是mpich，这里选择了后者。总之需要：HDF5,zlib,curl,mpich。还可以选择szip，也可以不装，这里先用szip了。以上各依赖库需要的最低版本：HDF5 1.8.9, zlib 1.2.5, curl 7.18.0，mpich文档内没有说明。这里都选择安装最新版，依次展示如下，zlib 1.2.11，hdf5-1.10.5，curl-7.65.0。

[下载](https://www.zlib.net/)并构建zlib：

下载源码后，进入文件夹。可以按一般做法，把源码解压到usr/local/src中。然后进行构建。如果不选择/usr/local作为安装路径而是自己新建文件夹，后期如果在C语言代码中遇到include的情况时，还需要配置，否则会报错，因此这里依从官方文档的安装方式。如果后面有问题，需要卸载的话，直接在src文件夹下用sudo make uninstall卸载即可，如果手动卸载，由于安装的位置都在一起，容易卸不完全。

```code
sudo tar -zxvf zlib-1.2.11.tar.gz -C /usr/local/src
cd /usr/local/src/zlib-1.2.11
sudo ./configure --prefix=/usr/local
sudo make
sudo make check
sudo make install
```

下载并构建hdf5：

进入hdf5的[官网下载页面](https://www.hdfgroup.org/downloads/hdf5/)，可以看到source code和如何用configure构建的说明，下载源码之后结合构建说明（在release_docs文件夹下的install文件里有详细说明）以及netcdf官方文档的说明做即可。具体代码如下：

```code
sudo tar -zxvf hdf5-1.10.5.tar.gz -C /usr/local/src
cd /usr/local/src/hdf5-1.10.5
sudo ./configure --with-zlib=/usr/local --prefix=/usr/local
sudo make
sudo make check
sudo make install
```

根据HDF5安装文档，线程安全的能力配置中有--enable-hl等命令，详细地还需进一步参考说明，我看别的安装文档中也都没有这一项，加上个人不太清楚这个命令是干什么的，所以就不适用--enable-hl了，况且netcdf用户手册里面还敲错了。
sudo make可能需要花费几分钟的时间，需要等待。
sudo make check可能需要花费几分钟的时间，需要等待。没有报错就可以执行安装了。

[下载](https://curl.haxx.se/download.html)并构建curl：

```code
sudo tar -zxvf curl-7.65.0.tar.gz -C /usr/local/src
cd /usr/local/src/curl-7.65.0
sudo ./configure --prefix=/usr/local
sudo make
sudo make check
sudo make install
```

sudo make check可能需要花费几分钟时间。中间我遇到了一些错误，有一些权限问题，暂时未处理，因为不影响我的使用。

安装[mpich](http://www.mpich.org/downloads/)：

根据官方文档，最简单的安装方法是使用apt。因此这里就直接使用这种方式了。

```code
sudo apt-get install mpich
```

最后构建安装netcdf，执行以下代码

```code
sudo tar -zxvf netcdf-c-4.7.0.tar.gz -C /usr/local/src
cd /usr/local/src/netcdf-c-4.7.0
sudo CPPFLAGS='-I/usr/local/include' LDFLAGS='-L/usr/local/lib' ./configure --prefix=/usr/local
sudo make
sudo make check
sudo make install
```

sudo make check可能需要花费几分钟时间。

### windows下的安装

可以下载[exe文件](https://www.unidata.ucar.edu/software/netcdf/docs/winbin.html)直接安装。

### netCDF-python

使用pip安装netCDF4-python即可。

## 资料

补充一些资料如下：
[Python programming guide for Earth Scientists](http://python.hydrology-amsterdam.nl/manuals/hydro_python_manual.pdf)；
[什么是 NetCDF 数据？](http://desktop.arcgis.com/zh-cn/arcmap/10.3/manage-data/netcdf/what-is-netcdf-data.htm)
[netcdf4-python](https://github.com/Unidata/netcdf4-python)；
[Python-NetCDF reading and writing example with plotting](http://schubert.atmos.colostate.edu/~cslocum/netcdf_example.html)。