目录：
[toc]

# 1_数据读取与简单处理

在课程和日常的科研中,常见的数据格式有3种,分别是:txt,mat和nc格式,下面简单介绍读取的办法

## 1.1 txt文件读取

通常来讲,在txt中存储的数据通常为"指数"类型的数据,例如Nino3.4指数,或者是某个气象站的气温信息等等
通过记事本等软件打开可以发现,txt文件中的数据一般是以空格分割的,当然有时候也有以逗号作为分隔符的
通常时候,文件的头几行为说明信息
读取txt文件的方法使用numpy库中的loadtxt函数
详细文档参考:https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html
我们这里直接给出使用方法

In [1]:
import numpy as np

data = np.loadtxt(r'data/MEIext_BiMonthly.txt', # 文件路径
                  delimiter=None, # 分隔符,None表示以空格分割. 当分隔符为逗号时,则为delimiter=','
                  skiprows=1, # 跳过行数,即跳过头信息所占函数
                  encoding='utf-8', # 指明被读取文件的编码格式(保险起见加上)
                  )

print (data) # 打印读取的内容

[[ 1.9500e+03 -8.5890e-01 -1.2658e+00 -1.5489e+00 -1.2708e+00 -9.8140e-01
  -1.0526e+00 -1.0864e+00 -9.3320e-01 -7.8610e-01 -8.1870e-01 -1.1127e+00
  -1.2847e+00]
 [ 1.9510e+03 -1.1867e+00 -1.1313e+00 -6.3240e-01 -1.7280e-01  1.8610e-01
   6.6210e-01  1.0150e+00  1.0728e+00  9.0780e-01  8.9770e-01  8.4940e-01
   5.4730e-01]
 [ 1.9520e+03  4.3000e-01  5.3960e-01  5.3390e-01  4.8920e-01  4.4550e-01
   8.9700e-02 -1.2340e-01 -4.2500e-02  1.3380e-01  2.0480e-01  3.7200e-02
  -8.8400e-02]
 [ 1.9530e+03 -1.1370e-01  1.5040e-01  4.5260e-01  3.6190e-01  5.2910e-01
   7.5110e-01  5.8510e-01  5.6160e-01  7.1780e-01  4.6200e-01  1.0610e-01
  -3.0500e-02]
 [ 1.9540e+03 -2.3650e-01 -3.5340e-01 -2.1250e-01 -4.2100e-01 -4.7280e-01
  -1.8800e-01 -4.3810e-01 -7.4770e-01 -8.0780e-01 -9.0470e-01 -1.1857e+00
  -1.2472e+00]
 [ 1.9550e+03 -9.0400e-01 -8.5610e-01 -8.8980e-01 -8.7530e-01 -1.2326e+00
  -1.2779e+00 -1.0816e+00 -1.2371e+00 -1.4688e+00 -1.7438e+00 -1.8700e+00
  -1.7951e+00]
 [ 1.9560e+03 -1.4107e

## 1.2 mat文件读取
mat文件是Matlab的数据存储的标准格式,通常由Matlab的使用者从软件中导出
mat文件的读取使用scipy.io中的loadmat函数
详细文档参考:https://docs.scipy.org/doc/scipy/reference/generated/scipy.io.loadmat.html?highlight=loadmat#scipy.io.loadmat
我们这里直接给出使用方法

In [2]:
import scipy.io as sio

data = sio.loadmat(r'data/IMR_Nino3p4_JJAS.mat') # 读取出来的data是字典格式
print (data) # 打印出来看看


{'__header__': b'MATLAB 5.0 MAT-file, Platform: PCWIN64, Created on: Tue Dec 18 19:45:50 2018', '__version__': '1.0', '__globals__': [], 'IMR': array([[ 0.00758396,  0.78410259, -1.08888911,  1.51388631,  0.97703392,
        -0.84442954, -2.92593088,  1.53305961,  0.59476626, -0.3363371 ,
         0.15737536,  0.65588115,  0.01357562,  1.01418219, -0.00919268,
         0.31435675,  0.61274123, -0.43819526,  0.9878189 ,  0.68703776,
        -0.66827485,  1.71880095,  1.27901339,  1.47673804, -0.29439551,
        -0.23567728,  0.51447807,  0.43658654, -2.62634807,  0.49290811,
        -1.51190003, -0.67546484,  0.15138371, -1.1727723 , -1.57900658,
         0.44018153, -0.8468262 ,  0.58517961,  0.49290811,  1.03934714,
        -1.34053867, -0.50769847, -0.76414135,  0.59716292, -0.80967794,
         1.22748515,  1.86979068, -2.36511187,  0.43538821, -1.54784997,
         0.21130027,  0.24964687, -0.3015855 ,  0.17295367, -0.53406175,
         0.65228616,  0.05791387, -0.96426266, -0.324

In [3]:
# 根据data字典中的内容可以发现,IMR_Nino3p4_JJAS.mat中包含了两个变量,Key分别为:'IMR'和'nino3p4'
# 我们取出这两个序列

IMR = data['IMR'] # 取出IMR序列
nino3p4 = data['nino3p4'] # 取出nino3p4序列

print (IMR.squeeze())
print (nino3p4.squeeze()) #这里的squeeze()方法是去除多余的维度

[ 0.00758396  0.78410259 -1.08888911  1.51388631  0.97703392 -0.84442954
 -2.92593088  1.53305961  0.59476626 -0.3363371   0.15737536  0.65588115
  0.01357562  1.01418219 -0.00919268  0.31435675  0.61274123 -0.43819526
  0.9878189   0.68703776 -0.66827485  1.71880095  1.27901339  1.47673804
 -0.29439551 -0.23567728  0.51447807  0.43658654 -2.62634807  0.49290811
 -1.51190003 -0.67546484  0.15138371 -1.1727723  -1.57900658  0.44018153
 -0.8468262   0.58517961  0.49290811  1.03934714 -1.34053867 -0.50769847
 -0.76414135  0.59716292 -0.80967794  1.22748515  1.86979068 -2.36511187
  0.43538821 -1.54784997  0.21130027  0.24964687 -0.3015855   0.17295367
 -0.53406175  0.65228616  0.05791387 -0.96426266 -0.32435379 -0.5244751
  0.34551336 -0.53645842  1.52946462  0.78170593 -0.0559276   0.71939271
 -0.0751009   0.71939271 -0.70422479  0.0591122  -1.43640517  1.31256666
  0.24006022  0.86439079  0.75054932  0.66426947  1.16397359  0.3083651
  0.6654678   0.34431503 -1.31058039 -0.6622832   0.8

## 1.3 nc文件读取
这是本节最重要的内容,务必重点关注
nc文件是本课程,毕业设计和今后科研工作中所遇到的最为常见的数据格式
可以这么说,一般的学习科研的代码编写中,代码的第一部分都是读取nc文件
nc文件的全称是NetCDF文件,NetCDF文件是一种自描述的二进制数据,使用者不需要为其编写任何描述文件,也不需要提前了解数据维度等信息
在这里:nc文件的读取使用xarray库.
需要注意的是,xarray库需要正确安装,使用conda安装的命令为: conda install -c conda-forge xarray dask netCDF4 bottleneck
详细的安装教程可以在https://xarray.pydata.org/en/stable/getting-started-guide/installing.html中找到

当然如果你需要可视化的查看nc文件,我在这里推荐由NASA开发与维护的Panoply软件(https://www.giss.nasa.gov/tools/panoply/)

### 1.3.1 最简单的读取

In [4]:
import xarray as xr # 导入xarray库

# 读取nc文件(这是一个逐月的SST数据). 请注意文件路径中不能由中文,否则会报错
data = xr.open_dataset(r'data/sst.mnmean_new.nc')
data # 打印基本信息

In [5]:
# 可以发现,打印出的内容为nc文件中自带的描述信息
# 其中由3个维度的坐标,分别是纬度lat,经度lon和时间time

# 那么如何取出SST数据呢,看下面

SST_DataArray = data.sst # 或者data['sst']
SST_DataArray

In [6]:
# 上述的SST_DataArray仍然带有描述信息,可以发现其格式为xarray.DataArray(最开始为xarray.Dataset)
# 可以理解为xarray.Dataset是由多个xarray.DataArray拼接而成的

# 我们可以进一步取出数据,进一步取出为numpy数组
SST_monthly = SST_DataArray.data  #等价于data.sst.data
print (SST_monthly.shape) # 打印形状shape信息 (结果为(2017, 89, 180),分别代表time,lat和lon维度)
print (type(SST_monthly)) # 输出数据类型

(2017, 89, 180)
<class 'numpy.ndarray'>


### 1.3.2 筛选数据

然而,我们大部分时候不需要每次都完全取出所有数据,而是根据研究的时间范围和空间范围选择部分数据
虽然可以完全取出之后再使用数组切片的方法进行筛选(以前的我就是这么干的)
但是这么做最繁琐的事情就是必须知道具体的索引(例如2020年12月的数据到底是第几个时间戳),这样就显得非常麻烦
由于nc文件本身就带有维度信息,索引可以在取出为numpy数组之前完成筛选
xarray也支持这种操作

In [7]:
dataset = xr.open_dataset(r'data/sst.mnmean_new.nc') # 跟前面一样读取SST的nc文件

# 假设我们需要1950-01至2020-12的逐月数据, 并且空间范围限定在40°S-40°N
dataset = dataset.sel(time=slice('1950-01-01', '2020-12-31'),
                      lat=slice(40, -40))  # 这里lat为从北到南所以写为slice(40, -40), 如果是从南到北应写为slice(-40, 40)
dataset

In [8]:
# 如果我们需要进一步提取月份为6,7,8月的数据
dataset_JJA = dataset.sel(time=dataset.time.dt.month.isin([6,7,8])) # 这里的isin其实是is in的意思
dataset_JJA

In [9]:
# 其实还有更高阶的用法,假设我们需要研究两个半球的高纬度SST,即70°N以北和70°S以南
dataset = xr.open_dataset(r'data/sst.mnmean_new.nc') # 跟前面一样读取SST的nc文件
dataet_Polars = dataset.where((dataset.lat<=-70) | (dataset.lat>=70), drop=True)  # 注意位运算符 |
dataet_Polars

# 其实这种提取数据的方法还有一种妙用,就是提取跨越lon=360的区域(这通常位于矩阵的两头),例如西起大西洋东至

### 1.3.3 实际应用

这里以读取1951-2020年的D(-1)JF,MAM,JJA和SON的逐季节SST场,并计算每年D(-1)JF的Nino3.4指数为例子

In [10]:
# 用函数来解决
def get_4seasons_SST_5120(path, lat_range):
    """
    path: 文件路径
    lat_range: 纬度范围(例如:np.arange(60, -62, -2))

    Return:
    lat: 纬度
    lon: 经度
    SST_4seasons_5120: 变量的数组(year, seasons, lat, lon)

    (后面有机会再写成更加通用的函数)
    """

    data = xr.open_dataset(path)
    data = data.sel(lat=lat_range, time=slice('1950-01-01', '2020-12-31'))
    lat = data.lat.data
    lon = data.lon.data
    sst = data['sst'].data

    SST_4seasons_5120 = np.empty((70, 4, len(lat), len(lon)))
    for i in range(70):
        for season in range(4):
            index = 11 + 12*i + 3*season
            SST_4seasons_5120[i, season] = sst[index:index+3].mean(axis=0)

    # !!!扣除线性趋势(务必注意,除非是研究长期趋势的问题,否则都需要扣除长期线性趋势)
    for season in range(4):
        for i in range(len(lat)):
            for j in range(len(lon)):
                if (np.isnan(SST_4seasons_5120[:, season, i, j].sum())):  # 排掉陆地值点
                    SST_4seasons_5120[:, season, i, j] = np.nan
                else:
                    x = np.arange(1, 71, 1)
                    z = np.polyfit(x,SST_4seasons_5120[:, season, i, j], 1) #用线性回归拟合出长期线性趋势
                    y = np.polyval(z, x)

                    SST_4seasons_5120[:, season, i, j] = SST_4seasons_5120[:, season, i, j] - y

    return lat, lon, SST_4seasons_5120

# 自动化计算区域平均指数的函数(例如计算JJA的Nino34指数)
def cal_area_index(array_yearly, lat, lon, lat_range, lon_range):
    """
    array_yearly: 需要求解区域均值变量的场数据(year, lat, lon)
    lat: array_yearly对应的纬度(1d array)
    lon: array_yearly对应的经度(1d array)
    lat_range: 纬度范围(list)
    lon_range: 经度范围(list)

    Return:
    area_index: 指数序列(1d array)

    Note: 此函数处理不了跨域lon=360的情况
    """

    # 得到纬度和经度的索引
    lat_min = min(lat_range)
    lat_max = max(lat_range)
    lat_index = (lat>=lat_min) & (lat<=lat_max)

    lon_min = min(lon_range)
    lon_max = max(lon_range)
    lon_index = (lon>=lon_min) & (lon<=lon_max)

    # 得到区域均值
    temp = array_yearly[:, lat_index]
    temp = temp[:, :, lon_index]
    area_index = np.nanmean(np.nanmean(temp, axis=-1), axis=-1)

    return area_index

lat_sst, lon_sst, sst_4seasons_5120 = get_4seasons_SST_5120(r'data/sst.mnmean_new.nc',
                                                            np.arange(60, -62, -2) # 等价于slice(60, -60)
                                                            )

print (sst_4seasons_5120.shape)

# 获取D(-1)JF的Nino3.4指数(定义为5°N-5°S, 170°W-120°W范围内的SST距平)
Nino34_DJF_5120 = cal_area_index(sst_4seasons_5120[:, 0],
                                 lat_sst, lon_sst, [-6, 6], [190, 240])
Nino34_DJF_5120 #输出来看看

(70, 4, 61, 180)


array([-0.85963364,  0.40731941,  0.28411422,  0.58929671, -0.78150596,
       -1.11062809, -0.27520003,  1.57519005,  0.56853219, -0.1279274 ,
       -0.04545452, -0.33779368, -0.45458403,  0.84343563, -0.68626592,
        1.17664074, -0.38720576, -0.58058512,  1.00862662,  0.42060189,
       -1.28300494, -0.66271499,  1.66621254, -1.68079492, -0.55862216,
       -1.49947927,  0.60470507,  0.5730721 , -0.02740406,  0.5176365 ,
       -0.1783302 ,  0.06827198,  2.00467555, -0.40114767, -0.86319981,
       -0.41545258,  1.08383033,  0.79015399, -1.55461726,  0.09640599,
        0.44610628,  1.59861622,  0.26061566,  0.1933507 ,  0.93643599,
       -0.7350536 , -0.41458053,  1.99854152, -1.34391085, -1.47773098,
       -0.67025132, -0.19274141,  0.79635625,  0.28717426,  0.55593469,
       -0.75876908,  0.57047972, -1.53753421, -0.77314768,  1.32855814,
       -1.38566991, -0.86071164, -0.40583216, -0.41357133,  0.4873191 ,
        2.17657161, -0.30492742, -0.85897453,  0.58731547,  0.40