# 访问ICESAT-2数据
本笔记本说明了使用Icepyx对程序化iCESAT-2数据查询的使用，并从NASA NSA NSIDC DAAC（NASA NASA NASA NASTA NANTAR NASTAN NANTAN NASE SNOWAL和ICE DATA CEATION CENTRATION AINTIVE AINKITED ACTIVE ARTIVET ACTIVE AINKITED CENTRUES）下载。
免费的笔记本更详细地说明[子集]（https://ecepyx.readthedocs.io/en/latest/example_notebooks/is2_data_access2-subsetting.html）选项可用时可用。

Import packages, including icepyx

In [1]:
import icepyx as ipx
import os
import shutil
%matplotlib inline

--------------------------------------------------------

## 快速入门指南

获取ICESAT-2数据的整个过程（从查询到下载）最终可以用两条最小的代码来完成：

`region_a = ipx.query（short_name，spatial_extent，date_range）``

`region_a.a.download_granules（路径）```

下面更详细地描述了功能输入。

**本笔记本的其余部分解释了上述所需的输入，最小示例中没有可选输入以及内置到Icepyx中的其他数据搜索和可视化工具，使用户更容易找到，探索和下载ICESAT和下载ICESAT-2从NSIDC进行编程数据。如果用户简单地跳到`dlownload_granules'步骤，则使用默认值在幕后使用默认值来调用。**

## 编程数据访问的关键步骤

从NSIDC API访问数据有几个关键步骤：
1.定义您的参数（空间，时间，数据集等）
2.查询NSIDC API以了解有关数据集的更多信息
4.定义其他参数（例如子集/自定义选项）
5.订购数据
6.下载数据

Icepyx将此过程简化为最少的代码行数。

### 创建一个带有所需搜索参数的ICESAT-2数据对象

根据您要搜索数据的方式，有三个所需的输入。在所有情况下都需要两个：
- `short_name` =感兴趣的数据产品，称为其“短名称”。
有关可用数据产品的列表，请参见https://nsidc.org/data/icesat-2/products。
- “空间范围” =在内部搜索的一个关注区域。可以将其作为边界框，多边形顶点坐标对或多边形地理空间文件（当前支持SHP，KML和GPKG）输入。
- 边界框：左下经度，左下纬度，右上纬度和右上纬度的小数度给予
- 多边形顶点：给定经度，纬度坐标对十进制的小数对，最后一个条目重复了第一个。
- 多边形文件：包含完整文件路径和名称的字符串。

*NOTE: The input keyword for `short_name` was updated in the code from `dataset` to `product` to match common usage.
这不应影响提供本教程所示的位置输入的用户。**

*注意：您可以在每个对象实例中最多提交一个边界框或lonlat多边形坐标列表。
根据NSIDC要求，地理空间多边形文件可能只包含一个功能（多边形）。

然后，对于所有非网格产品（ATL <= 13），您必须至少包括以下输入之一（时间或轨道约束）：
- `date_range` =您要搜索结果的日期范围。接受以下格式：
- 两个被逗号分隔的两个“ Yyyy-mm-dd”字符串的列表
- 两个被逗号分隔的两个“ Yyyy-Doy”弦的列表
- 两个dateTime.date或dateTime.datetime对象的列表
- 用以下键命令：
- `start_date`：开始日期，类型可以是dateTime.datetime，dateTime.date或字符串（格式'yyyy-mm-dd'或'yyyy-doy'）
- `end_date`：结束日期，类型可以是dateTime.datetime，dateTime.date或字符串（格式'yyyy-mm-dd'或'yyyy-doy'）
- “循环” =要使用的轨道周期，作为数值字符串或字符串列表输入。如果不给出输入，则此值默认为搜索参数中的所有可用周期。轨道循环是指ICESAT-2轨道的91天重复周期。
- `tracks` = [参考地面轨道（RGT）]（https://icesat-2.gsfc.nasa.gov/science/specs/specs）用于使用，将作为数值字符串或字符串列表输入。如果未给出输入，则此值默认为空间和时间搜索参数中的所有可用RGT。

以下是每种类型的空间范围和时间输入的示例，也是使用轨道参数的示例。请选择并仅运行一个输入选项单元格以设置您的空间和时间参数。

In [2]:
# bounding box
short_name = 'ATL06'
spatial_extent = [-55, 68, -48, 71]
date_range = ['2019-02-20','2019-02-28']

In [3]:
# polygon vertices (here equivalent to the bounding box, above)
short_name = 'ATL06'
spatial_extent = [(-55, 68), (-55, 71), (-48, 71), (-48, 68), (-55, 68)]
date_range = ['2019-02-20','2019-02-28']

In [4]:
# bounding box with 'YYYY-DOY' date range (equivalent to 'YYYY-MM-DD' date ranges above)
short_name = 'ATL06'
spatial_extent = [-55, 68, -48, 71]
date_range = ['2019-051','2019-059']

In [5]:
# polygon vertices with datetime.datetime date ranges
import datetime as dt

start_dt = dt.datetime(2019, 2, 20, 0, 10, 0)
end_dt = dt.datetime(2019, 2, 28, 14, 45, 30)
short_name = 'ATL08'
spatial_extent = [(-55, 68), (-55, 71), (-48, 71), (-48, 68), (-55, 68)]
date_range = [start_dt, end_dt]

In [6]:
# bounding box with dict containing date ranges
short_name = 'ATL08'
spatial_extent = [-55, 68, -48, 71]
date_range = {"start_date": start_dt, "end_date": '2019-02-28'}

In [27]:
# polygon geospatial file (metadata match but no subset match)
# short_name = 'ATL06'
# spatial_extent = './supporting_files/data-access_PineIsland/glims_polygons.kml'
# date_range = ['2019-02-22','2019-02-28']

# #polygon geospatial file (subset and metadata match)
# short_name = 'ATL06'
# spatial_extent = './supporting_files/data-access_PineIsland/glims_polygons.shp'
# date_range = ['2019-10-01','2019-10-05']

#polygon geospatial file (same area as other examples; subset and metadata match)
short_name = 'ATL03'
spatial_extent = './supporting_files/simple_test_poly.gpkg'
date_range = ['2019-10-01','2019-10-05']

Create the data object using our inputs

In [30]:
region_a = ipx.Query(short_name, spatial_extent, date_range)

In [31]:
# 将轨道参数与上述数据产品之一 +空间参数之一
# region_a = ipx.Query(short_name, spatial_extent,
#    cycles=['03','04','05','06','07'], tracks=['0849','0902'])

print(region_a.product)
print(region_a.product_version)
print(region_a.cycles)
print(region_a.tracks)

ATL03
006
['No orbital parameters set']
['No orbital parameters set']


这些属性包括地图上空间范围的可视化。您会看到的地图风格取决于您是否安装了某个库，“地理”库。在引擎盖下，这是因为“ Proj”库必须与Conda一起安装（PYPI不可用）来支持某些``GeoViews依赖性''。使用“ geoviews”，此绘图函数返回交互式映射。否则，您的空间范围将使用“ matplotlib”在静态图上绘制。

In [32]:
# print(region_a.spatial_extent)
region_a.visualize_spatial_extent()

Formatted parameters and function calls allow us to see the the properties of the data object we have created.

In [33]:
print(region_a.product)
print(region_a.temporal) # .dates, .start_time, .end_time can also be used for a piece of this information
print(region_a.dates)
print(region_a.start_time)
print(region_a.end_time)
print(region_a.cycles)
print(region_a.tracks)
print(region_a.product_version)
region_a.visualize_spatial_extent()

ATL03
Start date and time: 2019-10-01 00:00:00
End date and time: 2019-10-05 23:59:59
['2019-10-01', '2019-10-05']
00:00:00
23:59:59
['No orbital parameters set']
['No orbital parameters set']
006


还有几个可选的输入，可以允许用户对其搜索的控制。开始和结束时间仅是在时间上有限的搜索上的有效输入，如果您的`date_range`输入是dateTime.datetime对象，则将忽略它们。
- `start_time` =启动时间在开始日期搜索数据。如果没有输入，则默认为00:00:00。
- `end_time` =时间搜索参数结束日期的结束时间。如果没有输入，则默认为23:59:59。

时间必须输入为'HH：MM：SS'字符串或DateTime.Time对象。

- “版本” =要使用的数据产品的哪个版本，将输入作为数值字符串。如果没有输入，则此值将默认为“ Short_name”中指定的产品的最新版本。

*Note 002在下单元格中用作示例。但是，对于某些搜索参数，使用它会导致颗粒排序中的“无结果”错误。这些问题已在以后的数据产品中解决，因此最好在可能的情况下使用最新版本。
同样，如果您尝试订购/下载太旧的版本（这样它不再由NSIDC托管），则会获得“不匹配您的请求”错误。
因此，您将需要更新与“ region_a”关联的版本，然后重新运行本笔记本的其余部分要运行的下一个单元格。

In [34]:
region_a = ipx.Query(short_name, spatial_extent, date_range, \
   start_time='03:30:00', end_time='21:30:00', version='002')

print(region_a.product)
print(region_a.dates)
print(region_a.product_version)
print(region_a.spatial)
print(region_a.temporal)

ATL03
['2019-10-01', '2019-10-05']
002
Extent type: polygon
Source file: ./supporting_files/simple_test_poly.gpkg
Coordinates: [-55.0, 68.0, -55.0, 71.0, -48.0, 71.0, -48.0, 68.0, -55.0, 68.0]
Start date and time: 2019-10-01 03:30:00
End date and time: 2019-10-05 21:30:00




Alternatively, you can also just create the query object without creating named variables first:

In [35]:
# region_a = ipx.Query('ATL06',[-55, 68, -48, 71],['2019-02-01','2019-02-28'], 
#                            start_time='00:00:00', end_time='23:59:59', version='002')

### 有关查询对象的更多信息
除了查看上面显示的存储对象信息（例如产品简称，开始和结束日期和时间，版本等），我们还可以请求有关数据产品本身的摘要信息，或确认我们已经手动指定了最新版本。

In [36]:
region_a.product_summary_info()
print(region_a.latest_version())

title :  ATLAS/ICESat-2 L2A Global Geolocated Photon Data V006
short_name :  ATL03
version_id :  006
time_start :  2018-10-13T00:00:00.000Z
coordinate_system :  CARTESIAN
summary :  This data set (ATL03) contains height above the WGS 84 ellipsoid (ITRF2014 reference frame), latitude, longitude, and time for all photons downlinked by the Advanced Topographic Laser Altimeter System (ATLAS) instrument on board the Ice, Cloud and land Elevation Satellite-2 (ICESat-2) observatory. The ATL03 product was designed to be a single source for all photon data and ancillary information needed by higher-level ATLAS/ICESat-2 products. As such, it also includes spacecraft and instrument parameters and ancillary data not explicitly required for ATL03.
orbit_parameters :  {}
006


如果该摘要没有提供您要寻找的所有信息，否则您希望查看以前版本的数据产品的信息，则以可读格式获得收集产品的所有可用元数据。

In [37]:
region_a.product_all_info()

{'feed': {'entry': [{'archive_center': 'NASA NSIDC DAAC',
                     'association_details': {'services': [{'concept_id': 'S2472217299-NSIDC_CPRD'},
                                                          {'concept_id': 'S3107386427-NSIDC_CPRD'}],
                                             'tools': [{'concept_id': 'TL1977971361-NSIDC_ECS'},
                                                       {'concept_id': 'TL2746943302-NSIDC_CPRD'},
                                                       {'concept_id': 'TL3010466318-NSIDC_CPRD'}]},
                     'associations': {'services': ['S2472217299-NSIDC_CPRD',
                                                   'S3107386427-NSIDC_CPRD'],
                                      'tools': ['TL1977971361-NSIDC_ECS',
                                                'TL2746943302-NSIDC_CPRD',
                                                'TL3010466318-NSIDC_CPRD']},
                     'boxes': ['-90 -180 90 180'],
              

### 查询数据产品
为了搜索产品集合以获取可用数据颗粒，我们需要构建搜索参数。当您运行`region_a.avail_granules（）`时会在场景后面自动完成此操作，但是您也可以通过调用`region_a.a.cmrparams'来构建和查看它们。这些格式是按照[CMR文档]（https://cmr.earthdata.nasa.nasa.gov/search/site/site/site/docs/docs/search/search/api.html）格式化的。

In [38]:
#构建并查看将在我们的查询中提交的参数
region_a.CMRparams

{'temporal': '2019-10-01T03:30:00Z,2019-10-05T21:30:00Z',
 'polygon': '-55.0,68.0,-48.0,68.0,-48.0,71.0,-55.0,71.0,-55.0,68.0'}

现在，我们的参数字典已经构建，我们可以搜索可用颗粒的CMR数据库。
CMR元数据搜索返回的颗粒会自动存储在数据对象中。
在此级别完成的搜索完全取决于颗粒的元数据。
结果，返回的颗粒的某些（且在极少数情况下）可能实际上不包含指定区域中的数据，尤其是当该区域很小或位于给定颗粒的边界附近时。如果是这种情况，当您实际下订单时，子集将不会返回任何数据。
对于适用的每个颗粒的订购期间，将发出警告消息（但未输出消息以成功地将子集颗粒输出，因此请不要担心！）

In [39]:
#search for available granules and provide basic summary info about them
region_a.avail_granules()

AssertionError: Your search returned no results; try different search parameters

In [40]:
#get a list of granule IDs for the available granules
region_a.avail_granules(ids=True)

AssertionError: Your data object has no granules associated with it

In [None]:
#print detailed information about the returned search results
region_a.granules.avail

### Log in to NASA Earthdata
从NSIDC下载数据时，所有用户都必须使用有效的（免费）EarthData帐户登录。Icepyx通过创建和处理所需的身份验证来与DAAC上的数据（包括订购和下载）进行接口来处理身份验证的过程。由于访问了受登录保护的功能，因此完成了身份验证。为了允许Icepyx登录我们，我们仍然必须确保我们已使我们的EarthData凭证可供Icepyx找到。

有多种方法可以通过Icepyx为您的Earthdata凭证提供。在幕后，Icepyx使用[EarthAccess库]（https://nsidc.github.io/earthaccess/）。[EarthAccess Documentation](https://earthaccess.readthedocs.io/en/latest/tutorials/getting-started/#auth)自动尝试了三种主要机制来登录，所有这些机制都由Icepyx支持：
- 带有`eartdata_username`和`eartdata_password“环境变量（这些与您之前可能为Icepyx设置的环境）相同）
- 通过交互式，注册表登录（以下使用）；此选项没有显示密码的纯文本
- 带有.NETRC文件中存储的凭据（出于安全原因不建议）

````{invernition}重要身份验证更新
以前，Icepyx要求您明确使用`.earthdata_login（）`函数登录。运行此功能被弃用并会导致错误，因为Icepyx会根据需要调用登录功能。用户仍然需要使用上述三种方法之一来提供其凭据。
````

### 其他参数和子集

生成会话后，我们必须构建实际下载数据所需的配置参数。这些将告诉系统我们要如何下载数据。与CMR搜索参数一样，当您运行`region_a.oder_granules（）`时会自动构建这些参数，但是您也可以使用'region_a.reqparams`创建并查看它们。下面给出的默认参数应适用于大多数用户。
- `page_size` =2000。这是我们每个订单要请求的颗粒数。
- `page_num` = 1。根据页面大小和可用颗粒数确定页数。如果未指定page_num，则该计算是自动完成的，以设置page_num，然后提供给定颗粒数的单个订单数量。
- `request_mode` ='async'
- `代理='no'
- `include_meta` ='y'

### 有关配置参数的更多详细信息
``request_mode`是“异步”默认情况下的，它允许并发请求排队和处理，而无需您与API端点之间连续连接。
相比之下，使用“同步”`request_mode`表示请求依赖于您与API端点之间的直接连续连接。
输出直接下载或“流”到您的工作目录。
对于本教程，我们将将请求模式设置为异步。

**请谨慎使用流式`request_mode`：虽然将输出直接流式传输到本地目录可能是有益的，但请注意，超时错误可能会根据请求的大小而导致，并且您的请求不会在系统中排队，如果NSIDC的请求量很高。为了获得最佳性能，NSIDC建议将`page_size = 1`设置为下载单个输出，这将消除拉链输出所需的额外时间，并确保每个请求的处理时间更快。**

回想一下，在应用自定义服务之前，我们询问了颗粒的总数和数量。`page_size`和`page_num`可用于调整每个请求的颗粒数，最高为2000颗粒的颗粒，用于同步（流）100个颗粒。现在，让我们选择每个拉链请求中要处理的9个颗粒。对于ATL06，颗粒尺寸可能超过100 MB，因此我们想选择一个为我们提供合理的拉链下载尺寸的颗粒计数。

In [23]:
print(region_a.reqparams)
# region_a.reqparams['page_size'] = 9
# print(region_a.reqparams)

{'short_name': 'ATL06', 'version': '002', 'page_size': 2000}


### 子集

除了与我们的订单一起提交的所需参数（CMRPARAMS和REQPARAMS）外，对于ICESAT-2数据产品，我们还可以向NSIDC提交子集参数。
要更深入地研究子集，请参阅我们的[子集教程笔记本]（https://icepyx.readthedocs.io/en/latest/example/example_notebooks/is2_data_access2-subsetting.html）子集选项的列表，如何构建子集参数列表以及如何生成所需变量列表（大多数数据集都有200多个可变字段！），包括使用预构建的默认列表（这些列表仍在进行中我们欢迎捐款！）。

子集利用NSIDC内置子集仅提取您感兴趣的数据（在空间，时间上，感兴趣的变量等）。使用NSIDC子集的优点包括：
*易于重现的下载，尤其是与icepyx查询对象相结合
*较小的文件大小，意味着更快的下载速度，所需的存储空间较少，也无需自行将数据征收
*仍然很容易回去订购更多具有相同或相似搜索参数的数据/变量
*没有多余的数据意味着您可以直接移动到分析并轻松导航数据集

默认情况下指定某些子集参数，除非`subset = false`将作为`reser_granules（）的输入（）`or`ordload_granules（）`（在引擎盖下调用`order_granules（）。一个单独的伴随笔记本教程涵盖了更多详细的子集，包括如何获取子集选项列表，如何构建子集参数列表以及如何生成所需变量列表（大多数产品具有200多个可变字段！），包括使用预构建的默认列表（这些列表仍在进行中，我们欢迎捐款！）。

至于CMR和必需的参数，可以使用`subsetParams'构建和查看默认子集参数。如果使用输入空间文件，而不是边界框或手动输入的多边形，则空间文件将用于子集（除非子集设置为false），否则不显示“子群词典”词典。

Icepyx还可以轻松利用NSIDC提供的重新标准（例如文件格式转换）选项。这些在[子集教程笔记本]（https://icepyx.readthedocs.io/en/latest/example_notebooks/is2_data_access2-subsetting.html）中更详细地介绍。

In [25]:
region_a.subsetparams()

{'time': '2019-10-01T03:30:00,2019-10-05T21:30:00',
 'Boundingshape': '{"type":"FeatureCollection","features":[{"id":"0","type":"Feature","properties":{},"geometry":{"type":"Polygon","coordinates":[[[-55.0,68.0],[-48.0,68.0],[-48.0,71.0],[-55.0,71.0],[-55.0,68.0]]]},"bbox":[-55.0,68.0,-48.0,71.0]}],"bbox":[-55.0,68.0,-48.0,71.0]}'}

＃＃＃ 下订单
然后，我们可以使用order_granules函数将订单发送到NSIDC。有关订购颗粒及其状态的信息将自动打印。当``emage''kwarg设置为true'时，还可以将状态信息通过电子邮件发送到与您的Earthdata帐户关联的地址。可以通过将可选的关键字输入“冗长”设置为true来查看有关订单的其他信息，包括请求URL。

In [26]:
region_a.order_granules()
# region_a.order_granules(verbose=True, subset=False, email=False)

AssertionError: Your search returned no results; try different search parameters

In [None]:
#view a short list of order IDs
region_a.granules.orderIDs

### Download the order
Finally, we can download our order to a specified directory (which needs to have a full path but doesn't have to point to an existing directory) and the download status will be printed as the program runs. Additional information is again available by using the optional boolean keyword `verbose`.

In [None]:
path = './download'
region_a.download_granules(path)

**Credits**
* original notebook by: Jessica Scheick
* notebook contributors: Amy Steiker and Tyler Sutterley
* source material: [NSIDC Data Access Notebook](https://github.com/ICESAT-2HackWeek/ICESat2_hackweek_tutorials/tree/master/03_NSIDCDataAccess_Steiker) by Amy Steiker and Bruce Wallin and [2020 Hackweek Data Access Notebook](https://github.com/ICESAT-2HackWeek/2020_ICESat-2_Hackweek_Tutorials/blob/main/06-07.Data_Access/02-Data_Access_rendered.ipynb) by Jessica Scheick and Amy Steiker