# Metadata 元数据

## 概述

从本质上讲，**元数据（Metadata）就是关于数据的数据**。

在日常的 GIS 数据管理工作流程中，数据会被创建、更新、归档，并被用于各种决策支持系统。
作为数据**信息管理生命周期**的一部分，不仅需要对数据进行维护、保护和长期保存，
还需要支持数据的**发现与检索**。

元数据正是用来满足这些需求的关键手段。


## 核心概念

为了有效描述和管理数据，**文档（Documentation）至关重要**，它需要清晰说明以下内容：

- **谁** 对该数据负责，以及在需要时应联系的人员
- **数据是什么**：数据所表示的内容（要素、栅格等）
- **数据在哪里**：数据的存储位置
- **数据何时产生**：数据的创建时间、更新时间，以及所覆盖的时间范围
- **为什么** 会有这份数据：数据存在的目的和背景
- **数据如何生成**：数据的生产方式和处理流程


## 标准

目前已经存在大量用于支持数据文档化的**元数据标准**。
其中，[Dublin Core](https://dublincore.org) 标准提供了 **16 个核心元素**，
可用于描述任何类型的资源。
[OGC Web 目录服务（Catalogue Service for the Web, CSW）](https://opengeospatial.org/standards/cat)
正是基于 Dublin Core，为地理空间目录与搜索提供了一套核心的元数据模型。

地理空间领域长期以来一直在推动专门针对地理空间数据的元数据标准建设，
其中包括（但不限于）：
- [FGDC CSDGM](https://www.fgdc.gov/metadata/csdgm-standard)
- [DIF（Directory Interchange Format）](https://earthdata.nasa.gov/esdis/eso/standards-and-references/directory-interchange-format-dif-standard)
- [ISO 19115](https://www.iso.org/standard/26020.html)

近年来，[JSON](https://json.org) 和 [GeoJSON](https://geojson.org)
在地理空间生态系统中被广泛采用，用于轻量级的 Web 数据交换。
元数据领域也不例外：
[OGC API](https://ogcapi.org) 与 [STAC](https://stacspec.org) 等新一代标准，
都将 **JSON 作为地理空间元数据的核心表示形式**。

无论你需要或选择哪一种标准，
使用这些标准来生成地理空间元数据，
都能够为其**无缝集成到地理空间搜索目录和桌面 GIS 工具**中提供巨大价值，
从而更好地组织、分类并发现地理空间数据。

然而，地理空间元数据始终面临的一个核心挑战是：**复杂性**。
因此，仍然需要更加易用的工具，
来帮助用户高效地创建和管理地理空间元数据。


## 使用 pygeometa 实现轻量级元数据工作流

[pygeometa](https://geopython.github.io/pygeometa)
提供了一套轻量级工具集，
使用户能够通过**简单的配置文件**
（亲切地称为 *元数据控制文件*，Metadata Control Files，简称 **MCF**），
以**符合标准的格式**轻松创建地理空间元数据。

pygeometa 利用**简单但功能强大的 YAML 格式**，
可以生成多种不同标准下的元数据。
此外，用户还可以创建**自定义的元数据格式**，
并将其接入 pygeometa，从而输出定制化的元数据结果。

对于开发者而言，
pygeometa 提供了一个**直观的 Python API**，
使 Python 开发者能够将元数据生成过程
紧密地集成到自身的系统与工作流之中。


## 创建元数据

下面我们将通过示例，演示如何在**命令行**以及**Python API**中使用 pygeometa。


让我们先从下面的命令行（CLI）示例开始


In [1]:
!pygeometa

Usage: pygeometa [OPTIONS] COMMAND [ARGS]...

Options:
  --version  Show the version and exit.
  --help     Show this message and exit.

Commands:
  metadata  Metadata management


让我们来看一下示例用到的元数据控制文件（Metadata Control File，MCF）

In [2]:
!cat ../data/countries.yml

mcf:
    version: 1.0

metadata:
    identifier: naturalearth-countries
    language: en
    charset: utf8
    hierarchylevel: dataset
    datestamp: 2018-05-21
    dataseturi: https://www.naturalearthdata.com/downloads/110m-cultural-vectors/110m-admin-0-countries

spatial:
    datatype: vector
    geomtype: point

identification:
    language: en
    charset: utf8
    title: Admin 0 - Countries
    abstract: Countries distinguish between metropolitan (homeland) and independent and semi-independent portions of sovereign states. If you want to see the dependent overseas regions broken out (like in ISO codes, see France for example), use map units instead.  Each country is coded with a world region that roughly follows the United Nations setup.  Includes some thematic data from the United Nations, U.S. Central Intelligence Agency, and elsewhere.
    extents:
        spatial:
            - bbox: [-180,-90,180,90]
              crs: 4326
        temporal:
            - begin: 2022-06-02
  

pygeometa 允许用户根据其格式/模式（schema）对 MCF 文件进行校验。
让我们先确认我们的 MCF 文件是有效的：


In [3]:
!pygeometa metadata validate ../data/countries.yml

Validating ../data/countries.yml
Valid MCF document


In [4]:
!pygeometa metadata generate ../data/countries.yml --schema iso19139 --output /tmp/countries.xml

In [5]:
!cat /tmp/countries.xml

<?xml version="1.0" ?>
<gmd:MD_Metadata xmlns:gco="http://www.isotc211.org/2005/gco" xmlns:gmd="http://www.isotc211.org/2005/gmd" xmlns:gml="http://www.opengis.net/gml" xmlns:gmx="http://www.isotc211.org/2005/gmx" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.isotc211.org/2005/gmd http://www.isotc211.org/2005/gmd/gmd.xsd http://www.isotc211.org/2005/gmx http://www.isotc211.org/2005/gmx/gmx.xsd">
  <gmd:fileIdentifier>
    <gco:CharacterString>naturalearth-countries</gco:CharacterString>
  </gmd:fileIdentifier>
  <gmd:language>
    <gmd:LanguageCode codeList="http://www.loc.gov/standards/iso639-2/" codeSpace="ISO 639-2" codeListValue="en">en</gmd:LanguageCode>
  </gmd:language>
  <gmd:characterSet>
    <gmd:MD_CharacterSetCode codeList="http://www.isotc211.org/2005/resources/Codelist/gmxCodelists.xml#MD_CharacterSetCode" codeSpace="ISOTC211/19115" codeListValue="utf8">utf8</gmd:MD_CharacterSetCode>
  </gmd

现在我们尝试将元数据输出为 **OGC API - Records** 的一条元数据记录。

请注意该记录的 **JSON 表示形式**：这是新兴 OGC API 标准中的关键要素，
并以 **GeoJSON** 作为基线，从而实现广泛的互操作性（interoperability）。


In [6]:
!pygeometa metadata generate ../data/countries.yml --schema oarec-record

{
    "id": "naturalearth-countries",
    "conformsTo": [
        "http://www.opengis.net/spec/ogcapi-records-1/1.0/conf/record-core"
    ],
    "type": "Feature",
    "geometry": {
        "type": "Polygon",
        "coordinates": [
            [
                [
                    -180,
                    -90
                ],
                [
                    -180,
                    90
                ],
                [
                    180,
                    90
                ],
                [
                    180,
                    -90
                ],
                [
                    -180,
                    -90
                ]
            ]
        ]
    },
    "properties": {
        "title": "Admin 0 - Countries",
        "description": "Countries distinguish between metropolitan (homeland) and independent and semi-independent portions of sovereign states. If you want to see the dependent overseas regions broken out (like in ISO codes, see F

现在我们使用 API 来进行一些更新


In [7]:
from pygeometa.core import read_mcf
mdata = read_mcf('../data/countries.yml')
mdata

{'mcf': {'version': 1.0},
 'metadata': {'identifier': 'naturalearth-countries',
  'language': 'en',
  'charset': 'utf8',
  'hierarchylevel': 'dataset',
  'datestamp': datetime.date(2018, 5, 21),
  'dataseturi': 'https://www.naturalearthdata.com/downloads/110m-cultural-vectors/110m-admin-0-countries'},
 'spatial': {'datatype': 'vector', 'geomtype': 'point'},
 'identification': {'language': 'en',
  'charset': 'utf8',
  'title': 'Admin 0 - Countries',
  'abstract': 'Countries distinguish between metropolitan (homeland) and independent and semi-independent portions of sovereign states. If you want to see the dependent overseas regions broken out (like in ISO codes, see France for example), use map units instead.  Each country is coded with a world region that roughly follows the United Nations setup.  Includes some thematic data from the United Nations, U.S. Central Intelligence Agency, and elsewhere.',
  'extents': {'spatial': [{'bbox': [-180, -90, 180, 90], 'crs': 4326}],
   'temporal': 

In [8]:
mdata['identification']['title']

'Admin 0 - Countries'

让我们修改数据集的标题


In [9]:
mdata['identification']['title'] = 'Countries of the world'

现在我们选择 **ISO 19139** 作为输出的模式（schema）


In [10]:
from pygeometa.schemas.iso19139 import ISO19139OutputSchema
iso_os = ISO19139OutputSchema()

xml_string = iso_os.write(mdata)

现在我们来检查  
`/gmd:MD_Metadata/gmd:identificationInfo/gmd:MD_DataIdentification/gmd:citation/gmd:CI_Citation/gmd:title`  
这一节点，以确认标题是否已经更新


In [11]:
print(xml_string)

<?xml version="1.0" ?>
<gmd:MD_Metadata xmlns:gco="http://www.isotc211.org/2005/gco" xmlns:gmd="http://www.isotc211.org/2005/gmd" xmlns:gml="http://www.opengis.net/gml" xmlns:gmx="http://www.isotc211.org/2005/gmx" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.isotc211.org/2005/gmd http://www.isotc211.org/2005/gmd/gmd.xsd http://www.isotc211.org/2005/gmx http://www.isotc211.org/2005/gmx/gmx.xsd">
  <gmd:fileIdentifier>
    <gco:CharacterString>naturalearth-countries</gco:CharacterString>
  </gmd:fileIdentifier>
  <gmd:language>
    <gmd:LanguageCode codeList="http://www.loc.gov/standards/iso639-2/" codeSpace="ISO 639-2" codeListValue="en">en</gmd:LanguageCode>
  </gmd:language>
  <gmd:characterSet>
    <gmd:MD_CharacterSetCode codeList="http://www.isotc211.org/2005/resources/Codelist/gmxCodelists.xml#MD_CharacterSetCode" codeSpace="ISOTC211/19115" codeListValue="utf8">utf8</gmd:MD_CharacterSetCode>
  </gmd

现在请尝试用更新后的值来修改 `mdata` 变量（`dict`），并使用 pygeometa 的 API 生成一份新的 ISO XML。

---

[<- 可视化](07-visualization.ipynb) | [发布 ->](09-publishing.ipynb)