<h1 align=center>矢量数据清洗3：自动形成数据文档</h1>
----
* 作者：吴立宗
* 日期：2016-7-3
* 目标：自动提取信息，形成数据文档

In [28]:
#encoding=utf8
import fiona
import os
from fiona.crs import to_string
import geopandas as gpd
import codecs
import glob
%matplotlib inline

In [2]:
shapefile='data/countypolygon_1986.shp'
meta_path='meta/'

## 1.基本文件信息

In [3]:
basename=os.path.basename(shapefile)
meta_file=meta_path+basename.replace('shp','md')



In [74]:
title=u'中国1：400万县级行政区划数据集(1986年)'
author=u'杨雅萍'
org=u'中国科学院地理科学与资源研究所'
address=u'北京朝阳区大屯路甲11号'
postcode=u'100101'
email=u'yangyp@igsnrr.ac.cn'
publish_date='2008-10-13'

abstract=u"""中国1：400万县级行政区划数据集（1986年）包括1986年县级行政区划数据和县级行政
驻地点数据。县级行政区划数据包括了县级行政单元的名称、拼音、行政区划代码、变迁情况等信息；
驻地点数据包括县级行政单元驻地的位置信息，驻地的级别、变迁情况等信息。"""
keywords=u'行政区划,地理学,县级，1986年'
purpose=u"""为研究历年国家行政机关所辖区域即政区的空间体系的变化, 包括其构成因素、影响要素、
划分原则、组织体系及其对国家和区域的经济、社会、文化乃至自然环境等的影响, 
以及对行政区划的预测、规划和调控等研究提供基础数据。该数据仅供科学研究参考使用，
不作为各级政区争议的依据。"""
service_user=u"""该数据集为区域科学研究提供基础矢量行政区划数据，也为公众了解中国行政区划沿革历史、
政区地名更迭提供参考信息。"""
other_info=u"""应用该数据时，先仔细阅读本文档，了解编码含意。编码含意和图幅有关，
同一编码在不同图幅中会有不同含意，使用时要参照编码说明文件。
该数据仅供科学研究参考使用，不作为各级政区争议的依据。
"""
data_source=[u"1988年《中华人民共和国行政区划简册》（民政部编著、中国地图出版社出版）",
u"《中华人民共和国行政区划沿革地图集（1949-1999年）》（中国地图出版社）",
u"《中华人民共和国行政区划代码》中华人民共和国国家标准GB/T2260",
u"1：400万中国县级行政区划图（2000年）矢量数据及发布的邻近年份的中国县级行政区划矢量数据"]

data_process=u"""首先要根据不同数据源的特点对原始资料进行真实性、
一致性的检查及规范化处理；然后根据数据源及资料进行分析，整理归纳出行政区划变更的形式；
最后，根据行政区划变更形式运用ARCGIS软件进行地图资料的数字化、矢量地图的编辑、
调整以及对应属性表的变更等。经过要素完整性、拓扑正确性等质量控制措施，
最终形成时空一致的中国1：400万县级行政区划数据集。具体数据加工生产流程如下图所示。"""
data_citation_zh=''
data_citation_en=''
acknowledgement_zh=u'感谢国家科技基础条件平台-国家地球系统科学数据共享平台(http://www.geodata.cn)提供数据支撑。'
acknowledgement_en=u'Acknowledgement for the data support from " National Earth System Science Data Sharing Infrastructure, National Science & Technology Infrastructure of China. (http://www.geodata.cn)'
contact_group=u'数据服务组'
contact_email=u'geodata@igsnrr.ac.cn'  
contact_tel='010-6488-8143/45(转81)'
language=u'中文'
date_range='1986'
map_scale=u'1:400万'
data_quality=u"""制定数字加工操作规范。加工过程中，规定操作人员严格遵守操作规范，
同时由专人负责质量审查。经多人复查审核，其数据完整性、逻辑一致性、位置精度、属性精度、
接边精度、现势性均符合国家测绘局制定的有关技术规定和标准的要求，质量优良可靠。"""
application_info=u'本数据集主要应用于地理学、测绘国土相关领域研究'

In [32]:
filesize=0
filelist=glob.glob(shapefile.replace('shp','*'))
for filename in filelist:
    filesize=filesize+os.path.getsize(filename)/1024.0/1024.0
filesize=round(filesize,2)
filesize

20.24

In [70]:
## 获得数据的基本信息


with fiona.open(shapefile,encoding='gbk') as source:
    ## 数据格式 
    file_format=source.driver
    ## 几何类型
    geom_type = source.schema['geometry']
    ## 地图投影
    crs_wkt = source.crs_wkt
    crs_proj4 = to_string(source.crs)
    ##要素数目
    feature_count=len(source)
    ##属性信息
    field_name=[]
    field_type=[]
    for field in list(source.schema['properties']):
        prop=source.schema['properties'][field]
        
        field_name.append(field)
        field_type.append(prop)
        #field_type = prop.split(':')[0]
        #field_width = prop.split(':')[1]
    ## 字符集
    file_encoding=source.encoding
    ##空间范围，需要转为为经纬度格式
    min_x, min_y, max_x, max_y = source.bounds

min_x, min_y, max_x, max_y
field_type


['float:19.11',
 'str:32',
 'str:50',
 'float:19.11',
 'str:50',
 'str:20',
 'str:50',
 'str:254',
 'str:50',
 'str:200',
 'str:50',
 'int:9',
 'str:7',
 'float:19.11',
 'float:19.11']

In [79]:
f=codecs.open(meta_file,'w',encoding='utf8')
f.write('<h1 align=center>%s</h1>\n'%(title))
f.write('<div align=center>(%s,%s,%s,%s,%s,%s)\n</div>'%(author,org,address,postcode,email,publish_date))
f.write(u'### 1.概述:\n')
f.write('%s\n\n'%(abstract))

f.write('### 2.建设目的:\n')
f.write('%s\n\n'%(purpose))
f.write('### 3.服务对象:\n')
f.write('%s\n\n'%(service_user))
f.write('### 4.其他信息:\n')
f.write('%s\n\n'%(other_info))
f.write('### 5.数据基本信息:\n')
f.write(u'* 关键词:%s\n'%(keywords))
f.write('* 文件名:%s\n'%(basename))
f.write('* 数据格式:%s\n'%(file_format))
f.write('* 数据大小:%f Mb\n'%(filesize))
f.write('* 比例尺:%s\n'%(map_scale))
f.write('* 空间范围:%f-%f(西-东),%f-%f(南-北)\n'%(min_x,max_x,min_y,max_y))
f.write('* 时间范围:%s\n'%(date_range))
f.write('* 语言:%s\n'%(language))
f.write('* 字符集:%s\n'%(file_encoding))
f.write('\n')
f.write('### 6.数据内容信息:\n')
f.write('* 几何类型:%s\n'%(geom_type))
f.write('* 要素数量:%f\n'%(feature_count))
f.write('* 地图投影:\n')
f.write(' * wkt: \n\n')
f.write('<pre>%s</pre>\n\n'%(crs_wkt))
f.write(' * proj4: %s\n\n'%(crs_proj4))
f.write('* 属性信息:\n\n')
f.write('|字段名称|字段类型|字段宽度|备注|\n')
f.write('|----|----|----|----|\n')
for f_name,f_type in zip(field_name,field_type):
    print(f_type)
    f.write('|%s|%s|%s|-|\n'%(f_name,f_type.split(':')[0],f_type.split(':')[1]))
f.write('\n')
f.write('* 分类信息:\n')
f.write('* 相关图表:')
f.write('![](img/china_county_geo.png)\n')
f.write('\n')
f.write('### 7.数据加工方法:\n')
f.write('%s\n\n'%(data_process))
f.write('### 8.数据源:\n')
for item in data_source:
    print(item)
    f.write('* %s\n'%(item))
f.write('\n')
f.write('### 9.数据质量描述:\n')
f.write('%s\n'%(data_quality))
f.write('![](img/fig_1.png)')
f.write('\n')
f.write('### 10.数据应用说明:\n')
f.write('%s\n\n'%(application_info))
f.write('### 11.数据的引用格式:\n')
f.write('### 12.知识产权信息:\n')
f.write('### 致谢\n')
f.write('* 中文:%s\n'%(acknowledgement_zh))
f.write('* 英文:%s\n'%(acknowledgement_en))
f.write('\n')
f.write('### 13.数据使用联系信息:\n')
f.write('* 联系人:\n')
f.write('* 通讯地址:\n')
f.write('* 邮编:\n')
f.write('* E-mail:\n')
f.write('* 电话:\n')
f.close()

float:19.11
str:32
str:50
float:19.11
str:50
str:20
str:50
str:254
str:50
str:200
str:50
int:9
str:7
float:19.11
float:19.11
1988年《中华人民共和国行政区划简册》（民政部编著、中国地图出版社出版）
《中华人民共和国行政区划沿革地图集（1949-1999年）》（中国地图出版社）
《中华人民共和国行政区划代码》中华人民共和国国家标准GB/T2260
1：400万中国县级行政区划图（2000年）矢量数据及发布的邻近年份的中国县级行政区划矢量数据


gbk
ESRI Shapefile
