<h1 align=center>矢量数据清洗3：自动形成数据文档</h1>
----
* 作者：吴立宗
* 日期：2016-7-3
* 目标：自动提取信息，形成数据文档

## 1.需要人工填写的信息

### 1.1固定信息

* 致谢

In [None]:
acknowledgement_zh=u'感谢国家科技基础条件平台-国家地球系统科学数据共享平台(http://www.geodata.cn)提供数据支撑。'
acknowledgement_en=u'Acknowledgement for the data support from " National Earth System Science Data Sharing Infrastructure, National Science & Technology Infrastructure of China. (http://www.geodata.cn)'


* 数据服务信息

In [None]:
contact_group   =u'数据服务组'
contact_address =u'北京朝阳区大屯路甲11号'
contact_email   =u'geodata@igsnrr.ac.cn'  
contact_tel     =u'010-6488-8143/45(转81)'

### 1.2 半固定信息

In [7]:
title=u'中国1：400万县级行政区划数据集(1986年)'
author=u'杨雅萍'
org=u'中国科学院地理科学与资源研究所'
address=u'北京朝阳区大屯路甲11号'
postcode=u'100101'
email=u'yangyp@igsnrr.ac.cn'
publish_date='2008-10-13'

### 1.3 与元数据一直的信息
>（可元数据中直接读取）

* 关键词

In [None]:
keywords=u'行政区划,地理学,县级，1986年'

### 1.3 变化信息

* 摘要

In [None]:
abstract=u"""中国1：400万县级行政区划数据集（1986年）包括1986年县级行政区划数据和县级行政
驻地点数据。县级行政区划数据包括了县级行政单元的名称、拼音、行政区划代码、变迁情况等信息；
驻地点数据包括县级行政单元驻地的位置信息，驻地的级别、变迁情况等信息。"""

* 目标:

In [None]:
purpose=u"""为研究历年国家行政机关所辖区域即政区的空间体系的变化, 包括其构成因素、影响要素、
划分原则、组织体系及其对国家和区域的经济、社会、文化乃至自然环境等的影响, 
以及对行政区划的预测、规划和调控等研究提供基础数据。该数据仅供科学研究参考使用，
不作为各级政区争议的依据。"""


In [None]:
service_user=u"""该数据集为区域科学研究提供基础矢量行政区划数据，也为公众了解中国行政区划沿革历史、
政区地名更迭提供参考信息。"""
other_info=u"""应用该数据时，先仔细阅读本文档，了解编码含意。编码含意和图幅有关，
同一编码在不同图幅中会有不同含意，使用时要参照编码说明文件。
该数据仅供科学研究参考使用，不作为各级政区争议的依据。
"""
data_source=[u"1988年《中华人民共和国行政区划简册》（民政部编著、中国地图出版社出版）",
u"《中华人民共和国行政区划沿革地图集（1949-1999年）》（中国地图出版社）",
u"《中华人民共和国行政区划代码》中华人民共和国国家标准GB/T2260",
u"1：400万中国县级行政区划图（2000年）矢量数据及发布的邻近年份的中国县级行政区划矢量数据"]

data_process=u"""首先要根据不同数据源的特点对原始资料进行真实性、
一致性的检查及规范化处理；然后根据数据源及资料进行分析，整理归纳出行政区划变更的形式；
最后，根据行政区划变更形式运用ARCGIS软件进行地图资料的数字化、矢量地图的编辑、
调整以及对应属性表的变更等。经过要素完整性、拓扑正确性等质量控制措施，
最终形成时空一致的中国1：400万县级行政区划数据集。具体数据加工生产流程如下图所示。"""
data_citation_zh=''
data_citation_en=''

language=u'中文'
date_range='1986'
map_scale=u'1:400万'
data_quality=u"""制定数字加工操作规范。加工过程中，规定操作人员严格遵守操作规范，
同时由专人负责质量审查。经多人复查审核，其数据完整性、逻辑一致性、位置精度、属性精度、
接边精度、现势性均符合国家测绘局制定的有关技术规定和标准的要求，质量优良可靠。"""
application_info=u'本数据集主要应用于地理学、测绘国土相关领域研究'

### 1.5每个文件都要填写的信息

## 2.可通过程序自动获取的信息

### 2.1基本信息

### 2.2 数据结构信息

### 2.3 数据内容信息

## 3.实现

In [49]:
#encoding=utf8

import os,glob
import codecs
import hashlib
import fiona
from fiona.crs import to_string
import geopandas as gp
%matplotlib inline

In [18]:
shapefile='data/countypolygon_1986.shp'
meta_path='meta/'

In [63]:
f=codecs.open(meta_file,'w',encoding='utf8')
f.write('<h1 align=center>%s</h1>\n'%(title))
f.write('<div align=center>(%s,%s,%s,%s,%s,%s)\n</div>'%(author,org,address,postcode,email,publish_date))
f.write('#### 摘要:\n')
f.write('%s\n\n'%(abstract))
f.write(u'#### 关键词:%s\n'%(keywords))
f.write(u'### 1.概述:\n')
f.write('### 2.建设目的:\n')
f.write('%s\n\n'%(purpose))
f.write('### 3.服务对象:\n')
f.write('%s\n\n'%(service_user))
f.write('### 4.其他信息:\n')
f.write('%s\n\n'%(other_info))

f.write('### 5.数据基本信息:\n')

fullname=os.path.abspath(shapefile)
filepath=os.path.split(fullname)[0]
file_format=os.path.split(fullname)[1]
file_id=os.path.basename(fullname).replace('.shp','')
filelist=glob.glob(os.path.join(filepath,file_id+'.*'))

meta_file=os.path.join(meta_path,file_id+'.md')
total_size=0
file_info=[]
for filename in filelist:
    filesize=filesize+os.path.getsize(filename)/1024.0/1024.0
    total_size=total_size+filesize
    basename=os.path.basename(filename)
    md5 = hashlib.md5(open(filename, 'rb').read()).hexdigest()
    file_info.append({'basename':basename,'filesize':round(filesize,2),'md5':md5})
f.write('* 数据:%s\n'%(file_id))
f.write('* 数据格式:矢量数据\n')
f.write('* 文件大小:%s Mb\n'%(round(total_size,2)))
f.write('* 数据列表:\n\n')
f.write('|文件名|文件大小|md5|\n')
f.write('|------|----|----|\n')
for info in file_info:
    f.write('|%s|%s|%s|\n'%(info['basename'],info['filesize'],info['md5']))
#########数据结构信息=========
f.write('\n')
f.write('### 6.数据结构信息\n')
file_encoding='gbk'    
df=gp.read_file(shapefile,encoding=file_encoding)
df_geo=df.to_crs(epsg=4326)
west,south,east,north=df_geo.total_bounds
with fiona.open(shapefile,encoding=file_encoding) as source:
    ## 数据格式 
    f.write('* 数据格式:%s\n'%(source.driver))
    ## 几何类型
    f.write('* 几何类型:%s\n'%(source.schema['geometry']))
    ##要素数目
    f.write('* 要素数量:%s\n'%(len(source)))
    ## 地图投影
    f.write('* 地图投影:\n')
    f.write(' * WKT格式:%s\n'%(source.crs_wkt))
    f.write(' * Proj4格式:%s\n'%(to_string(source.crs)))
    
    ##空间范围，需要转为为经纬度格式
    min_x,min_y,max_x,max_y = source.bounds
    f.write('* 空间范围:\n')
    f.write(' * 本地坐标  min_x:%s,min_y:%s,max_x:%s,max_y:%s\n'%(min_x,min_y,max_x,max_y))
    f.write(' * 经纬度 west:%s,east:%s,south%s,north%s'%(west,east,south,north))
    ##属性信息
    field_name=[]
    field_type=[]
    f.write('\n')
    f.write('* 属性信息\n')
    for field in list(source.schema['properties']):
        prop=source.schema['properties'][field]
        field_name.append(field)
        field_type.append(prop)
        ds=df[field]
        if prop.split(':')[0]=='str':
            f.write('* %s::%s\n'%(field,prop))
            f.write(' * valid_count:%s\n'%(ds.count()))
            f.write(' * min_length:%s\n'%(ds.str.len().min()))
            f.write(' * max_length:%s\n'%(ds.str.len().max()))
            f.write(' * value_counts:%s\n'%(len(ds.value_counts())))
            f.write(' * numeric_counts:%s\n'%(len(list(ds[ds.str.isdigit()==True]))))
            f.write(' * none_counts:%s\n'%(ds.isnull().values.sum())) 
        if prop.split(':')[0]=='float':
            f.write('* %s::%s\n'%(field,prop))
            f.write(' * valid_counts:%s\n'%(ds.count()))
            f.write(' * min:%s\n'%(ds.min()))
            f.write(' * max:%s\n'%(ds.max()))
            f.write(' * mean:%s\n'%(ds.mean()))
            f.write(' * std:%s\n'%(ds.std()))
            f.write(' * none_counts:%s\n'%(ds.isnull().sum()))
            f.write(' * first_valid_count_index:%s\n'%(ds.first_valid_index()))
            f.write(' * last_valid_count_index:%s\n'%(ds.last_valid_index()))

    f.write('* 分类信息:\n')
    f.write('* 相关图表:\n')
    f.write('![](img/china_county_geo.png)\n')
    f.write('\n')
    f.write('### 7.数据加工方法:\n')
    f.write('%s\n\n'%(data_process))
    f.write('### 8.数据源:\n')
    for item in data_source:
        print(item)
        f.write('* %s\n'%(item))
    f.write('\n')
    f.write('### 9.数据质量描述:\n')
    f.write('%s\n'%(data_quality))
    f.write('![](img/data_quality.png)\n')
    f.write('\n')
    f.write('### 10.数据应用说明:\n')
    f.write('%s\n\n'%(application_info))
    f.write('### 11.数据的引用格式:\n')
    f.write('### 12.知识产权信息:\n')
    f.write('### 致谢\n')
    f.write('* 中文:%s\n'%(acknowledgement_zh))
    f.write('* 英文:%s\n'%(acknowledgement_en))
    f.write('\n')
    f.write('### 13.数据使用联系信息:\n')
    f.write('* 联系人:\n')
    f.write('* 通讯地址:\n')
    f.write('* 邮编:\n')
    f.write('* E-mail:\n')
    f.write('* 电话:\n')
f.close()

1988年《中华人民共和国行政区划简册》（民政部编著、中国地图出版社出版）
《中华人民共和国行政区划沿革地图集（1949-1999年）》（中国地图出版社）
《中华人民共和国行政区划代码》中华人民共和国国家标准GB/T2260
1：400万中国县级行政区划图（2000年）矢量数据及发布的邻近年份的中国县级行政区划矢量数据


### 2.2 数据结构信息

In [None]:
* 需要手工填写的信息

In [10]:


f.write('* 文件名:%s\n'%(basename))
f.write('* 数据格式:%s\n'%(file_format))
f.write('* 数据大小:%f Mb\n'%(filesize))
f.write('* 比例尺:%s\n'%(map_scale))
f.write('* 空间范围:%f-%f(西-东),%f-%f(南-北)\n'%(min_x,max_x,min_y,max_y))
f.write('* 时间范围:%s\n'%(date_range))
f.write('* 语言:%s\n'%(language))
f.write('* 字符集:%s\n'%(file_encoding))
f.write('\n')
f.write('### 6.数据内容信息:\n')
f.write('* 几何类型:%s\n'%(geom_type))
f.write('* 要素数量:%f\n'%(feature_count))
f.write('* 地图投影:\n')
f.write(' * wkt: \n\n')
f.write('<pre>%s</pre>\n\n'%(crs_wkt))
f.write(' * proj4: %s\n\n'%(crs_proj4))
f.write('* 属性信息:\n\n')
f.write('|字段名称|字段类型|字段宽度|备注|\n')
f.write('|----|----|----|----|\n')
for f_name,f_type in zip(field_name,field_type):
    print(f_type)
    f.write('|%s|%s|%s|-|\n'%(f_name,f_type.split(':')[0],f_type.split(':')[1]))
f.write('\n')

f.close()

float:19.11
str:32
str:50
float:19.11
str:50
str:20
str:50
str:254
str:50
str:200
str:50
int:9
str:7
float:19.11
float:19.11
1988年《中华人民共和国行政区划简册》（民政部编著、中国地图出版社出版）
《中华人民共和国行政区划沿革地图集（1949-1999年）》（中国地图出版社）
《中华人民共和国行政区划代码》中华人民共和国国家标准GB/T2260
1：400万中国县级行政区划图（2000年）矢量数据及发布的邻近年份的中国县级行政区划矢量数据
