In [4]:
import json
import locale


locale.setlocale(locale.LC_COLLATE, 'chinese')


def merge_dicts(*dicts):
    result = {}
    for d in dicts:
        result |= d
    return result


def to_json(kv_pairs, indent=None):
    return json.dumps(kv_pairs, ensure_ascii=False, indent=indent)


def to_list(text: str):
    return sorted(tuple(text.split()), key=locale.strxfrm)


def kv_pair(key, value):
    return {key: value}


def kvs_pair(key, value):
    return {key: to_list(value)} if type(value) == str else {key: value}


def record_of(name, *dicts):
    return to_json(merge_dicts(kv_pair('省级行政区', name), *dicts))


data_opentype2 = ('有条件开放', '无条件开放')
frequency8 = ('实时', '每天', '每周', '每月', '每季度', '每半年', '每年', '不定期')
format8 = ('xls', 'xml', 'json', 'csv', 'rdf', '接口', '链接', '其他')

In [5]:
categories = '经济建设 信用服务 财税金融 旅游住宿 交通服务 餐饮美食 医疗健康 文体娱乐 消费购物 生活安全 宗教信仰 教育科研 社会保障 劳动就业 生活服务 房屋住宅 政府机构与社会团体 环境与资源保护 企业服务 农业农村'
beijing = record_of('北京市', kvs_pair('主题', categories))

categories = '信用服务 医疗卫生 社保就业 公共安全 城建住房 交通运输 教育文化 科技创新 资源能源 生态环境 工业农业 商贸流通 财税金融 安全生产 市场监管 社会救助 法律服务 生活服务 气象服务 地理空间 机构团体'
tianjin = record_of('天津市', kvs_pair('主题', categories),
                    kvs_pair('文件格式', 'xls pdf doc zip xml csv'),
                    kvs_pair('开放状态', data_opentype2))

categories = '食药安全 资源环境 地理空间 教育科技 道路交通 社保就业 卫生健康 财税金融 安全监管 城建住房 机构团体 信用服务 无'
hebei = record_of('河北省', kvs_pair('数据主题', categories),
                  kvs_pair('格式', '文件 mysql'),
                  kvs_pair('开放条件', '完全开放 依申请开放'))

categories = '教育科技 文化休闲 地理空间 社保就业 卫生健康 机构团体 城建住房 经贸工商 公共安全 市场监督 交通出行 气象服务 综合政务 社会民生 财税金融 安全监管 农业农村 资源环境 信用服务'
shanxi = record_of('山西省', kvs_pair('领域', categories),
                   kvs_pair('开放类型', data_opentype2),
                   kvs_pair('更新频率', '每日 每月 每季度 每年 其他'))

categories = '信用服务 医疗卫生 社保就业 公共安全 城建住房 交通运输 教育文化 科技创新 资源能源 生态环境 农业农业 商贸流通 财税金融 安全生产 市场监管 社会救助 法律服务 生活服务 气象服务 地理空间 机构团体 ' + '环保主题 旅游主题 草业主题'
neimenggu = record_of('内蒙古自治区', kvs_pair('主题', categories),
                      kvs_pair('开放条件', data_opentype2))

categories = '医疗 地理 信用 教育 就业 企业登记监管 统计 生态 科技 气象 文化 农业 社会保障 卫生 交通运输 安全监管 资源'
liaoning = record_of('辽宁省', kvs_pair('领域', categories),
                     kvs_pair('格式', format8),
                     kvs_pair('开放类型', data_opentype2),
                     kvs_pair('更新频率', frequency8))

categories = '综合政务 民生服务 资源能源 医疗卫生 生态环境 社保就业 商贸流通 科技创新 教育文化 公共安全 机构团体 工业农业 法律服务 地理空间 城建住房 财税金融 安全生产'
jilin = record_of('吉林省', kvs_pair('主题', categories),
                  kvs_pair('数据格式', 'excel file'),
                  kv_pair('开放状态', '无条件开放'))

categories = '城市建设 民生服务 经济建设 教育科技 资源环境 卫生健康 公共安全 文化休闲 道路交通 信用服务 机构团体 社会发展'
shanghai = record_of('上海市', kvs_pair('数据领域', categories),
                     kvs_pair('资源类型', '数据产品 数据接口'),
                     kvs_pair('数据格式', 'xml xlsx xls rdf json csv doc pdf'),
                     kvs_pair('开放属性', data_opentype2))

categories = '社会保障 行业准营 教育培训 三农服务 交通旅游 环境资源 出境入境 劳动就业 医疗卫生 工程建设 安全生产 生活服务 文物保护 纳税缴费 住房保障 执业资格 涉外服务 设立变更 投资立项 其他'
jiangsu = record_of('江苏省', kvs_pair('主题', categories),
                    kvs_pair('资源类型', '数据集 接口'),
                    kvs_pair('数据格式', 'csv xlsx xls json xml 其他'),
                    kvs_pair('开放类型', data_opentype2))

categories = '安全生产 财税金融 城建住房 地理空间 法律服务 工业农业 公共安全 机构团体 交通运输 教育文化 科技创新 气象服务 商贸流通 社保就业 社会救助 生活服务 生态环境 市场监督 信用服务 医疗卫生 资源能源 其他'
# 错把xls写成xsl
zhejiang = record_of('浙江省', kvs_pair('数据领域', categories),
                     kvs_pair('格式', 'xsl xml json csv rdf'),
                     kv_pair('开放条件', '登录开放'),
                     kvs_pair('更新周期', '每季度 每年 每月 每日 不定期 不更新'))

categories = '科技创新 长三角高价值清单 人工智能产业创新应用 城建住房 教育文化 工业农业 机构团体 地理空间 资源能源 市场监管 生活服务 生态环境 交通运输 气象服务 社保就业 医疗卫生 商贸流通 公共安全 财税金融 法律服务 安全生产 其他 社会救助'
anhui = record_of('安徽省', kvs_pair('领域', categories),
                  kvs_pair('资源类型', '数据 接口'),
                  kvs_pair('文件格式', 'docx xls xlsx pdf'),
                  kvs_pair('开放属性', data_opentype2))

categories = '信用服务 卫生健康 医疗保障 交通运输 社保就业 文化旅游 教育科技 公共服务 资源能源 生态环境 气象服务 工业农业 商贸流通 财税金融 城乡建设 市场监管 公共安全 地理空间 安全生产 社会救助 法律服务 生活服务 机构团体 闽台和海外合作 统计服务 海洋服务'
fujian = record_of('福建省', kvs_pair('领域', categories),
                   kvs_pair('格式', 'xls xml json csv rdf 接口'),
                   kvs_pair('开放类型', '依申请开放 普遍开放'))

categories = '文化休闲 资源环境 教育科技 经济建设 社会发展 民生服务 公共安全 城市建设 卫生健康 机构团体 道路交通 信用服务'
jiangxi = record_of('江西省', kvs_pair('领域', categories),
                    kvs_pair('文件格式', 'doc docx xlsx xls pdf rar zip 库表'),
                    kvs_pair('开放类型', data_opentype2))

categories = '市场监督 教育科技 文化休闲 地理空间 社保就业 社会救助 卫生健康 机构团体 城建住房 经贸工商 公共安全 信用服务 交通出行 气象服务 综合政务 社会民生 财税金融 安全监管 生态环境 农业农村 资源环境'
shandong = record_of('山东省', kvs_pair('领域', categories),
                     kvs_pair('格式', format8),
                     kvs_pair('开放类型', data_opentype2),
                     kvs_pair('更新频率', frequency8))

categories = '财税金融 医疗卫生 交通运输 教育文化 科技创新 社保就业 公共安全 机构团体 市场监督 民生服务 气象服务 城建住房 资源环境 工业农业 经济发展 文化休闲 社会发展 自然资源 审计监督 通信 公共数据 其他'
henan = record_of('河南省', kvs_pair('行业领域', categories),
                  kvs_pair('服务类型', '数据包 数据模型 数据接口 数据报告'))

categories = '资源环境 经济建设 教育科技 道路交通 社会发展 公共安全 文化休闲 卫生健康 民生服务 机构团体 城市建设 社会资源'
guangdong = record_of('广东省', kvs_pair('主题分类', categories),
                      kvs_pair('格式', 'xls xlsx xml json csv rdf'),
                      kvs_pair('开放模式', data_opentype2))

categories = '工业农业 生态环境 科技创新 教育文化 交通运输 城建住房 社保就业 防疫复工 商业服务 其他 社会救助 生活服务 医疗卫生 法律服务 资源能源 财税金融 商贸流通 机构团体 公共安全 地理空间 气象服务 市场监管 安全生产 信用服务'
guangxi = record_of('广西壮族自治区', kvs_pair('领域', categories),
                    kvs_pair('数据格式', '数据集 文件集 API 链接 地图'),
                    kvs_pair('格式', format8),
                    kvs_pair('开放类型', data_opentype2),
                    kvs_pair('更新频率', frequency8))

categories = '市场监管 生活服务 城建住房 社保就业 教育文化 医疗卫生 生态环境 工业农业 交通运输 资源能源 公共安全 安全生产 社会救助 机构团体 法律服务 财税金融 地理空间 科技创新 气象服务 商贸流通 信用服务 其他'
hainan = record_of('海南省', kvs_pair('领域', categories),
                   kvs_pair('文件类型', 'xlsx xml json csv'),
                   kvs_pair('开放状态', data_opentype2))

categories = '科技创新 商贸流通 社会救助 城建住房 教育文化 工业农业 机构团体 地理空间 资源能源 市场监管 生活服务 生态环境 交通运输 安全生产 社保就业 医疗卫生 信用服务 公共安全 财税金融 气象服务 法律服务 疫情防控 其他'
chongqing = record_of('重庆市', kvs_pair('主题', categories),
                      kvs_pair('格式', '数据集 接口'),
                      kvs_pair('开放属性', data_opentype2))

categories = '教育文化 生活服务 地理空间 社保就业 公共安全 安全生产 医疗卫生 市场监管 社会救助 交通运输 气象服务 城建住房 商贸流通 财税金融 法律服务 机构团体 工业农业 生态环境 能源资源 科技创新 信用服务'
sichuan = record_of('四川省', kvs_pair('领域', categories))

categories = '默认主题 生活服务 城建住房 教育文化 工业农业 机构团体 财税金融 生态环境 市场监管 交通运输 资源能源 医疗卫生 社保就业 安全生产 法律服务 气象服务 公共安全 商贸流通 科技创新 地理空间 信用服务 文化休闲'
guizhou = record_of('贵州省', kvs_pair('主题', categories))


In [6]:
def merge_json_objects_as_array(*json_objs):
    json_list = [json.loads(j) for j in json_objs]
    return json.dumps(json_list, ensure_ascii=False, indent=None)


general = merge_json_objects_as_array(
    beijing, tianjin, hebei, shanxi, neimenggu,
    liaoning, jilin, shanghai, jiangsu, zhejiang,
    anhui, fujian, jiangxi, shandong, henan,
    guangdong, guangxi, hainan, chongqing, sichuan,
    guizhou)

with open(r'output/json/vocabulary.json', 'w', encoding='utf-8') as file:
    file.write(general)


In [7]:
general

'[{"省级行政区": "北京市", "主题": ["财税金融", "餐饮美食", "房屋住宅", "环境与资源保护", "交通服务", "教育科研", "经济建设", "劳动就业", "旅游住宿", "农业农村", "企业服务", "社会保障", "生活安全", "生活服务", "文体娱乐", "消费购物", "信用服务", "医疗健康", "政府机构与社会团体", "宗教信仰"]}, {"省级行政区": "天津市", "主题": ["安全生产", "财税金融", "城建住房", "地理空间", "法律服务", "工业农业", "公共安全", "机构团体", "交通运输", "教育文化", "科技创新", "气象服务", "商贸流通", "社保就业", "社会救助", "生活服务", "生态环境", "市场监管", "信用服务", "医疗卫生", "资源能源"], "文件格式": ["csv", "doc", "pdf", "xls", "xml", "zip"], "开放状态": ["有条件开放", "无条件开放"]}, {"省级行政区": "河北省", "数据主题": ["安全监管", "财税金融", "城建住房", "道路交通", "地理空间", "机构团体", "教育科技", "社保就业", "食药安全", "卫生健康", "无", "信用服务", "资源环境"], "格式": ["mysql", "文件"], "开放条件": ["完全开放", "依申请开放"]}, {"省级行政区": "山西省", "领域": ["安全监管", "财税金融", "城建住房", "地理空间", "公共安全", "机构团体", "交通出行", "教育科技", "经贸工商", "农业农村", "气象服务", "社保就业", "社会民生", "市场监督", "卫生健康", "文化休闲", "信用服务", "资源环境", "综合政务"], "开放类型": ["有条件开放", "无条件开放"], "更新频率": ["每季度", "每年", "每日", "每月", "其他"]}, {"省级行政区": "内蒙古自治区", "主题": ["安全生产", "财税金融", "草业主题", "城建住房", "地理空间", "法律服务", "公共安全", "环保主题", "机构团体", "交通运输