# 高等教育数据宽表构建全流程
_version: 2023-01-18_

In [1]:
import pandas as pd
import numpy as np

## 1 - 学校名单

### 1.1 全国普通高等学校名单

In [2]:
# 读取教育部全国普通高等学校名单
normal_college_list = pd.read_csv('01-数据源/01-学校名单/教育部-全国普通高等学校名单.csv')
normal_college_list.head()

Unnamed: 0,序号,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质
0,1,北京大学,4111010001,教育部,北京市,北京市,本科,
1,2,中国人民大学,4111010002,教育部,北京市,北京市,本科,
2,3,清华大学,4111010003,教育部,北京市,北京市,本科,
3,4,北京交通大学,4111010004,教育部,北京市,北京市,本科,
4,5,北京工业大学,4111010005,北京市,北京市,北京市,本科,


In [3]:
# 学校性质字段为空的，默认为公办学校
normal_college_list['学校性质'] = normal_college_list['学校性质'].fillna('公办')
normal_college_list.tail()

Unnamed: 0,序号,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质
2754,2755,阿勒泰职业技术学院,4165014680,新疆维吾尔自治区,新疆维吾尔自治区,阿勒泰地区,专科,公办
2755,2756,塔城职业技术学院,4165014740,新疆维吾尔自治区,新疆维吾尔自治区,塔城地区,专科,公办
2756,2757,塔里木职业技术学院,4165014741,新疆生产建设兵团,新疆维吾尔自治区,阿拉尔市,专科,公办
2757,2758,新疆工业职业技术学院,4265051060,新疆维吾尔自治区,新疆维吾尔自治区,乌鲁木齐市,专科,公办
2758,2759,铁门关职业技术学院,4165014660,新疆生产建设兵团,新疆维吾尔自治区,铁门关市,专科,公办


### 1.2 全国成人高等学校名单 

In [4]:
# 读取教育部全国成人高等学校名单
adult_college_list = pd.read_csv('01-数据源/01-学校名单/教育部-全国成人高等学校名单.csv')
adult_college_list.head()

Unnamed: 0,序号,学校名称,学校标识码,主管部门,所在省份,学校性质
0,1,北京市海淀区职工大学,4211050001,北京市,北京市,
1,2,北京市东城区职工业余大学,4211050002,北京市,北京市,
2,3,北京市崇文区职工大学,4211050004,北京市,北京市,
3,4,北京宣武红旗业余大学,4211050005,北京市,北京市,
4,5,北京市石景山区业余大学,4211050006,北京市,北京市,


In [5]:
# 学校性质字段为空的，默认为公办学校
adult_college_list['学校性质'] = adult_college_list['学校性质'].fillna('公办')

# 添加“办学层次”字段
adult_college_list['办学层次'] = '成人'
adult_college_list.tail()

Unnamed: 0,序号,学校名称,学校标识码,主管部门,所在省份,学校性质,办学层次
249,250,新疆开放大学,4265051387,新疆维吾尔自治区,新疆维吾尔自治区,公办,成人
250,251,喀什教育学院,4265051594,新疆维吾尔自治区,新疆维吾尔自治区,公办,成人
251,252,新疆生产建设兵团教育学院,4265051595,新疆生产建设兵团,新疆维吾尔自治区,公办,成人
252,253,和田地区教育学院,4265051599,新疆维吾尔自治区,新疆维吾尔自治区,公办,成人
253,254,阿克苏教育学院,4265051717,新疆维吾尔自治区,新疆维吾尔自治区,公办,成人


In [6]:
# 合并普通高校和成人高校名单
college_list = pd.concat([normal_college_list, adult_college_list], ignore_index=True)

# 剔除“序号”字段
college_list.drop('序号', axis=1, inplace=True)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质
3008,新疆开放大学,4265051387,新疆维吾尔自治区,新疆维吾尔自治区,,成人,公办
3009,喀什教育学院,4265051594,新疆维吾尔自治区,新疆维吾尔自治区,,成人,公办
3010,新疆生产建设兵团教育学院,4265051595,新疆生产建设兵团,新疆维吾尔自治区,,成人,公办
3011,和田地区教育学院,4265051599,新疆维吾尔自治区,新疆维吾尔自治区,,成人,公办
3012,阿克苏教育学院,4265051717,新疆维吾尔自治区,新疆维吾尔自治区,,成人,公办


In [7]:
# 保存合并后的名单
college_list.to_csv('03-中间结果/教育部全国高校名单.csv', index=False)

### 1.3 学校名单补充

In [8]:
# 读取补充名单数据
add_college_list = pd.read_csv('01-数据源/01-学校名单/人工增补-学校名单补充.csv')

# 删除“序号”列
add_college_list.drop('序号', axis=1, inplace=True)
add_college_list.head()

Unnamed: 0,学校名称,主管部门,所在省份,所在城市,办学层次,学校性质
0,国防科技大学,中国共产党中央军事委员会,湖南省,长沙市,本科,公办
1,海军军医大学,中国人民解放军海军,上海市,上海市,本科,公办
2,空军军医大学,中国人民解放军空军,陕西省,西安市,本科,公办
3,武警海警学院,中国人民武装警察部队,浙江省,宁波市,本科,公办
4,陆军工程大学,中国人民解放军陆军,江苏省,南京市,本科,公办


In [9]:
# 合并教育部名单和补充名单
college_list = pd.concat([college_list, add_college_list], ignore_index=True)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办


In [10]:
# 保存合并后的名单
college_list.to_csv('03-中间结果/教育部全国高校名单+补充名单.csv', index=False)

## 2 - 分类名单

### 2.1 985工程

#### 2.1.1 时间批次

In [11]:
# 读取985高校入选时间批次信息
project_985_batch = pd.read_csv('01-数据源/02-分类名单/百家号-985高校入选时间批次汇总.csv')

# 删除“序号”列
project_985_batch.drop('序号', axis=1, inplace=True)

# 调整部分列名
project_985_batch.rename(columns={'加入985工程时间': '985工程_加入时间', '985入选批次': '985工程_入选批次'}, inplace=True)
project_985_batch.head()

Unnamed: 0,学校名称,985工程_加入时间,985工程_入选批次
0,清华大学,1998年5月,首批9所（C9联盟）
1,北京大学,1998年5月,首批9所（C9联盟）
2,中国科学技术大学,1999年7月,首批9所（C9联盟）
3,南京大学,1999年7月,首批9所（C9联盟）
4,复旦大学,1999年7月,首批9所（C9联盟）


#### 2.1.2 实力划分

In [12]:
# 读取985高校实力划分信息
project_985_rank = pd.read_csv('01-数据源/02-分类名单/高考资讯网-985工程高校批次名单及实力划分.csv', 
                               dtype={'协议签署时间': str})

# 删除“序号”列
project_985_rank.drop('序号', axis=1, inplace=True)

# 调整部分列名
project_985_rank.rename(columns={'共建部门': '985工程_共建部门', 
                                 '985工程期数': '985工程_期数', 
                                 '协议签署时间': '985工程_协议签署时间',
                                 '实力梯队': '985工程_实力梯队'}, inplace=True)
project_985_rank.head()

Unnamed: 0,学校名称,985工程_共建部门,985工程_期数,985工程_协议签署时间,985工程_实力梯队
0,北京大学,教育部、北京市,一期,1999.7,1
1,清华大学,教育部、北京市,一期,1999.7,1
2,复旦大学,教育部、上海市,一期,1999.7,2
3,南京大学,教育部、江苏省,一期,1999.7,2
4,上海交通大学,教育部、上海市,一期,1999.7,2


In [13]:
# 统一部分学校名
project_985_rank.replace('国防科学技术大学', '国防科技大学', inplace=True)

# 合并全部985工程相关字段信息
project_985 = project_985_batch.merge(project_985_rank, on='学校名称', how='outer')
project_985

Unnamed: 0,学校名称,985工程_加入时间,985工程_入选批次,985工程_共建部门,985工程_期数,985工程_协议签署时间,985工程_实力梯队
0,清华大学,1998年5月,首批9所（C9联盟）,教育部、北京市,一期,1999.7,1
1,北京大学,1998年5月,首批9所（C9联盟）,教育部、北京市,一期,1999.7,1
2,中国科学技术大学,1999年7月,首批9所（C9联盟）,教育部、中国科学院、安徽省,一期,1999.7,2
3,南京大学,1999年7月,首批9所（C9联盟）,教育部、江苏省,一期,1999.7,2
4,复旦大学,1999年7月,首批9所（C9联盟）,教育部、上海市,一期,1999.7,2
5,上海交通大学,1999年7月,首批9所（C9联盟）,教育部、上海市,一期,1999.7,2
6,西安交通大学,1999年9月,首批9所（C9联盟）,教育部、陕西省,一期,1999.9,3
7,浙江大学,1999年11月,首批9所（C9联盟）,教育部、浙江省,一期,1999.11,2
8,哈尔滨工业大学,1999年11月,首批9所（C9联盟）,工业与信息化部、教育部、黑龙江省,一期,1999.11,3
9,北京理工大学,2000年9月,首期第二批共26所,工业与信息化部、教育部、北京市,一期,2000.9,3


In [14]:
# 将 "加入985工程时间", "985入选批次" 字段加入高校名单
college_list = college_list.merge(project_985, how='left', on='学校名称')
college_list.head()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,985工程_期数,985工程_协议签署时间,985工程_实力梯队
0,北京大学,4111010000.0,教育部,北京市,北京市,本科,公办,1998年5月,首批9所（C9联盟）,教育部、北京市,一期,1999.7,1.0
1,中国人民大学,4111010000.0,教育部,北京市,北京市,本科,公办,2003年9月,首期第二批共26所,教育部、北京市,一期,2003.9,2.0
2,清华大学,4111010000.0,教育部,北京市,北京市,本科,公办,1998年5月,首批9所（C9联盟）,教育部、北京市,一期,1999.7,1.0
3,北京交通大学,4111010000.0,教育部,北京市,北京市,本科,公办,,,,,,
4,北京工业大学,4111010000.0,北京市,北京市,北京市,本科,公办,,,,,,


### 2.2 双一流建设

#### 2.2.1 全体双一流名单

In [15]:
# 读取双一流学校名单
double_one = pd.read_csv('01-数据源/02-分类名单/掌上高考-双一流学校名单.csv')

# 删除“序号”列
double_one.drop('序号', axis=1, inplace=True)

# 增加“双一流建设”字段
double_one['双一流建设'] = 1
double_one.tail()

Unnamed: 0,学校名称,双一流建设
159,复旦大学上海医学院,1
160,电子科技大学格拉斯哥学院,1
161,浙江大学医学院,1
162,西南大学西塔学院,1
163,贵州大学北阿拉巴马国际工程技术学院,1


In [16]:
# 将“双一流”字段加入学校名单
college_list = college_list.merge(double_one, on='学校名称', how='left')
college_list['双一流建设'].fillna(0, inplace=True)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,985工程_期数,985工程_协议签署时间,985工程_实力梯队,双一流建设
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,,,,1.0
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,,,,1.0
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,,,,0.0
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,,,,0.0
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,,,,0.0


#### 2.2.2 第一轮双一流大学

In [17]:
# 读取第一轮双一流大学名单
double_first_round = pd.read_csv('01-数据源/02-分类名单/中国教育在线-第一轮双一流大学名单.csv')

# 删除“序号”列
double_first_round.drop('序号', axis=1, inplace=True)

# 增加“第一轮双一流”字段
double_first_round['双一流建设_第一轮'] = 1
double_first_round['双一流建设_第一轮_类别'] = double_first_round['类别']
double_first_round.tail()

Unnamed: 0,学校名称,轮次,类别,双一流建设_第一轮,双一流建设_第一轮_类别
37,郑州大学,第一轮,B类,1,B类
38,湖南大学,第一轮,B类,1,B类
39,云南大学,第一轮,B类,1,B类
40,西北农林科技大学,第一轮,B类,1,B类
41,新疆大学,第一轮,B类,1,B类


In [18]:
# 将“第一轮双一流”字段加入学校名单
first_info = double_first_round[['学校名称', '双一流建设_第一轮', '双一流建设_第一轮_类别']].copy()
college_list = college_list.merge(first_info, on='学校名称', how='left')
college_list['双一流建设_第一轮'].fillna(0, inplace=True)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,985工程_期数,985工程_协议签署时间,985工程_实力梯队,双一流建设,双一流建设_第一轮,双一流建设_第一轮_类别
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,,,,1.0,0.0,
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,,,,1.0,0.0,
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,,,,0.0,0.0,
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,,,,0.0,0.0,
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,,,,0.0,0.0,


#### 2.2.3 第二轮双一流大学

In [19]:
# 读取第二轮双一流大学名单
double_second_round = pd.read_csv('01-数据源/02-分类名单/中国教育在线-第二轮双一流大学名单.csv')

# 删除“序号”列
double_second_round.drop('序号', axis=1, inplace=True)

# 调整列名
double_second_round.rename(columns={'学科名单': '双一流建设_第二轮_学科名单'}, inplace=True)

# 增加“第二轮双一流”字段
double_second_round['双一流建设_第二轮'] = 1
double_second_round.tail()

Unnamed: 0,学校名称,双一流建设_第二轮_学科名单,双一流建设_第二轮
142,上海科技大学,材料科学与工程,1
143,中国科学院大学,化学、材料科学与工程,1
144,国防科技大学,信息与通信工程、计算机科学与技术、航空宇航科学与技术、软件工程、管理科学与工程,1
145,海军军医大学,基础医学,1
146,空军军医大学,临床医学,1


In [20]:
# 将“第二轮双一流”字段加入学校名单
second_info = double_second_round[['学校名称', '双一流建设_第二轮', '双一流建设_第二轮_学科名单']].copy()
college_list = college_list.merge(second_info, on='学校名称', how='left')
college_list['双一流建设_第二轮'].fillna(0, inplace=True)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,985工程_期数,985工程_协议签署时间,985工程_实力梯队,双一流建设,双一流建设_第一轮,双一流建设_第一轮_类别,双一流建设_第二轮,双一流建设_第二轮_学科名单
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,,,,1.0,0.0,,1.0,基础医学
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,,,,1.0,0.0,,1.0,临床医学
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,,,,0.0,0.0,,0.0,
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,,,,0.0,0.0,,0.0,
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,,,,0.0,0.0,,0.0,


#### 2.2.4 新一轮双一流学科分类

In [21]:
# 读取双一流学科分类名单
syl_subject = pd.read_csv('01-数据源/02-分类名单/腾讯新闻-新一轮双一流计划名单.csv')

# 补充“普通类别”和“特殊类别”两大类
syl_subject['普通类别'] = syl_subject.iloc[:, 1:11].sum(axis=1) >= 1
syl_subject['特殊类别'] = syl_subject.iloc[:, 11:-1].sum(axis=1) >= 1

# 调整字段名
syl_subject.columns = ['学校名称'] + ['双一流建设_' + c for c in syl_subject.columns[1:]]

# 调整部分学校名以便匹配名单
name_adjust = {
    '中国人民解放军国防科技大学': '国防科技大学', 
    '中国人民解放军陆军工程大学': '陆军工程大学', 
    '中国人民解放军海军军医大学': '海军军医大学', 
    '中国人民解放军空军军医大学': '空军军医大学',
    '中国科学院大学\n（融合科研机构：中国科学院半导体研究所、中国科学院化学研究所）': '中国科学院大学',
}
syl_subject['学校名称'].replace(name_adjust, inplace=True)
syl_subject.head()

Unnamed: 0,学校名称,双一流建设_工程科学类_带星号,双一流建设_工程科学类,双一流建设_社会科学类_带星号,双一流建设_社会科学类,双一流建设_生命科学类_带星号,双一流建设_生命科学类,双一流建设_人文科学类_带星号,双一流建设_人文科学类,双一流建设_自然科学类_带星号,...,双一流建设_科教融合类_带星号,双一流建设_科教融合类,双一流建设_区域振兴类_带星号,双一流建设_区域振兴类,双一流建设_师范类_带星号,双一流建设_师范类,双一流建设_统一战线工作、对外联络和政法类_带星号,双一流建设_统一战线工作、对外联络和政法类,双一流建设_普通类别,双一流建设_特殊类别
0,北京大学,1,1,1,1,1,1,1,1,1,...,0,0,0,0,0,0,0,0,True,False
1,清华大学,1,1,1,1,1,1,1,1,1,...,0,0,0,0,0,0,0,0,True,False
2,复旦大学,1,1,0,1,1,1,1,1,1,...,0,0,0,0,0,0,0,0,True,False
3,上海交通大学,1,1,1,1,1,1,0,1,1,...,0,0,0,0,0,0,0,0,True,False
4,中南大学,1,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,True,False


In [22]:
# 将双一流学科分类信息加入学校名单
college_list = college_list.merge(syl_subject, on='学校名称', how='left')
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,双一流建设_科教融合类_带星号,双一流建设_科教融合类,双一流建设_区域振兴类_带星号,双一流建设_区域振兴类,双一流建设_师范类_带星号,双一流建设_师范类,双一流建设_统一战线工作、对外联络和政法类_带星号,双一流建设_统一战线工作、对外联络和政法类,双一流建设_普通类别,双一流建设_特殊类别
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,False,True
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,False,True
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,,,,,,,,,,
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,False,True
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,False,True


### 2.3 骨干高职

In [23]:
# 读取骨干高职院校名单
gggz_list = pd.read_csv('01-数据源/02-分类名单/中国教育在线-国家骨干高职院校名单.csv')

# 删除“序号”列
gggz_list.drop('序号', axis=1, inplace=True)

# 调整列名
gggz_list.rename(columns={'重点建设专业表': '骨干高职_重点建设专业'}, inplace=True)

# 添加“骨干高职”字段
gggz_list['骨干高职'] = 1
gggz_list.tail()

Unnamed: 0,地区,学校名称,招生专业,骨干高职_重点建设专业,备注,骨干高职
95,海南,海南经贸职业技术学院,招生专业,旅游管理、物流管理,,1
96,宁夏,宁夏工商职业技术学院,招生专业,清真烹饪工艺与营养、物流管理、应用化工技术,,1
97,青海,青海交通职业技术学院,招生专业,道路桥梁工程技术、汽车运用技术、工程造价,,1
98,新疆,新疆轻工职业技术学院,招生专业,食品加工技术、应用化工技术、生产过程自动化技术,,1
99,新疆,乌鲁木齐职业大学,招生专业,工艺品设计与制作、印刷技术、会展策划与管理、物流管理,,1


In [24]:
# 将骨干高职相关信息加入学校名单
gggz_info = gggz_list[['学校名称', '骨干高职', '骨干高职_重点建设专业']].copy()
college_list = college_list.merge(gggz_info, on='学校名称', how='left')
college_list['骨干高职'].fillna(0, inplace=True)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,双一流建设_区域振兴类_带星号,双一流建设_区域振兴类,双一流建设_师范类_带星号,双一流建设_师范类,双一流建设_统一战线工作、对外联络和政法类_带星号,双一流建设_统一战线工作、对外联络和政法类,双一流建设_普通类别,双一流建设_特殊类别,骨干高职,骨干高职_重点建设专业
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,0.0,0.0,0.0,0.0,0.0,0.0,False,True,0.0,
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,0.0,0.0,0.0,0.0,0.0,0.0,False,True,0.0,
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,,,,,,,,,0.0,
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,0.0,0.0,0.0,0.0,0.0,0.0,False,True,0.0,
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,0.0,0.0,0.0,0.0,0.0,0.0,False,True,0.0,


### 2.4 示范性高职

In [25]:
# 读取示范性高职院校名单
sfxgz_list = pd.read_csv('01-数据源/02-分类名单/中国教育在线-国家示范性高职院校名单.csv')

# 删除“序号”列
sfxgz_list.drop('序号', axis=1, inplace=True)

# 调整列名
sfxgz_list.rename(columns={'国家示范院校重点建设专业': '示范性高职_重点建设专业'}, inplace=True)

# 添加“示范性高职”字段
sfxgz_list['示范性高职'] = 1
sfxgz_list.tail()

Unnamed: 0,地区,学校名称,招生专业,示范性高职_重点建设专业,原名称,示范性高职
95,青海,青海农牧科技职业学院,招生专业,畜牧兽医、动物防疫与检疫、植物保护（草原与饲料）、农业经济管理,青海畜牧兽医职业技术学院,1
96,西藏,西藏职业技术学院,招生专业,作物生产技术，畜牧兽医，旅游管理，发电厂及电力系统,,1
97,新疆,新疆农业职业技术学院,招生专业,园艺技术、食品加工技术 、种子生产与经营 、畜牧兽医,,1
98,新疆,克拉玛依职业技术学院,招生专业,石油化工生产技术、钻井技术、油气开采技术、油气储运技术、化工设备维修技术,,1
99,新疆,新疆石河子职业技术学院,招生专业,—,,1


In [26]:
# 将示范性高职相关信息加入学校名单
sfxgz_info = sfxgz_list[['学校名称', '示范性高职', '示范性高职_重点建设专业']].copy()
college_list = college_list.merge(sfxgz_info, on='学校名称', how='left')
college_list['示范性高职'] = college_list['示范性高职'].fillna(0)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,双一流建设_师范类_带星号,双一流建设_师范类,双一流建设_统一战线工作、对外联络和政法类_带星号,双一流建设_统一战线工作、对外联络和政法类,双一流建设_普通类别,双一流建设_特殊类别,骨干高职,骨干高职_重点建设专业,示范性高职,示范性高职_重点建设专业
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,0.0,0.0,0.0,0.0,False,True,0.0,,0.0,
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,0.0,0.0,0.0,0.0,False,True,0.0,,0.0,
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,,,,,,,0.0,,0.0,
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,0.0,0.0,0.0,0.0,False,True,0.0,,0.0,
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,0.0,0.0,0.0,0.0,False,True,0.0,,0.0,


### 2.5 教育部直属

In [27]:
# 读取教育部直属学校名单
edu_control = pd.read_csv('01-数据源/02-分类名单/掌上高考-教育部直属学校名单.csv')

# 删除“序号”和“备注”列
edu_control.drop(['序号', '备注'], axis=1, inplace=True)

# 增加“教育部直属”字段
edu_control['教育部直属'] = 1
edu_control.tail()

Unnamed: 0,学校名称,教育部直属
78,中国石油大学（北京）克拉玛依校区,1
79,中国人民大学（苏州校区）,1
80,电子科技大学格拉斯哥学院,1
81,国际关系学院,1
82,国家开放大学,1


In [28]:
# 将“教育部直属”字段加入学校名单
college_list = college_list.merge(edu_control, on='学校名称', how='left')
college_list['教育部直属'].fillna(0, inplace=True)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,双一流建设_师范类,双一流建设_统一战线工作、对外联络和政法类_带星号,双一流建设_统一战线工作、对外联络和政法类,双一流建设_普通类别,双一流建设_特殊类别,骨干高职,骨干高职_重点建设专业,示范性高职,示范性高职_重点建设专业,教育部直属
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,0.0,0.0,0.0,False,True,0.0,,0.0,,0.0
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,0.0,0.0,0.0,False,True,0.0,,0.0,,0.0
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,,,,,,0.0,,0.0,,0.0
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,0.0,0.0,0.0,False,True,0.0,,0.0,,0.0
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,0.0,0.0,0.0,False,True,0.0,,0.0,,0.0


### 2.6 中央部委直属

In [29]:
# 读取中央部委直属学校名单
center_control = pd.read_csv('01-数据源/02-分类名单/掌上高考-中央部委直属学校名单.csv')

# 删除“序号”列
center_control.drop('序号', axis=1, inplace=True)

# 增加“中央部委直属”字段
center_control['中央部委直属'] = 1
center_control.tail()

Unnamed: 0,学校名称,中央部委直属
31,中央司法警官学院,1
32,铁道警察学院,1
33,哈尔滨工业大学（威海）,1
34,广州民航职业技术学院,1
35,武警海警学院,1


In [30]:
# 将“中央部委直属”字段加入学校名单
college_list = college_list.merge(center_control, on='学校名称', how='left')
college_list['中央部委直属'].fillna(0, inplace=True)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,双一流建设_统一战线工作、对外联络和政法类_带星号,双一流建设_统一战线工作、对外联络和政法类,双一流建设_普通类别,双一流建设_特殊类别,骨干高职,骨干高职_重点建设专业,示范性高职,示范性高职_重点建设专业,教育部直属,中央部委直属
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,0.0,0.0,False,True,0.0,,0.0,,0.0,0.0
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,0.0,0.0,False,True,0.0,,0.0,,0.0,0.0
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,,,,,0.0,,0.0,,0.0,1.0
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,0.0,0.0,False,True,0.0,,0.0,,0.0,0.0
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,0.0,0.0,False,True,0.0,,0.0,,0.0,0.0


### 2.7 强基计划

In [31]:
# 读取强基计划学校名单
strong_base = pd.read_csv('01-数据源/02-分类名单/掌上高考-强基计划学校名单.csv')

# 删除“序号”列
strong_base.drop('序号', axis=1, inplace=True)

# 增加“强基计划”字段
strong_base['强基计划'] = 1
strong_base.tail()

Unnamed: 0,学校名称,强基计划
34,东北大学,1
35,中国海洋大学,1
36,西北农林科技大学,1
37,中央民族大学,1
38,国防科技大学,1


In [32]:
# 将“强基计划”字段加入学校名单
college_list = college_list.merge(strong_base, on='学校名称', how='left')
college_list['强基计划'].fillna(0, inplace=True)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,双一流建设_统一战线工作、对外联络和政法类,双一流建设_普通类别,双一流建设_特殊类别,骨干高职,骨干高职_重点建设专业,示范性高职,示范性高职_重点建设专业,教育部直属,中央部委直属,强基计划
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,0.0,False,True,0.0,,0.0,,0.0,0.0,0.0
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,0.0,False,True,0.0,,0.0,,0.0,0.0,0.0
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,,,,0.0,,0.0,,0.0,1.0,0.0
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,0.0,False,True,0.0,,0.0,,0.0,0.0,0.0
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,0.0,False,True,0.0,,0.0,,0.0,0.0,0.0


### 2.8 双高计划

In [33]:
# 读取双高计划学校名单
double_high = pd.read_csv('01-数据源/02-分类名单/掌上高考-双高计划学校名单.csv')

# 删除“序号”列
double_high.drop('序号', axis=1, inplace=True)

# 增加“双高计划”字段
double_high['双高计划'] = 1
double_high.tail()

Unnamed: 0,学校名称,双高计划
192,常州机电职业技术学院,1
193,辽宁机电职业技术学院,1
194,云南机电职业技术学院,1
195,宁夏工商职业技术学院,1
196,宁夏职业技术学院,1


In [34]:
# 将“双高计划”字段加入学校名单
college_list = college_list.merge(double_high, on='学校名称', how='left')
college_list['双高计划'].fillna(0, inplace=True)
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,双一流建设_普通类别,双一流建设_特殊类别,骨干高职,骨干高职_重点建设专业,示范性高职,示范性高职_重点建设专业,教育部直属,中央部委直属,强基计划,双高计划
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,False,True,0.0,,0.0,,0.0,0.0,0.0,0.0
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,False,True,0.0,,0.0,,0.0,0.0,0.0,0.0
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,,,0.0,,0.0,,0.0,1.0,0.0,0.0
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,False,True,0.0,,0.0,,0.0,0.0,0.0,0.0
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,False,True,0.0,,0.0,,0.0,0.0,0.0,0.0


## 3 - 综合信息

### 3.1 掌上高考

In [35]:
# 读取学校综合信息表
df_info = pd.read_csv('01-数据源/03-综合信息/掌上高考-学校综合信息表.csv')
df_info.tail()

Unnamed: 0,学校名称,办学层次,学校性质,学校类别,主管部门,所在省份,所在城市,创建时间,学校地址,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程
2816,重庆五一职业技术学院,专科（高职）,公办,综合类,重庆市人力资源和社会保障局,重庆,重庆市,1951,重庆市巴南区渝南大道1001号,http://www.cq51.cn,,,600.0,2,2
2817,益阳师范高等专科学校,专科（高职）,公办,师范类,湖南省教育厅,湖南,益阳市,0,湖南省益阳市赫山区益阳大道（西）238号,https://www.newyishi.com/,,,550.0,2,2
2818,贵州大学北阿拉巴马国际工程技术学院,普通本科,中外合作办学,理工类,,贵州,贵阳市,0,贵州省贵阳市花溪区,,,,0.0,2,1
2819,常州幼儿师范高等专科学校,专科（高职）,公办,师范类,江苏省,江苏,常州市,1956,江苏省武进区常武中路28号,http://www.wjtts.net,,,0.0,2,2
2820,娄底幼儿师范高等专科学校,专科（高职）,公办,师范类,湖南省,湖南,娄底市,0,湖南省冷水江市荷叶路1号,http://www.ldyesz.edu.cn/,,娄底幼儿师范学校,330.0,2,2


In [36]:
# 删除重复信息字段
df_info.drop(['办学层次', '学校性质', '主管部门', '所在省份', '所在城市'], axis=1, inplace=True)
df_info.head()

Unnamed: 0,学校名称,学校类别,创建时间,学校地址,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程
0,北京工业大学,理工类,1960,"平乐园校区：北京市朝阳区平乐园100号,通州校区：北京市通州区潞苑南大街89号",http://www.bjut.edu.cn/,"bjut,北工大,北京工业",,1440.0,2,1
1,北京大学,综合类,1898,北京市海淀区颐和园路5号,https://www.pku.edu.cn//,"pku,北大",,7000.0,1,1
2,内蒙古大学,综合类,1957,"北校区：内蒙古自治区呼和浩特市赛罕区大学西街235号,南校区：内蒙古自治区呼和浩特市玉泉区昭...",http://www.imu.edu.cn/,内大,,4101.0,2,1
3,大连海事大学,理工类,1909,辽宁省大连市凌海路1号,https://www.dlmu.edu.cn/,"大连海事,DMU,大连海大",大连海运学院,2040.0,2,1
4,哈尔滨工业大学,理工类,1920,黑龙江省哈尔滨市南岗区西大直街92号,http://www.hit.edu.cn,"哈尔滨工大,hit,哈工大",,5212.0,1,1


In [37]:
# 调整“985工程”和“211工程”字段编码
df_info['985工程'] = df_info['985工程'].replace(2, 0)
df_info['211工程'] = df_info['211工程'].replace(2, 0)
df_info.head()

Unnamed: 0,学校名称,学校类别,创建时间,学校地址,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程
0,北京工业大学,理工类,1960,"平乐园校区：北京市朝阳区平乐园100号,通州校区：北京市通州区潞苑南大街89号",http://www.bjut.edu.cn/,"bjut,北工大,北京工业",,1440.0,0,1
1,北京大学,综合类,1898,北京市海淀区颐和园路5号,https://www.pku.edu.cn//,"pku,北大",,7000.0,1,1
2,内蒙古大学,综合类,1957,"北校区：内蒙古自治区呼和浩特市赛罕区大学西街235号,南校区：内蒙古自治区呼和浩特市玉泉区昭...",http://www.imu.edu.cn/,内大,,4101.0,0,1
3,大连海事大学,理工类,1909,辽宁省大连市凌海路1号,https://www.dlmu.edu.cn/,"大连海事,DMU,大连海大",大连海运学院,2040.0,0,1
4,哈尔滨工业大学,理工类,1920,黑龙江省哈尔滨市南岗区西大直街92号,http://www.hit.edu.cn,"哈尔滨工大,hit,哈工大",,5212.0,1,1


In [38]:
# 将剩余字段加入学校名单
college_list = college_list.merge(df_info, on='学校名称', how='left')
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,双高计划,学校类别,创建时间,学校地址,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,0.0,军事类,1949.0,上海市杨浦区翔殷路800号,http://www.smmu.edu.cn/,第二军医大学,"第二军医大学,中国人民解放军海军军医大学",0.0,0.0,1.0
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,0.0,军事类,1941.0,陕西省西安市长乐西路169号,http://www.fmmu.edu.cn/,"第四军医大学,四医大,空军军医大学","解放军第四军医大学,解放军空军军医大学",0.0,0.0,1.0
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,0.0,政法类,1983.0,浙江省宁波市北仑区小港红联振兴西路205号,,公安海警高等专科学校,公安海警学院,500.0,0.0,0.0
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,0.0,军事类,2017.0,"海福巷校区：江苏省南京市秦淮区后标营路8号,双龙街校区：江苏省南京市江宁区双龙大道60号",http://www.aeu.edu.cn/,陆军工程大学,"解放军理工大学,中国人民解放军陆军工程大学,解放军陆军工程大学,中国人民解放军陆军工程大学",11040.0,0.0,0.0
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,0.0,军事类,1949.0,河南省郑州市中原区科学大道62号,,解放军工程大学,"中国人民解放军信息工程大学,中国人民解放军战略支援部队信息工程大学",8000.0,0.0,0.0


## 4 - 经费预算

### 4.1 预算经费（2022）

In [39]:
# 读取2022全国高校预算经费数据
df_budget = pd.read_excel('01-数据源/04-经费预算/青塔-2022年全国高校预算经费汇总.xlsx', skiprows=1)
df_budget.head()

Unnamed: 0,序号,学校名称,预算总收入（亿元）,本年度收入（亿元）,主管部门,所在省市
0,1,清华大学,362.11,255.75,教育部,北京市
1,2,浙江大学,261.03,160.13,教育部,浙江省
2,3,北京大学,219.29,160.1,教育部,北京市
3,4,上海交通大学,204.2,153.11,教育部,上海市
4,5,中山大学,193.05,129.66,教育部,广东省


In [40]:
# 调整列名
df_budget.rename(columns={'预算总收入（亿元）': '预算总收入（亿元，2022年）', 
                          '本年度收入（亿元）': '本年度收入（亿元，2022年）'}, inplace=True)

# 提取有效信息
df_budget = df_budget.iloc[:, [1,2,3]].copy()
df_budget.head()

Unnamed: 0,学校名称,预算总收入（亿元，2022年）,本年度收入（亿元，2022年）
0,清华大学,362.11,255.75
1,浙江大学,261.03,160.13
2,北京大学,219.29,160.1
3,上海交通大学,204.2,153.11
4,中山大学,193.05,129.66


In [41]:
# 处理学校名称中可能的不一致案例
df_budget['学校名称'] = df_budget['学校名称'].apply(lambda x: x.split('（') [0] if '本部' in x else x)
df_budget['学校名称'] = df_budget['学校名称'].apply(lambda x: x.split('（') [0] if '本级' in x else x)

In [42]:
# 将预算信息加入学校名单
college_list = college_list.merge(df_budget, on='学校名称', how='left')
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,创建时间,学校地址,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程,预算总收入（亿元，2022年）,本年度收入（亿元，2022年）
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,1949.0,上海市杨浦区翔殷路800号,http://www.smmu.edu.cn/,第二军医大学,"第二军医大学,中国人民解放军海军军医大学",0.0,0.0,1.0,,
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,1941.0,陕西省西安市长乐西路169号,http://www.fmmu.edu.cn/,"第四军医大学,四医大,空军军医大学","解放军第四军医大学,解放军空军军医大学",0.0,0.0,1.0,,
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,1983.0,浙江省宁波市北仑区小港红联振兴西路205号,,公安海警高等专科学校,公安海警学院,500.0,0.0,0.0,,
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,2017.0,"海福巷校区：江苏省南京市秦淮区后标营路8号,双龙街校区：江苏省南京市江宁区双龙大道60号",http://www.aeu.edu.cn/,陆军工程大学,"解放军理工大学,中国人民解放军陆军工程大学,解放军陆军工程大学,中国人民解放军陆军工程大学",11040.0,0.0,0.0,,
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,1949.0,河南省郑州市中原区科学大道62号,,解放军工程大学,"中国人民解放军信息工程大学,中国人民解放军战略支援部队信息工程大学",8000.0,0.0,0.0,,


### 4.2 中央部署高校财政拨款（2022）

In [43]:
# 读取2022中央部署高校财政拨排名表
df_fund = pd.read_excel('01-数据源/04-经费预算/聚汇数据-2022年中央部署高校财政拨款统计.xlsx', skiprows=1)
df_fund.head()

Unnamed: 0,序号,学校名称,预算总收入(亿元),财政拨款数(亿元),财政拨款占比
0,1,清华大学,362.11,57.96,0.1601
1,2,北京大学,219.29,51.72,0.2359
2,3,浙江大学,261.03,41.59,0.1593
3,4,吉林大学,103.93,34.2,0.3291
4,5,华中科技大学,129.84,33.01,0.2542


In [44]:
# 调整列名
df_fund.rename(columns={'财政拨款数(亿元)': '财政拨款数（亿元，2022年）', 
                        '财政拨款占比': '财政拨款占比（2022年）'}, inplace=True)

# 提取有效信息
df_fund = df_fund.iloc[:, [1,3,4]].copy()
df_fund.head()

Unnamed: 0,学校名称,财政拨款数（亿元，2022年）,财政拨款占比（2022年）
0,清华大学,57.96,0.1601
1,北京大学,51.72,0.2359
2,浙江大学,41.59,0.1593
3,吉林大学,34.2,0.3291
4,华中科技大学,33.01,0.2542


In [45]:
# 处理学校名称中可能的不一致案例
df_fund['学校名称'] = df_fund['学校名称'].str.replace('(', '（', regex=False)
df_fund['学校名称'] = df_fund['学校名称'].str.replace(')', '）', regex=False)
df_fund.tail()

Unnamed: 0,学校名称,财政拨款数（亿元，2022年）,财政拨款占比（2022年）
76,北京外国语大学,5.56,0.395
77,中央美术学院,4.34,0.3798
78,北京语言大学,4.27,0.3594
79,中央音乐学院,3.54,0.4439
80,中央戏剧学院,3.09,0.7684


In [46]:
# 将财政拨款信息加入学校名单
college_list = college_list.merge(df_fund, on='学校名称', how='left')
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程,预算总收入（亿元，2022年）,本年度收入（亿元，2022年）,财政拨款数（亿元，2022年）,财政拨款占比（2022年）
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,http://www.smmu.edu.cn/,第二军医大学,"第二军医大学,中国人民解放军海军军医大学",0.0,0.0,1.0,,,,
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,http://www.fmmu.edu.cn/,"第四军医大学,四医大,空军军医大学","解放军第四军医大学,解放军空军军医大学",0.0,0.0,1.0,,,,
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,,公安海警高等专科学校,公安海警学院,500.0,0.0,0.0,,,,
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,http://www.aeu.edu.cn/,陆军工程大学,"解放军理工大学,中国人民解放军陆军工程大学,解放军陆军工程大学,中国人民解放军陆军工程大学",11040.0,0.0,0.0,,,,
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,,解放军工程大学,"中国人民解放军信息工程大学,中国人民解放军战略支援部队信息工程大学",8000.0,0.0,0.0,,,,


## 5 - 人工补全

### 5.1 学校综合信息补全（2022-12-13）

In [47]:
# 读取 2022-12-13 补充数据
df_fill_20221213 = pd.read_excel('05-补全计划/学校综合信息补全v20221209_LJJ_20221213.xlsx', dtype={'创建时间': str})
df_fill_20221213.head()

Unnamed: 0,省份,学校名称,学校层次,学校类别,创建时间,学校地址,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程,数据来源,现名称,备注
0,,中国青年政治学院,,政法,1985年9月,北京市海淀区西三环北路25号,https://www.cyu.edu.cn/,中青院,,140亩,0,0,官网，百度百科,,
1,,天津工程职业技术学院,,,2001年,天津市滨海新区大港幸福路51号,http://tjeti.bysjy.com.cn/index,,,799亩,0,0,官网,,
2,,天津开发区职业技术学院,,综合,2002年4月,,,,,,0,0,百度百科,,2013年将并入天津科技大学
3,,河北大学工商学院,,综合,2000年5月,中国河北省保定市七一东路2666号,http://www.hicc.cn/,,,,0,0,官网,,
4,,河北石油职业技术学院,,,1978年,河北省廊坊市爱民西道90号,,,,,0,0,百度百科,,


In [48]:
# 提取有效字段
df_fill_20221213 = df_fill_20221213[['学校名称', '学校类别', '创建时间', '学校地址', '学校官网', 
                                     '学校简称', '曾用名', '占地面积（亩）', '985工程', '211工程']].copy()
df_fill_20221213.head()

Unnamed: 0,学校名称,学校类别,创建时间,学校地址,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程
0,中国青年政治学院,政法,1985年9月,北京市海淀区西三环北路25号,https://www.cyu.edu.cn/,中青院,,140亩,0,0
1,天津工程职业技术学院,,2001年,天津市滨海新区大港幸福路51号,http://tjeti.bysjy.com.cn/index,,,799亩,0,0
2,天津开发区职业技术学院,综合,2002年4月,,,,,,0,0
3,河北大学工商学院,综合,2000年5月,中国河北省保定市七一东路2666号,http://www.hicc.cn/,,,,0,0
4,河北石油职业技术学院,,1978年,河北省廊坊市爱民西道90号,,,,,0,0


In [49]:
# 去除占地面积中的“亩”字
df_fill_20221213['占地面积（亩）'] = df_fill_20221213['占地面积（亩）'].str.replace('亩', '').astype(float)
df_fill_20221213.head()

Unnamed: 0,学校名称,学校类别,创建时间,学校地址,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程
0,中国青年政治学院,政法,1985年9月,北京市海淀区西三环北路25号,https://www.cyu.edu.cn/,中青院,,140.0,0,0
1,天津工程职业技术学院,,2001年,天津市滨海新区大港幸福路51号,http://tjeti.bysjy.com.cn/index,,,799.0,0,0
2,天津开发区职业技术学院,综合,2002年4月,,,,,,0,0
3,河北大学工商学院,综合,2000年5月,中国河北省保定市七一东路2666号,http://www.hicc.cn/,,,,0,0
4,河北石油职业技术学院,,1978年,河北省廊坊市爱民西道90号,,,,,0,0


In [50]:
# 学校类别加上“类”字
df_fill_20221213['学校类别'] = df_fill_20221213['学校类别'].apply(lambda x: x + '类' if type(x)==str else x)
df_fill_20221213.head()

Unnamed: 0,学校名称,学校类别,创建时间,学校地址,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程
0,中国青年政治学院,政法类,1985年9月,北京市海淀区西三环北路25号,https://www.cyu.edu.cn/,中青院,,140.0,0,0
1,天津工程职业技术学院,,2001年,天津市滨海新区大港幸福路51号,http://tjeti.bysjy.com.cn/index,,,799.0,0,0
2,天津开发区职业技术学院,综合类,2002年4月,,,,,,0,0
3,河北大学工商学院,综合类,2000年5月,中国河北省保定市七一东路2666号,http://www.hicc.cn/,,,,0,0
4,河北石油职业技术学院,,1978年,河北省廊坊市爱民西道90号,,,,,0,0


In [51]:
# 将创建时间统一为年份
df_fill_20221213['创建时间'] = df_fill_20221213['创建时间'].apply(lambda x: int(x.split('年')[0]) if type(x)==str else x)
df_fill_20221213.head()

Unnamed: 0,学校名称,学校类别,创建时间,学校地址,学校官网,学校简称,曾用名,占地面积（亩）,985工程,211工程
0,中国青年政治学院,政法类,1985.0,北京市海淀区西三环北路25号,https://www.cyu.edu.cn/,中青院,,140.0,0,0
1,天津工程职业技术学院,,2001.0,天津市滨海新区大港幸福路51号,http://tjeti.bysjy.com.cn/index,,,799.0,0,0
2,天津开发区职业技术学院,综合类,2002.0,,,,,,0,0
3,河北大学工商学院,综合类,2000.0,中国河北省保定市七一东路2666号,http://www.hicc.cn/,,,,0,0
4,河北石油职业技术学院,,1978.0,河北省廊坊市爱民西道90号,,,,,0,0


In [52]:
# 将补全信息加入学校名单
fill_cols = ['学校类别', '创建时间', '学校地址', '学校官网', '学校简称', '曾用名', '占地面积（亩）', '985工程', '211工程']
for college in df_fill_20221213['学校名称']:
    college_list.loc[
        college_list['学校名称']==college, fill_cols] = df_fill_20221213.loc[df_fill_20221213['学校名称']==college][fill_cols].values

In [53]:
# 标注此次人工查过的数据
college_checked = df_fill_20221213['学校名称'].values
college_list.loc[college_list['学校名称'].isin(college_checked), '人工补全记录'] = 'LJJ_20221213'
college_list.tail()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,学校简称,曾用名,占地面积（亩）,985工程,211工程,预算总收入（亿元，2022年）,本年度收入（亿元，2022年）,财政拨款数（亿元，2022年）,财政拨款占比（2022年）,人工补全记录
3014,海军军医大学,,中国人民解放军海军,上海市,上海市,本科,公办,,,,...,第二军医大学,"第二军医大学,中国人民解放军海军军医大学",0.0,0.0,1.0,,,,,
3015,空军军医大学,,中国人民解放军空军,陕西省,西安市,本科,公办,,,,...,"第四军医大学,四医大,空军军医大学","解放军第四军医大学,解放军空军军医大学",0.0,0.0,1.0,,,,,
3016,武警海警学院,,中国人民武装警察部队,浙江省,宁波市,本科,公办,,,,...,公安海警高等专科学校,公安海警学院,500.0,0.0,0.0,,,,,
3017,陆军工程大学,,中国人民解放军陆军,江苏省,南京市,本科,公办,,,,...,陆军工程大学,"解放军理工大学,中国人民解放军陆军工程大学,解放军陆军工程大学,中国人民解放军陆军工程大学",11040.0,0.0,0.0,,,,,
3018,中国人民解放军战略支援部队信息工程大学,,中国人民解放军战略支援部队,河南省,郑州市,本科,公办,,,,...,解放军工程大学,"中国人民解放军信息工程大学,中国人民解放军战略支援部队信息工程大学",8000.0,0.0,0.0,,,,,


### 5.2 学校创建时间补全（2023-01-05）

In [54]:
# 读取补全数据
df_fill = pd.read_excel('05-补全计划/创建时间补全v20221227_WH_20230105.xlsx')

# 剔除缺失数据
df_fill.dropna(subset=['创建时间'], axis=0, inplace=True)
df_fill = df_fill.reset_index(drop=True)
df_fill.tail()

Unnamed: 0,学校名称,创建时间,人工补全记录,数据源,备注
34,宝鸡市职工大学,1980年,LJJ_20221213,https://www.ceezz.cn/school_news.php?act=intro...,宝鸡市职工大学创建于1980年，1983年10月经陕西省人民政府批准设立为宝鸡市职工业余大学...
35,甘肃核工业职工大学,1996年,LJJ_20221213,https://www.maigoo.com/citiao/2909.html,前身为五0四厂职工大学和四0四厂职工大学。五0四厂职工大学于1976年建校，四0四厂职工大学...
36,青海省联合职工大学,1990年,LJJ_20221213,https://m.maigoo.com/citiao/2912.html,
37,喀什教育学院,1978年,LJJ_20221213,https://dx.chazidian.com/daxue-jianjie-2870/,喀什教育学院于1978年建立，1997年6月经自治区人民政府批准喀什教育学院、喀什电大、喀什...
38,新疆生产建设兵团教育学院,1983年1月1日,LJJ_20221213,http://www.11467.com/shihezi/co/2049.htm,


In [55]:
# 将创建时间统一为年份
df_fill['创建时间'].replace({'上世纪七十年代': np.nan}, inplace=True)
df_fill['创建时间'] = df_fill['创建时间'].apply(lambda x: int(x.split('年')[0]) if type(x)==str else x)
df_fill.head()

Unnamed: 0,学校名称,创建时间,人工补全记录,数据源,备注
0,沈阳工业大学工程学院,2004.0,LJJ_20221213,https://baike.baidu.com/item/%E6%B2%88%E9%98%B...,
1,沈阳航空航天大学北方科技学院,1999.0,LJJ_20221213,https://baike.baidu.com/item/%E6%B2%88%E9%98%B...,2013年学校已停止招生
2,北京医药职工大学,1982.0,LJJ_20221213,https://www.gengsan.com/gaokao/1718718.html,前身为北京市医药总公司职工大学；2002年更名为“北京医药集团职工大学”
3,公安部管理干部学院,1978.0,LJJ_20221213,https://m.maigoo.com/citiao/2656.html,前身是1978年6月成立的国际政治学院，1984年1月，改建为全日制普通高等本科院校，更名为...
4,天津市河东区职工大学,1958.0,LJJ_20221213,https://www.maigoo.com/citiao/2663.html,


In [56]:
# 将补全信息加入学校名单
n = 0
fill_cols = ['创建时间']
for college in df_fill['学校名称']:
    if college in college_list['学校名称'].values:
        n += 1
        college_list.loc[college_list['学校名称']==college, fill_cols] = df_fill.loc[df_fill['学校名称']==college][fill_cols].values
        college_list.loc[college_list['学校名称']==college, '人工补全记录'] = 'WH_20230105'
print(n)

38


### 5.3 学校所在城市补全（2023-01-05）

In [57]:
# 读取补全数据
df_fill = pd.read_excel('05-补全计划/所在城市补全v20221227_WH_20230105.xlsx')

# 剔除缺失数据
df_fill.dropna(subset=['所在城市'], axis=0, inplace=True)
df_fill = df_fill.reset_index(drop=True)
df_fill.tail()

Unnamed: 0,学校名称,所在城市,人工补全记录,数据源,备注
197,新疆开放大学,新疆维吾尔自治区乌鲁木齐市,LJJ_20221213,https://baike.baidu.com/item/%E6%96%B0%E7%96%8...,
198,喀什教育学院,新疆维吾尔自治区喀什地区,LJJ_20221213,https://www.youbianku.com/SearchResults?addres...,
199,新疆生产建设兵团教育学院,新疆维吾尔自治区石河子市,LJJ_20221213,https://baike.baidu.com/item/%E5%85%B5%E5%9B%A...,
200,和田地区教育学院,新疆维吾尔自治区和田地区,LJJ_20221213,https://baike.baidu.com/item/%E5%92%8C%E7%94%B...,
201,阿克苏教育学院,新疆维吾尔自治区阿克苏市,LJJ_20221213,https://baike.baidu.com/item/%E9%98%BF%E5%85%8...,


In [58]:
# 单独提取市一级信息
is_prov = df_fill['所在城市'].str.contains('省').fillna(False)
is_dist = df_fill['所在城市'].str.contains('自治区').fillna(False)
df_fill.loc[is_prov, '所在城市'] = df_fill.loc[is_prov, '所在城市'].apply(lambda x: x.split('省')[1])
df_fill.loc[is_dist, '所在城市'] = df_fill.loc[is_dist, '所在城市'].apply(lambda x: x.split('自治区')[1])

In [59]:
# 剔除虚假大学
is_fake = df_fill['所在城市'] == '虚假大学'
fake_names = df_fill[is_fake]['学校名称'].values
college_list = college_list[~college_list['学校名称'].isin(fake_names)].copy()
college_list = college_list.reset_index(drop=True)

In [60]:
# 将补全信息加入学校名单
n = 0
fill_cols = ['所在城市']
for college in df_fill['学校名称']:
    if college in college_list['学校名称'].values:
        n += 1
        college_list.loc[college_list['学校名称']==college, fill_cols] = df_fill.loc[df_fill['学校名称']==college][fill_cols].values
        college_list.loc[college_list['学校名称']==college, '人工补全记录'] = 'WH_20230105'
print(n)

201


### 5.4 学校官网补全（2023-01-06）

In [61]:
# 读取补全数据
df_fill = pd.read_excel('05-补全计划/学校官网补全v20221227_WH_20230106.xlsx')

# 剔除缺失数据
df_fill.dropna(subset=['学校官网'], axis=0, inplace=True)
df_fill = df_fill.reset_index(drop=True)
df_fill.tail()

Unnamed: 0,学校名称,学校官网,人工补全记录,数据源,备注
35,韶关市职工大学,https://pt.sggaoji.com/,LJJ_20221213,,
36,广东省公安司法管理干部学院,https://www.gdppla.edu.cn/default.html,LJJ_20221213,https://baike.baidu.com/item/%E5%B9%BF%E4%B8%9...,同义词“广东警官学院”
37,广西政法管理干部学院,http://www.gxzfxy.cn/,LJJ_20221213,,网页无法打开
38,陕西航天职工大学,http://www.htzd.org/,LJJ_20221213,,
39,陕西省建筑工程总公司职工大学,http://www.sjzdedu.com/list.asp?ChannelID=1,LJJ_20221213,,


In [62]:
# 将补全信息加入学校名单
n = 0
fill_cols = ['学校官网']
for college in df_fill['学校名称']:
    if college in college_list['学校名称'].values:
        college_list.loc[college_list['学校名称']==college, fill_cols] = df_fill.loc[df_fill['学校名称']==college][fill_cols].values
        college_list.loc[college_list['学校名称']==college, '人工补全记录'] = 'WH_20230106'
        n += 1 
print(n)

40


## 6 - 数据修正

In [63]:
# 缺失“所在城市”字段的学校，如果位于直辖市，直接用“所在省份”字段补全
municipality = college_list['所在省份'].str.endswith('市')
miss_city = college_list['所在城市'].isna()
municipality_miss_city = municipality & miss_city
college_list.loc[municipality_miss_city, '所在城市'] = college_list.loc[municipality_miss_city, '所在省份'].values

## 7 - 宽表保存

In [64]:
# 保存最终的宽表结果
college_list.to_csv('04-数据宽表/高等教育数据宽表v20230118.csv', index=False)
college_list.head()

Unnamed: 0,学校名称,学校标识码,主管部门,所在省份,所在城市,办学层次,学校性质,985工程_加入时间,985工程_入选批次,985工程_共建部门,...,学校简称,曾用名,占地面积（亩）,985工程,211工程,预算总收入（亿元，2022年）,本年度收入（亿元，2022年）,财政拨款数（亿元，2022年）,财政拨款占比（2022年）,人工补全记录
0,北京大学,4111010000.0,教育部,北京市,北京市,本科,公办,1998年5月,首批9所（C9联盟）,教育部、北京市,...,"pku,北大",,7000.0,1.0,1.0,219.29,160.1,51.72,0.2359,
1,中国人民大学,4111010000.0,教育部,北京市,北京市,本科,公办,2003年9月,首期第二批共26所,教育部、北京市,...,"人民大学,人大",,7500.0,1.0,1.0,79.99,59.78,23.73,0.2967,
2,清华大学,4111010000.0,教育部,北京市,北京市,本科,公办,1998年5月,首批9所（C9联盟）,教育部、北京市,...,"北京清华,清华",,6632.0,1.0,1.0,362.11,255.75,57.96,0.1601,
3,北京交通大学,4111010000.0,教育部,北京市,北京市,本科,公办,,,,...,"北京交大,BJTU,北交大,北交",,1000.0,0.0,1.0,57.79,34.81,11.95,0.2068,
4,北京工业大学,4111010000.0,北京市,北京市,北京市,本科,公办,,,,...,"bjut,北工大,北京工业",,1440.0,0.0,1.0,31.48,28.65,,,


## 8 - 补全计划

TBD