# python数据分析期末项目
- 项目人：黄南辉
- 时间：2021年7月3日
- 数据源：本项目使用了两个csv数据文件，一个是中国高校（大学）的数据，一个是中国高校专业设置的数据
- 分析目标：分析中国目前高校（大学）办学状况、中国开设数量排名前20的热门专业和国家特色专业学校分布等关于高校办学的信息，为报志愿的高考生和想了解这方面信息的人提供参考

## 导入所用到的模块

In [41]:
import pandas as pd 
from collections import Counter
from pyecharts import options as opts
from pyecharts.charts import Map
from pyecharts.faker import Faker
from pyecharts.globals import ThemeType
from pyecharts.charts import Pie
from pyecharts.charts import Bar, Timeline

## 读取数据

In [42]:
# 读取学校和专业数据
df_学校 = pd.read_csv('data/school.csv',encoding='gbk')
df_专业 = pd.read_csv('data/professional.csv',encoding='gbk')

In [43]:
df_学校

Unnamed: 0,学校,省份,城市,地址,水平层次,办学类别,办学类型,985,211,双一流,归属,开设专业链接
0,河北轨道运输职业技术学院,河北,石家庄市,"河北省石家庄市经济技术开发区赣江路9号,石家庄市宁安路189号",专科（高职）,理工类,公办,否,否,,河北省,https://gkcx.eol.cn/school/2858/professional
1,厦门大学,福建,厦门市,福建省厦门市思明区思明南路422号,普通本科,综合类,公办,是,是,是,教育部,https://gkcx.eol.cn/school/102/professional
2,四川大学,四川,成都市,四川省成都市一环路南一段24号,普通本科,综合类,公办,是,是,是,教育部,https://gkcx.eol.cn/school/99/professional
3,武汉大学,湖北,武汉市,湖北省武汉市武昌区八一路299号,普通本科,综合类,公办,是,是,是,教育部,https://gkcx.eol.cn/school/42/professional
4,北京大学,北京,北京市,北京市海淀区颐和园路5号,普通本科,综合类,公办,是,是,是,教育部,https://gkcx.eol.cn/school/31/professional
...,...,...,...,...,...,...,...,...,...,...,...,...
2851,甘孜职业学院,四川,甘孜藏族自治州,,专科（高职）,,公办,否,否,,,https://gkcx.eol.cn/school/3595/professional
2852,郑州城建职业学院,河南,郑州市,,专科（高职）,,民办,否,否,,,https://gkcx.eol.cn/school/3582/professional
2853,广西农业工程职业技术学院,广西,南宁市,中国-东盟南宁空港扶绥经济区空港大道东25号,专科（高职）,,公办,否,否,,,https://gkcx.eol.cn/school/3592/professional
2854,北海康养职业学院,广西,北海市,北海市银海区金海岸大道666号,专科（高职）,,民办,否,否,,,https://gkcx.eol.cn/school/3593/professional


## 删除无用数据

In [44]:
df_学校.drop(['归属','开设专业链接'],axis=1,inplace=True)

In [45]:
df_学校

Unnamed: 0,学校,省份,城市,地址,水平层次,办学类别,办学类型,985,211,双一流
0,河北轨道运输职业技术学院,河北,石家庄市,"河北省石家庄市经济技术开发区赣江路9号,石家庄市宁安路189号",专科（高职）,理工类,公办,否,否,
1,厦门大学,福建,厦门市,福建省厦门市思明区思明南路422号,普通本科,综合类,公办,是,是,是
2,四川大学,四川,成都市,四川省成都市一环路南一段24号,普通本科,综合类,公办,是,是,是
3,武汉大学,湖北,武汉市,湖北省武汉市武昌区八一路299号,普通本科,综合类,公办,是,是,是
4,北京大学,北京,北京市,北京市海淀区颐和园路5号,普通本科,综合类,公办,是,是,是
...,...,...,...,...,...,...,...,...,...,...
2851,甘孜职业学院,四川,甘孜藏族自治州,,专科（高职）,,公办,否,否,
2852,郑州城建职业学院,河南,郑州市,,专科（高职）,,民办,否,否,
2853,广西农业工程职业技术学院,广西,南宁市,中国-东盟南宁空港扶绥经济区空港大道东25号,专科（高职）,,公办,否,否,
2854,北海康养职业学院,广西,北海市,北海市银海区金海岸大道666号,专科（高职）,,民办,否,否,


## 分析各省大学数量分布情况

In [46]:
print(df_学校[['省份','学校']])

      省份            学校
0     河北  河北轨道运输职业技术学院
1     福建          厦门大学
2     四川          四川大学
3     湖北          武汉大学
4     北京          北京大学
...   ..           ...
2851  四川        甘孜职业学院
2852  河南      郑州城建职业学院
2853  广西  广西农业工程职业技术学院
2854  广西      北海康养职业学院
2855  甘肃    白银希望职业技术学院

[2856 rows x 2 columns]


### 按省份对数据进行分组

In [47]:
# 使用groupby按省份对学校分组
province_学校 = df_学校.groupby(['省份','学校']).sum()
province_学校

Unnamed: 0_level_0,Unnamed: 1_level_0,城市,地址,水平层次,办学类别,办学类型,985,211,双一流
省份,学校,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
上海,上海东海职业技术学院,上海市,上海市闵行区虹梅南路6001号,专科（高职）,综合类,民办,否,否,0
上海,上海中侨职业技术大学,上海市,上海市金山区漕廊公路3888号,普通本科,财经类,民办,否,否,0
上海,上海中医药大学,上海市,上海市浦东新区蔡伦路1200号,普通本科,医药类,公办,否,否,是
上海,上海交通大学,上海市,上海市东川路800号,普通本科,综合类,公办,是,是,是
上海,上海交通大学医学院,上海市,上海市重庆南路227号,普通本科,医药类,公办,否,否,0
...,...,...,...,...,...,...,...,...,...
黑龙江,齐齐哈尔医学院,齐齐哈尔市,齐齐哈尔市建华卜奎北大街333号,普通本科,医药类,公办,否,否,0
黑龙江,齐齐哈尔大学,齐齐哈尔市,黑龙江省齐齐哈尔市建华区文化大街42号,普通本科,综合类,公办,否,否,0
黑龙江,齐齐哈尔工程学院,齐齐哈尔市,黑龙江省齐齐哈尔市喜庆路1号,普通本科,综合类,民办,否,否,0
黑龙江,齐齐哈尔理工职业学院,齐齐哈尔市,齐齐哈尔市富拉尔基区和平大街249号,专科（高职）,理工类,民办,否,否,0


### 统计各省学校数量

In [48]:
# 使用collections的Counter函数统计各省学校数量
province = list(df_学校["省份"])
province_学校数量 = dict(Counter(province))
province_学校数量

{'河北': 126,
 '福建': 90,
 '四川': 137,
 '湖北': 134,
 '北京': 102,
 '广东': 163,
 '湖南': 129,
 '江苏': 174,
 '重庆': 73,
 '浙江': 111,
 '山东': 160,
 '天津': 62,
 '上海': 65,
 '河南': 158,
 '吉林': 70,
 '陕西': 104,
 '辽宁': 110,
 '海南': 21,
 '江西': 108,
 '黑龙江': 81,
 '甘肃': 52,
 '云南': 82,
 '安徽': 128,
 '山西': 85,
 '广西': 85,
 '贵州': 77,
 '新疆': 56,
 '内蒙古': 56,
 '宁夏': 20,
 '青海': 12,
 '西藏': 6,
 '香港': 14,
 '澳门': 5}

### 构建各省学校数量的DataFrame表格

In [49]:
省份_list = list(province_学校数量.keys())
省份_list

['河北',
 '福建',
 '四川',
 '湖北',
 '北京',
 '广东',
 '湖南',
 '江苏',
 '重庆',
 '浙江',
 '山东',
 '天津',
 '上海',
 '河南',
 '吉林',
 '陕西',
 '辽宁',
 '海南',
 '江西',
 '黑龙江',
 '甘肃',
 '云南',
 '安徽',
 '山西',
 '广西',
 '贵州',
 '新疆',
 '内蒙古',
 '宁夏',
 '青海',
 '西藏',
 '香港',
 '澳门']

In [50]:
学校数量_list = list(province_学校数量.values())
学校数量_list

[126,
 90,
 137,
 134,
 102,
 163,
 129,
 174,
 73,
 111,
 160,
 62,
 65,
 158,
 70,
 104,
 110,
 21,
 108,
 81,
 52,
 82,
 128,
 85,
 85,
 77,
 56,
 56,
 20,
 12,
 6,
 14,
 5]

In [51]:
# 构建各省学校数量的DataFrame表格
df_各省学校数量 = pd.DataFrame({'省份':省份_list,'学校数量':学校数量_list})
df_各省学校数量

Unnamed: 0,省份,学校数量
0,河北,126
1,福建,90
2,四川,137
3,湖北,134
4,北京,102
5,广东,163
6,湖南,129
7,江苏,174
8,重庆,73
9,浙江,111


### 绘制各省学校数量可视化图
- 使用pyecharts的Map函数绘制地图

In [52]:
p = 省份_list
v = 学校数量_list
c = (
    Map(init_opts=opts.InitOpts(theme=ThemeType.ESSOS))
    .add("", [list(z) for z in zip(p,v)], "china")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="高校分布地区"),
        visualmap_opts=opts.VisualMapOpts(max_=200, is_piecewise=True),
    )
)
c.render_notebook()

## 分析本科、专科占比情况

### 统计本科和专科数量

In [53]:
df_本专科数量 = df_学校['水平层次'].value_counts().reset_index()
df_本专科数量

Unnamed: 0,index,水平层次
0,专科（高职）,1499
1,普通本科,1357


In [54]:
# 重设列名，获得本专科数量表格
df_本专科数量.rename(columns = {'index':'水平层次','水平层次':'数量'},inplace = True)

In [55]:
df_本专科数量

Unnamed: 0,水平层次,数量
0,专科（高职）,1499
1,普通本科,1357


### 构建本科、专科学校表格

In [56]:
df_本专科学校 = df_学校.groupby(['水平层次','学校']).sum()
df_本专科学校

Unnamed: 0_level_0,Unnamed: 1_level_0,省份,城市,地址,办学类别,办学类型,985,211,双一流
水平层次,学校,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
专科（高职）,七台河职业学院,黑龙江,七台河市,黑龙江省七台河市桃山区学府街229号,综合类,公办,否,否,0
专科（高职）,三亚中瑞酒店管理职业学院,海南,三亚市,海南省三亚市海棠区湾坡路108号,综合类,民办,否,否,0
专科（高职）,三亚城市职业学院,海南,三亚市,海南省三亚市吉阳区抱坡路100号,综合类,民办,否,否,0
专科（高职）,三亚理工职业学院,海南,三亚市,海南省三亚市迎宾大道学院路,理工类,民办,否,否,0
专科（高职）,三亚航空旅游职业学院,海南,三亚市,海南省三亚市凤凰路218号,理工类,民办,否,否,0
...,...,...,...,...,...,...,...,...,...
普通本科,齐鲁理工学院,山东,济南市,"山东省济南市经十东路3028号,曲阜校区：山东省曲阜市有朋路105号",综合类,民办,否,否,0
普通本科,齐齐哈尔医学院,黑龙江,齐齐哈尔市,齐齐哈尔市建华卜奎北大街333号,医药类,公办,否,否,0
普通本科,齐齐哈尔大学,黑龙江,齐齐哈尔市,黑龙江省齐齐哈尔市建华区文化大街42号,综合类,公办,否,否,0
普通本科,齐齐哈尔工程学院,黑龙江,齐齐哈尔市,黑龙江省齐齐哈尔市喜庆路1号,综合类,民办,否,否,0


### 绘制本科、专科占比可视化图
- 使用pyecharts的Pie函数绘制饼图

In [57]:
l = list(df_本专科数量['水平层次'])
v = list(df_本专科数量['数量'])
print(l,v)

['专科（高职）', '普通本科'] [1499, 1357]


In [58]:
c = (
    Pie(init_opts=opts.InitOpts(theme=ThemeType.ESSOS))
    .add(
        "",
        [list(z) for z in zip(l,v)],
        radius=["40%", "75%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="本/专科占比"),
        legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
c.render_notebook()

## 分析办学类别占比情况

### 统计各个办学类别数量

In [59]:
df_办学类别数量 = df_学校['办学类别'].value_counts().reset_index()
df_办学类别数量

Unnamed: 0,index,办学类别
0,理工类,865
1,综合类,828
2,师范类,242
3,医药类,216
4,财经类,216
5,艺术类,106
6,农林类,87
7,政法类,68
8,军事类,55
9,其他,55


In [60]:
# 重设列名，获得各个办学类别数量表格
df_办学类别数量.rename(columns = {'index':'办学类别','办学类别':'数量'},inplace = True)

In [61]:
df_办学类别数量

Unnamed: 0,办学类别,数量
0,理工类,865
1,综合类,828
2,师范类,242
3,医药类,216
4,财经类,216
5,艺术类,106
6,农林类,87
7,政法类,68
8,军事类,55
9,其他,55


### 构建各个办学类别学校表格

In [62]:
df_办学类别学校 = df_学校.groupby(['办学类别','学校']).sum()
df_办学类别学校

Unnamed: 0_level_0,Unnamed: 1_level_0,省份,城市,地址,水平层次,办学类型,985,211,双一流
办学类别,学校,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
体育类,上海体育学院,上海,上海市,上海市杨浦区清源环路650号,普通本科,公办,否,否,是
体育类,云南体育运动职业技术学院,云南,昆明市,云南昆明海埂体院路3号,专科（高职）,公办,否,否,0
体育类,内蒙古体育职业学院,内蒙古,呼和浩特市,内蒙古呼和浩特市新城区成吉思汗大街19号,专科（高职）,公办,否,否,0
体育类,北京体育大学,北京,北京市,北京市海淀区信息路48号,普通本科,公办,否,是,是
体育类,北京体育职业学院,北京,北京市,"院本部：北京市丰台区光彩北路4号,分校区：北京市大兴区芦城乡政府路21号",专科（高职）,公办,否,否,0
...,...,...,...,...,...,...,...,...,...
财经类,陕西财经职业技术学院,陕西,咸阳市,陕西省咸阳市文林路1号,专科（高职）,公办,否,否,0
财经类,首都经济贸易大学,北京,北京市,"校本部位于北京市丰台区花乡张家路口121号,红庙校区位于北京市朝阳门外金台里2号",普通本科,公办,否,否,0
财经类,黑龙江商业职业学院,黑龙江,牡丹江市,黑龙江省牡丹江市爱民区西圣林街333号,专科（高职）,公办,否,否,0
财经类,黑龙江旅游职业技术学院,黑龙江,哈尔滨市,黑龙江省哈尔滨市南岗区学府路315号,专科（高职）,公办,否,否,0


### 绘制各个办学类别占比可视化图
- 使用pyecharts的Pie函数绘制饼图

In [63]:
l = list(df_办学类别数量['办学类别'])
v = list(df_办学类别数量['数量'])
print(l,v)

['理工类', '综合类', '师范类', '医药类', '财经类', '艺术类', '农林类', '政法类', '军事类', '其他', '语言类', '体育类', '民族类'] [865, 828, 242, 216, 216, 106, 87, 68, 55, 55, 38, 35, 15]


In [64]:
c = (
    Pie(init_opts=opts.InitOpts(theme=ThemeType.ESSOS))
    .add(
        "",
        [list(z) for z in zip(l,v)],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="办学类别占比"),
        legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
c.render_notebook()


## 985，211，双一流院校数量对比

### 统计985，211，双一流院校数量

In [65]:
su_985 = df_学校[df_学校['985'] == '是'].shape[0]
su_211 = df_学校[df_学校['211'] == '是'].shape[0]
su_yiliu = int(df_学校['双一流'].value_counts().values[0])
print(su_985,su_211,su_yiliu)

46 126 148


In [66]:
重点院校类别_list = ['985','211','双一流']
重点院校数量_list = [su_985,su_211,su_yiliu]

In [67]:
df_重点院校数量 = pd.DataFrame({'重点院校类别':重点院校类别_list,'重点院校数量':重点院校数量_list})
df_重点院校数量

Unnamed: 0,重点院校类别,重点院校数量
0,985,46
1,211,126
2,双一流,148


### 绘制重点院校数量可视化图
- 使用pyecharts的Bar函数绘制柱状图

In [68]:
c = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.ESSOS))
    .add_xaxis(['985','211','双一流'])
    .add_yaxis("",[su_985,su_211,su_yiliu])
    .set_global_opts(title_opts=opts.TitleOpts(title="重点大学数量对比"))

)
c.render_notebook()

## 分析985，211，双一流分布情况

### 统计985，211，双一流学校及分布

In [69]:
# 统计985学校及分布
df_985 = df_学校[df_学校['985'] == '是']
df_985学校及分布 = df_985.groupby(['省份','学校']).sum()
df_985学校及分布

Unnamed: 0_level_0,Unnamed: 1_level_0,城市,地址,水平层次,办学类别,办学类型,985,211,双一流
省份,学校,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
上海,上海交通大学,上海市,上海市东川路800号,普通本科,综合类,公办,是,是,是
上海,华东师范大学,上海市,上海市中山北路3663号,普通本科,师范类,公办,是,是,是
上海,同济大学,上海市,上海市四平路1239号,普通本科,综合类,公办,是,是,是
上海,复旦大学,上海市,上海市杨浦区邯郸路220号,普通本科,综合类,公办,是,是,是
上海,复旦大学上海医学院,上海市,上海市医学院路138号,普通本科,医药类,公办,是,是,0
北京,中国人民大学,北京市,北京市海淀区中关村大街59号,普通本科,综合类,公办,是,是,是
北京,中国农业大学,北京市,北京市海淀区清华东路17号,普通本科,农林类,公办,是,是,是
北京,中央民族大学,北京市,北京市海淀区中关村南大街27号,普通本科,民族类,公办,是,是,是
北京,北京大学,北京市,北京市海淀区颐和园路5号,普通本科,综合类,公办,是,是,是
北京,北京大学医学部,北京市,北京市海淀区学院路38号北京大学医学部,普通本科,医药类,公办,是,是,0


In [70]:
# 统计211学校及分布
df_211 = df_学校[df_学校['211'] == '是']
df_211学校及分布 = df_211.groupby(['省份','学校']).sum()
df_211学校及分布

Unnamed: 0_level_0,Unnamed: 1_level_0,城市,地址,水平层次,办学类别,办学类型,985,211,双一流
省份,学校,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
上海,上海交通大学,上海市,上海市东川路800号,普通本科,综合类,公办,是,是,是
上海,上海外国语大学,上海市,上海市虹口区大连西路550号,普通本科,语言类,公办,否,是,是
上海,上海大学,上海市,宝山校区：上海市宝山区上大路99号;延长校区：上海市静安区延长路149号,普通本科,综合类,公办,否,是,是
上海,上海财经大学,上海市,上海市杨浦区国定路777号,普通本科,财经类,公办,否,是,是
上海,东华大学,上海市,上海市延安西路1882号,普通本科,理工类,公办,否,是,是
...,...,...,...,...,...,...,...,...,...
青海,青海大学,西宁市,青海省西宁市宁大路251号,普通本科,综合类,公办,否,是,是
黑龙江,东北农业大学,哈尔滨市,黑龙江省哈尔滨市香坊区长江路600号,普通本科,农林类,公办,否,是,是
黑龙江,东北林业大学,哈尔滨市,黑龙江省哈尔滨市香坊区和兴路26号,普通本科,农林类,公办,否,是,是
黑龙江,哈尔滨工业大学,哈尔滨市,黑龙江省哈尔滨市南岗区西大直街92号,普通本科,理工类,公办,是,是,是


In [71]:
# 统计双一流学校及分布
df_双一流 = df_学校[df_学校['双一流'] == '是']
df_双一流学校及分布 = df_双一流.groupby(['省份','学校']).sum()
df_双一流学校及分布

Unnamed: 0_level_0,Unnamed: 1_level_0,城市,地址,水平层次,办学类别,办学类型,985,211,双一流
省份,学校,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
上海,上海中医药大学,上海市,上海市浦东新区蔡伦路1200号,普通本科,医药类,公办,否,否,是
上海,上海交通大学,上海市,上海市东川路800号,普通本科,综合类,公办,是,是,是
上海,上海体育学院,上海市,上海市杨浦区清源环路650号,普通本科,体育类,公办,否,否,是
上海,上海外国语大学,上海市,上海市虹口区大连西路550号,普通本科,语言类,公办,否,是,是
上海,上海大学,上海市,宝山校区：上海市宝山区上大路99号;延长校区：上海市静安区延长路149号,普通本科,综合类,公办,否,是,是
...,...,...,...,...,...,...,...,...,...
青海,青海大学,西宁市,青海省西宁市宁大路251号,普通本科,综合类,公办,否,是,是
黑龙江,东北农业大学,哈尔滨市,黑龙江省哈尔滨市香坊区长江路600号,普通本科,农林类,公办,否,是,是
黑龙江,东北林业大学,哈尔滨市,黑龙江省哈尔滨市香坊区和兴路26号,普通本科,农林类,公办,否,是,是
黑龙江,哈尔滨工业大学,哈尔滨市,黑龙江省哈尔滨市南岗区西大直街92号,普通本科,理工类,公办,是,是,是


### 绘制重点学校分布可视化图
- 使用pyecharts的Bar函数绘制条形图

In [72]:
tl = Timeline(init_opts=opts.InitOpts(theme=ThemeType.ESSOS))
for i in ['985','211','双一流']:
    p_v = df_学校[df_学校[i] == '是']
    p_v = p_v['省份'].value_counts().reset_index()[:10]
    p = list(p_v['index'])[::-1]
    v = list(p_v['省份'])[::-1]
    bar = (
        Bar(init_opts=opts.InitOpts(theme=ThemeType.ESSOS))
        .add_xaxis(p)
        .add_yaxis("数量",v, label_opts=opts.LabelOpts(position="right"))
        .reversal_axis()
        .set_global_opts(
            title_opts=opts.TitleOpts("重点大学分布轮播图".format(i))
        )
    )
    tl.add(bar, "{}".format(i))
tl.render_notebook()

## 分析开设数量前二十的专业

In [73]:
df_专业

Unnamed: 0,学校,专业类别,专业名称,国家特色专业
0,河北轨道运输职业技术学院,测绘地理信息类(专),测绘地理信息技术,
1,河北轨道运输职业技术学院,土建施工类(专),建筑工程技术,
2,河北轨道运输职业技术学院,机械设计制造类(专),数控技术,
3,河北轨道运输职业技术学院,机电设备类(专),电梯工程技术,
4,河北轨道运输职业技术学院,自动化类(专),机电一体化技术,
...,...,...,...,...
91895,林州建筑职业技术学院,建筑设计类(专),建筑装饰工程技术,
91896,林州建筑职业技术学院,土建施工类(专),建筑工程技术,
91897,林州建筑职业技术学院,建设工程管理类(专),工程造价,
91898,林州建筑职业技术学院,建设工程管理类(专),建设工程监理,


### 获取开设数量前20的专业数据

In [74]:
top20 = df_专业['专业名称'].value_counts().reset_index()
专业名称 = list(top20['index'])[:20]
数量 = list(top20['专业名称'])[:20]
print(专业名称,数量)

['市场营销', '电子商务', '物流管理', '旅游管理', '财务管理', '会计', '国际经济与贸易', '计算机科学与技术', '工程造价', '英语', '商务英语', '视觉传达设计', '酒店管理', '环境设计', '机电一体化技术', '学前教育', '电子信息工程', '会计学', '人力资源管理', '计算机应用技术'] [1279, 1209, 1053, 1041, 950, 857, 811, 808, 799, 783, 672, 656, 648, 644, 621, 610, 597, 588, 557, 557]


### 构建开设数量前20的专业数据表格

In [75]:
df_top20专业 = pd.DataFrame({'专业名称':专业名称,'开设总数':数量})
df_top20专业

Unnamed: 0,专业名称,开设总数
0,市场营销,1279
1,电子商务,1209
2,物流管理,1053
3,旅游管理,1041
4,财务管理,950
5,会计,857
6,国际经济与贸易,811
7,计算机科学与技术,808
8,工程造价,799
9,英语,783


### 绘制开设数量前20的专业可视化图
- 使用pyecharts的Bar函数绘制柱状图

In [76]:
c = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.ESSOS))
    .add_xaxis(
        专业名称
    )
    .add_yaxis("", 数量)
    .set_global_opts(
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-30)),
        title_opts=opts.TitleOpts(title="开设专业top20"),
    )
)
c.render_notebook()

## 分析国家特色专业学校分布情况

### 获取各学校国家特色专业数量数据

In [77]:
tese = df_专业[df_专业['国家特色专业'] == '是']
tese = tese.groupby('学校').count()['国家特色专业'].reset_index()
tese = tese.sort_values(by='国家特色专业',ascending=False)
tese

Unnamed: 0,学校,国家特色专业
107,北京大学,41
420,浙江大学,32
4,上海交通大学,28
349,武汉大学,28
184,吉林大学,26
...,...,...
500,福建警察学院,1
501,红河学院,1
503,绥化学院,1
203,嘉应学院,1


### 绘制国家特色专业数量排名前20的学校可视化图
- 使用pyecharts的Bar函数绘制柱状图

In [78]:
school = list(tese['学校'])[:20]
values = list(tese['国家特色专业'])[:20]

In [79]:
c = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.ESSOS))
    .add_xaxis(
        school
    )
    .add_yaxis("", values)
    .set_global_opts(
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-30)),
        title_opts=opts.TitleOpts(title="特色专业top20"),
    )
)
c.render_notebook()