# 第七次人口普查数据分析可视化项目介绍
## 项目人：钟莉
## 时间：2021/07/01
## 数据源：
> [国家统计局](http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/)
- 由于第七次人口普查数据并未完全公布，只发布了8个全国人口普查公报。有表格数据的只有4个公报。
- 因此，我在以下4个公报中，抓取了6个表格数据，并导出csv文件到data文件夹中。
>>1. [第七次全国人口普查公报（第三号）](http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818822.html)
>>2. [第七次全国人口普查公报（第四号）](http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818823.html)
>>3. [第七次全国人口普查公报（第五号）](http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818824.html)
>>4. [第七次全国人口普查公报（第六号）](http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818825.html)

## 数据分析：
### 数据抓取：
- 利用pandas库中的read_html方法快速抓取网页中的表格型数据
- 使用DataFrame对象中的loc属性和iloc属性进行数据抽取、数据的增加、修改和删除、索引设置，以获得最有价值、整洁的数据    

### 可视化
- 使用pyecharts进行数据可视化，共制作了以下9个可视化图表    

>1. 全国人口分布_地图
>2. 中国十年增长人数_折线图
>3. 各地区人口性别构成_地图
>4. 全国人口年龄占比_饼状图
>5. 各地区每10万人口中拥有的各类受教育程度人数_地图
>6. 北上广三地大学学历人数比较图_柱状图
>7. 老龄化程度对比图_柱状图、折线图
>8. 新生一代对比图_柱状图、折线图
>9. 各地区15岁及以上人口平均受教育年限对比图
## 目标
- 人口问题始终是我国面临的全局性、长期性、战略性问题，我们必须要准确了解当前人口变化的趋势性特征。
- 加强人口发展的前瞻性、战略性研究，为推动高质量发展、有针对性地制定人口相关战略和政策、促进人口长期均衡发展提供强有力的统计信息支持。
- 调整完善人口政策，推动人口结构优化，促进人口素质提升。
- 同时，为未来行业发展提供新方向，比如：老龄化问题严重，未来应更加注重老年人健康医疗行业等。    

## 注：本次项目共有两个ipynb文档，此为数据抓取.ipynb文档

In [1]:
# 基本模块
from requests_html import HTMLSession
import requests_html
import pandas as pd
import urllib.parse

# 各地区人口构成数据

In [2]:
# 各地区人口构成
url='http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818822.html'
df_人口= pd.read_html(url)[1]
df_人口

Unnamed: 0,0,1,2,3
0,地区,人口数,比重[6],比重[6]
1,地区,人口数,2020年,2010年
2,全　国[5],1411778724,100.00,100.00
3,北　京,21893095,1.55,1.46
4,天　津,13866009,0.98,0.97
5,河　北,74610235,5.28,5.36
6,山　西,34915616,2.47,2.67
7,内蒙古,24049155,1.70,1.84
8,辽　宁,42591407,3.02,3.27
9,吉　林,24073453,1.71,2.05


## 数据的增加、修改和删除：

In [3]:
# 修改列标题
df_人口.columns = ['地区','人口数(人)','2020年比重(%)','2010年比重(%)']
# df_人口

In [4]:
# 删除行数据
df_人口.drop(index=[0,1],inplace=True)
# df_人口

In [5]:
# 更新索引
df_人口构成 =df_人口.dropna().reset_index(drop=True)
# df_人口构成

In [6]:
# 发现地区空格，会导致无法形成地图
# 删掉地区列
df_人口构成.drop(['地区'],axis=1,inplace=True)
# df_人口构成

In [7]:
# 添加正确的地区
df_人口构成.loc[:,'地区'] = ['全国','北京','天津','河北','山西','内蒙古','辽宁','吉林','黑龙江','上海','江苏','浙江','安徽','福建','江西','山东','河南','湖北','湖南','广东','广西','海南','重庆','四川','贵州','云南','西藏','陕西','甘肃','青海','宁夏','新疆']
df_人口构成

Unnamed: 0,人口数(人),2020年比重(%),2010年比重(%),地区
0,1411778724,100.0,100.0,全国
1,21893095,1.55,1.46,北京
2,13866009,0.98,0.97,天津
3,74610235,5.28,5.36,河北
4,34915616,2.47,2.67,山西
5,24049155,1.7,1.84,内蒙古
6,42591407,3.02,3.27,辽宁
7,24073453,1.71,2.05,吉林
8,31850088,2.26,2.86,黑龙江
9,24870895,1.76,1.72,上海


## 导出数据

In [8]:
df_人口构成.to_csv('data/各地区人口构成数据.csv')

# 全国人口年龄构成表格数据

In [9]:
# 全国人口年龄构成
url='http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818824.html'
df_全国人口年龄= pd.read_html(url)[1]
df_全国人口年龄

Unnamed: 0,0,1,2,3
0,年龄,人口数,比重,
1,年龄,人口数,比重,
2,总　计,1411778724,100.00,
3,0—14岁,253383938,17.95,
4,15—59岁,894376020,63.35,
5,60岁及以上,264018766,18.70,
6,其中：65岁及以上,190635280,13.50,


## 数据的增加、修改和删除

In [10]:
# 删除第四列空的数据
df_全国人口年龄.drop([3],axis=1,inplace=True)
# df_全国人口年龄

In [11]:
# 修改列标题
df_全国人口年龄.columns = ['年龄','人口数(人)','比重(%)']
# df_全国人口年龄

In [12]:
# 删除行数据
df_全国人口年龄.drop(index=[0,1],inplace=True)
# df_全国人口年龄

In [13]:
# 更新索引
df_全国人口年龄构成 =df_全国人口年龄.dropna().reset_index(drop=True)
df_全国人口年龄构成

Unnamed: 0,年龄,人口数(人),比重(%)
0,总　计,1411778724,100.0
1,0—14岁,253383938,17.95
2,15—59岁,894376020,63.35
3,60岁及以上,264018766,18.7
4,其中：65岁及以上,190635280,13.5


## 导出数据

In [14]:
df_全国人口年龄构成.to_csv('data/全国人口年龄构成数据.csv')

# 各地区人口年龄构成数据

In [15]:
# 各地区人口年龄构成
url='http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818824.html'
df_各地区人口年龄=pd.read_html(url)[2]
df_各地区人口年龄

Unnamed: 0,0,1,2,3,4
0,地区,比重,比重,比重,比重
1,地区,0—14岁,15—59岁,60岁及以上,
2,地区,0—14岁,15—59岁,60岁及以上,其中：65岁及以上
3,全　国,17.95,63.35,18.70,13.50
4,北　京,11.84,68.53,19.63,13.30
5,天　津,13.47,64.87,21.66,14.75
6,河　北,20.22,59.92,19.85,13.92
7,山　西,16.35,64.72,18.92,12.90
8,内蒙古,14.04,66.17,19.78,13.05
9,辽　宁,11.12,63.16,25.72,17.42


## 数据的增加、修改和删除

In [16]:
# 修改列标题
df_各地区人口年龄.columns = ['地区','0-14岁比重(%)','15-59岁比重(%)','60岁及以上比重(%)','其中65岁及以上比重(%)']
# df_各地区人口年龄

In [17]:
# 删除行数据
df_各地区人口年龄.drop(index=[0,1,2],inplace=True)
# df_各地区人口年龄

In [18]:
# 更新索引
df_各地区人口年龄构成 = df_各地区人口年龄.dropna().reset_index(drop=True)
# df_各地区人口年龄构成

In [19]:
# 发现地区空格，会导致无法形成地图
# 删掉地区列
df_各地区人口年龄构成.drop(['地区'],axis=1,inplace=True)
# df_人口构成

In [20]:
# 添加正确的地区
df_各地区人口年龄构成.loc[:,'地区'] = ['全国','北京','天津','河北','山西','内蒙古','辽宁','吉林','黑龙江','上海','江苏','浙江','安徽','福建','江西','山东','河南','湖北','湖南','广东','广西','海南','重庆','四川','贵州','云南','西藏','陕西','甘肃','青海','宁夏','新疆']
df_各地区人口年龄构成

Unnamed: 0,0-14岁比重(%),15-59岁比重(%),60岁及以上比重(%),其中65岁及以上比重(%),地区
0,17.95,63.35,18.7,13.5,全国
1,11.84,68.53,19.63,13.3,北京
2,13.47,64.87,21.66,14.75,天津
3,20.22,59.92,19.85,13.92,河北
4,16.35,64.72,18.92,12.9,山西
5,14.04,66.17,19.78,13.05,内蒙古
6,11.12,63.16,25.72,17.42,辽宁
7,11.71,65.23,23.06,15.61,吉林
8,10.32,66.46,23.22,15.61,黑龙江
9,9.8,66.82,23.38,16.28,上海


## 导出数据

In [21]:
df_各地区人口年龄构成.to_csv('data/各地区人口年龄构成数据.csv')

# 各地区人口性别构成数据

In [22]:
# 各地区人口性别构成
url='http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818823.html'
df_人口性别=pd.read_html(url)[1]
df_人口性别

Unnamed: 0,0,1,2,3
0,地区,比重,比重,性别比
1,地区,男,女,性别比
2,全　国,51.24,48.76,105.07
3,北　京,51.14,48.86,104.65
4,天　津,51.53,48.47,106.31
5,河　北,50.50,49.50,102.02
6,山　西,50.99,49.01,104.06
7,内蒙古,51.04,48.96,104.26
8,辽　宁,49.92,50.08,99.70
9,吉　林,49.92,50.08,99.69


## 数据的增加、修改和删除

In [23]:
# 修改列标题
df_人口性别.columns = ['地区','男性比重(%)','女性比重(%)','性别比(%)']
# df_人口性别

In [24]:
# 删除行数据
df_人口性别.drop(index=[0,1],inplace=True)
# df_人口性别

In [25]:
# 更新索引
df_人口性别构成 = df_人口性别.dropna().reset_index(drop=True)
# df_人口性别构成

In [26]:
# 发现地区空格，会导致无法形成地图
# 删掉地区列
df_人口性别构成.drop(['地区'],axis=1,inplace=True)
# df_人口性别构成

In [27]:
# 添加正确的地区
df_人口性别构成.loc[:,'地区'] = ['全国','北京','天津','河北','山西','内蒙古','辽宁','吉林','黑龙江','上海','江苏','浙江','安徽','福建','江西','山东','河南','湖北','湖南','广东','广西','海南','重庆','四川','贵州','云南','西藏','陕西','甘肃','青海','宁夏','新疆']
df_人口性别构成

Unnamed: 0,男性比重(%),女性比重(%),性别比(%),地区
0,51.24,48.76,105.07,全国
1,51.14,48.86,104.65,北京
2,51.53,48.47,106.31,天津
3,50.5,49.5,102.02,河北
4,50.99,49.01,104.06,山西
5,51.04,48.96,104.26,内蒙古
6,49.92,50.08,99.7,辽宁
7,49.92,50.08,99.69,吉林
8,50.09,49.91,100.35,黑龙江
9,51.77,48.23,107.33,上海


## 导出数据

In [28]:
df_人口性别构成.to_csv('data/各地区人口性别构成数据.csv')

# 各地区每10万人口中拥有的各类受教育程度人数数据

In [29]:
# 各地区每10万人口中拥有的各类受教育程度人数
url='http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818825.html'
df_每10万人口受教育程度人数=pd.read_html(url)[1]
df_每10万人口受教育程度人数

Unnamed: 0,0,1,2,3,4
0,地区,大学 （大专及以上）,高中 （含中专）,初中,小学
1,全　国,15467,15088,34507,24767
2,北　京,41980,17593,23289,10503
3,天　津,26940,17719,32294,16123
4,河　北,12418,13861,39950,24664
5,山　西,17358,16485,38950,19506
6,内蒙古,18688,14814,33861,23627
7,辽　宁,18216,14670,42799,18888
8,吉　林,16738,17080,38234,22318
9,黑龙江,14793,15525,42793,21863


## 数据的增加、修改和删除

In [30]:
# 修改列标题
df_每10万人口受教育程度人数.columns = ['地区','大学（大专及以上）','高中（含中专）','初中','小学']
# df_每10万人口受教育程度人数

In [31]:
# 删除行数据
df_每10万人口受教育程度人数.drop(index=[0],inplace=True)
# df_每10万人口受教育程度人数

In [32]:
# 更新索引
df_各地区每10万人口受教育程度人数 = df_每10万人口受教育程度人数.dropna().reset_index(drop=True)
# df_各地区每10万人口受教育程度人数

In [33]:
# 发现地区空格，会导致无法形成地图
# 删掉地区列
df_各地区每10万人口受教育程度人数.drop(['地区'],axis=1,inplace=True)
# df_各地区每10万人口受教育程度人数

In [34]:
# 添加正确的地区
df_各地区每10万人口受教育程度人数.loc[:,'地区'] = ['全国','北京','天津','河北','山西','内蒙古','辽宁','吉林','黑龙江','上海','江苏','浙江','安徽','福建','江西','山东','河南','湖北','湖南','广东','广西','海南','重庆','四川','贵州','云南','西藏','陕西','甘肃','青海','宁夏','新疆']
df_各地区每10万人口受教育程度人数

Unnamed: 0,大学（大专及以上）,高中（含中专）,初中,小学,地区
0,15467,15088,34507,24767,全国
1,41980,17593,23289,10503,北京
2,26940,17719,32294,16123,天津
3,12418,13861,39950,24664,河北
4,17358,16485,38950,19506,山西
5,18688,14814,33861,23627,内蒙古
6,18216,14670,42799,18888,辽宁
7,16738,17080,38234,22318,吉林
8,14793,15525,42793,21863,黑龙江
9,33872,19020,28935,11929,上海


## 导出数据

In [35]:
df_各地区每10万人口受教育程度人数.to_csv('data/各地区每10万人口中拥有的各类受教育程度人数数据.csv')

# 各地区15岁及以上人口平均受教育年限

In [36]:
# 各地区15岁及以上人口平均受教育年限
url='http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818825.html'
df_15岁及以上人口平均受教育年限 = pd.read_html(url)[2]
df_15岁及以上人口平均受教育年限

Unnamed: 0,0,1,2
0,地区,2020年,2010年
1,全　国,9.91,9.08
2,北　京,12.64,11.71
3,天　津,11.29,10.38
4,河　北,9.84,9.12
5,山　西,10.45,9.52
6,内蒙古,10.08,9.22
7,辽　宁,10.34,9.67
8,吉　林,10.17,9.49
9,黑龙江,9.93,9.36


## 数据的增加、修改和删除

In [37]:
# 修改列标题
df_15岁及以上人口平均受教育年限.columns = ['地区','2020年','2010年']
# df_15岁及以上人口平均受教育年限

In [38]:
# 删除行数据
df_15岁及以上人口平均受教育年限.drop(index=[0],inplace=True)
# df_15岁及以上人口平均受教育年限

In [39]:
# 更新索引
df_各地区15岁及以上人口平均受教育年限 = df_15岁及以上人口平均受教育年限.dropna().reset_index(drop=True)
# df_各地区15岁及以上人口平均受教育年限

In [40]:
# 发现地区空格，会导致无法形成地图
# 删掉地区列
df_各地区15岁及以上人口平均受教育年限.drop(['地区'],axis=1,inplace=True)
# df_各地区15岁及以上人口平均受教育年限

In [41]:
# 添加正确的地区
df_各地区15岁及以上人口平均受教育年限.loc[:,'地区'] = ['全国','北京','天津','河北','山西','内蒙古','辽宁','吉林','黑龙江','上海','江苏','浙江','安徽','福建','江西','山东','河南','湖北','湖南','广东','广西','海南','重庆','四川','贵州','云南','西藏','陕西','甘肃','青海','宁夏','新疆']
df_各地区15岁及以上人口平均受教育年限

Unnamed: 0,2020年,2010年,地区
0,9.91,9.08,全国
1,12.64,11.71,北京
2,11.29,10.38,天津
3,9.84,9.12,河北
4,10.45,9.52,山西
5,10.08,9.22,内蒙古
6,10.34,9.67,辽宁
7,10.17,9.49,吉林
8,9.93,9.36,黑龙江
9,11.81,10.73,上海


## 导出数据

In [42]:
df_各地区15岁及以上人口平均受教育年限.to_csv('data/各地区15岁及以上人口平均受教育年限.csv')