# 第七次人口普查数据分析可视化项目介绍
## 项目人：钟莉
## 时间：2021/07/01
## 数据源：
> [国家统计局](http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/)
- 由于第七次人口普查数据并未完全公布，只发布了8个全国人口普查公报。有表格数据的只有4个公报。
- 因此，我在以下4个公报中，抓取了6个表格数据，并导出csv文件到data文件夹中。
>>1. [第七次全国人口普查公报（第三号）](http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818822.html)
>>2. [第七次全国人口普查公报（第四号）](http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818823.html)
>>3. [第七次全国人口普查公报（第五号）](http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818824.html)
>>4. [第七次全国人口普查公报（第六号）](http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/202106/t20210628_1818825.html)

## 数据分析：
### 数据抓取：
- 利用pandas库中的read_html方法快速抓取网页中的表格型数据
- 使用DataFrame对象中的loc属性和iloc属性进行数据抽取、数据的增加、修改和删除、索引设置，以获得最有价值、整洁的数据    

### 可视化
- 使用pyecharts进行数据可视化，共制作了以下9个可视化图表    

>1. 全国人口分布_地图
>2. 中国十年增长人数_折线图
>3. 各地区人口性别构成_地图
>4. 全国人口年龄占比_饼状图
>5. 各地区每10万人口中拥有的各类受教育程度人数_地图
>6. 北上广三地大学学历人数比较图_柱状图
>7. 老龄化程度对比图_柱状图、折线图
>8. 新生一代对比图_柱状图、折线图
>9. 各地区15岁及以上人口平均受教育年限对比图
## 目标
- 人口问题始终是我国面临的全局性、长期性、战略性问题，我们必须要准确了解当前人口变化的趋势性特征。
- 加强人口发展的前瞻性、战略性研究，为推动高质量发展、有针对性地制定人口相关战略和政策、促进人口长期均衡发展提供强有力的统计信息支持。
- 调整完善人口政策，推动人口结构优化，促进人口素质提升。
- 同时，为未来行业发展提供新方向，比如：老龄化问题严重，未来应更加注重老年人健康医疗行业等。      

## 注：本次项目共有两个ipynb文档，此为数据分析可视化.ipynb文档

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
%matplotlib inline
sns.set(font='Microsoft YaHei',palette='GnBu_r',font_scale=1.3)
import matplotlib
matplotlib.rc('figure',figsize =(20,8))
from warnings import filterwarnings
filterwarnings('ignore')

import pandas as pd
from pyecharts.charts import Map
from pyecharts.charts import Bar
from pyecharts.charts import Line
from pyecharts.charts import Grid
from pyecharts.charts import Pie
from pyecharts.charts import Scatter
from pyecharts import options as opts
from pyecharts.charts import Page, WordCloud
from pyecharts.globals import SymbolType
from pyecharts.globals import ThemeType, CurrentConfig
from pyecharts.faker import Faker

from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.NTERACT

from pyecharts.commons.utils import JsCode

# 全国人口分布_地图

In [2]:
population = pd.read_csv('data/各地区人口构成数据.csv')

In [3]:
# 删掉全国的数据
population.drop(index=[0],inplace=True)

In [4]:
x_data = population['地区'].tolist()
y_data = population['人口数(人)'].tolist()

m = Map()
m.add('',[list(z) for z in zip(x_data,y_data)],maptype = 'china',is_map_symbol_show=False)
m.set_series_opts(label_opts = opts.LabelOpts(is_show=True))
m.set_global_opts(title_opts = opts.TitleOpts(title = '全国人口分布地图',
                                              subtitle = '此为全国常住人口的有关数据 \n数据表明：广东省的常住人口数量最多，人口密度由黑河—腾冲线划分开，黑河—腾冲线以东占了全国96%的人口',),
visualmap_opts = opts.VisualMapOpts(min_=population['人口数(人)'].min(),max_=population['人口数(人)'].max(),
range_color=['#C2E7C0','#61BDCD','#0D6DAE']))
m.render('html/全国人口分布地图.html')

'C:\\Users\\1\\Desktop\\第七次人口普查数据\\html\\全国人口分布地图.html'

# 中国十年增长人数_折线图

In [5]:
# 数据计算，得出新的表格
population1 = pd.read_csv('data/各地区人口构成数据.csv')
population1['增长比例'] = population1['2020年比重(%)'] - population1['2010年比重(%)']
population1['2010年人数'] = 13328108.69 * population1['2010年比重(%)']
population1['10年增长人数'] = population1['人口数(人)'] - population1['2010年人数']

# 排序
population1.sort_values(by='10年增长人数',inplace=True,ascending=False)
population1.drop(index=[0],inplace=True)
population1

Unnamed: 0.1,Unnamed: 0,人口数(人),2020年比重(%),2010年比重(%),地区,增长比例,2010年人数,10年增长人数
19,19,126012510,8.93,7.79,广东,1.14,103826000.0,22186540.0
11,11,64567588,4.57,4.06,浙江,0.51,54112120.0,10455470.0
10,10,84748016,6.0,5.87,江苏,0.13,78236000.0,6512018.0
15,15,101527453,7.19,7.15,山东,0.04,95295980.0,6231476.0
16,16,99365519,7.04,7.02,河南,0.02,93563320.0,5802196.0
13,13,41540086,2.94,2.75,福建,0.19,36652300.0,4887787.0
20,20,50126804,3.55,3.44,广西,0.11,45848690.0,4278110.0
31,31,25852345,1.83,1.63,新疆,0.2,21724820.0,4127528.0
24,24,38562148,2.73,2.59,贵州,0.14,34519800.0,4042346.0
23,23,83674866,5.93,6.0,四川,-0.07,79968650.0,3706214.0


In [6]:
# 导出数据
population1.to_csv('data/2010与2020各地区人口构成数据.csv')

In [7]:
population1 = pd.read_csv('data/2010与2020各地区人口构成数据.csv')

In [8]:
line=(
    Line()
    .add_xaxis(xaxis_data=population1['地区'].tolist())
    .add_yaxis(series_name="人数线",y_axis=population1['10年增长人数'].tolist(), is_smooth=True)
#     .add_yaxis(series_name="y2线",y_axis=population1.head()['人口数(人)'], is_smooth=True)
    .set_global_opts(title_opts=opts.TitleOpts(title="中国十年增长人数折线图",
                                               subtitle="数据表明，2010至2020年广东人口增长了2千多万，黑龙江人口负增长500多万。\n进一步说明了人口向经济发达区域、城市群进一步集聚。",
                                               title_textstyle_opts=opts.TextStyleOpts(font_size=25,), 
                                               pos_left="center", pos_top="0",),
                     
                     legend_opts=opts.LegendOpts(orient="vertical", pos_top="35%", pos_left="90%"))
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    .render('html/中国十年增长人数折线图.html')
)

# 各地区人口性别构成_地图

In [9]:
gender = pd.read_csv('data/各地区人口性别构成数据.csv')
gender

Unnamed: 0.1,Unnamed: 0,男性比重(%),女性比重(%),性别比(%),地区
0,0,51.24,48.76,105.07,全国
1,1,51.14,48.86,104.65,北京
2,2,51.53,48.47,106.31,天津
3,3,50.5,49.5,102.02,河北
4,4,50.99,49.01,104.06,山西
5,5,51.04,48.96,104.26,内蒙古
6,6,49.92,50.08,99.7,辽宁
7,7,49.92,50.08,99.69,吉林
8,8,50.09,49.91,100.35,黑龙江
9,9,51.77,48.23,107.33,上海


In [10]:
# 排序
gender.sort_values(by='性别比(%)',inplace=True,ascending=False)

In [11]:
x_data = gender['地区'].tolist()
y_data = gender['性别比(%)'].tolist()

m = Map()
m.add('',[list(z) for z in zip(x_data,y_data)],maptype = 'china',is_map_symbol_show=False)
m.set_series_opts(label_opts = opts.LabelOpts(is_show=True))
m.set_global_opts(title_opts = opts.TitleOpts(title = '全国人口性别比地图', 
                                              subtitle = "注:性别比是在种群层面上研究的问题，是指族群中雄性（男性）对雌性（女性）的比率。\n\n数据表明，广东省的男女比例失衡最严重。东北三省的男女比例最为均衡，还出现了性别比99%的情况。\n其实，这也可以看出，劳动力流失问题。\n中国，已经成为世界上出生性别比失衡较为严重、持续时间较长的国家。"),
                  
visualmap_opts = opts.VisualMapOpts(min_=gender['性别比(%)'].min(),max_=gender['性别比(%)'].max(),
range_color=['#FF99CC','#CC99CC','#CC3399']))
m.render('html/全国人口性别比地图.html')

'C:\\Users\\1\\Desktop\\第七次人口普查数据\\html\\全国人口性别比地图.html'

# 全国人口年龄占比_饼状图

In [12]:
age_country = pd.read_csv('data/全国人口年龄构成数据.csv')
age_country

Unnamed: 0.1,Unnamed: 0,年龄,人口数(人),比重(%)
0,0,总　计,1411778724,100.0
1,1,0—14岁,253383938,17.95
2,2,15—59岁,894376020,63.35
3,3,60岁及以上,264018766,18.7
4,4,其中：65岁及以上,190635280,13.5


In [13]:
# 删掉总计的数据
age_country.drop(index=[0],inplace=True)

In [14]:
x_data = age_country['年龄'].tolist()
y_data = age_country['比重(%)'].tolist()
c = (
    Pie()
    .add("", [list(z) for z in zip(x_data,y_data)],
         # 调整饼图位置
         center=["50%", "60%"])
    .set_series_opts(label_opts = opts.LabelOpts(is_show=True))
    .set_global_opts(title_opts=opts.TitleOpts(title="全国人口年龄占比饼状图",
                                              subtitle ="国际上通常把60岁以上的人口占总人口比例达到10%，或65岁以上人口占总人口的比重达到7%作为国家或地区进入老龄化社会的标准。\ n65岁及以上人口的比例超过10％表明老龄化已经非常严重了。\n\n然而，中国人口总数中的65岁及以上人口已经占了13.50%，老龄化非常严重。因此，国家发布三胎政策以缓解老龄化问题。",
                                              pos_top="0",),
                     # 标签放到左边
                     legend_opts=opts.LegendOpts(orient="vertical", pos_top="35%", pos_left="2%"),)
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    .render("html/全国人口年龄占比饼状图.html")
)

# 各地区每10万人口中拥有的各类受教育程度人数_地图

In [15]:
education = pd.read_csv('data/各地区每10万人口中拥有的各类受教育程度人数数据.csv')
education

Unnamed: 0.1,Unnamed: 0,大学（大专及以上）,高中（含中专）,初中,小学,地区
0,0,15467,15088,34507,24767,全国
1,1,41980,17593,23289,10503,北京
2,2,26940,17719,32294,16123,天津
3,3,12418,13861,39950,24664,河北
4,4,17358,16485,38950,19506,山西
5,5,18688,14814,33861,23627,内蒙古
6,6,18216,14670,42799,18888,辽宁
7,7,16738,17080,38234,22318,吉林
8,8,14793,15525,42793,21863,黑龙江
9,9,33872,19020,28935,11929,上海


In [16]:
# education.sort_values('大学（大专及以上）',inplace = True,ascending = False)
# education.plot.bar(x = '地区',y = ['小学','初中','高中（含中专）','大学（大专及以上）'],stacked = True)
# plt.title('各地区每 10 万人口不同教育程度的人数',loc = 'left',fontsize = 20)
# plt.legend(bbox_to_anchor =(1,1.1),ncol = 10,facecolor = 'None')
# plt.xlabel('')
# plt.show()

In [17]:
# 删掉全国的数据
education.drop(index=[0],inplace=True)
# education

In [18]:
# 绘制全国各地每10人中大学以上的人数，以地图展示
x_data = education['地区'].tolist()
y_data = education['大学（大专及以上）'].tolist()

m = Map()
m.add('',[list(z) for z in zip(x_data,y_data)],maptype = 'china',is_map_symbol_show=False)
m.set_series_opts(label_opts = opts.LabelOpts(is_show=True))
m.set_global_opts(title_opts = opts.TitleOpts(title = '全国各地每10万人中大学以上学历的人口分布',
                                              subtitle='北京是全国的文化中心，人才的聚集地。\n\n上海是全国的经济中心，发展历史悠久，对于人才也非常有吸引力。名牌大学、重点大学，也有集中扎堆的现象，主要分布在北京、上海。', ),
visualmap_opts = opts.VisualMapOpts(min_=education['大学（大专及以上）'].min(),max_=education['大学（大专及以上）'].max(),range_color=['#FFFF99','#99CC99','#666600']))
m.render('html/各地每10万人中大学以上学历的人口分布.html')

'C:\\Users\\1\\Desktop\\第七次人口普查数据\\html\\各地每10万人中大学以上学历的人口分布.html'

# 北上广三地大学学历人数比较图_柱状图

In [19]:
# 抽取出北京、上海、广东个地区进行分析
education_3 = education.iloc[[1,9,19]]
education_3

Unnamed: 0.1,Unnamed: 0,大学（大专及以上）,高中（含中专）,初中,小学,地区
2,2,26940,17719,32294,16123,天津
10,10,18663,16191,33308,22742,江苏
20,20,10806,12962,36388,27855,广西


In [20]:
# 指定柱子颜色的js代码
color_function = """
        function (params) {
            if (params.value < 20000) 
                return '#66CC99';
            else if (params.value > 30000 && params.value < 35000) 
                return '#66CCCC';
            else return '#009999';
        }
        """

b = (
    Bar()
    .add_xaxis(education_3['地区'].tolist())      # x轴
    .add_yaxis(series_name="三地比较", y_axis=education_3['大学（大专及以上）'].tolist(),itemstyle_opts=opts.ItemStyleOpts(color=JsCode(color_function)))

#     .reversal_axis()   # xy轴交换
    .set_global_opts(
        title_opts=opts.TitleOpts(title='北上广三地大学学历人数比较图',
                                  subtitle='北京、上海、广州、深圳是中国的超一线城市，对于人才引进都应非常重视。\n\n然而，广东省主要是在改革开放后经济才迅速发展，与北京、上海相比，人才资源明显不足。\n\n广东省仍需加强人才政策实施。', 
                                  title_textstyle_opts=opts.TextStyleOpts(), pos_left="center", pos_top="0",),
        legend_opts=opts.LegendOpts(orient="vertical", pos_top="35%", pos_right="0%"),
    )
    .render("html/北上广三地大学学历人数比较图.html")
)

# 老龄化程度对比图_柱状图、折线图

In [21]:
age_region = pd.read_csv('data/各地区人口年龄构成数据.csv')
age_region

Unnamed: 0.1,Unnamed: 0,0-14岁比重(%),15-59岁比重(%),60岁及以上比重(%),其中65岁及以上比重(%),地区
0,0,17.95,63.35,18.7,13.5,全国
1,1,11.84,68.53,19.63,13.3,北京
2,2,13.47,64.87,21.66,14.75,天津
3,3,20.22,59.92,19.85,13.92,河北
4,4,16.35,64.72,18.92,12.9,山西
5,5,14.04,66.17,19.78,13.05,内蒙古
6,6,11.12,63.16,25.72,17.42,辽宁
7,7,11.71,65.23,23.06,15.61,吉林
8,8,10.32,66.46,23.22,15.61,黑龙江
9,9,9.8,66.82,23.38,16.28,上海


In [22]:
# 删掉全国的数据
age_region.drop(index=[0],inplace=True)
# 排序
age_region.sort_values(by='其中65岁及以上比重(%)',inplace=True,ascending=False)
# 更新索引
age_region.dropna().reset_index(drop=True)
# age_region1

Unnamed: 0.1,Unnamed: 0,0-14岁比重(%),15-59岁比重(%),60岁及以上比重(%),其中65岁及以上比重(%),地区
0,6,11.12,63.16,25.72,17.42,辽宁
1,22,15.91,62.22,21.87,17.08,重庆
2,23,16.1,62.19,21.71,16.93,四川
3,9,9.8,66.82,23.38,16.28,上海
4,10,15.21,62.95,21.84,16.2,江苏
5,7,11.71,65.23,23.06,15.61,吉林
6,8,10.32,66.46,23.22,15.61,黑龙江
7,15,18.78,60.32,20.9,15.13,山东
8,12,19.24,61.96,18.79,15.01,安徽
9,18,19.52,60.6,19.88,14.81,湖南


In [23]:
# 提取前五个和后五个数据
age_region1 = age_region.iloc[[0,1,2,3,4,26,27,28,29,30]]

In [24]:
color_function = """
        function (params) {
            if (params.value < 16) 
                return '#66CC99';
            else return '#009999';
        }
        """

bar = (
    Bar()
    .add_xaxis(age_region1['地区'].tolist())      # x轴
    .add_yaxis(series_name="65岁及以上人口占比", y_axis=age_region1['其中65岁及以上比重(%)'].tolist(),itemstyle_opts=opts.ItemStyleOpts(color=JsCode(color_function)))

#     .reversal_axis()   # xy轴交换
    .set_global_opts(
        title_opts=opts.TitleOpts(title='老龄化程度对比图',
                                  subtitle='此表格选取各五个老龄化程度最重与最轻的数据，老龄化形成的原因是多方面的。\n\n①有年轻劳动力流失流入问题。\n\n②医疗水平提高，人类寿命普遍提高。\n\n③新中国建立后，生育潮爆发。\n\n④人们生育意愿不高等。', 
                                  title_textstyle_opts=opts.TextStyleOpts(), pos_left="50%", pos_top="0",
                                  ),
        legend_opts=opts.LegendOpts(orient="vertical", pos_top="35%", pos_right="0%"),
    )

)


line = (
    Line()
    .add_xaxis(age_region1['地区'].tolist())      # x轴
    .add_yaxis(series_name="老龄化程度", y_axis=age_region1['其中65岁及以上比重(%)'].tolist(),color=["#336699"])
    .set_series_opts(label_opts = opts.LabelOpts(is_show=False))
    
)

bar.overlap(line).render("html/老龄化程度对比图.html")

'C:\\Users\\1\\Desktop\\第七次人口普查数据\\html\\老龄化程度对比图.html'

# 新生一代对比图_柱状图、折线图

In [25]:
age_region = pd.read_csv('data/各地区人口年龄构成数据.csv')
age_region

Unnamed: 0.1,Unnamed: 0,0-14岁比重(%),15-59岁比重(%),60岁及以上比重(%),其中65岁及以上比重(%),地区
0,0,17.95,63.35,18.7,13.5,全国
1,1,11.84,68.53,19.63,13.3,北京
2,2,13.47,64.87,21.66,14.75,天津
3,3,20.22,59.92,19.85,13.92,河北
4,4,16.35,64.72,18.92,12.9,山西
5,5,14.04,66.17,19.78,13.05,内蒙古
6,6,11.12,63.16,25.72,17.42,辽宁
7,7,11.71,65.23,23.06,15.61,吉林
8,8,10.32,66.46,23.22,15.61,黑龙江
9,9,9.8,66.82,23.38,16.28,上海


In [26]:
# 删掉全国的数据
age_region.drop(index=[0],inplace=True)
# 排序
age_region.sort_values(by='0-14岁比重(%)',inplace=True,ascending=False)
# 更新索引
age_region.dropna().reset_index(drop=True)

Unnamed: 0.1,Unnamed: 0,0-14岁比重(%),15-59岁比重(%),60岁及以上比重(%),其中65岁及以上比重(%),地区
0,26,24.53,66.95,8.52,5.67,西藏
1,24,23.97,60.65,15.38,11.56,贵州
2,20,23.63,59.69,16.69,12.2,广西
3,16,23.14,58.79,18.08,13.49,河南
4,31,22.46,66.26,11.28,7.76,新疆
5,14,21.96,61.17,16.87,11.89,江西
6,29,20.81,67.04,12.14,8.68,青海
7,30,20.38,66.09,13.52,9.62,宁夏
8,3,20.22,59.92,19.85,13.92,河北
9,21,19.97,65.38,14.65,10.43,海南


In [27]:
# 提取前五个和后五个数据
age_region2 = age_region.iloc[[0,1,2,3,4,26,27,28,29,30]]

In [28]:
color_function = """
        function (params) {
            if (params.value < 20) 
                return '#99CC99';
            else return '#FFCC99';
        }
        """

bar = (
    Bar()
    .add_xaxis(age_region2['地区'].tolist())      # x轴
    .add_yaxis(series_name="0-14岁人口占比", y_axis=age_region2['0-14岁比重(%)'].tolist(),itemstyle_opts=opts.ItemStyleOpts(color=JsCode(color_function)))

#     .reversal_axis()   # xy轴交换
    .set_global_opts(
        title_opts=opts.TitleOpts(title='地区新生比重对比图',
                                  subtitle='此表格选取各地区0-14岁人口占比最大与最小的数据。\n\n由图表看出，我国经济发达区域，近十四年新生人口占比较低，一方面有计划生育政策的原因，同时人们生育意愿不高等原因存在。', 
                                  title_textstyle_opts=opts.TextStyleOpts(), pos_left="50%", pos_top="0",
                                  ),
        legend_opts=opts.LegendOpts(orient="vertical", pos_top="35%", pos_right="0%"),
    )

)


line = (
    Line()
    .add_xaxis(age_region2['地区'].tolist())      # x轴
    .add_yaxis(series_name="0-14岁人口占比", y_axis=age_region2['0-14岁比重(%)'].tolist(),color=["#99CC99"])
    .set_series_opts(label_opts = opts.LabelOpts(is_show=False))
    
)

bar.overlap(line).render("html/地区新生比重对比图.html")

'C:\\Users\\1\\Desktop\\第七次人口普查数据\\html\\地区新生比重对比图.html'

# 各地区15岁及以上人口平均受教育年限对比图

In [29]:
education_year = pd.read_csv('data/各地区15岁及以上人口平均受教育年限.csv')
education_year

Unnamed: 0.1,Unnamed: 0,2020年,2010年,地区
0,0,9.91,9.08,全国
1,1,12.64,11.71,北京
2,2,11.29,10.38,天津
3,3,9.84,9.12,河北
4,4,10.45,9.52,山西
5,5,10.08,9.22,内蒙古
6,6,10.34,9.67,辽宁
7,7,10.17,9.49,吉林
8,8,9.93,9.36,黑龙江
9,9,11.81,10.73,上海


In [30]:
b = (
    Bar(
#         init_opts=opts.InitOpts(           # 初始配置项
#             theme=ThemeType.MACARONS,
#             animation_opts=opts.AnimationOpts(
#                 animation_delay=1000, animation_easing="cubicOut"   # 初始动画延迟和缓动效果
#             ))
        )
    # 选取表格中前五个数据
    .add_xaxis(xaxis_data=education_year.head()['地区'].tolist())      # x轴
    .add_yaxis(series_name="2010年", y_axis=education_year.head()['2010年'].tolist(),color=["#336699"])       # y轴
    .add_yaxis(series_name="2020年", y_axis=education_year.head()['2020年'].tolist(),color=["#99CC33"])       # y轴
    .set_global_opts(
        title_opts=opts.TitleOpts(title='15岁及以上人口平均受教育年限对比图',
                                  subtitle='此表格选取前五个数据，15岁及以上人口平均受教育年限都在增长。 \n\n表明了我国人们越来越重视教育，科教兴国战略实施有效，民族是非常有希望的。', 
                                  title_textstyle_opts=opts.TextStyleOpts(), pos_left="center", pos_top="0",
                                  ),
        legend_opts=opts.LegendOpts(orient="vertical", pos_top="35%", pos_right="0%"),
        xaxis_opts=opts.AxisOpts(name='地区', axislabel_opts=opts.LabelOpts(rotate=0)),  # 设置x名称和Label rotate解决标签名字过长使用
        yaxis_opts=opts.AxisOpts(name='15岁及以上人口平均受教育年限'),

    )
    .render("html/教育年限对比.html")
)