# 使用basemap可视化中国各地区结婚率
有很多的数据可视化需求是跟地图相关的，比如本文将会讨论的中国各个地区的结婚率数据。python有一个第三方库basemap是专门用来处理这一类数据可视化需求的。并且该库可以显示全球任意地方。绘制地图需要对应国家和地区的shape文件，这些文件可以从 https://gadm.org/download_country_v3.html 下载。下面我们就开始讨论使用basemap可视化中国各地区离婚率数据。
1. 从excel中读取数据

这里用到的结婚率是国家统计局提供的2017年年底抽样调查的数据。

具体的数据可以在国家统计局的官网上查看，也可以看我的github工程中附带的excel文件。

采用pandas从excel文件中提取数据这一步就不详细说明了，

在我的另一个文章《pandas的21个基本操作》中有相应的类似描述。

2. 制作地图接口

使用地图进行可视化数据的形式一般比较固定，都是给定每个地区的数值，然后将这些数值绘制到地图上去。

因此可以将地图绘制的功能单独封装成一个函数，之后无论什么数据，

只要是符合“地区-数值”这一映射关系的都可以直接使用这个接口进行可视化。

3. 数据预处理

由于数据整体存在偏差，直接进行可视化的效果不明显，因此需要先对数据进行归一化。

地图接口的传入参数是“地区-数值”词典的形式，因此也需要将各地区名和各地区的结婚率封装成一个词典。

4. 绘制各地区的结婚率

准备工作都完成之后，就可以进行结婚率数据的可视化了。

更有趣的数据是这个excel中的第10列数据，大家可以自行修改然后可视化。

In [1]:
import os
import time
import sys
import math
import numpy as np
import pandas as pd
import matplotlib
%matplotlib notebook
from matplotlib import pyplot as plt
from matplotlib.patches import Polygon
from matplotlib.colors import rgb2hex
from mpl_toolkits.basemap import Basemap
# 设置shape文件存放的路径
HOME_DIR = os.path.expanduser('~')
SHAPE_FILE_DIR = os.path.join(HOME_DIR, '素材库/basemap')

## 1.  从excel中读取数据

In [8]:
xls_path = '../data/2017-statistics-CH0213.xls'
if not os.path.isfile(xls_path):
    raise ValueError('not exist file:{}'.format(xls_path))
df = pd.read_excel(xls_path)
df = df.iloc[7:, :]
df = df.dropna()
# 提取结婚率数据
v = df.values
X, Y = [], []
for obj in v:
    X.append(obj[0].replace(' ', ''))
    # 第7列为结婚数据，第10列为离婚数据
    Y.append(obj[7]/float(obj[1]))
# XX存储地区名字， YY存储结婚率
XX, YY = np.array(X), np.array(Y)
print(XX)
print(YY)

['全国' '北京' '天津' '河北' '山西' '内蒙古' '辽宁' '吉林' '黑龙江' '上海' '江苏' '浙江' '安徽' '福建'
 '江西' '山东' '河南' '湖北' '湖南' '广东' '广西' '海南' '重庆' '四川' '贵州' '云南' '西藏' '陕西'
 '甘肃' '青海' '宁夏' '新疆']
[0.73868105 0.71478118 0.71168946 0.78185495 0.73040375 0.76920943
 0.7384901  0.77039829 0.75213189 0.75742131 0.7786964  0.76393507
 0.75961907 0.75625357 0.73973061 0.78481609 0.73967279 0.71788302
 0.74208135 0.6951864  0.69060738 0.68005224 0.74197508 0.71970077
 0.68743296 0.69003759 0.6434619  0.71768848 0.7270646  0.70708861
 0.71086436 0.72802515]


## 2. 制作地图接口

In [3]:
def plot_map_fig(pos_data_dict, cmap=plt.cm.Purples, figsize=(12.8, 7.2), dpi=300):
    #print(pos_data_dict)
    fh = plt.figure(figsize=figsize, dpi=dpi)
    # 创建地图，并将地图显示区域定在中国
    m = Basemap(llcrnrlon=77, llcrnrlat=14, urcrnrlon=140, urcrnrlat=51,
                projection='lcc', lat_1=33, lat_2=45, lon_0=100)
    m.drawcoastlines(color='b')                    # 画海岸线
    m.drawcountries(linewidth=1.5, color='y')      # 画国界线
    # 设置中国大陆形状
    shape_data_dict = {}
    ml_shape = os.path.join(SHAPE_FILE_DIR, 'gadm36_CHN_shp/gadm36_CHN_1')
    m.readshapefile(ml_shape, 'states', drawbounds=True)
    for nshape, shapedict in enumerate(m.states_info):
        statename = shapedict['NL_NAME_1']
        p = statename.split('|')
        prov_name = p[0]
        if len(p) > 1:
            prov_name = p[1]
        if '黑龍' in prov_name:
            prov_name = '黑龙江'
        #print(prov_name, nshape)
        for k, v in pos_data_dict.items():
            if k in prov_name or prov_name in k:
                prov_name = k
        if prov_name in pos_data_dict:
            shape_data_dict[nshape] = pos_data_dict[prov_name]
        else:
            shape_data_dict[nshape] = 0
    # add color
    ax = plt.gca()
    for nshape, seg in enumerate(m.states):
        color = rgb2hex(cmap(shape_data_dict[nshape])[:3])
        poly = Polygon(seg, facecolor=color)
        ax.add_patch(poly)
        
    # 设置中国台湾形状，由于台湾数据未知，所以数值写定
    tw_shape = os.path.join(SHAPE_FILE_DIR, 'gadm36_TWN_shp/gadm36_TWN_1')
    m.readshapefile(tw_shape, 'taiwan', drawbounds=True)
    tw_num = 128
    if '台湾' in pos_data_dict:
        tw_num = pos_data_dict['台湾']
    for nshape, seg in enumerate(m.taiwan):
        color = rgb2hex(cmap(tw_num)[:3])
        poly = Polygon(seg, facecolor=color)
        ax.add_patch(poly)

    # 绘制颜色映射条
    mappable = plt.cm.ScalarMappable(cmap=cmap)
    mappable.set_array([])
    I = plt.colorbar(mappable)
    I.set_ticks([])
    I.set_ticklabels([])
    # 去掉边框
    ax.spines['top'].set_color('none')
    ax.spines['bottom'].set_color('none')
    ax.spines['left'].set_color('none')
    ax.spines['right'].set_color('none')
    # 本文档中作为例子演示，如果做成通用函数，需要修改这里为保存文件
    plt.show()
    


## 3. 数据预处理

In [7]:
# 将其他可以转换成int类型的数据转换成int
# 原因是excel中读进来的数据中可能混杂一些本来应该为int的字符串
def to_int(num):
    if type(num) != int:
        num = int(num)
    return num

# 归一化函数，避免数据本身整体存在的偏差造成可视化效果不理想
def normalize(Y):
    return (Y - np.min(Y)) / (np.max(Y) - np.min(Y))

# 对结婚率数据进行归一化
Y = normalize(YY)
# 将地区与结婚率数据制作成词典
pos_data_dict = {}
for idx, x in enumerate(XX):
    pos_data_dict[x] = to_int(Y[idx] * 255)
print(pos_data_dict)

{'全国': 171, '北京': 128, '天津': 123, '河北': 249, '山西': 156, '内蒙古': 226, '辽宁': 171, '吉林': 228, '黑龙江': 196, '上海': 205, '江苏': 243, '浙江': 217, '安徽': 209, '福建': 203, '江西': 173, '山东': 255, '河南': 173, '湖北': 134, '湖南': 177, '广东': 93, '广西': 85, '海南': 66, '重庆': 177, '四川': 137, '贵州': 79, '云南': 84, '西藏': 0, '陕西': 133, '甘肃': 150, '青海': 114, '宁夏': 121, '新疆': 152}


## 4. 绘制地图数据

In [5]:
plot_map_fig(pos_data_dict, dpi=75)  # 颜色越深的地方结婚率相对越高

<IPython.core.display.Javascript object>