In [1]:
'''
项目要求：
    1. 数据清洗\整合
        * 要求：
            -- 将 data01 data02 分别读取,并且合并成一个数据
            -- 结合“户籍地城市编号”及“中国城市代码对照表”数据，将城市经纬度链接进数据中
            -- 分别提取“工作地”中的 省、市
        * 提示：
            -- 可以先读取 data01 data02 然后用pd.concat()来链接数据
            -- 新建字段“工作地-省”，“工作地-市”，“工作地-区县” 如果数据中“工作地”字段无法提取
                省和市，则用“未识别”填充单元格。 
            -- 通过查看识别后的单元格，如果字数超过5则为“未识别”
    
    2. 查看姓氏的“普遍指数”，普遍指数=姓氏人口数量
        * 要求：
            -- 将数据按照“姓”做统计，找到数量最多的TOP20
            -- 分别制作图表，查看姓氏TOP20的数量以及占比 (建议用boken出柱状图，并且为联动图表)
            -- 查看“王”姓的全国分布
                (
                    1. 这里导出excel高版本文件，用powermap查看，绘制密度图
                    2. 同时可以尝试用echarts绘制空间柱状图来查看
                )
        * 提示：
            -- bokeh中绘制联动图表时用gridplot
            -- powermap 需要用office2016的excel才会有，并存储为xlsx格式
            -- powermap 中需要通过在 值 中设置 姓的计数 才能正确显示热力图
            -- powermap 中可以通过 主题 来调节配色风格 / 平面地图 选项来调整球面可视化 或者 平面可视化
            -- echarts 绘制图表之前，需要对数据按照 lng 或者lat 汇总，得到同一个地点的该姓氏人数 然后绘图
            -- echarts 通过设置以下参数来达到效果：视角远近、点柱大小
            
    3. 查看姓氏的“奔波指数”，奔波指数=姓氏人均迁徙距离(迁徙距离=户籍所在地的地级市 与 现居住地所在的地级市的距离)
        * 要求
            -- 根据识别的工作地，通过Geocoding查询到对应的坐标
            -- 选择一个姓氏，计算并查看姓氏的奔波指数，并计算该姓氏的人均通勤距离
                (在python中筛选数据之后，qgis内做空间分析)
            -- 按照起点和终点做计数，汇总同一个迁徙路径的数据
            -- 通过echart制作通勤OD图
                (
                    1. 可以将生成的line文件导出 geojson ，用空间线性轨迹图来表示
                    2. 这里线的valye为该迁徙路径的汇总计数
                )
        * 提示：
            -- 可以筛选一些好玩的姓氏：汤、朴、何、冉等等
            -- 需要对数据的工作地进行筛选，其中“工作地_市”、“工作地_区县”未识别的数据进行删除
            -- 导出数据时，尽量columns名用全英文，避免qgis中出现乱码
            -- 计算人均通勤距离的时候，需要删除掉户籍地与工作地相同的人(未迁移的人)
            -- 在官网metrodata.cn的小工具中找到 geocoding
            -- qgis中需要安装插件 LinePlotter来转线，并在qgis中计算平均通勤距离(需要投影，投影经度可选48)
            -- shapefile 转 geojson时，注意shapefile文件要投影回wgs84地理坐标系
''' 

'\n项目要求：\n    1. 数据清洗\\整合\n        * 要求：\n            -- 将 data01 data02 分别读取,并且合并成一个数据\n            -- 结合“户籍地城市编号”及“中国城市代码对照表”数据，将城市经纬度链接进数据中\n            -- 分别提取“工作地”中的 省、市\n        * 提示：\n            -- 可以先读取 data01 data02 然后用pd.concat()来链接数据\n            -- 新建字段“工作地-省”，“工作地-市”，“工作地-区县” 如果数据中“工作地”字段无法提取\n                省和市，则用“未识别”填充单元格。 \n            -- 通过查看识别后的单元格，如果字数超过5则为“未识别”\n'

In [4]:
'''
 前戏： 导入需要的包
'''
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from bokeh.plotting import figure,show,output_file
from bokeh.models import ColumnDataSource
import os

#不发出警告
import warnings
warnings.filterwarnings('ignore')  

In [None]:
'''
 1. 数据清洗\整合
        * 要求：
            -- 将 data01 data02 分别读取,并且合并成一个数据
            -- 结合“户籍地城市编号”及“中国城市代码对照表”数据，将城市经纬度链接进数据中
            -- 分别提取“工作地”中的 省、市
        * 提示：
            -- 可以先读取 data01 data02 然后用pd.concat()来链接数据
            -- 新建字段“工作地-省”，“工作地-市”，“工作地-区县” 如果数据中“工作地”字段无法提取
                省和市，则用“未识别”填充单元格。 
            -- 通过查看识别后的单元格，如果字数超过5则为“未识别”
'''
# 配置工作目录
os.chdir(r'')

# 读取数据
df01 = pd.read_csv('xxx.csv',encoding='utf-8')
df02 = pd.read_csv('xxx.csv',encoding='utf-8')
df_city = pd.read_excel('xxxx.xlsx',sheet_name=0)

# 数据合并
df = pd.concat([df01,df02])
df = pd.merge(df,df_city,left_on='户籍地城市编号',right_on='行政编码')
df['工作地'] = df['工作地'].str[:15]  # 获取前15个字符即可

# 删除无用字段
del df['户籍地城市编号']
del df['行政编码']

# 提取工作地的省，市，区县
df['工作地_省'] = df['工作地'].str.split('省').str[0]  # 提取-工作地省

df['工作地_市'] = df['工作地'].str.split('省').str[1].str.split('市').str[0] # 提取-工作地市
df['工作地_市'][df['工作地_省'].str.len()>5] = df['工作地_省'].str.split('市').str[0] # 如果在 工作地_省里面的字符长度大于5，那么就认为不是一个省 则默认再进行分割。

df['工作地_区县'] = '' # 提取-工作地区县
df['工作地_区县'][(df['工作地'].str.contains('区')) & (df['工作地_市'].str.len()<5)] = df['工作地'].str.split('市').str[1].str.split('区').str[0] + '区'
df['工作地_区县'][(df['工作地'].str.contains('区')) & (df['工作地_市'].str.len()>5)] = df['工作地'].str.split('区').str[0] + '区'
df['工作地_区县'][(df['工作地'].str.contains('县')) & (df['工作地_市'].str.len()<5)] = df['工作地'].str.split('市').str[1].str.split('县').str[0] + '县'
df['工作地_区县'][(df['工作地'].str.contains('县')) & (df['工作地_市'].str.len()>5)] = df['工作地'].str.split('县').str[0] + '县'

# 剔除无法识别的字段
df['工作地_省'][df['工作地_省'].str.len() > 5] = '未识别'
df['工作地_市'][df['工作地_市'].str.len() > 5] = '未识别'
df['工作地_区县'][df['工作地_区县'].str.len() > 5 | df['工作地_区县'].str.len() < 2] = '未识别'

# 修改列名称
df.columns = ['姓','工作地','户籍所在地_省','户籍所在地_市','户籍所在地_区县','户籍所在地_lnt','户籍所在地_lat','工作地_省','工作地_市','工作地_区县']

In [None]:
'''
  2. 查看姓氏的“普遍指数”，普遍指数=姓氏人口数量
        * 要求：
            -- 将数据按照“姓”做统计，找到数量最多的TOP20
            -- 分别制作图表，查看姓氏TOP20的数量以及占比 (建议用boken出柱状图，并且为联动图表)
            -- 查看“王”姓的全国分布
                (
                    1. 这里导出excel高版本文件，用powermap查看，绘制密度图
                    2. 同时可以尝试用echarts绘制空间柱状图来查看
                )
        * 提示：
            -- bokeh中绘制联动图表时用gridplot
            -- powermap 需要用office2016的excel才会有，并存储为xlsx格式
            -- powermap 中需要通过在 值 中设置 姓的计数 才能正确显示热力图
            -- powermap 中可以通过 主题 来调节配色风格 / 平面地图 选项来调整球面可视化 或者 平面可视化
            -- echarts 绘制图表之前，需要对数据按照 lng 或者lat 汇总，得到同一个地点的该姓氏人数 然后绘图
            -- echarts 通过设置以下参数来达到效果：视角远近、点柱大小
'''

# 数据统计 找到姓氏TOP20 的数据
name_count = df['姓'].value_counts()
result_01 = pd.DataFrame({'count': name_count,
                        'count_pre': name_count / name_count.sum()})

# matplotlib 画出柱状图
result_01.iloc[:20].plot(kind='bar',rot=0,figsize=(10,6))

# bokeh 画出联动柱状图
from bokeh.model import HoverTool
from bokeh.layouts import gridplot

# 创建数据
name_list = result_01.index.tolist()
source = ColumnDataSource(result_01)

output_file('pro_01.html') # 输出文件

# 绘图 —— 柱状图1
hover1 = HoverTool(tooltips = [('姓氏计数',"@count")])
result1 = figure(plot_width = 800,plot_height = 250,x_range = name_list,
                title = '中国姓氏TOP20 - 计数',
                tools = [hover1,'reset,xwheel_zoom,pan'])
result1.vbar(x = 'index',top='count',source=source,width=0.9,alpha=0.7,color='red')
result1.ygrid.grid_line_dash = [6,4]
result1.xgrid.grid_line_dash = [6,4]

# 绘图 —— 柱状图2
hover2 = HoverTool(tooltips = [('姓氏占比',"@count_pre")])
result2 = figure(plot_width = 800,plot_height = 250,x_range = result1.x_range,
                title = '中国姓氏TOP20 - 占比',
                tools = [hover2,'reset,xwheel_zoom,pan'])
result2.vbar(x = 'index',top='count',source=source,width=0.9,alpha=0.7,color='green')
result2.ygrid.grid_line_dash = [6,4]
result2.xgrid.grid_line_dash = [6,4]

# 绘制
p = gridplot([result1],[result2])
show(p)

# 查看 王 姓氏的分布
data_wang1 = df[df['姓'] == '王']

# 数据汇总(按照户籍所在地的 经度 维度  市 进行汇总)
data_wang2 = data_wang1.groupby(['户籍所在地_lng','户籍所在地_lat','户籍所在地_市'])['姓'].count()
data_wang2 = data_wang2.reset_index()
data_wang2.columns = ['lng','lat','city_name','value'] 

# 导出数据
writer = pd.ExcelWriter('wang.xlsx')
data_wang2.to_excel(writer,'sheet1',index=False)
writer.save()

'''
# excel中的将数据转换成json格式
import pandas as pd
import os

os.chdir(r'xxx')    # 输入文件所在路径
data = pd.read_excel('data.xlsx',sheet_name=0,header=0)
datajs = data.to_json(orient='records',force_ascii=False)
print('转换后的数据为:\n',datajs)
'''


In [None]:
'''
 3. 查看姓氏的“奔波指数”，奔波指数=姓氏人均迁徙距离(迁徙距离=户籍所在地的地级市 与 现居住地所在的地级市的距离)
        * 要求
            -- 根据识别的工作地，通过Geocoding查询到对应的坐标
            -- 选择一个姓氏，计算并查看姓氏的奔波指数，并计算该姓氏的人均通勤距离
                (在python中筛选数据之后，qgis内做空间分析)
            -- 按照起点和终点做计数，汇总同一个迁徙路径的数据
            -- 通过echart制作通勤OD图
                (
                    1. 可以将生成的line文件导出 geojson ，用空间线性轨迹图来表示
                    2. 这里线的valye为该迁徙路径的汇总计数
                )
        * 提示：
            -- 可以筛选一些好玩的姓氏：汤、朴、何、冉等等
            -- 需要对数据的工作地进行筛选，其中“工作地_市”、“工作地_区县”未识别的数据进行删除
            -- 导出数据时，尽量columns名用全英文，避免qgis中出现乱码
            -- 计算人均通勤距离的时候，需要删除掉户籍地与工作地相同的人(未迁移的人)
            -- 在官网metrodata.cn的小工具中找到 geocoding
            -- qgis中需要安装插件 LinePlotter来转线，并在qgis中计算平均通勤距离(需要投影，投影经度可选48)
            -- shapefile 转 geojson时，注意shapefile文件要投影回wgs84地理坐标系
'''

# 首先筛选数据
data_tang = df[['姓','户籍所在地_lng','户籍所在地_lat','工作地_市','工作地_区县']]
data_tang = data_tang[data_tang['工作地_市'] != '未识别']
data_tang = data_tang[data_tang['工作地_区县'] != '未识别']
# 修改 列名
data_tang.columns = ['familyname','birth_lng','birth_lat','work_lng','work_lat']
# 导出数据
writer = pd.ExcelWriter('tang.xsls')
data_tang.to_excel(writer,'sheet1',index=False)
writer.save()
