# 目的

利用pyecharts对数据分析岗位地域分布进行可视化展示

# 数据加载

In [1]:
import pandas as pd
from pyecharts import Geo

In [2]:
df = pd.read_csv('.\data\Lagou_Data.csv',encoding='gbk')

In [3]:
df.head().T.sort_index()

Unnamed: 0,0,1,2,3,4
avgSalary,6.5,13,15,37.5,1.5
bottomSalary,5,10,10,25,1
businessZones,"{石牌,岗顶,龙口}",,"{鲁班路,五里桥,鲁班路,五里桥,鲁班路,五里桥}",,"{西溪,古墩路,古墩路}"
city,广州,北京,上海,上海,杭州
companyFullName,广州易幻网络科技有限公司,人人贷商务顾问（北京）有限公司,鼎必程（上海）信息技术有限公司,唯品会（中国）有限公司,上海依图信息技术有限公司
companyId,6138,6678,151036,4760,68457
companyLabelList,"{年底双薪,绩效奖金,年度旅游,六险一金}","{绩效奖金,年底双薪,五险一金,交通补助}","{年底双薪,带薪年假,定期体检,交通补助}","{技能培训,节日礼物,绩效奖金,岗位晋升}","{技能培训,带薪年假,绩效奖金,扁平管理}"
companyShortName,易幻网络,人人贷,群星金融,唯品会,依图科技
companySize,150-500人,500-2000人,50-150人,2000人以上,150-500人
content,岗位职责1.挖掘及分析游戏项目数据2.管理及建立数据模型3.游戏用户行为分析4.定期编写相关...,工作职责：1.建立相关统计模型，对用户交易数据进行挖掘，对公司战略决策、业务优化需求提供支撑...,岗位职责：1)负责应收账款的基础数据分析，包括资产透析，可视化渲染以及最终分析报告；2)深入...,岗位职责:1、对业务部门进行数据需求支持，挖掘分析主题，开展数据分析工作，基于数据分析成果，...,全职/实习/兼职皆可职责定义：?活跃度运营：调动标注人员的积极性，维护合作关系；面向标注人员...


# 数据清理

In [4]:
#删除经纬度空值
df = df.dropna(subset=['longitude','latitude'])

In [5]:
#删除经纬度为0异常值
#其它异常数值经纬度暂时没办法清理
df = df[df['longitude'] != 0]
df = df[df['latitude'] != 0]

In [6]:
df.reset_index(inplace=True)

# 可视化

## 自定义经纬度

In [7]:
#经纬度格式
#{<name>: [<longitude>, <latitude>]}

In [8]:
#构造示例
#id = ['1','2','3']
#longitude = ['113.339550', '116.330778', '121.475215']
#latitude = ['23.136700', '39.994714', '31.183898']
#data = pd.DataFrame(list(zip(id,longitude,latitude)),columns=['id','longitude','latitude'])
#dict_country = data.set_index('id').T.to_dict('list')

In [9]:
data = df[['companyId','longitude','latitude']]

In [10]:
coords = data.set_index('companyId').T.to_dict('list')



## 数据格式转换

In [11]:
#data = [('海门', 9),('鄂尔多斯', 12)]

In [12]:
#转换数据格式
data1 = list(map(lambda x:(df.companyId[x],1),range(len(df))))

## 作图

In [13]:

#geo = Geo('主标题','副标题',字体颜色='白色',字体位置='中间'，宽度=800,高度=500,背景颜色=‘#404a59')
geo = Geo('全国数据分析岗位地域分布','来源3.12-4.12拉勾网数据' ,title_color='#fff', title_pos='center',width=800, height=500, background_color='#404a59')

#属性、数值对应的映射关系,attr是属性,value是该属性对应的数值
attr, value =geo.cast(data1)

# ''设置为空值，系列名称，适用于多图对比。
# atrr是属性，value为对应数值。
# maptype地图范围，type为图例类型，有'scatter', 'effectscatter', 'heatmap'可选。
# visual_range是可视范围,范围越大图效果越低。
# visual_text_color是地图文本字体颜色为白色。
# symbol_size为图形大小，scatter适用。
# is_visualmap否进行可视化为True.
# geo_cities_coords自定义经纬数据
geo.add('', attr, value, maptype='china', type='heatmap' ,visual_range=[0, 80], visual_text_color='#fff', symbol_size=5,geo_cities_coords=coords, is_visualmap=True)

#渲染为html文件
geo.render('全国数据分析岗位地域分布可视化.html')
geo

# 总结

- 同样效果没Tableau便捷，不过胜在免费开源。
- pycharts遇到问题搜索引擎无法解决时，可浏览官方源码寻找解决办法。
- 拉勾网岗位经纬度有异常值，可信度？？
- 下一步可调用百度地图接口获取经纬度进行可视化展示