- 学习目标
- 能够使用 pyecharts 进行基本绘图操作

# echarts和Pyecharts简介

- echarts 简介:

- echarts 是一个使用 JavaScript 实现的开源可视化库，涵盖各行业图表，满足各种需求
- echarts 遵循 Apache-2.0 开源协议，免费商用
- echarts 兼容当前绝大部分浏览器（IE8/9/10/11、Chrome、Firefox、Safari等）及兼容多种设备，可随时随地任性展示- 

- pyecharts 简介：

- pyecharts 是一个用于生成 echarts 图表的 Python 开源类库
- 使用 echarts 的绘图效果比 matplotlib 等更加炫酷

# Pyecharts 绘图案例

- 由于前面的内容基本已经介绍了常用可视化图表和各自的特点，下面通过一个案例来介绍 Pyecharts 的使用：

- 案例中使用的 pyecharts 版本是 1.6.0 ，pyecharts 0.X版本和 1.X版本 API 变化较大，不能向下兼容，网上查资料的时候需要注意

## 案例数据说明

- 案例使用从招聘网站（拉钩、智联、前程无忧、猎聘）上爬取的一周之内数据分析在招岗位数据

- 分析目标：

- 哪些公司在招聘数据分析，哪些城市数据分析的需求大，不同城市数据分析的薪资情况，数据分析对工作年限的要求，数据分析对学历的要求

In [7]:
import pandas as pd

### 加载数据

In [8]:
job = pd.read_csv('./data/data_analysis_job.csv')
job.head()

Unnamed: 0,company_name,url,job_name,city,salary,experience,company_area,company_size,description
0,北京盛业恒泰投资有限公司,https://jobs.51job.com/beijing-cyq/104869885.h...,金融数据分析师,北京,6000-18000,,"金融/投资/证券,专业服务(咨询、人力资源、财会)",500-1000人,北京盛业恒泰投资有限公司，注册资金1000万人民币，是一家一站式金融服务的大型企业，旗下有在...
1,第一象限市场咨询（北京）有限公司,https://jobs.51job.com/beijing/122888080.html?...,数据分析师,北京,5000-8000,1年经验,"专业服务(咨询、人力资源、财会),互联网/电子商务",少于50人,工作职责：1、协同团队完成客户委托的市场研究项目，包括项目的设计、执行、分析、报告撰写和汇报...
2,北京超思电子技术有限责任公司,https://jobs.51job.com/beijing/123358754.html?...,市场数据分析专员,北京,7000-10000,1年经验,"电子技术/半导体/集成电路,医疗设备/器械",500-1000人,岗位职责：1、业务数据分析l编写月度、季度、年度业务数据分析报告，开展各类与业务销售数据分析...
3,北京麦优尚品科贸有限公司,https://jobs.51job.com/beijing-cyq/79448137.ht...,数据分析员,北京,8000-10000,1年经验,"快速消费品(食品、饮料、化妆品),互联网/电子商务",50-150人,1、根据运营总监安排，实施具体数据分析工作。2、负责数据的审核工作，确保数据的准确性。3、总...
4,北京磐程科技有限公司,https://jobs.51job.com/beijing-cyq/123321410.h...,金融数据分析师,北京,8000-10000,1年经验,金融/投资/证券,50-150人,1.人品端正，有责任心，愿与公司一同成长进步；2.以金融行业为最后的事业并为之奋斗一生;3....


In [9]:
# 查看数据形状
job.shape

(7926, 9)

In [10]:
# 查看数据字段
job.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7926 entries, 0 to 7925
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   company_name  7926 non-null   object
 1   url           7926 non-null   object
 2   job_name      7926 non-null   object
 3   city          7926 non-null   object
 4   salary        7926 non-null   object
 5   experience    7208 non-null   object
 6   company_area  7556 non-null   object
 7   company_size  7838 non-null   object
 8   description   7926 non-null   object
dtypes: object(9)
memory usage: 557.4+ KB


## 哪些城市数据分析岗位多

### 示例：获取招聘数据分析岗位最多的 TOP20 城市

In [11]:
city_job_list = job.groupby('city')['url'].count().sort_values(ascending=False)
city_job_top20 = city_job_list.head(20)
city_job_top20

city
北京    1608
上海    1176
广州    1033
深圳     820
杭州     395
成都     348
武汉     320
西安     248
南京     222
苏州     150
合肥     140
重庆     130
长沙     128
济南     123
郑州     114
太原     113
青岛      94
大连      94
东莞      83
无锡      81
Name: url, dtype: int64

### 使用 pyechart 绘制柱状图

In [12]:
from pyecharts import options as opts
from pyecharts.charts import Bar

In [13]:
c = (
    Bar()# 创建柱状图
    .add_xaxis(city_job_top20.index.tolist())#添加x轴数据
    .add_yaxis('数据分析就业岗位数量',city_job_top20.values.tolist())# 添加y轴数据
    .set_global_opts(#设置全局参数
        title_opts=opts.TitleOpts(title='一周内Python就业岗位数量'),# 设置标题
        datazoom_opts=opts.DataZoomOpts() # 添加缩放条
    )
)
# 在jupyter notebook中显示
c.render_notebook()

- 结果说明：从结果中可以看出，北京上海广州深圳等一线城市，对数据分析的需求最为旺盛

## 哪些公司在招聘数据分析

### 示例：获取招聘数据分析岗位最多的 TOP100 公司

In [14]:
company_list = job.groupby('company_name')['url'].count().sort_values(ascending=False)
company_list_top100 = company_list.head(100)
company_list

company_name
北京字节跳动科技有限公司      213
武汉益越商务信息咨询有限公司     85
北京融汇天诚投资管理有限公司     81
字节跳动               67
腾讯科技（深圳）有限公司       43
                 ... 
宁波利特网络科技有限公司        1
宁波塔塔母婴科技有限公司        1
宁波奥丞生物科技有限公司        1
宁波宝锐进出口有限公司         1
龙光基业集团有限公司          1
Name: url, Length: 4332, dtype: int64

### 使用 pyecharts 绘制词云图

In [15]:
from pyecharts.charts import WordCloud
wc = (
    WordCloud()# 创建词云图对象
    .add(series_name='哪些公司在招聘数据分析程序员',# 添加标题
         data_pair=list(zip(company_list.index.tolist(),company_list.values.tolist())),
         word_size_range=[6,40] # 设置文字大小，注意如果字体太大可能显示不全
        )
    .set_global_opts(# 设置全局参数，标题|字号
        title_opts=opts.TitleOpts(title='哪些公司在招聘数据分析程序员',
                                 title_textstyle_opts=opts.TextStyleOpts(font_size=23))
    )
)
wc.render_notebook()

## 岗位数量与平均起薪分布

### 数据清洗

- 提取起薪：

- 原始数据中大多数薪资都以6000-18000形式显示，需要对数据进行处理，提取出起薪，可以使用正则表达式，配合 apply 自定义函数，将工作起薪提取出来

#### 定义提取工作起薪的函数

In [16]:
# 数据清洗，提取起薪
import re
def get_salary_down(x):
    if('面议' in x) or ('小时' in x) or ('以' in x):
        return 0
    elif '元' in x:
        return int(re.search(pattern="([0-9]+)-([0-9]+)元/月",string=x).group(1))
    elif '-' in x:
        return int(re.search(pattern="([0-9]+)-([0-9]+)",string=x).group(1))
    else:
        return int(x)

#### 提取起薪数据之前，首先处理缺失值，将缺失数据去掉并提取起薪

In [17]:
# 删除salary有缺失值的行
job.dropna(subset=['salary'],inplace=True)
# 提取起薪，添加salary_down列
job['salary_down'] = job.salary.apply(get_salary_down)
job.head(3)

Unnamed: 0,company_name,url,job_name,city,salary,experience,company_area,company_size,description,salary_down
0,北京盛业恒泰投资有限公司,https://jobs.51job.com/beijing-cyq/104869885.h...,金融数据分析师,北京,6000-18000,,"金融/投资/证券,专业服务(咨询、人力资源、财会)",500-1000人,北京盛业恒泰投资有限公司，注册资金1000万人民币，是一家一站式金融服务的大型企业，旗下有在...,6000
1,第一象限市场咨询（北京）有限公司,https://jobs.51job.com/beijing/122888080.html?...,数据分析师,北京,5000-8000,1年经验,"专业服务(咨询、人力资源、财会),互联网/电子商务",少于50人,工作职责：1、协同团队完成客户委托的市场研究项目，包括项目的设计、执行、分析、报告撰写和汇报...,5000
2,北京超思电子技术有限责任公司,https://jobs.51job.com/beijing/123358754.html?...,市场数据分析专员,北京,7000-10000,1年经验,"电子技术/半导体/集成电路,医疗设备/器械",500-1000人,岗位职责：1、业务数据分析l编写月度、季度、年度业务数据分析报告，开展各类与业务销售数据分析...,7000


In [18]:
# 数值异常值处理
# 查看起薪结构
job['salary_down'].value_counts().sort_index()

0         141
1000        5
1500        8
1800        1
2000       79
         ... 
60000       3
62500       1
70000       2
80000       1
100000      1
Name: salary_down, Length: 92, dtype: int64

- 从处理的起薪中发现，有一些异常数据：

- 特别低的：小于3000
- 特别高的：大于80000- 

- 异常值处理：直接删除

In [19]:
job_salary = job.query('salary_down >3000 & salary_down < 80000')
job_salary

Unnamed: 0,company_name,url,job_name,city,salary,experience,company_area,company_size,description,salary_down
0,北京盛业恒泰投资有限公司,https://jobs.51job.com/beijing-cyq/104869885.h...,金融数据分析师,北京,6000-18000,,"金融/投资/证券,专业服务(咨询、人力资源、财会)",500-1000人,北京盛业恒泰投资有限公司，注册资金1000万人民币，是一家一站式金融服务的大型企业，旗下有在...,6000
1,第一象限市场咨询（北京）有限公司,https://jobs.51job.com/beijing/122888080.html?...,数据分析师,北京,5000-8000,1年经验,"专业服务(咨询、人力资源、财会),互联网/电子商务",少于50人,工作职责：1、协同团队完成客户委托的市场研究项目，包括项目的设计、执行、分析、报告撰写和汇报...,5000
2,北京超思电子技术有限责任公司,https://jobs.51job.com/beijing/123358754.html?...,市场数据分析专员,北京,7000-10000,1年经验,"电子技术/半导体/集成电路,医疗设备/器械",500-1000人,岗位职责：1、业务数据分析l编写月度、季度、年度业务数据分析报告，开展各类与业务销售数据分析...,7000
3,北京麦优尚品科贸有限公司,https://jobs.51job.com/beijing-cyq/79448137.ht...,数据分析员,北京,8000-10000,1年经验,"快速消费品(食品、饮料、化妆品),互联网/电子商务",50-150人,1、根据运营总监安排，实施具体数据分析工作。2、负责数据的审核工作，确保数据的准确性。3、总...,8000
4,北京磐程科技有限公司,https://jobs.51job.com/beijing-cyq/123321410.h...,金融数据分析师,北京,8000-10000,1年经验,金融/投资/证券,50-150人,1.人品端正，有责任心，愿与公司一同成长进步；2.以金融行业为最后的事业并为之奋斗一生;3....,8000
...,...,...,...,...,...,...,...,...,...,...
7919,国汽(北京)智能网联汽车研究院有限公司,https://www.liepin.com/job/1917860209.shtml,数据挖掘与建模工程师,北京,15000-25000,3-5年,,100-499人,岗位职责：1)基于实车测试和驾驶模拟实验数据，进行针对驾驶人、车辆、环境参数的数据挖掘；2)...,15000
7920,美团点评,https://www.liepin.com/job/1924310723.shtml,数据挖掘高级工程师/技术专家,北京,50000-80000,经验不限,,10000人以上,工作职责：岗位职责：1、负责小象新零售智能算法，通过算法来提升新零售各个环节效率。具体工作包...,50000
7921,北京快手科技有限公司,https://www.liepin.com/job/1925411961.shtml,数据挖掘专家,深圳,30000-60000,3-5年,,5000-10000人,数据挖掘算法工程师，要求5年经验起,30000
7922,浙江孚临科技有限公司,https://www.liepin.com/job/1929650055.shtml,数据挖掘建模工程师,杭州,12000-18000,经验不限,,50-99人,1、客户营销风控模型建设及运营,12000


### 数据处理

#### 将所有城市的薪资和就业岗位数合并到一起

In [20]:
# 统计所有城市的数据分析岗位数据和起薪的平均值
city_salary = job_salary.groupby('city').agg({'url':'count','salary_down':'mean'})
city_salary.head()

Unnamed: 0_level_0,url,salary_down
city,Unnamed: 1_level_1,Unnamed: 2_level_1
上海,1119,10795.126005
东莞,70,5580.042857
北京,1505,13882.837209
南京,210,6601.804762
南昌,46,6279.217391


In [21]:
# 修改列标签
city_salary.columns = ['job_count','salary_down']
city_salary.head()

Unnamed: 0_level_0,job_count,salary_down
city,Unnamed: 1_level_1,Unnamed: 2_level_1
上海,1119,10795.126005
东莞,70,5580.042857
北京,1505,13882.837209
南京,210,6601.804762
南昌,46,6279.217391


In [22]:
# 按照工作岗位数量和起薪降序排列
city_salary = city_salary.sort_values(by=['job_count','salary_down'],ascending=[False,False])
city_salary = city_salary.reset_index()
city_salary.head()

Unnamed: 0,city,job_count,salary_down
0,北京,1505,13882.837209
1,上海,1119,10795.126005
2,广州,889,7819.732283
3,深圳,775,10305.392258
4,杭州,358,9756.156425


In [23]:
from pyecharts.charts import Scatter
from pyecharts.commons.utils import JsCode

sc = Scatter().add_xaxis(# 添加x轴
    city_salary.salary_down.astype(int)
).add_yaxis(# 添加y轴
    series_name='数据分析岗位数量',# y轴数据说明
    y_axis=[list(z) for z in zip(city_salary.job_count,city_salary.city)],# y轴数据：岗位，城市
    label_opts=opts.LabelOpts(# Js代码控制气泡显示提示文字
        formatter=JsCode('function(params){return params.value[2]}')
    )
).set_global_opts(# 全局设置
    title_opts=opts.TitleOpts(title='数据分析就业岗位数量与平均起薪'),# 设置标题
    tooltip_opts=opts.TooltipOpts(# Js代码控制气泡弹窗提示文字
        formatter=JsCode("function(params){return params.value[2]+'平均薪资：'+params.value[0]}")
    ),
    visualmap_opts=opts.VisualMapOpts(# 控制
        type_="size",max_=1500,min_=200,dimension=1
    ),
    xaxis_opts=opts.AxisOpts(min_=6000,name='平均起薪'),#设置x轴起始值以及x轴名字
    yaxis_opts=opts.AxisOpts(min_=300,max_=1550,name='岗位数量')# 设置y轴起始值以及y轴名字
)

sc.render_notebook()

## 工作经验需求分析

### 数据清洗

In [24]:
# 提取要求工作经验
job.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7926 entries, 0 to 7925
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   company_name  7926 non-null   object
 1   url           7926 non-null   object
 2   job_name      7926 non-null   object
 3   city          7926 non-null   object
 4   salary        7926 non-null   object
 5   experience    7208 non-null   object
 6   company_area  7556 non-null   object
 7   company_size  7838 non-null   object
 8   description   7926 non-null   object
 9   salary_down   7926 non-null   int64 
dtypes: int64(1), object(9)
memory usage: 619.3+ KB


#### 提取要求工作经验数据之前，首先处理缺失值

In [25]:
job.experience.fillna('未知',inplace=True)
job['experience'].value_counts()

1-3年       1197
1年经验        897
不限          854
3-5年        763
未知          718
2年经验        555
经验3-5年      519
经验不限        483
3-4年经验      438
无需经验        387
经验1-3年      276
5-10年       206
经验5-10年     155
无经验         130
5-7年经验      103
1年以下         97
经验应届毕业生      95
10年以上        16
经验1年以下       15
8-9年经验        9
一年以下          8
经验10年以上       3
10年以上经验       2
Name: experience, dtype: int64

#### 定义提取要求工作经验的函数

In [26]:
def process_experience(x):
    if x in ['1-3年','2年经验','经验1-3年']:
        return '1-3年'
    elif x in ['3-5年','经验3-5年','3-4年经验']:
        return '3-5年'
    elif x in ['1年经验', '1年以下', '经验1年以下', '一年以下', '经验应届毕业生','不限','经验不限','无需经验','无经验']:
        return '一年以下/应届生/经验不限'
    elif x in ['5-10年','经验5-10年','5-7年经验','8-9年经验','10年以上经验','10年以上','经验10年以上']:
        return '5年以上'
    else:
        return x

#### 提取要求工作经验

In [27]:
job['exp'] = job.experience.apply(process_experience)
job_experience = job['exp'].value_counts()
job_experience

一年以下/应届生/经验不限    2966
1-3年             2028
3-5年             1720
未知                718
5年以上              494
Name: exp, dtype: int64

### 绘制饼状图

In [28]:
from pyecharts.charts import Pie
pie = Pie().add(
    series_name='经验要求',
    data_pair=[
        list(z) for z in zip(job_experience.index.to_list(),job_experience.values.tolist())
    ],
    radius=['50%','70%'],
    label_opts=opts.LabelOpts(is_show=False,position='center')
).set_global_opts(
    title_opts=opts.TitleOpts(title='数据分析工作经验需求'),
    legend_opts=opts.LegendOpts(pos_left='right',orient='vertical')
).set_series_opts(
    tooltip_opts=opts.TooltipOpts(
        trigger='item',
        formatter="{a}<br/>{b}:{c} ({d}%)"
    )
)

pie.render_notebook()

# 总结
- echarts 是基于 js 的开源可视化库，pyecharts 是 echarts 的 python 封装，利用 pyecharts 可以绘制具备交互性的炫酷图形
- pyecharts 1.*版本的绘图 api 还是具有一定规律的
- Bar()、Pie() .... 创建绘图对象
- .add()、.add_xaxis()、.add_yaxis()添加数据
- .set_global_opts() 设置全局参数
- .render_notebook()：在notebook中绘制
- .render()：生成文件
- 更加详细的 API 可以参考 pyecharts 的官方文档和案例