In [227]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

%config InlineBackend.figure_format = 'svg'

In [271]:
job = pd.read_csv('data/job.csv')
job.head()

Unnamed: 0,job_name,company_name,companytype_text,providesalary_text,workarea_text,jobwelf,updatedate,attribute_text
0,战略专家,美团,上市公司,,北京-朝阳区,,10-14,"['北京-朝阳区', '5-7年经验', '招1人']"
1,45352-研发项目管理组长,深圳市腾讯计算机系统有限公司,民营公司,,深圳,,10-14,"['深圳', '3-4年经验', '本科', '招1人']"
2,策略专员-账号,腾讯科技（北京）有限公司,民营公司,1-2万/月,北京-海淀区,六险一金 餐饮补贴 交通补贴 专业培训 年终奖金 班次津贴,10-14,"['北京-海淀区', '1年经验', '本科', '招8人']"
3,销售助理,新浪上海,合资,6-8千/月,上海-静安区,五险一金 补充公积金 节日福利 定期体检,10-14,"['上海-静安区', '无需经验', '本科', '招若干人']"
4,城市经理,美团,上市公司,3-4.5万/月,天津,,10-14,"['天津', '5-7年经验', '大专', '招1人']"


In [272]:
job.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   job_name            2500 non-null   object
 1   company_name        2500 non-null   object
 2   companytype_text    2500 non-null   object
 3   providesalary_text  2496 non-null   object
 4   workarea_text       2500 non-null   object
 5   jobwelf             2083 non-null   object
 6   updatedate          2500 non-null   object
 7   attribute_text      2500 non-null   object
dtypes: object(8)
memory usage: 156.4+ KB


In [273]:
# 数据清洗
# 删除薪资为空的数据
null_index = job[job.providesalary_text.isnull()].index

In [274]:
job.drop(null_index, inplace=True)

In [275]:
job.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2496 entries, 2 to 2499
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   job_name            2496 non-null   object
 1   company_name        2496 non-null   object
 2   companytype_text    2496 non-null   object
 3   providesalary_text  2496 non-null   object
 4   workarea_text       2496 non-null   object
 5   jobwelf             2082 non-null   object
 6   updatedate          2496 non-null   object
 7   attribute_text      2496 non-null   object
dtypes: object(8)
memory usage: 175.5+ KB


In [279]:
job.reset_index(inplace=True)

In [283]:
job.providesalary_text.unique()

array(['1-2万/月', '6-8千/月', '3-4.5万/月', '4-8千/月', '2-3.5万/月', '1.5-2万/月',
       '3-4千/月', '2-4万/月', '0.8-1.2万/月', '7-14万/年', '0.6-1万/月',
       '4.5-6千/月', '0.8-1.5万/月', '5-9千/月', '2-2.5万/月', '0.7-1万/月',
       '0.8-1万/月', '1.5-2.5万/月', '1-1.5万/月', '5-8千/月', '3-4万/月',
       '2.3-4.5万/月', '5.5-9千/月', '0.8-1.3万/月', '3-5千/月', '4-7千/月',
       '0.5-1万/月', '0.7-1.1万/月', '0.8-1.6万/月', '8-10万/年', '3.5-5.5万/月',
       '6-9千/月', '0.6-1.2万/月', '1.5-3万/月', '2-3万/月', '0.7-1.2万/月',
       '2.5-3万/月', '1-1.8万/月', '0.3-1万/月', '4-6千/月', '5-7千/月',
       '1.1-1.3万/月', '1.3-1.8万/月', '1.2-1.8万/月', '1.2-2.3万/月', '5-6千/月',
       '7.5-8.5千/月', '7-9千/月', '7-8千/月', '3.5-5千/月', '3-4.5千/月', '4-5千/月',
       '0.4-1万/月', '3-6千/月', '0.5-2.5万/月', '4.5-9千/月', '15-20万/年',
       '0.9-1.4万/月', '11-18万/年', '1.2-1.7万/月', '3.5-4.5千/月', '0.8-2万/月',
       '0.7-1.4万/月', '1.1-2万/月', '1-3万/月', '1.1-2.2万/月', '19-27万/年',
       '3.8-4.5千/月', '1.5-1.8万/月', '4.8-6.5千/月', '2.5-3.5万/月', '30-40万/年',
       '4.5-7.5千/月', '1.5-1.7万

In [280]:
# 删除异常值（有几个数据薪资是以日/小时、天/每小时计算的，需要删除）
delete_index = []
for i, salary in enumerate(job.providesalary_text.tolist()):
    if salary.endswith('天') or salary.endswith('小时'):
        delete_index.append(i)
delete_index

[880, 1902, 2047, 2052, 2251, 2371]

In [281]:
job.iloc[delete_index, :]

Unnamed: 0,index,job_name,company_name,companytype_text,providesalary_text,workarea_text,jobwelf,updatedate,attribute_text
880,884,运营助理（***，实习）,上海风许网络科技有限公司,民营公司,150元/天,上海-闵行区,五险一金 交通补贴 餐饮补贴 专业培训 年终奖金 弹性工作,10-14,"['上海-闵行区', '无需经验', '大专', '招2人']"
1902,1906,客服专员（调度team）深夜班,建顺信息科技（广州）有限公司,外资（非欧美）,26元/小时,广州-天河区,弹性工作 专业培训,10-14,"['广州-天河区', '无需经验', '中专', '招2人']"
2047,2051,产品修图,成都部落窝科技有限公司,民营公司,120元/小时,成都-成华区,绩效奖金 弹性工作,10-14,"['成都-成华区', '2年经验', '大专', '招2人']"
2052,2056,电商平台上架产品,珠海市鲜茗叶茶业有限公司,创业公司,110元/天,中山-坦洲镇,,10-14,"['中山-坦洲镇', '无需经验', '招1人']"
2251,2255,天猫直播客服,优盘联队（苏州）电子商务有限公司,民营公司,25元/小时,苏州-工业园区,,10-14,"['苏州-工业园区', '无需经验', '高中', '招5人']"
2371,2375,售前客服,极易电商,民营公司,120元/天,苏州-吴中区,五险一金 员工旅游 绩效奖金 弹性工作 定期体检,10-14,"['苏州-吴中区', '无需经验', '招40人']"


In [282]:
job.drop(delete_index, inplace=True)

In [235]:
job.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2490 entries, 2 to 2499
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   job_name            2490 non-null   object
 1   company_name        2490 non-null   object
 2   companytype_text    2490 non-null   object
 3   providesalary_text  2490 non-null   object
 4   workarea_text       2490 non-null   object
 5   jobwelf             2076 non-null   object
 6   updatedate          2490 non-null   object
 7   attribute_text      2490 non-null   object
dtypes: object(8)
memory usage: 175.1+ KB


In [236]:
job.attribute_text.apply(lambda x: x[1:-1].split(','))

2          ['北京-海淀区',  '1年经验',  '本科',  '招8人']
3         ['上海-静安区',  '无需经验',  '本科',  '招若干人']
4            ['天津',  '5-7年经验',  '大专',  '招1人']
5             ['淄博',  '无需经验',  '大专',  '招20人']
6       ['上海-浦东新区',  '5-7年经验',  '本科',  '招1人']
                        ...                  
2495     ['上海-浦东新区',  '无需经验',  '中技',  '招10人']
2496      ['杭州-滨江区',  '无需经验',  '高中',  '招10人']
2497     ['南京-江宁区',  '3-4年经验',  '本科',  '招2人']
2498       ['广州-天河区',  '1年经验',  '本科',  '招3人']
2499       ['杭州-拱墅区',  '1年经验',  '大专',  '招1人']
Name: attribute_text, Length: 2490, dtype: object

In [237]:
job['province'] = job.workarea_text.apply(lambda x: x.split('-')[0])

In [238]:
province_city = pd.read_csv('data/province_city.csv')
province_city[' 城市'] = province_city[' 城市'].apply(lambda x: x.lstrip(' '))

In [239]:
province_city.rename(columns={'省份': '省份', ' 城市': '城市'}, inplace=True)

In [240]:
province_city_dict = dict(zip(province_city['城市'].tolist(),province_city['省份'].tolist()))

In [241]:
def replace_province(x):
    if x.endswith('省') or x in ['北京', '上海', '重庆', '天津']:
        return x
    else:
        return province_city_dict[x]

In [242]:
job['province'] = job.province.apply(replace_province)

In [243]:
job.head()

Unnamed: 0,job_name,company_name,companytype_text,providesalary_text,workarea_text,jobwelf,updatedate,attribute_text,province
2,策略专员-账号,腾讯科技（北京）有限公司,民营公司,1-2万/月,北京-海淀区,六险一金 餐饮补贴 交通补贴 专业培训 年终奖金 班次津贴,10-14,"['北京-海淀区', '1年经验', '本科', '招8人']",北京
3,销售助理,新浪上海,合资,6-8千/月,上海-静安区,五险一金 补充公积金 节日福利 定期体检,10-14,"['上海-静安区', '无需经验', '本科', '招若干人']",上海
4,城市经理,美团,上市公司,3-4.5万/月,天津,,10-14,"['天津', '5-7年经验', '大专', '招1人']",天津
5,国企高薪诚聘电子商务,太平洋保险在线服务科技有限公司山东分公司,国企,4-8千/月,淄博,五险一金 交通补贴 餐饮补贴 年终奖金 绩效奖金 企业年金 商业保险 周末双休 职工餐厅 带薪培训,10-14,"['淄博', '无需经验', '大专', '招20人']",山东省
6,市场营销经理,网易,上市公司,2-3.5万/月,上海-浦东新区,五险一金 包吃 包三餐 带薪年假 交通补贴 定期体检 商业保险 年终奖金,10-14,"['上海-浦东新区', '5-7年经验', '本科', '招1人']",上海


In [244]:
job.providesalary_text.unique()

array(['1-2万/月', '6-8千/月', '3-4.5万/月', '4-8千/月', '2-3.5万/月', '1.5-2万/月',
       '3-4千/月', '2-4万/月', '0.8-1.2万/月', '7-14万/年', '0.6-1万/月',
       '4.5-6千/月', '0.8-1.5万/月', '5-9千/月', '2-2.5万/月', '0.7-1万/月',
       '0.8-1万/月', '1.5-2.5万/月', '1-1.5万/月', '5-8千/月', '3-4万/月',
       '2.3-4.5万/月', '5.5-9千/月', '0.8-1.3万/月', '3-5千/月', '4-7千/月',
       '0.5-1万/月', '0.7-1.1万/月', '0.8-1.6万/月', '8-10万/年', '3.5-5.5万/月',
       '6-9千/月', '0.6-1.2万/月', '1.5-3万/月', '2-3万/月', '0.7-1.2万/月',
       '2.5-3万/月', '1-1.8万/月', '0.3-1万/月', '4-6千/月', '5-7千/月',
       '1.1-1.3万/月', '1.3-1.8万/月', '1.2-1.8万/月', '1.2-2.3万/月', '5-6千/月',
       '7.5-8.5千/月', '7-9千/月', '7-8千/月', '3.5-5千/月', '3-4.5千/月', '4-5千/月',
       '0.4-1万/月', '3-6千/月', '0.5-2.5万/月', '4.5-9千/月', '15-20万/年',
       '0.9-1.4万/月', '11-18万/年', '1.2-1.7万/月', '3.5-4.5千/月', '0.8-2万/月',
       '0.7-1.4万/月', '1.1-2万/月', '1-3万/月', '1.1-2.2万/月', '19-27万/年',
       '3.8-4.5千/月', '1.5-1.8万/月', '4.8-6.5千/月', '2.5-3.5万/月', '30-40万/年',
       '4.5-7.5千/月', '1.5-1.7万