In [2]:
import collections
import re
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt

In [3]:
data = pd.read_csv('job.csv')
df = pd.DataFrame(data)

In [4]:
plt.rcParams['font.sans-serif'] = ['SimHei']  # 显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 设置正常显示符号
pd.set_option('max_colwidth',100)

In [5]:
df.head()

Unnamed: 0,工作名称,工作地点,工作公司,工作薪资,工作学历,工作标签,工作经验,招聘详情页链接
0,高级python开发工程师,北京·朝阳区·百子湾,迈外迪,20-35K,本科,新零售,5-10年,https://www.zhipin.com/gongsi/7fdcdfff003aeae11XZ_3dW9Eg~~.html
1,Python工程师,北京·海淀区·西北旺,纬创软件,15-24K,大专,计算机软件,3-5年,https://www.zhipin.com/gongsi/fc705eb462e9b27b1HJ-2t60GA~~.html
2,仿真开发工程师,北京·海淀区·五道口,魔门塔科技,20-40K,本科,计算机软件,1-3年,https://www.zhipin.com/gongsi/a3fff9582538ae7f03J92d27.html
3,软件工程师-通才,北京·海淀区·西北旺,小马慧行,30-60K·16薪,本科,互联网,3-5年,https://www.zhipin.com/gongsi/946657ff8adb68be3nFy3928GQ~~.html
4,数据服务技术支持专家,北京·朝阳区·鸟巢,今日头条,15-30K,本科,移动互联网,3-5年,https://www.zhipin.com/gongsi/a67b361452e384e71XV82N4~.html


In [6]:
print("\n查看是否有缺失值\n", df.isnull().sum())


查看是否有缺失值
 工作名称       0
工作地点       0
工作公司       0
工作薪资       0
工作学历       0
工作标签       0
工作经验       0
招聘详情页链接    0
dtype: int64


In [7]:
df_keyword = df.loc[~df['工作薪资'].str.contains('元')]
print(df_keyword)#筛选带有元的行

               工作名称            工作地点   工作公司        工作薪资 工作学历   工作标签   工作经验  \
0     高级python开发工程师      北京·朝阳区·百子湾    迈外迪      20-35K   本科    新零售  5-10年   
1         Python工程师      北京·海淀区·西北旺   纬创软件      15-24K   大专  计算机软件   3-5年   
2           仿真开发工程师      北京·海淀区·五道口  魔门塔科技      20-40K   本科  计算机软件   1-3年   
3          软件工程师-通才      北京·海淀区·西北旺   小马慧行  30-60K·16薪   本科    互联网   3-5年   
4        数据服务技术支持专家       北京·朝阳区·鸟巢   今日头条      15-30K   本科  移动互联网   3-5年   
...             ...             ...    ...         ...  ...    ...    ...   
4009         RPA工程师  呼和浩特·赛罕区·乌兰察布路   揉石科技        4-8K   大专  计算机软件   1-3年   
4010    Python开发工程师     呼和浩特·新城区·鼓楼   亿丰项目      10-14K   本科  计算机软件   1-3年   
4011    Python开发工程师     呼和浩特·新城区·鼓楼     巨鹏        5-7K   大专  移动互联网   1-3年   
4012         Python   呼和浩特·赛罕区·大学东路  鄂尔浑软件       5-10K   高中   电子商务   1-3年   
4013         Python            呼和浩特   爱扽防伪      10-15K   大专  计算机软件   经验不限   

                                                              招聘详情页链接  
0  

In [8]:
df = df_keyword

In [9]:
# 最小工资
df_salary_min = df['工作薪资'].str.split('-', expand=True)[0]
print(df_salary_min)  # 区间最小薪资
# Dataframe新增一列  在第 列新增一列名为' ' 的一列 数据
df.insert(4, '最小薪资(K)', df_salary_min)
print(df)

0       20
1       15
2       20
3       30
4       15
        ..
4009     4
4010    10
4011     5
4012     5
4013    10
Name: 0, Length: 3939, dtype: object
               工作名称            工作地点   工作公司        工作薪资 最小薪资(K) 工作学历   工作标签  \
0     高级python开发工程师      北京·朝阳区·百子湾    迈外迪      20-35K      20   本科    新零售   
1         Python工程师      北京·海淀区·西北旺   纬创软件      15-24K      15   大专  计算机软件   
2           仿真开发工程师      北京·海淀区·五道口  魔门塔科技      20-40K      20   本科  计算机软件   
3          软件工程师-通才      北京·海淀区·西北旺   小马慧行  30-60K·16薪      30   本科    互联网   
4        数据服务技术支持专家       北京·朝阳区·鸟巢   今日头条      15-30K      15   本科  移动互联网   
...             ...             ...    ...         ...     ...  ...    ...   
4009         RPA工程师  呼和浩特·赛罕区·乌兰察布路   揉石科技        4-8K       4   大专  计算机软件   
4010    Python开发工程师     呼和浩特·新城区·鼓楼   亿丰项目      10-14K      10   本科  计算机软件   
4011    Python开发工程师     呼和浩特·新城区·鼓楼     巨鹏        5-7K       5   大专  移动互联网   
4012         Python   呼和浩特·赛罕区·大学东路  鄂尔浑软件       5-10K       5

In [10]:
# 最大工资
df_salary_max = df['工作薪资'].str.split('-|K', expand=True)[1]
print(df_salary_max)  # 区间最大薪资
# Dataframe新增一列  在第 列新增一列名为' ' 的一列 数据
df.insert(4, '最大薪资(K)', df_salary_max)
print(df)

0       35
1       24
2       40
3       60
4       30
        ..
4009     8
4010    14
4011     7
4012    10
4013    15
Name: 1, Length: 3939, dtype: object
               工作名称            工作地点   工作公司        工作薪资 最大薪资(K) 最小薪资(K) 工作学历  \
0     高级python开发工程师      北京·朝阳区·百子湾    迈外迪      20-35K      35      20   本科   
1         Python工程师      北京·海淀区·西北旺   纬创软件      15-24K      24      15   大专   
2           仿真开发工程师      北京·海淀区·五道口  魔门塔科技      20-40K      40      20   本科   
3          软件工程师-通才      北京·海淀区·西北旺   小马慧行  30-60K·16薪      60      30   本科   
4        数据服务技术支持专家       北京·朝阳区·鸟巢   今日头条      15-30K      30      15   本科   
...             ...             ...    ...         ...     ...     ...  ...   
4009         RPA工程师  呼和浩特·赛罕区·乌兰察布路   揉石科技        4-8K       8       4   大专   
4010    Python开发工程师     呼和浩特·新城区·鼓楼   亿丰项目      10-14K      14      10   本科   
4011    Python开发工程师     呼和浩特·新城区·鼓楼     巨鹏        5-7K       7       5   大专   
4012         Python   呼和浩特·赛罕区·大学东路  鄂尔浑软件       5-1

In [11]:
# 工作城市
df_city = df['工作地点'].str.split('·', expand=True)[0]
print(df_city)  # 城市
# Dataframe新增一列  在第 列新增一列名为' ' 的一列 数据
df.insert(1, '工作城市', df_city)
print(df)

0         北京
1         北京
2         北京
3         北京
4         北京
        ... 
4009    呼和浩特
4010    呼和浩特
4011    呼和浩特
4012    呼和浩特
4013    呼和浩特
Name: 0, Length: 3939, dtype: object
               工作名称  工作城市            工作地点   工作公司        工作薪资 最大薪资(K) 最小薪资(K)  \
0     高级python开发工程师    北京      北京·朝阳区·百子湾    迈外迪      20-35K      35      20   
1         Python工程师    北京      北京·海淀区·西北旺   纬创软件      15-24K      24      15   
2           仿真开发工程师    北京      北京·海淀区·五道口  魔门塔科技      20-40K      40      20   
3          软件工程师-通才    北京      北京·海淀区·西北旺   小马慧行  30-60K·16薪      60      30   
4        数据服务技术支持专家    北京       北京·朝阳区·鸟巢   今日头条      15-30K      30      15   
...             ...   ...             ...    ...         ...     ...     ...   
4009         RPA工程师  呼和浩特  呼和浩特·赛罕区·乌兰察布路   揉石科技        4-8K       8       4   
4010    Python开发工程师  呼和浩特     呼和浩特·新城区·鼓楼   亿丰项目      10-14K      14      10   
4011    Python开发工程师  呼和浩特     呼和浩特·新城区·鼓楼     巨鹏        5-7K       7       5   
4012         Python 

In [12]:
df_avg = (df["最大薪资(K)"].astype("int") + df["最小薪资(K)"].astype("int"))/2

In [13]:
df.insert(7, '平均工资(K)',df_avg)

In [14]:
df['工作经验'].replace('3-5年学历','3-5年',inplace=True)
df['工作经验'].replace('5-10年学历','5-10年',inplace=True)
df['工作经验'].replace('经验不限中专/','经验不限',inplace=True)
df['工作经验'].replace('经验不限学历','经验不限',inplace=True)
df['工作经验'].replace('1-3年学历','1-3年',inplace=True)
df['工作经验'].replace('1年以内学历','1年以内',inplace=True)
df['工作经验'].replace('在校/应届学历','在校/应届',inplace=True)
df['工作经验'].replace('应届生学历','在校/应届',inplace=True)

In [15]:
df['工作经验'].unique()

array(['5-10年', '3-5年', '1-3年', '经验不限', '1年以内', '在校/应届', '10年以上'],
      dtype=object)

In [16]:
df

Unnamed: 0,工作名称,工作城市,工作地点,工作公司,工作薪资,最大薪资(K),最小薪资(K),平均工资(K),工作学历,工作标签,工作经验,招聘详情页链接
0,高级python开发工程师,北京,北京·朝阳区·百子湾,迈外迪,20-35K,35,20,27.5,本科,新零售,5-10年,https://www.zhipin.com/gongsi/7fdcdfff003aeae11XZ_3dW9Eg~~.html
1,Python工程师,北京,北京·海淀区·西北旺,纬创软件,15-24K,24,15,19.5,大专,计算机软件,3-5年,https://www.zhipin.com/gongsi/fc705eb462e9b27b1HJ-2t60GA~~.html
2,仿真开发工程师,北京,北京·海淀区·五道口,魔门塔科技,20-40K,40,20,30.0,本科,计算机软件,1-3年,https://www.zhipin.com/gongsi/a3fff9582538ae7f03J92d27.html
3,软件工程师-通才,北京,北京·海淀区·西北旺,小马慧行,30-60K·16薪,60,30,45.0,本科,互联网,3-5年,https://www.zhipin.com/gongsi/946657ff8adb68be3nFy3928GQ~~.html
4,数据服务技术支持专家,北京,北京·朝阳区·鸟巢,今日头条,15-30K,30,15,22.5,本科,移动互联网,3-5年,https://www.zhipin.com/gongsi/a67b361452e384e71XV82N4~.html
...,...,...,...,...,...,...,...,...,...,...,...,...
4009,RPA工程师,呼和浩特,呼和浩特·赛罕区·乌兰察布路,揉石科技,4-8K,8,4,6.0,大专,计算机软件,1-3年,https://www.zhipin.com/gongsi/a264063df7f97eb91nBz0966F1Q~.html
4010,Python开发工程师,呼和浩特,呼和浩特·新城区·鼓楼,亿丰项目,10-14K,14,10,12.0,本科,计算机软件,1-3年,https://www.zhipin.com/gongsi/92a8541420b8858e0nx439y4EA~~.html
4011,Python开发工程师,呼和浩特,呼和浩特·新城区·鼓楼,巨鹏,5-7K,7,5,6.0,大专,移动互联网,1-3年,https://www.zhipin.com/gongsi/b3867417d88d80ce03B93d27EQ~~.html
4012,Python,呼和浩特,呼和浩特·赛罕区·大学东路,鄂尔浑软件,5-10K,10,5,7.5,高中,电子商务,1-3年,https://www.zhipin.com/gongsi/35d66a6f36fb31710HV73d65GA~~.html


In [17]:
df.to_csv("job_clean.csv",encoding = "utf_8_sig")