### 1.数据爬取
#### 背景   
对北京市数据分析行业的信息了解,更好实现择业
#### 任务说明
使用Scrapy实现对51job网站数据分析工程师相关职位爬取

#### 1.1 scrapy介绍
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。

#### 1.2 scarpy架构图
!["架构图"](imgs/架构图.webp)

#### 1.3 架构说明
* crapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等
* Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎
* Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理
* Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)
* Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方
* Downloader Middlewares（下载中间件）：自定义扩展下载功能的组件
* Spider Middlewares（Spider中间件）：可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

#### 1.4  爬虫项目创建
    * 创建爬虫项目，命令：scrapy startproject 项目名称
    * 创建爬虫文件，命令：scrapy genspider 文件名称 域名

In [1]:
# item.py
import scrapy

class Demo01Item(scrapy.Item):
    job_name = scrapy.Field()
    job_company_name = scrapy.Field()
    job_place = scrapy.Field()
    job_salary = scrapy.Field()
    job_time = scrapy.Field()
    detail_url = scrapy.Field()
    job_msg = scrapy.Field()
    job_comm = scrapy.Field()
    job_con = scrapy.Field()
    com_flag = scrapy.Field()
    com_peo = scrapy.Field()
    com_trade = scrapy.Field()

In [2]:
# piplines.py
class Demo01Pipeline(object):

    def process_item(self, item, spider):
        job_name = item['job_name']
        job_company_name = item['job_company_name']
        job_place = item['job_place']
        job_salary = item['job_salary']
        job_time = item['job_time']
        job_msg = item['job_msg']
        job_comm = item['job_comm']
        job_con = item['job_con']
        com_flag = item['com_flag']
        com_peo = item['com_peo']
        com_trade = item['com_trade']
        return item

In [None]:
# 爬取数据核心代码
import scrapy
from demo01.items import Demo01Item

class A51jobSpider(scrapy.Spider):
    name = '51job'
    allowed_domains = ['51job.com']
    start_urls = ['https://search.51job.com/list/010000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2,6.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=']

    def parse(self, response):
        yield scrapy.Request(
            url=response.url,
            callback=self.parse_job_info,
            meta={},
            dont_filter=True
        )

    # 下一页的网址信息
    def parse_next_page(self, response):
        next_page = response.xpath("//li[@class='bk'][2]/a/@href").extract_first('')
        if next_page:
            yield scrapy.Request(
                url=next_page,
                callback=self.parse_job_info,
                meta={},
                dont_filter=True
            )

    # 详情爬取
    def detail_parse(self,response):
        # 接收上级已爬取的数据
        item = response.meta['item']
        job_msg = response.xpath("//div[@class='cn']/p[@class='msg ltype']/@title").extract()
        job_comm = response.xpath("//div[@class='jtag']//span/text()").extract()
        job_con = response.xpath("//div[@class='bmsg inbox']/p/text()").extract()
        com_flag = response.xpath("//div[@class='com_tag']/p[1]/text()").extract()
        com_peo = response.xpath("//div[@class='com_tag']/p[2]/text()").extract()
        com_trade = response.xpath("//div[@class='com_tag']/p[3]/@title").extract()
        item['job_msg'] = job_msg
        item['job_comm'] = job_comm
        item['job_con'] = job_con
        item['com_flag'] = com_flag
        item['com_peo'] = com_peo
        item['com_trade'] = com_trade
        return item


    # 解析并封装数据到item中
    def parse_job_info(self, response):
        # 读取所有的招聘信息列表
        job_div_list = response.xpath("//div[@id='resultList']/div[@class='el']")
        for job_div in job_div_list:
            # 遍历获取每项
            job_name = job_div.xpath("p/span/a/@title").extract_first('无工作名称').strip().replace(",", "/")
            job_company_name = job_div.xpath("span[@class='t2']/a/@title").extract_first('无公司名称').strip()
            job_place = job_div.xpath("span[@class='t3']/text()").extract_first('无地点名称').strip()
            job_salary = job_div.xpath("span[@class='t4']/text()").extract_first('面议').strip()
            job_time = job_div.xpath("span[@class='t5']/text()").extract_first('无时间信息').strip()
            detail_url = job_div.xpath("p/span/a/@href").extract_first().strip()

            # 数据封装到item中
            item = Demo01Item()
            item['job_name'] = job_name
            item['job_company_name'] = job_company_name
            item['job_place'] = job_place
            item['job_salary'] = job_salary
            item['job_time'] = job_time
            item['detail_url'] = detail_url
            # 爬取内页数据
            yield scrapy.Request(item['detail_url'], meta={'item': item}, callback=self.detail_parse)
            yield item

        # 发送请求获取下一页
        yield scrapy.Request(
            url=response.url,
            callback=self.parse_next_page,
            dont_filter=True,
        )

In [None]:
# 执行爬取
execute("scrapy crawl 51job".split())

### 2.数据清洗
#### 字段说明
*  com_flag: 企业类型
*  com_peo: 企业规模
*  com_trade: 企业类型
*  job_comm: 附加信息
*  job_company: 公司名称
*  job_con: 公司位置
*  job_msg: 工作信息(招聘人数,经验,学历等)
*  job_name: 职位名称
*  job_salary: 工资
*  job_time: 发布时间

#### 2.1 导入相关的库
导入需要的库，同时，进行一些初始化的设置 

In [3]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

# 支持中文
mpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False

#### 2.2 加载相关的数据集
加载相关的数据集（注意原数据集中是否存在标题），并查看数据的大致情况。
可以使用head / tail，也可以使用sample。
列没有显式完整，我们需要进行设置。（pd.set_option）

In [4]:
df = pd.read_csv("job.csv",encoding="gbk")
pd.set_option("max_columns",100)
# 去掉detail_url
# df = df.drop("detail_url",axis=1)
# df.head()

#### 2.3 数据探索和清洗
##### 2.3.1 缺失值处理
* 通过info查看缺失值信息（以及每列的类型信息）。
* 可以通过isnull, any, dropna，fillna等方法结合使用，对缺失值进行处理。

##### 2.3.2 异常值处理
* 通过describe查看数值信息。
* 可配合箱线图辅助。

##### 2.3.3 重复值处理
* 使用duplicate检查重复值。可配合keep参数进行调整。
* 使用drop_duplicate删除重复值。

In [5]:
# 实现去重
df=df[df["job_company_name"].duplicated()]

# 去除无效的数据(与数据分析差距较大的内容)
df=df[df["job_name"].str.contains(r'.*?数据.*?|.*?分析.*?')]

# 将job_msg字段进行切分并存储到新的csv文件中
jobMsg = df["job_msg"].str.split(",",expand=True)
jobMsg.columns = ["job_place","work_expr","edu","hire_count","pub_time","additional1","additional2"]
df = df.join(jobMsg)
# 存储处理之后的内容到文件中
df.to_csv('newjob.csv',encoding="gbk")

In [None]:
# 将薪资列进行处理,处理为最低和最高信息两列,并将其转换为float类型
# 1.1 对薪资列进行处理,统一处理单位为千/月,并且分为最高工资和最低工资
df = pd.read_csv("newjob.csv",encoding="gbk")
pd.set_option("max_columns",100)

data = df.copy()
t = data[data["job_salary"] != "面议"]
low = []
high = []
# 对薪资进行处理
for salary in t["job_salary"]:
    low_salary=re.findall(re.compile('(\d*\.?\d+)'),salary)[0]
    if '-'in salary: #针对1-2万/月或者10-20万/年的情况，包含-
        high_salary=re.findall(re.compile('(\d?\.?\d+)'),salary)[1]
        if u'万' in salary and u'年' in salary:#单位统一成千/月的形式
            low_salary = round(float(low_salary) / 12 * 10,2)
            high_salary = round(float(high_salary) / 12 * 10,2)
        elif u'万' in salary and u'月' in salary:
            low_salary = round(float(low_salary) * 10,2)
            high_salary = round(float(high_salary) * 10,2)
        elif u'千'in salary and u'月'in salary:
            low_salary = round(float(low_salary),2)
            high_salary = round(float(high_salary),2)
        high.append(high_salary)
        
    else: #针对20万以上/年和100元/天这种情况，不包含-，取最低工资，没有最高工资
        if u'万' in salary and u'年' in salary:#单位统一成千/月的形式
            low_salary = round(float(low_salary) / 12 * 10,2)
        elif u'万' in salary and u'月' in salary:
            low_salary = round(float(low_salary) * 10,2)
        elif u'元'in salary and u'天'in salary:
            low_salary=round(float(low_salary)/1000*21,2)   #每月工作日21天
        elif u'千'in salary and u'月'in salary:
            low_salary=round(float(low_salary),2)     
        high_salary = low_salary
        high.append(high_salary)
    low.append(low_salary)

### 3.数据分析案例

### 3.1 求最低工资分布情况

In [None]:
# 求最低值的直方图
low.sort()

# plt.boxplot(low)
# 删除偏离值
del low[len(low)-1]

plt.xlim(low[0],low[len(low)-1])
plt.hist(low,bins=5)

### 3.2 求最高工资分布状况

In [None]:
high.sort()

# plt.boxplot(high)
# 删除偏离值
del high[len(high)-1]

plt.xlim(high[0],high[len(high)-1])
plt.hist(high,bins=5)

### 3.3 数据分析行业对学历的要求

In [None]:
t = df.copy()
eduCount = t.groupby("edu")["edu"].count()
eduCount.plot(kind="bar")

### 3.4 数据分析职位所在企业类型的分布

In [None]:
t = df.copy()
comFlag =  t.groupby("com_flag")["com_flag"].count()
comFlag.plot(kind="pie",autopct="%.2f%%")

### 3.5 行业的企业规模状况

In [None]:
t = df.copy()
com_peo =  t.groupby("com_peo")["com_peo"].count()
com_peo.plot(kind="pie",autopct="%.2f%%")

### 3.6 数据分析对工作经验的要求

In [None]:
t = df.copy()
hire_count =  t.groupby("hire_count")["hire_count"].count()
hire_count.plot(kind="bar")

### 3.7 数据分析需求行业的比例

In [None]:
t = df.copy()
com_trade =  t.groupby("com_trade")["com_trade"].count()
# com_trade.plot(kind="kde")

### 思考
工资与学历已经工作经验的相关性问题

### 扩展
实现对全国的数据分析行业数据分析,查看地区对行业的需求以及薪资的影响