### 数据采集概述

**爬虫：批量化自动化从特定网页获取数据的脚本程序**

### Python爬虫技术

**Python爬虫技能**：
- 静态网页数据抓取（urllib/requests/BeautifulSoup/lxml） 
- 动态网页数据抓取（ajax/phantomjs/selenium） 
- 爬虫框架（scrapy） 
- 补充知识：前端知识、数据库知识、文本处理技术

**Python爬虫环境配置**

- 平台：windows7/10
- Python开发套件：anaconda 3.5以上（Python3.6）
- MySQL数据库
- mongoDB数据库
- Navicat数据库客户端
- PyCharm集成开发环境
- chrome浏览器

**Python爬虫四步基本框架**
- 请求 urllib/requests
- 解析 BeautifulSoup/lxml
- 提取 css选择器/xpath表达式/正则表达式
- 存储 csv/MySQL/mongoDB等

### urllib: python的标准库，提供了一系列操作URL的功能
<b> 直接使用urllib请求页面 </b>

In [1]:
from urllib.request import urlopen
url = "https://www.python.org/"
response = urlopen(url)
content = response.read()

# 需要解码
content = content.decode('utf-8')
print(content)

<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">

    <meta name="application-name" content="Python.org">
    <meta name="msapplication-tooltip" content="The official home of the Python Programming Language">
    <meta name="apple-mobile-web-app-title" content="Python.org">
    <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">

    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta name="HandheldFriendly" conte

In [2]:
# 直接urlopen打开的方式太直白，有时候我们需要委婉一点进行请求

import urllib.request
url = "https://www.python.org/"
request = urllib.request.Request(url)

response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
#print(content)
print(response.geturl())
print(response.info())
### 打印请求状态码
print(response.getcode())
print(type(response))

https://www.python.org/
Server: nginx
Content-Type: text/html; charset=utf-8
X-Frame-Options: SAMEORIGIN
x-xss-protection: 1; mode=block
X-Clacks-Overhead: GNU Terry Pratchett
Via: 1.1 varnish
Content-Length: 49060
Accept-Ranges: bytes
Date: Sun, 23 Sep 2018 12:25:49 GMT
Via: 1.1 varnish
Age: 508
Connection: close
X-Served-By: cache-iad2135-IAD, cache-tyo19931-TYO
X-Cache: HIT, HIT
X-Cache-Hits: 3, 852
X-Timer: S1537705549.191149,VS0,VE0
Vary: Cookie
Strict-Transport-Security: max-age=63072000; includeSubDomains


200
<class 'http.client.HTTPResponse'>


### requests请求库

In [3]:
import requests
res = requests.get('https://www.python.org/')
print(res.status_code)
print(res.text)
#print(res.content)

200
<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">

    <meta name="application-name" content="Python.org">
    <meta name="msapplication-tooltip" content="The official home of the Python Programming Language">
    <meta name="apple-mobile-web-app-title" content="Python.org">
    <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">

    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta name="HandheldFriendly" c

#### 设置请求头headers

In [6]:
url = 'https://www.python.org/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
res = requests.get(url, headers=headers)
print(res)

<Response [200]>


**requests请求方法**
- get
- post

### 解析库 BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

In [10]:
import requests
from bs4 import BeautifulSoup
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'
}
url = 'http://news.qq.com/'

Soup = BeautifulSoup(requests.get(url=url, headers=headers).text.encode("utf-8"), 'lxml')
em = Soup.find_all('em', attrs={'class': 'f14 l24'})
for i in em:
    title = i.a.get_text()
    link = i.a['href']
    print({'标题': title,
           '链接': link
    })

{'标题': '人民日报：美国贸易政策给世界经济增添下行风险', '链接': 'https://new.qq.com/omn/20180923/20180923A06RBP.html'}
{'标题': '外媒关注广深港高铁开通 尝鲜乘客：我给它打9分', '链接': 'https://new.qq.com/omn/20180923/20180923A0QKU4.html'}
{'标题': '哈梅内伊：阅兵式袭击黑手是美在中东“傀儡国”', '链接': 'https://new.qq.com/omn/20180923/20180923A0CAG0.html'}
{'标题': '美智库公布2018全球军力排行：中国名列第几名？', '链接': 'https://new.qq.com/omn/20180923/20180923A0EKRA.html'}
{'标题': '南航一毕业生用300架无人机表白母校照亮南京上空', '链接': 'https://new.qq.com/omn/20180923/20180923V0TUVP.html'}
{'标题': '升级！外交部、文化和旅游部提醒中国公民在瑞典注意安全', '链接': 'http://new.qq.com/omn/20180923/20180923A0MZXW.html'}
{'标题': '美国发生一起入室行凶案 致2名中国留学生一死一伤', '链接': 'http://new.qq.com/cmsn/20180923/20180923006000.html'}
{'标题': '中国驻澳大利亚使馆提醒赴澳中国公民注意换汇安全', '链接': 'http://new.qq.com/omn/20180923/20180923A0ZWZN.html'}
{'标题': '鸿茅药酒风波后销量回升 “神药”的命为啥这么硬？', '链接': 'http://new.qq.com/omn/20180923/20180923A0SZ68.html'}
{'标题': 'iPhone XS四次摔落实验结果：前后玻璃完好无损', '链接': 'http://new.qq.com/cmsn/20180923/TEC2018092300765100'}
{'标题': '这两天为了捍卫领土主权，英国人叫嚣要与这个欧洲大国开战', '链接': '

### 解析库 lxml

In [8]:
import requests
from lxml import etree

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
url = 'http://news.qq.com/'

html = requests.get(url = url, headers = headers)
con = etree.HTML(html.text)

title = con.xpath('//em[@class="f14 l24"]/a/text()')
link = con.xpath('//em[@class="f14 l24"]/a/@href')
for i in zip(title, link):
    print({'标题': i[0],
           '链接': i[1]
    })

{'标题': '人民日报：美国贸易政策给世界经济增添下行风险', '链接': 'https://new.qq.com/omn/20180923/20180923A06RBP.html'}
{'标题': '外媒关注广深港高铁开通 尝鲜乘客：我给它打9分', '链接': 'https://new.qq.com/omn/20180923/20180923A0QKU4.html'}
{'标题': '哈梅内伊：阅兵式袭击黑手是美在中东“傀儡国”', '链接': 'https://new.qq.com/omn/20180923/20180923A0CAG0.html'}
{'标题': '美智库公布2018全球军力排行：中国名列第几名？', '链接': 'https://new.qq.com/omn/20180923/20180923A0EKRA.html'}
{'标题': '南航一毕业生用300架无人机表白母校照亮南京上空', '链接': 'https://new.qq.com/omn/20180923/20180923V0TUVP.html'}
{'标题': '升级！外交部、文化和旅游部提醒中国公民在瑞典注意安全', '链接': 'http://new.qq.com/omn/20180923/20180923A0MZXW.html'}
{'标题': '美国发生一起入室行凶案 致2名中国留学生一死一伤', '链接': 'http://new.qq.com/cmsn/20180923/20180923006000.html'}
{'标题': '中国驻澳大利亚使馆提醒赴澳中国公民注意换汇安全', '链接': 'http://new.qq.com/omn/20180923/20180923A0ZWZN.html'}
{'标题': '鸿茅药酒风波后销量回升 “神药”的命为啥这么硬？', '链接': 'http://new.qq.com/omn/20180923/20180923A0SZ68.html'}
{'标题': 'iPhone XS四次摔落实验结果：前后玻璃完好无损', '链接': 'http://new.qq.com/cmsn/20180923/TEC2018092300765100'}
{'标题': '这两天为了捍卫领土主权，英国人叫嚣要与这个欧洲大国开战', '链接': '

### 信息提取方式
- css选择器：select方法
- xpath表达式
- 正则表达式

In [11]:
# select method
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
url = 'http://news.qq.com/'

Soup = BeautifulSoup(requests.get(url=url, headers=headers).text.encode("utf-8"), 'lxml')
em = Soup.select('em[class="f14 l24"] a')
for i in em:
    title = i.get_text()
    link = i['href']
    print({'标题': title, 
           '链接': link
    })

{'标题': '人民日报：美国贸易政策给世界经济增添下行风险', '链接': 'https://new.qq.com/omn/20180923/20180923A06RBP.html'}
{'标题': '外媒关注广深港高铁开通 尝鲜乘客：我给它打9分', '链接': 'https://new.qq.com/omn/20180923/20180923A0QKU4.html'}
{'标题': '哈梅内伊：阅兵式袭击黑手是美在中东“傀儡国”', '链接': 'https://new.qq.com/omn/20180923/20180923A0CAG0.html'}
{'标题': '美智库公布2018全球军力排行：中国名列第几名？', '链接': 'https://new.qq.com/omn/20180923/20180923A0EKRA.html'}
{'标题': '南航一毕业生用300架无人机表白母校照亮南京上空', '链接': 'https://new.qq.com/omn/20180923/20180923V0TUVP.html'}
{'标题': '升级！外交部、文化和旅游部提醒中国公民在瑞典注意安全', '链接': 'http://new.qq.com/omn/20180923/20180923A0MZXW.html'}
{'标题': '美国发生一起入室行凶案 致2名中国留学生一死一伤', '链接': 'http://new.qq.com/cmsn/20180923/20180923006000.html'}
{'标题': '中国驻澳大利亚使馆提醒赴澳中国公民注意换汇安全', '链接': 'http://new.qq.com/omn/20180923/20180923A0ZWZN.html'}
{'标题': '鸿茅药酒风波后销量回升 “神药”的命为啥这么硬？', '链接': 'http://new.qq.com/omn/20180923/20180923A0SZ68.html'}
{'标题': 'iPhone XS四次摔落实验结果：前后玻璃完好无损', '链接': 'http://new.qq.com/cmsn/20180923/20180923007651.html'}
{'标题': '这两天为了捍卫领土主权，英国人叫嚣要与这个欧洲大国开战', '链接': '

In [12]:
# xpath表达式
import requests
import lxml.html as HTML

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
url = 'http://news.qq.com/'

con = HTML.fromstring(requests.get(url = url, headers = headers).text)
title = con.xpath('//em[@class="f14 l24"]/a/text()')
link = con.xpath('//em[@class="f14 l24"]/a/@href')
for i in zip(title, link):
    print({'标题': i[0],'链接': i[1]
    })

{'标题': '人民日报：美国贸易政策给世界经济增添下行风险', '链接': 'https://new.qq.com/omn/20180923/20180923A06RBP.html'}
{'标题': '外媒关注广深港高铁开通 尝鲜乘客：我给它打9分', '链接': 'https://new.qq.com/omn/20180923/20180923A0QKU4.html'}
{'标题': '哈梅内伊：阅兵式袭击黑手是美在中东“傀儡国”', '链接': 'https://new.qq.com/omn/20180923/20180923A0CAG0.html'}
{'标题': '美智库公布2018全球军力排行：中国名列第几名？', '链接': 'https://new.qq.com/omn/20180923/20180923A0EKRA.html'}
{'标题': '南航一毕业生用300架无人机表白母校照亮南京上空', '链接': 'https://new.qq.com/omn/20180923/20180923V0TUVP.html'}
{'标题': '升级！外交部、文化和旅游部提醒中国公民在瑞典注意安全', '链接': 'http://new.qq.com/omn/20180923/20180923A0MZXW.html'}
{'标题': '美国发生一起入室行凶案 致2名中国留学生一死一伤', '链接': 'http://new.qq.com/cmsn/20180923/20180923006000.html'}
{'标题': '中国驻澳大利亚使馆提醒赴澳中国公民注意换汇安全', '链接': 'http://new.qq.com/omn/20180923/20180923A0ZWZN.html'}
{'标题': '鸿茅药酒风波后销量回升 “神药”的命为啥这么硬？', '链接': 'http://new.qq.com/omn/20180923/20180923A0SZ68.html'}
{'标题': 'iPhone XS四次摔落实验结果：前后玻璃完好无损', '链接': 'http://new.qq.com/cmsn/20180923/20180923007651.html'}
{'标题': '这两天为了捍卫领土主权，英国人叫嚣要与这个欧洲大国开战', '链接': '

### 静态数据采集：拉勾网

In [7]:
# 导入相关库
import requests
from lxml import etree
import pandas as pd
from time import sleep
import random

# cookie
cookie = 'bd0a3d81c6ccf756e6=1673275218; LGRID=20230109224019-6e1a5645-a02d-43de-a918-587a7045fb71; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%221937195'
# headers
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    'Cookie': 'cookie'
}

In [8]:
# 查看网页结构循环页数进行采集
for i in range(1, 6):
    sleep(random.randint(3, 10))
    url = 'https://www.lagou.com/zhaopin/jiqixuexi/{}/?filterOption=3'.format(i)
    print('正在抓取第{}页...'.format(i), url)
    # 请求网页并解析
    con = etree.HTML(requests.get(url=url, headers=headers).text)
    # 使用xpath表达式抽取各目标字段
    job_name = [i for i in con.xpath("//a[@class='position_link']/h3/text()")]
    job_address = [i for i in con.xpath("//a[@class='position_link']/span/em/text()")]
    job_company = [i for i in con.xpath("//div[@class='company_name']/a/text()")]
    job_salary = [i for i in con.xpath("//span[@class='money']/text()")]
    job_exp_edu = [i for i in con.xpath("//div[@class='li_b_l']/text()")]
    job_exp_edu2 = [i for i in [i.strip() for i in job_exp_edu] if i != '']
    job_industry = [i for i in con.xpath("//div[@class='industry']/text()")]
    job_tempation = [i for i in con.xpath("//div[@class='list_item_bot']/div[@class='li_b_r']/text()")]
    job_links = [i for i in con.xpath("//div[@class='p_top']/a/@href")]
    
    # 获取详情页链接后采集详情页岗位描述信息
    job_des = []
    for link in job_links:
        sleep(random.randint(3, 10))    
        #print(link)
        con2 = etree.HTML(requests.get(url=link, headers=headers).text)
        des = [[i.xpath('string(.)') for i in con2.xpath("//dd[@class='job_bt']/div/p")]]
        job_des += des
    
    break

# 对数据进行字典封装
dataset = {
    '岗位名称': job_name,
    '工作地址': job_address,
    '公司': job_company,
    '薪资': job_salary,
    '经验学历': job_exp_edu2,
    '所属行业': job_industry,
    '岗位福利': job_tempation,
    '任职要求': job_des
}

# 转化为数据框并存为csv
data = pd.DataFrame(dataset)
data.to_csv('machine_learning_hz_job2.csv')

正在抓取第1页... https://www.lagou.com/zhaopin/jiqixuexi/1/?filterOption=3


In [9]:
data.head()

Unnamed: 0,岗位名称,工作地址,公司,薪资,经验学历,所属行业,岗位福利,任职要求


In [None]:
# 函数化封装
import requests
from lxml import etree
import pandas as pd
from time import sleep
import random

def static_crawl():
    cookie = '你的cookie'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
        'Cookie': 'cookie'
    }
    
    for i in range(1, 7):
        sleep(random.randint(3, 10))
        url = 'https://www.lagou.com/zhaopin/jiqixuexi/{}/?filterOption=3'.format(i)
        print('正在抓取第{}页...'.format(i), url)
        con = etree.HTML(requests.get(url=url, headers=headers).text)

        job_name = [i for i in con.xpath("//a[@class='position_link']/h3/text()")]
        job_address = [i for i in con.xpath("//a[@class='position_link']/span/em/text()")]
        job_company = [i for i in con.xpath("//div[@class='company_name']/a/text()")]
        job_salary = [i for i in con.xpath("//span[@class='money']/text()")]
        job_exp_edu = [i for i in con.xpath("//div[@class='li_b_l']/text()")]
        job_exp_edu2 = [i for i in [i.strip() for i in job_exp_edu] if i != '']
        job_industry = [i for i in con.xpath("//div[@class='industry']/text()")]
        job_tempation = [i for i in con.xpath("//div[@class='list_item_bot']/div[@class='li_b_r']/text()")]
        job_links = [i for i in con.xpath("//div[@class='p_top']/a/@href")]

        job_des = []
        for link in job_links:
            sleep(random.randint(3, 10))    
            #print(link)
            con2 = etree.HTML(requests.get(url=link, headers=headers).text)
            des = [[i.xpath('string(.)') for i in con2.xpath("//dd[@class='job_bt']/div/p")]]
            job_des += des
    
    lagou_dict = {
    '岗位名称': job_name,
    '工作地址': job_address,
    '公司': job_company,
    '薪资': job_salary,
    '经验学历': job_exp_edu2,
    '所属行业': job_industry,
    '岗位福利': job_tempation,
    '任职要求': job_des
    }

    crawl_data = pd.DataFrame(lagou_dict)
    data.to_csv('machine_learning_hz_job2.csv')
    
    return crawl_data

### 动态数据采集：拉勾网

In [1]:
import json
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd



#定义抓取主函数
def lagou_dynamic_crawl():
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
        'Host':'www.lagou.com',
        'Referer':'https://www.lagou.com/jobs/list_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0?px=default&city=%E5%85%A8%E5%9B%BD',
        'X-Anit-Forge-Code':'0',
        'X-Anit-Forge-Token':None,
        'X-Requested-With':'XMLHttpRequest',
        'Cookie': '你的cookie'
    }

    #创建一个职位列表容器
    positions = []
    #30页循环遍历抓取
    for page in range(1, 31):
        print('正在抓取第{}页...'.format(page))     
        #构建请求表单参数
        params = {
            'first':'true',
            'pn':page,
            'kd':'数据挖掘'
        }

        #构造请求并返回结果
        result = requests.post('https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false',
                                headers=headers, data=params)
        #将请求结果转为json
        json_result = result.json()
        #解析json数据结构获取目标信息
        position_info = json_result['content']['positionResult']['result']
        #循环当前页每一个职位信息，再去爬职位详情页面
        for position in position_info:
            #把我们要爬取信息放入字典
            position_dict = {
                'position_name':position['positionName'],
                'work_year':position['workYear'],
                'education':position['education'],
                'salary':position['salary'],
                'city':position['city'],
                'company_name':position['companyFullName'],
                'address':position['businessZones'],
                'label':position['companyLabelList'],
                'stage':position['financeStage'],
                'size':position['companySize'],
                'advantage':position['positionAdvantage'],
                'industry':position['industryField'],
                'industryLables':position['industryLables']
            }
            #找到职位 ID
            position_id = position['positionId']
            #根据职位ID调用岗位描述函数获取职位JD
            position_dict['position_detail'] = recruit_detail(position_id)
            positions.append(position_dict)
        
        time.sleep(4)        
    print('全部数据采集完毕。')        
    return positions


#定义抓取岗位描述函数
def recruit_detail(position_id):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
        'Host':'www.lagou.com',
        'Referer':'https://www.lagou.com/jobs/list_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0?labelWords=&fromSearch=true&suginput=',
        'Upgrade-Insecure-Requests':'1',
        'Cookie': '你的cookie'
    }
    url = 'https://www.lagou.com/jobs/%s.html' % position_id
    result = requests.get(url, headers=headers)
    time.sleep(5)
    #解析职位要求text
    soup = BeautifulSoup(result.text, 'html.parser')
    job_jd = soup.find(class_="job_bt")
    
    #通过尝试发现部分记录描述存在空的情况
    #所以这里需要判断处理一下
    if job_jd != None:
        job_jd = job_jd.text
    else:
        job_jd = 'null'
    return job_jd


if __name__ == '__main__':
    positions = lagou_dynamic_crawl()

正在抓取第1页...
正在抓取第2页...
正在抓取第3页...
正在抓取第4页...
正在抓取第5页...
正在抓取第6页...
正在抓取第7页...
正在抓取第8页...
正在抓取第9页...
正在抓取第10页...
正在抓取第11页...
正在抓取第12页...
正在抓取第13页...
正在抓取第14页...
正在抓取第15页...
正在抓取第16页...
正在抓取第17页...
正在抓取第18页...
正在抓取第19页...
正在抓取第20页...
正在抓取第21页...
正在抓取第22页...
正在抓取第23页...
正在抓取第24页...
正在抓取第25页...
正在抓取第26页...
正在抓取第27页...
正在抓取第28页...
正在抓取第29页...
正在抓取第30页...
全部数据采集完毕。


In [2]:
positions

[{'position_name': '数据挖掘',
  'work_year': '3-5年',
  'education': '本科',
  'salary': '25k-50k',
  'city': '北京',
  'company_name': '贝壳找房（北京）科技有限公司',
  'address': ['上地', '马连洼', '西二旗'],
  'label': ['股票期权', '带薪年假', '绩效奖金', '扁平管理'],
  'stage': 'C轮',
  'size': '2000人以上',
  'advantage': '扁平管理,六险二金,免费三餐,弹性工作',
  'industry': '移动互联网,O2O',
  'industryLables': [],
  'position_detail': '\n职位描述：\n\n工作职责:1、负责风控策略及模型的研究与探索； 2、基于用户行为、LBS、用户关系、交易数据等大数据分析，挖掘作弊行为，建立精准打击策略及模型，运用各类分析方法对业务、日志数据进行分析与抽象，制定有效的的识别策略和算法； 3、建立完善的异常指标监控体系，快速发现及定位疑似作弊问题； 4、完成各类策略实现，并持续完善与优化； 任职资格:1、 \xa0熟练使用至少一门编程语言（Python、Java等）； 2、熟悉机器学习、数据挖掘、数据分析、分布式计算至少某一方面，有一定的理论研究和实践经验 ； 3、对数据敏感，熟悉常用数据挖掘算法，并有一定实践经验；  4. \xa0具有大数据处理经验，熟悉Hadoop, Hive, Spark等大数据处理平台4、有反作弊策略相关经验、用户行为分析、社群关系挖掘经验者尤佳。\n\n'},
 {'position_name': '数据挖掘',
  'work_year': '3-5年',
  'education': '本科',
  'salary': '20k-40k',
  'city': '上海',
  'company_name': '上海基分文化传播有限公司',
  'address': None,
  'label': ['专项奖金', '带薪年假', '弹性工作', '管理规范'],
  'stage': '上市公司',
  'size': '500-2000人'

In [3]:
df = pd.DataFrame(positions)
df.shape

(450, 14)

In [4]:
df.head()

Unnamed: 0,address,advantage,city,company_name,education,industry,industryLables,label,position_detail,position_name,salary,size,stage,work_year
0,"[上地, 马连洼, 西二旗]","扁平管理,六险二金,免费三餐,弹性工作",北京,贝壳找房（北京）科技有限公司,本科,"移动互联网,O2O",[],"[股票期权, 带薪年假, 绩效奖金, 扁平管理]",\n职位描述：\n\n工作职责:1、负责风控策略及模型的研究与探索； 2、基于用户行为、LB...,数据挖掘,25k-50k,2000人以上,C轮,3-5年
1,,"弹性工作,绩效奖金,项目分红",上海,上海基分文化传播有限公司,本科,移动互联网,"[移动互联网, 数据架构, 数据分析]","[专项奖金, 带薪年假, 弹性工作, 管理规范]",\n职位描述：\n\n1、对部门日志数据进行清理、整合； \n2、对各种数据进行分析有洞察力...,数据挖掘,20k-40k,500-2000人,上市公司,3-5年
2,,海量视频数据和用户交互数据,北京,北京奇艺世纪科技有限公司,硕士,"广告营销,文化娱乐",[],"[绩效奖金, 五险一金, 交通补助, 带薪年假]",\n职位描述：\n\n\n工作内容：\n1. query理解，query的自动标注、分类；\...,数据挖掘,20k-35k,2000人以上,上市公司,不限
3,[朝外],靠谱团队,北京,高德软件有限公司,本科,移动互联网,[],"[弹性工作, 帅哥多, 美女多, 五险一金]",\n职位描述：\n\n职位描述\n• 能够熟练使用ODPS、Hadoop实现大数据挖掘和统计...,数据挖掘,20K-40K,2000人以上,上市公司,3-5年
4,"[西二旗, 西北旺, 上地]",七险一金、免费三餐、住房补贴、年终奖,北京,小船出海教育科技（北京）有限公司,本科,"移动互联网,教育",[],"[股票期权, 免费三餐, 打车报销, 14薪]",\n职位描述：\n\n工作职责：\n1. 业务的数据挖掘需求，用户行为日志挖掘、用户分析和智...,数据挖掘/算法工程师,20K-40K,2000人以上,C轮,1-3年


In [5]:
df.to_csv('data_mining_hz.csv')