In [3]:
import bs4
from bs4 import BeautifulSoup
import pandas as pd
import json
import glob

# Declare Parser classes

In [14]:
class HtmlParser():
    """
    
    """
    def __init__(self, element_parser_list):
        # 
        self.element_parser_list = element_parser_list
        
    def parse(self, filename):
        
        with open(filename) as f:
            content = BeautifulSoup(f, "html.parser")
            
        jobObject = {}
        
        for key, parser in self.element_parser_list.items():
            jobObject[key] = parser(content)
            
            
        return jobObject
    
    
    def parse_pages(self, path_folder):
        """
        Args:
            path_folder: path of folder that contains HTML files
        Returns:
            list of dict
        """
        jobs = []
        
        for f in glob.glob(path_folder + "*.html"):
#             print(f)
            jobObject = self.parse(f)
            jobs.append(jobObject)
        
        return jobs
        

# Define saving function

In [5]:
def save_jobs(jobs, filename, encoding='utf8'):
    """
    Args:
        jobs: list of dict
        filename: file name of saved file
    """
    
    with open(filename, 'w', encoding=encoding) as f:
        json.dump(jobs, f, ensure_ascii=False)

# Main function
Parse HTML pages inside folder './html_pages/'

In [17]:
path_folder = './html_pages/'
filename = './lagou.json'


def parse_address(content):
    """
    Args:
        content (bs4.BeautifulSoup): class of bs4.BeautifulSoup
        
    Returns:
        string: address
    """
    
    address = ' '

    for tag in content.find('div', attrs={'class': 'work_addr'}).contents:
#         print(type(tag))
        text = ''

        if type(tag) == bs4.element.Tag:
            if tag.text == '查看地图':
                continue
            text = tag.text
        else:
            text = tag

        address += text
        
    return address


element_parsers = {'company': lambda content: content.find('div', attrs={'class': 'company'}).text,
                   'title': lambda content: content.find('span', attrs={'class': 'name'}).text,
                   'salary': lambda content: content.find('span', attrs={'class': 'salary'}).text,
                   'requirement_keyword': lambda content: content.find('dd', attrs={'class': 'job_request'}).findNext('p').text,
                   'keywords': lambda content: content.find('ul', attrs={'class': 'position-label'}).text,
                   'categories': lambda content: content.find('dd', attrs={'class': 'job-advantage'}).findNext('p').contents[0],
                   'requirement': lambda content: content.find('div', attrs={'class': 'job-detail'}).text,
                   'address': lambda content: parse_address(content),

                   }

# job = HtmlParser(element_parsers).parse('./html_pages/【数据挖掘工程师招聘】_R2.ai招聘-拉勾网.html')
# job
jobs = HtmlParser(element_parsers).parse_pages(path_folder)
jobs

[{'company': 'R2.ai招聘',
  'title': '数据挖掘工程师',
  'salary': '15k-30k ',
  'requirement_keyword': '\n15k-30k \n/上海 /\n经验1-3年 /\n硕士及以上 /\n全职\n',
  'keywords': '\n其他\n数据挖掘\n算法\n',
  'categories': 'AI,机器学习',
  'requirement': '\n1.负责构建体系框架，公开数据等进行分析，挖掘特征；\n2.负责大数据产品的规划，需求分析和产品设计和定义；\n3.基于现有真实用户行为数据，能够从数据中发现能源的需求和业务场景；\n4.参与业务部门临时数据分析需求的调研、分析及实现；\n5.监测分析产品运营状况，持续优化产品功能改造和业务拓展方向，提出和落实产品优化改造方案。\n6.撰写专题大数据分析报告。\n职位要求：\n1、统计学，数学，计算机等专业硕士及以上学历，2年以上数据分析工作经验\n2、扎实的数理统计理论知识，如描述性统计，推断性统计，多元统计分析等\n3、熟悉数据挖掘理论与方法，如聚类分析，决策树，逻辑回归，关联规则等\n4、熟悉SQL语言进行数据处理和汇总统计分析\n5、精通Excel，主要包括数据透视表，函数，图表和VBA等\n6、熟练使用SPSS，SAS，R，Python中的任一工具进行数据分析工作\n7、逻辑思维能力强，表达条理清晰，善于用PPT写作\n',
  'address': ' \n上海 -\n                    杨浦区\n                                            - 政立路497号国正中心1号楼1508室\n                                                            \n'},
 {'company': '商米无线产品部招聘',
  'title': '机器学习工程师 (MJ000077)',
  'salary': '25k-50k ',
  'requirement_keyword': '\n25k-50k \n/上海 /\n经验3-5年 /\n硕士及以上 /\n全职\n',
  'keywords': '\n机器

In [18]:
save_jobs(jobs, filename)