Skip to content

基于boss直聘网数据的上海地区PHP职位情况的分析

License

Notifications You must be signed in to change notification settings

lin-zone/spider_job

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

55 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

爬虫项目

这个项目是主要自己研究招聘网站上的职位以及对应的需求准备的一个python项目。

数据来源为拉钩和直聘网。 项目基于scrapy框架进行爬虫,使用mongodb存储爬取数据。 前端界面使用vue编写,后端接口为 php

在线预览地址: Demo

  • 项目目录结构图

├─backend php后端接口
├─front 前端界面
│  ├─job                vue
│  ├─company.html       热门公司
│  ├─education.html     学历分析
│  ├─weekline.html      发布趋势
├─tutorial python爬虫
│  ├─spiders           爬虫
│  │  ├─51job.py       51job爬虫
│  │  ├─lagou.py       拉钩爬虫
│  │  ├─zhipin.py      直聘爬虫
│  ├─items.py          数据项
│  ├─middlewares.py    中间件
│  ├─pipelines.py      管道
│  ├─settings.py       项目配置
├─word.json 生成的英文技术词json
├─word.py 生成英文分词
├─stop.txt 停用词列表

安装

pip install -f requirements.txt
  • 请安装mongodb、redis

  • python 请选用3.6+以上的版本。需要的依赖有 pymongo、scrapy、redis、pyquery(后期可能会移除)

  • php请安装 mogodb拓展 并且依赖 mongodb/mongodb

    composer require mongodb/mongodb

运行爬虫

scrapy crawl boss #抓boss
scrapy crawl 51job #抓51job
scrapy crawl lagou #拉钩

windows下其他问题

  1. 出现Get it with Microsoft Visual C++ Build Tools: http://landinghub.visualstudio.com/visual-cpp-build-tools

请到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应的whl文件 然后执行 pip install xxxx.whl

About

基于boss直聘网数据的上海地区PHP职位情况的分析

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • HTML 30.9%
  • Python 30.2%
  • JavaScript 20.2%
  • Vue 10.6%
  • PHP 5.6%
  • Shell 2.5%