Skip to content

chenbjin/Sample

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Sample

数据抓取的一些case

  1. WebOfScience

spider.py: 获取Web of Science的文献记录页面,保存为html.

parse.py: 解析提取文献记录信息,保存为json格式.

remove_dumplicate.py: 去重.

  1. 58CV

cv_getfrom58.py: 从58简历库中抓取简历

cv_analyse.py: 简历信息提取评分

58job_types.txt: 抓取的简历应聘职位

  1. BaiduIndex

抓取百度指数

调用浏览器打开网页,登录查询,截图识别.需要ocr支持

sudo pip install pytesseract

sudo apt-get install tesseract-ocr

About

数据抓取的一些case

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages