Sample

数据抓取的一些case

spider.py: 获取Web of Science的文献记录页面,保存为html.

parse.py: 解析提取文献记录信息,保存为json格式.

remove_dumplicate.py: 去重.

cv_getfrom58.py: 从58简历库中抓取简历

cv_analyse.py: 简历信息提取评分

58job_types.txt: 抓取的简历应聘职位

抓取百度指数

调用浏览器打开网页，登录查询，截图识别.需要ocr支持

sudo pip install pytesseract

sudo apt-get install tesseract-ocr

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
58CV		58CV
BaiduIndex		BaiduIndex
WebOfScience		WebOfScience
.gitignore		.gitignore
README.md		README.md

Provide feedback