菁优网爬虫

说明

1.采用GUI界面方式半自动爬取，不限制账号，普通账号也可按次数爬取默认100次。此次数为请求次数，实际获取课题id为每页10*100页等于1000条数据

2.手动登陆，弹出浏览器页面可用qq方式登陆，后关闭窗口。获取cookie数据

3.爬虫方式使用selenium+PhantomJS无头浏览器方式静默爬取。因PhantomJS只有10M并满足现有功能，就没有使用谷歌火狐无头模式，即便谷歌火狐更好。后期可更换

4.目前已爬取真实课题ID为目标的半自动爬虫工具，后期待加入爬取详情页数据。详情页数据每次访问为一个真实请求，并且无账号也可访问。故为第二目标

安装依赖包环境 pip install -r requirements.txt

pyinstaller main.spec

python main.py

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
assets		assets
images		images
third-party		third-party
ui		ui
README.md		README.md
__init__.py		__init__.py
client_config.py		client_config.py
config.ini		config.ini
constant.py		constant.py
dialog.py		dialog.py
initdb.sql		initdb.sql
main.py		main.py
main.spec		main.spec
mysql_model.py		mysql_model.py
requirements.txt		requirements.txt
test.py		test.py
test2.py		test2.py
utils.py		utils.py
web_driver.py		web_driver.py
webview.py		webview.py
win.spec		win.spec
worker.py		worker.py