zhihu_crawler

①利用selenium对知乎进行模拟登陆获取其cookies并进行爬取，其中包括突破了极验的倒立文字验证和简单的英文验证码的限制

②并模拟输入搜索关键字，对待爬取的url进行定位并收集待爬取urls

③利用scrapy框架对url进行爬取，并利用scrapy提供的twisted异步IO流将数据写入mysql数据库

④防网站屏蔽措施包括随机UA的切换以及proxy代理池的随机代理切换

⑤后续将构思把所爬取的知乎问答数据进行可视化并数据分析呈现

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
.idea		.idea
cookies		cookies
dbs		dbs
project.egg-info		project.egg-info
scrapy_redis/__pycache__		scrapy_redis/__pycache__
tools		tools
utils		utils
zhihu		zhihu
所爬取关于python的问答数据		所爬取关于python的问答数据
README.md		README.md
main_zhihu.py		main_zhihu.py
scrapy.cfg		scrapy.cfg
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

cookies

cookies

dbs

dbs

project.egg-info

project.egg-info

scrapy_redis/pycache

scrapy_redis/pycache

tools

tools

utils

utils

zhihu

zhihu

所爬取关于python的问答数据

所爬取关于python的问答数据

README.md

README.md

main_zhihu.py

main_zhihu.py

scrapy.cfg

scrapy.cfg

setup.py

setup.py

Repository files navigation

zhihu_crawler

About

Releases

Packages

Languages

strategist922/zhihu_crawler

Folders and files

Latest commit

History

Repository files navigation

zhihu_crawler

About

Resources

Stars

Watchers

Forks

Languages