本仓库主要以各种网站为爬虫目标进行爬虫实战,在爬虫项目中将会使用到各种爬虫相关的库或者框架。另外,本项目还有对应的爬虫教程具体参见个人的爬虫实战专栏。在爬虫项目中,除了爬虫外还包括了一些简单的数据分析以及数据可视化。
爬虫环境:python-3.6.11
库需求:requests, BeautifulSoup, Selenium, Scrapy, lxml, json, re, wordcloud, Matplotlib.etc
==注意:项目代码的user-agent都为空,需要自行进行替换。==
B站建国同志视频信息爬虫
对应项目:bilibili_videoInfo
博客:爬虫实战系列(二):利用Selenium自动获取B站建国同志视频信息
QQ音乐周董《Mojito》评论爬虫及词云生成
对应项目:qqmusic_comment
博客:爬虫实战系列(四):周董新歌Mojito评论爬取及可视化
B站弹幕获取
对应项目:bilibili_barrage
网易云林俊杰《无滤镜》评论爬取及词频直方图生成
对应项目:netease_comment
博客:爬虫实战系列(六):selenium获取网抑云《无滤镜》评论
WallpaperCraft高清壁纸爬虫
对应项目:wallpapers
淘宝手机信息爬取及销量直方图绘制
对应项目:taobao_mobileInfo
博客:爬虫实战系列(八):淘宝店铺各品牌手机售卖信息爬取及可视化
京东电脑信息爬虫及价格区间饼图绘制
对应项目:JDComputer
博客:无
知乎热榜全爬虫及词云图绘制
对应项目:zhihu_answer
豆瓣《信条》短评数据获取及词云图绘制(多线程)
对应项目:douban_comment
猫眼春节档热映电影数据
对应项目:maoyan_movie_comment
博客:爬虫实战系列(十二):多线程带你看猫眼春节档热映电影数据
微博热搜微博评论数据
对应项目:weibo_comment
中国大学软科排名数据爬取及可视化
对应项目:university_rank