Skip to content

sxwee/python_spider

Repository files navigation

python_spider

一.简介

本仓库主要以各种网站为爬虫目标进行爬虫实战,在爬虫项目中将会使用到各种爬虫相关的库或者框架。另外,本项目还有对应的爬虫教程具体参见个人的爬虫实战专栏。在爬虫项目中,除了爬虫外还包括了一些简单的数据分析以及数据可视化。

爬虫环境:python-3.6.11

库需求:requests, BeautifulSoup, Selenium, Scrapy, lxml, json, re, wordcloud, Matplotlib.etc

==注意:项目代码的user-agent都为空,需要自行进行替换。==

二.Demo简要说明

B站建国同志视频信息爬虫

对应项目:bilibili_videoInfo

博客:爬虫实战系列(二):利用Selenium自动获取B站建国同志视频信息


QQ音乐周董《Mojito》评论爬虫及词云生成

对应项目:qqmusic_comment

博客:爬虫实战系列(四):周董新歌Mojito评论爬取及可视化


B站弹幕获取

对应项目:bilibili_barrage

博客:爬虫实战系列(五):轻松获取B站弹幕


网易云林俊杰《无滤镜》评论爬取及词频直方图生成

对应项目:netease_comment

博客:爬虫实战系列(六):selenium获取网抑云《无滤镜》评论


WallpaperCraft高清壁纸爬虫

对应项目:wallpapers

博客:爬虫实战系列(七):scrapy获取高清桌面壁纸


淘宝手机信息爬取及销量直方图绘制

对应项目:taobao_mobileInfo

博客:爬虫实战系列(八):淘宝店铺各品牌手机售卖信息爬取及可视化


京东电脑信息爬虫及价格区间饼图绘制

对应项目:JDComputer

博客:无


知乎热榜全爬虫及词云图绘制

对应项目:zhihu_answer

博客:爬虫实战系列(九):知乎热榜全爬取及词云制作


豆瓣《信条》短评数据获取及词云图绘制(多线程)

对应项目:douban_comment

博客:爬虫实战系列(十):用多线程看《信条》影评数据


猫眼春节档热映电影数据

对应项目:maoyan_movie_comment

博客:爬虫实战系列(十二):多线程带你看猫眼春节档热映电影数据


微博热搜微博评论数据

对应项目:weibo_comment

博客:爬虫实战系列(十三):新浪热搜榜微博评论爬取及可视化


中国大学软科排名数据爬取及可视化

对应项目:university_rank

博客:爬虫实战系列(十四):中国大学软科排名数据爬取及可视化分析