WeiboSpider

This is a sina weibo spider built by scrapy

这是一个持续维护的微博爬虫开源项目,有任何问题请开issue

该项目爬取的数据字段说明，请移步:数据字段说明与示例

已经在senior分支的基础上新增了search分支，用于微博关键词搜索

update

2018/10/13 添加微博搜索分支
2018/9/30 添加布隆过滤器

如何使用

下面是simple分支，也就是单账号爬取，每日十万级的抓取量

克隆本项目 && 安装依赖

本项目Python版本为Python3.6

https://github.com/MarvelousDick/WeiboSpiderSimple.git
cd WeiboSpiderSimple
pip install -r requirements.txt

除此之外，还需要安装mongodb，这个自行Google把

替换Cookie

访问https://weibo.cn/

并登陆，打开浏览器的开发者模式，再次刷新

复制weibo.cn这个数据包，network中的cookie值

将sina/settings.py中:

DEFAULT_REQUEST_HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:61.0) Gecko/20100101 Firefox/61.0',
    'Cookie':'OUTFOX_SEARCH_USER_ID_NCOO=1780588551.4011402; browser=d2VpYm9mYXhpYW4%3D; SCF=AsJyCasIxgS59OhHHUWjr9OAw83N3BrFKTpCLz2myUf2_vdK1UFy6Hucn5KaD7mXIoq8G25IMnTUPRRfr3U8ryQ.; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WFGJINkqaLbAcTzz2isXDTA5JpX5KMhUgL.Foq0e0571hBp1hn2dJLoIp7LxKML1KBLBKnLxKqL1hnLBoMpe0ec1h5feKMR; SUB=_2A252a4N_DeRhGeBI61EV9CzPyD-IHXVVly03rDV6PUJbkdAKLRakkW1NRqYKs18Yrsf_SKnpgehmxRFUVgzXtwQO; SUHB=0U15b0sZ4CX6O4; _T_WM=0653fb2596917b052152f773a5976ff4; _WEIBO_UID=6603442333; SSOLoginState=1536482073; ALF=1539074073'
}

Cookie字段替换成你自己的Cookie

如果爬虫运行出现403/302，说明账号被封/cookie失效，请重新替换cookie

运行爬虫

scrapy crawl weibo_spider

运行截图:

导入pycharm后，也可以直接执行sina/spider/weibo_spider.py

该爬虫是示例爬虫，将爬取人民日报和新华视点的用户信息，全部微博，每条微博的评论，还有用户关系。

可以根据你的实际需求改写示例爬虫。

速度说明

一个页面可以抓取10则微博数据

下表是我的配置情况和速度测试结果

爬虫配置	配置值
CONCURRENT_REQUESTS	16
DOWNLOAD_DELAY	3s
每分钟抓取网页量	15+
每分钟抓取数据量	150+
总体一天抓取数据量	20万+

实际速度和你自己电脑的网速/CPU/内存有很大关系。

Name		Name	Last commit message	Last commit date
Latest commit History 103 Commits
.idea		.idea
DockerFiles		DockerFiles
images		images
inscrawler		inscrawler
sina		sina
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
data_stracture.md		data_stracture.md
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

DockerFiles

DockerFiles

images

images

inscrawler

inscrawler

sina

sina

.gitignore

.gitignore

Dockerfile

Dockerfile

README.md

README.md

data_stracture.md

data_stracture.md

requirements.txt

requirements.txt

scrapy.cfg

scrapy.cfg

Repository files navigation

WeiboSpider

update

如何使用

克隆本项目 && 安装依赖

替换Cookie

运行爬虫

速度说明

About

Releases

Packages

Languages

klash-yang/WeiboSpiderSimple

Folders and files

Latest commit

History

Repository files navigation

WeiboSpider

update

如何使用

克隆本项目 && 安装依赖

替换Cookie

运行爬虫

速度说明

About

Resources

Stars

Watchers

Forks

Languages