WeiboSpider

This is a sina weibo spider built by scrapy

这是一个持续维护的微博爬虫开源项目,有任何问题请开issue

该项目爬取的数据字段说明，请移步:数据字段说明与示例

已经在senior分支的基础上新增了search分支，用于微博关键词搜索

update

2018/10/13 添加微博搜索分支
2018/9/30 添加布隆过滤器

如何使用

下面是simple分支，也就是单账号爬取，每日十万级的抓取量

克隆本项目 && 安装依赖

本项目Python版本为Python3.6

https://github.com/MarvelousDick/WeiboSpiderSimple.git
cd WeiboSpiderSimple
pip install -r requirements.txt

除此之外，还需要安装mongodb，这个自行Google把

替换Cookie

访问https://weibo.cn/

并登陆，打开浏览器的开发者模式，再次刷新

复制weibo.cn这个数据包，network中的cookie值

将sina/settings.py中:

DEFAULT_REQUEST_HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:61.0) Gecko/20100101 Firefox/61.0',
    'Cookie':'OUTFOX_SEARCH_USER_ID_NCOO=1780588551.4011402; browser=d2VpYm9mYXhpYW4%3D; SCF=AsJyCasIxgS59OhHHUWjr9OAw83N3BrFKTpCLz2myUf2_vdK1UFy6Hucn5KaD7mXIoq8G25IMnTUPRRfr3U8ryQ.; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WFGJINkqaLbAcTzz2isXDTA5JpX5KMhUgL.Foq0e0571hBp1hn2dJLoIp7LxKML1KBLBKnLxKqL1hnLBoMpe0ec1h5feKMR; SUB=_2A252a4N_DeRhGeBI61EV9CzPyD-IHXVVly03rDV6PUJbkdAKLRakkW1NRqYKs18Yrsf_SKnpgehmxRFUVgzXtwQO; SUHB=0U15b0sZ4CX6O4; _T_WM=0653fb2596917b052152f773a5976ff4; _WEIBO_UID=6603442333; SSOLoginState=1536482073; ALF=1539074073'
}

Cookie字段替换成你自己的Cookie

如果爬虫运行出现403/302，说明账号被封/cookie失效，请重新替换cookie

运行爬虫

scrapy crawl weibo_spider

运行截图:

导入pycharm后，也可以直接执行sina/spider/weibo_spider.py

该爬虫是示例爬虫，将爬取人民日报和新华视点的用户信息，全部微博，每条微博的评论，还有用户关系。

可以根据你的实际需求改写示例爬虫。

速度说明

一个页面可以抓取10则微博数据

下表是我的配置情况和速度测试结果

爬虫配置	配置值
CONCURRENT_REQUESTS	16
DOWNLOAD_DELAY	3s
每分钟抓取网页量	15+
每分钟抓取数据量	150+
总体一天抓取数据量	20万+

实际速度和你自己电脑的网速/CPU/内存有很大关系。

Name		Name	Last commit message	Last commit date
Latest commit History 103 Commits
.idea		.idea
DockerFiles		DockerFiles
images		images
inscrawler		inscrawler
sina		sina
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
data_stracture.md		data_stracture.md
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WeiboSpider

update

如何使用

克隆本项目 && 安装依赖

替换Cookie

运行爬虫

速度说明

About

Releases

Packages

Languages

klash-yang/WeiboSpiderSimple

Folders and files

Latest commit

History

Repository files navigation

WeiboSpider

update

如何使用

克隆本项目 && 安装依赖

替换Cookie

运行爬虫

速度说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages