DataSpider

让大家方便的使用各种数据

前言

数据获取最脏最累的活就是下载和清洗数据，其中下载各种各样的数据其实是很要命的事情。这个爬虫系统所做的事情就是将肮脏的部分包裹起来，能通过代码获取干净的数据（至于怎么存储就不是在下关心的问题了）

说是爬虫系统，其实并不是传统意义上的爬虫，而是更加倾向于搜索和收集信息的一个接口。

希望大家能玩得开心。

有一些爬虫因为不可描述的原因我不会放文档，见谅。

财经爬虫

财新网爬虫

财新网爬虫与其说是爬虫，不如说是一个<搜索-下载>系统。首先要获取所有的文章链接，请使用这个接口：

from bdata.finance.caixin_news import query_urls
query_urls(from_date, to_date, query_words)

该函数的作用是搜索所有的含有query_words的文章超链接，其中： from_date和to_date是开始和结束时间，query_words是关键词。时间格式：yyyy-mm-dd 使用样例：

query_urls('2016-09-01', '2016-09-30', '英镑')

社交网络爬虫

豆瓣爬虫

豆瓣爬虫使用了豆瓣的API，但是貌似获取的频次有限制，如果有豆瓣的API Key的希望能贡献一下。目前仅仅支持书籍和电影。 API格式如下(以获取书籍的JSON结构体为例)：

from bdata.social_network.douban import get_book_json
get_book_json(ID)

请直接查看文件的注释，函数命名的格式是：

get_[movie/book]_[json/info](id)

其它爬虫

DNC邮件泄露事件

这个文件可以下载2016年美国民主党邮件服务器泄露事件所泄露出的所有邮件，大约有两万多封，但是由于服务器比较特殊，需要翻墙才能下载。其中包含get_mail_data和save_mail两个接口，一个仅仅读取为字符串，另一个仅仅保存到本地。

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.idea		.idea
bdata		bdata
blib		blib
test		test
README.md		README.md
config.py		config.py
downloadTasks.py		downloadTasks.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

bdata

bdata

blib

blib

test

test

README.md

README.md

config.py

config.py

downloadTasks.py

downloadTasks.py

Repository files navigation

DataSpider

前言

财经爬虫

财新网爬虫

社交网络爬虫

豆瓣爬虫

其它爬虫

DNC邮件泄露事件

About

Releases

Packages

Languages

hhy5277/DataSpider

Folders and files

Latest commit

History

Repository files navigation

DataSpider

前言

财经爬虫

财新网爬虫

社交网络爬虫

豆瓣爬虫

其它爬虫

DNC邮件泄露事件

About

Resources

Stars

Watchers

Forks

Languages