Skip to content

terroristhouse/crawler

Repository files navigation

crawler

facebook

使用selenium + chrome 对facebook的个人主页,公共主页,群组进行分类爬取

factwire

使用request框架对factwire新闻网站进行数据抓取

Twitter

使用selenium + chrome 对twitter网站个人言论进行抓取,并使用多进程提高爬取效率

images

使用scrapy框架对MN520图片网站进行全站爬取(约二十多万张图片)

mymultispider

scrapy框架中多个spider,pipelines运行示例

scmjw

scrapy框架对诗词名句网进行爬取(约二十九万篇诗词),并作简单数据分析

mingbao

使用request框架对明报新闻网站进行数据抓取

Thestandard

使用request框架对Thestandard英文网站进行数据抓取

惠报

使用request框架对惠报新闻网站进行数据抓取

明报

使用Scrapy框架对明报新闻网站进行数据抓取

头条日报-即时

使用request框架对头条日报-即时栏目进行数据抓取

新唐人电视台&今日正言&思考香港

使用Scrapy框架对三个新闻网站进行数据抓取

星岛日报

使用request框架对星岛日报新闻网站进行数据抓取

星岛日报-即时

使用request框架对星岛日报-即时栏目进行数据抓取

About

爬虫程序、主要为新闻和论坛

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages