crawler

facebook

使用selenium + chrome 对facebook的个人主页，公共主页，群组进行分类爬取

factwire

使用request框架对factwire新闻网站进行数据抓取

Twitter

使用selenium + chrome 对twitter网站个人言论进行抓取，并使用多进程提高爬取效率

images

使用scrapy框架对MN520图片网站进行全站爬取（约二十多万张图片）

mymultispider

scrapy框架中多个spider，pipelines运行示例

scmjw

scrapy框架对诗词名句网进行爬取（约二十九万篇诗词），并作简单数据分析

mingbao

使用request框架对明报新闻网站进行数据抓取

Thestandard

使用request框架对Thestandard英文网站进行数据抓取

惠报

使用request框架对惠报新闻网站进行数据抓取

明报

使用Scrapy框架对明报新闻网站进行数据抓取

头条日报-即时

使用request框架对头条日报-即时栏目进行数据抓取

新唐人电视台&今日正言&思考香港

使用Scrapy框架对三个新闻网站进行数据抓取

星岛日报

使用request框架对星岛日报新闻网站进行数据抓取

星岛日报-即时

使用request框架对星岛日报-即时栏目进行数据抓取

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Thestandard

Thestandard

Twitter

Twitter

facebook

facebook

factwire

factwire

images

images

mingbao

mingbao

mymultispider

mymultispider

scmjw

scmjw

头条日报-即时

头条日报-即时

惠报

惠报

新唐人电视台&今日正言&思考香港/HK

新唐人电视台&今日正言&思考香港/HK

明报/mingbao

明报/mingbao

星岛日报-即时

星岛日报-即时

星岛日报

星岛日报

README.md

README.md

Repository files navigation

crawler

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
Thestandard		Thestandard
Twitter		Twitter
facebook		facebook
factwire		factwire
images		images
mingbao		mingbao
mymultispider		mymultispider
scmjw		scmjw
头条日报-即时		头条日报-即时
惠报		惠报
新唐人电视台&今日正言&思考香港/HK		新唐人电视台&今日正言&思考香港/HK
明报/mingbao		明报/mingbao
星岛日报-即时		星岛日报-即时
星岛日报		星岛日报
README.md		README.md

terroristhouse/crawler

Folders and files

Latest commit

History

Repository files navigation

crawler

About

Resources

Stars

Watchers

Forks

Languages