Skip to content

Latest commit

 

History

History
4 lines (3 loc) · 652 Bytes

README.md

File metadata and controls

4 lines (3 loc) · 652 Bytes

Weibo scraper and wechat scraper

        微博爬虫是用Python写的,通过selenium控制firefox去爬取数据,免去了繁杂的模拟登录微博的步骤,也解决了微博内容由javascript动态生成,保存网页后看不到内容的问题。当然,这个方法的缺点也是明显的,它的爬取速度不可能快。这方法就适合像我这样的新手玩玩。

        微信公众号爬虫是用R写的,公众号文章的地址通过搜狗微信搜索获取。当然,将微博爬虫改一下,也可以用来爬取微信公众号。