Skip to content

lzh23333/thuhole-spider

Repository files navigation

T大树洞爬虫

项目背景

作者在逛树洞时突发奇想,如果可以获取树洞中的所有文本数据,用这些数据进行一些文本数据挖掘的工作,或许可以得到一些很有趣的信息。也算是为入门文本数据挖掘做个基础。

安装方法

爬虫脚本依赖于python环境,使用前先确定您已安装python,并且安装了需要脚本用到的库:

pip -r install requirements.txt

使用说明

该项目脚本中采用argparse解析命令行选项,故而可以简单地利用诸如:

python spider_post.py --h

来获取脚本使用帮助。唯一需要注意的是配置文件config.json需要用户的token信息,需要在使用脚本前提前设置好。

该项目爬虫分为爬取帖子爬虫以及爬取评论爬虫,可以分别指定两个文件夹进行存储。

!!!该项目只供有token的清华大学学生使用,并且希望使用者爬取树洞时降低频率,以免对树洞服务器造成不良影响。

About

T大树洞简易爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages