Skip to content

ChouUn/TumblrSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

汤很热

一个汤不热的爬虫

环境

使用 Python 3:
pip install -r requirements.txt

若系统默认 Python 2,请使用以下命令: python -m pip install -r requirements.txt

初始化数据库

python build.py

添加来源

在爬虫没启动时,添加进 source.txt
位于前面的会优先被爬取,可以自行调整顺序。

爬取数据

python update.py

python update.py 10 开 10 个奴隶

下载爬取的 url (TODO)

python upgrade.py

python upgrade.py 20 开 20 个奴隶

查看数据库

Windows

sqlite3.exe data.db

TODO LIST

  • 爬取 photo 和 video 的 url
  • 下载已爬取的 url
  • 剔除重复 post(或追踪到原 post)
  • 统计欢迎度(thanks to watsy0007
  • 搞个 ORM 框架,解决下数据库锁的问题

About

No description or website provided.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages