Skip to content

wangfpp/poll_search

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

这里计划写一个多线程爬虫

目前已有功能

    1. 根据作文分类整理
    1. 文本内容存储在分类文件夹中的txt文本中

存在的问题

    1. 已经搜索的网站会再次搜索 资源浪费
    1. 只有文本存储没有存储数据库 不便查找
    1. 频繁爬虫导致被网站封禁IP

依赖项

    1. Python3.7
    1. request_html
    1. threading
    1. queue

使用方法

# 安装依赖
pip3 install -r requirements.txt

# 运行程序
python3 poll.py

目录结构

.
├── poll.py #线程管理
├── README.md # 说明文件
├── requirements.txt #依赖项
├── server.py #爬虫主函数
`-- txt # 作文存放的目录

About

一个多线程的爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages