DiSec

Distributed Image Search Engine Crawler

Dependency

Beautiful Soup 4, install it using pip: pip install bs4.

Features

Craw image results with given keywords
Support baidu, google, ~~bing~~
Distributed Server-Worker design
Keywords could be categorised

Get Started

Set up settings by creating local_settings.json, there is an example of it provided
Create keyword_list.json and fill keywords into it.
Use keywords_creater.py who reads the user defined keyword_list.json then generates keywords.json which will be used by the manager server.
Run manager_server.py, the manager server will start and listen to the port setted in local_settings.json
Run SEARCH_ENGINE_worker.py to start crawling.

说明文档

依赖

Beautiful Soup 4, 使用 pip 安装： pip install bs4.

功能

依据所给关键词列表爬取图片搜索结果
支持 baidu, google, ~~bing~~
分布式设计，支持多个 worker 进程同时爬取。
支持关键词分类

如何使用

参考样例，配置 local_settings.json
参考样例，创建 keyword_list.json 填写所需爬取的关键词列表.
使用 keywords_creater.py 来读取用户定义的 keyword_list.json 并生成 keywords.sjon
运行 manager_server.py，manager server 将会监听 local_settings.json 所设置的端口
运行 SEARCH_ENGINE_worker.py 开始爬取.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.gitignore		.gitignore
README.MD		README.MD
baidu_worker.py		baidu_worker.py
bing_worker.py		bing_worker.py
google_worker.py		google_worker.py
keyword_list.example.json		keyword_list.example.json
keywords_creater.py		keywords_creater.py
local_settings.example.json		local_settings.example.json
manager_server.py		manager_server.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DiSec

Dependency

Features

Get Started

说明文档

依赖

功能

如何使用

About

Releases

Packages

Languages

palmchou/DiSec

Folders and files

Latest commit

History

Repository files navigation

DiSec

Dependency

Features

Get Started

说明文档

依赖

功能

如何使用

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages