WebCrawler 🕸️

Overview

WebCrawler is an utility software written in Java.

Features

Crawl using a configuration file with following structure:

n_threads=4 delay=100 root_dir=C://root log_level=3 depth=100 It can crawl using robots.txt file

Filter using fileType

Search a keyword

Generate sitemap

Tips

For Sitemap, a Sitemaps folder should be created. For Filter and Search, an existing index.json with a specific structure needed.

Commands

Search <site_name> Filter <site_name> <file_type> Help Search Sitemap <absolute_path_to_site_file> Crawl <use_robots_yes_or_no> <size_limit>

Team

Stoica Mihai 👨‍🎓

Vlîjia Stefan 👨‍🎓

Rosca Stefan 👨‍🎓

Tănase Corina 👩🏼‍🎓

Teacher

Avram Dan 👨‍🏫

Name		Name	Last commit message	Last commit date
Latest commit History 144 Commits
.idea		.idea
action/pack		action/pack
crawler_log		crawler_log
file_handlers		file_handlers
man		man
.gitignore		.gitignore
Main.java		Main.java
README.md		README.md
WebCrawler.iml		WebCrawler.iml
file.conf		file.conf
index.json		index.json
seed.txt		seed.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WebCrawler 🕸️

Overview

Features

Crawl using a configuration file with following structure:

Filter using fileType

Search a keyword

Generate sitemap

Tips

Commands

Team

Stoica Mihai 👨‍🎓

Vlîjia Stefan 👨‍🎓

Rosca Stefan 👨‍🎓

Tănase Corina 👩🏼‍🎓

Teacher

Avram Dan 👨‍🏫

About

Releases

Packages

Contributors 4

Languages

advanced373/WebCrawler

Folders and files

Latest commit

History

Repository files navigation

WebCrawler 🕸️

Overview

Features

Crawl using a configuration file with following structure:

Filter using fileType

Search a keyword

Generate sitemap

Tips

Commands

Team

Stoica Mihai 👨‍🎓

Vlîjia Stefan 👨‍🎓

Rosca Stefan 👨‍🎓

Tănase Corina 👩🏼‍🎓

Teacher

Avram Dan 👨‍🏫

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Languages

Packages