simple-crawler

Simple website crawler to get all URLs, Meta tags and <H1> from your web site.

Open main.py and set up init_url variable with you start URL.
Adjust use_pause variable so do not abuse your web server.
Crawler does not go by redirections (check allow_redirects=False).
Ignores React/JavaScript links if web site uses them.

In Python. Using BeautifulSoup. Saves report in CSV file.

https://github.com/sergeymusenko/simple-crawler/tree/main

Installation:

pip install bs4

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

simple-crawler

About

Releases

Packages

Languages

License

sergeymusenko/simple-crawler

Folders and files

Latest commit

History

Repository files navigation

simple-crawler

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages