Trabalho sobre crawling para demonstrar o conceito de coleta de links e páginas da web.
O script solicita uma URL inicial e a partir dela são coletados os links existentes no HTML. O crawler continua coletando os "links dos links" indefinidamente.
É necessário ter o Python 3 e virtualenv instalados.
Crie um virtualenv.
$ virtualenv -p python3 venv
Ative o ambiente.
$ source venv/bin/activate
Instale as libs do Python no ambiente utilizando o arquivo "requirements.txt".
$ pip install -r requirements.txt
Rode o crawler.
$ python run.py
Qualquer dúvida entre em contato: yoshiodeveloper@gmail.com