Web robot koji radi katalog PUO i SPUO postupaka nadležnog ministarstva za zaštitu okoliša i prirode RH
Python
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
.gitignore
LICENSE
README.md
puobot.py
requirements.txt
runtime.txt
scraper.py

README.md

puobot

Uvod

puobot je web robot koji radi katalog PUO i SPUO postupaka nadležnog ministarstva za zaštitu okoliša i prirode RH. Powering Robo-MZOIP.

Problem

Dokumenti o postupcima procjene utjecaja na okoliš na web stranici nadležnog ministarstva za zaštitu okoliša i prirode se dodaju na način da je nemoguće sustavno i redovito pratiti objave novih dokumenata.

Rješenje

Web scraper koji redovito prati nove dodane dokumente i radi katalog zahvata i dokumenata, te po potrebi nove zahvate objavljuje putem twitter-a.

Korištenje

python3 puobot.py [--twitter 1]

Ulazni podaci

Twitter

Za twitter funkcionalnost potrebno je imati Twitter oauth podatke u zasebnim redovima u datoteci /input/twit_api_key.txt.

twit_api_key.txt:

[API Key]
[API Secret]
[Access token]
[Access token secret]

Izlazni podaci

Svi pronađeni dokumenti pospremaju se u arhivu u zasebne .tsv datoteke:

Sve razlike između posljednje verzije arhive spremljene u output/ folderu ispisuju se na standardni output (konzolu)

Zahtjevi

  • Python 3
  • requests (2.12.4)
  • BeautifulSoup4 (4.5.3)
  • lxml parser (3.7.2)
  • scraperwiki (0.5.1)
  • twython