Skip to content
No description, website, or topics provided.
PHP
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
Core
Journals
.gitattributes
.gitignore
README.md
config.sample.php
download-all.php
statistics.php

README.md

Czasopisma policyjne i sądownicze

Wprowadzenie

Repozytorium zawiera skrypt pobierający czasopisma policyjne dostępne otwarcie na stronach internetowych Policji. Celem pobrania jest możliwość zbudowania własnej lokalnej wyszukiwarki treści za pomocą dodatkowych narzędzi, bo roboty wyszukwiarek internetowych niestety nie indeksują poprawnie plików PDF z czasopismami policyjnymi.

Wymagania

Skrypt wymaga interpretera PHP.

Uruchamianie

Użycie poniższej komendy rozpocznie pobieranie danych:

php download-all.php

Czasami serwery są przeciążone i na niektóre próby pobrania danych odpowiadają błędem 503. Wówczas należy ponownić pobieranie po pewnym czasie.

Aby skorzystać z bardzo podstawowego wsparcia dla OCR przez zewnętrzne narzędzie NASP

Dane

Do pobrania jest 980+ plików, które po pobraniu zajmują ponad 9.4 GB danych. Część z nich ma przeszukiwalny tekst, ale kodowanie plików i dziwne łączenie lub rozdzielanie wyrazów czynią przeszukiwanie dosyć nieefektywnym. Wiele z PDF-ów starszych roczników zawiera po prostu skany (niekoniecznie wysokiej jakości) i jest nieprzeszukiwalna. Zdaje się więc, że kolejnym krokiem dzialania na pobranych plikach powinno być ich przetworzenie na tekst za pomocą narzędzia do OCR. Obecnie skrypt posiada podstawowe wsparcie dla narzędzia NASP2 w tym zakresie, ale jeżeli ktoś ma dostęp do profesjonalnych narzędzi typu FineReader to chyba próbowałbym podążać tą drogą.

Pobierane czasopisma policyjne:

  • Gazeta Policyjna,
  • Kwartalnik Prawno-Kryminalistyczny,
  • Kwartalnik policyjny,
  • Magazyn Kryminalny,
  • Patrol,
  • Policja 997,
  • Policja 997 wydanie specjalne,
  • Policja Łódzkie,
  • Policyjny Głos Mazowsza,
  • Przegląd Prewencyjny,
  • Stołeczny Magazyn Policyjny,
  • Wiadomości Sekcji Polskiej IPA.

Pobierane czasopisma sądownicze:

  • Kwartalnik Krajowej Rady Sądownictwa.

Jak uzyskano linki?

Linki do plików wzięto z publicznie dostępnych zasobów serwisów:

Wybierano je w sposób częściowo zautomatyzowany ze stron za pomocą kodu JavaScript:

Array.from(document.getElementsByTagName('a'))
.map(tag => ({href: tag.href}))
.filter(tag => tag.href.includes("download"))
.forEach((tag, index, array) => console.info(tag.href))
You can’t perform that action at this time.