Skip to content

WebarchivCZ/Crawler-config

Repository files navigation

Webarchiv.[en] | Konfigurační historie sklizní

Toto úložiště používáme ke sledování změn konfigurací našich crawlerů.
Také zde verzujeme seznamy semínek, která jsme použili pro konkrétní sklizeň.


Soubory

Konvence pojmenování souborů vychazí z metadatové specifikace v projektu grainnery vztahující se ke sklizním.
Každý název souboru je tvořen pouze kombinací takto definovaných metadatových typů.

Sada semínek pro sklizně

Aktuální varianta

[fileType.prefix]-[dateType.month]-[harvestType.tag]-[harvestFreq].[fileType.fileformat]

[fileType.prefix]-[dateType.month]-[harvestType.tag]-[harvestFreq].[fileType.fileformat]

[seeds]-[2019-06]-[S]-[[1M]_[2M]_[OneShot]_[ArchiveIt]].[txt]

seeds-2019-06-S-1M_2M_OneShot_ArchiveIt.txt

Konfigurační soubor crawleru

Aktuální varianta

[fileType.prefix].[fileType.fileformat]
[fileType.prefix]-[harvestType.tag]-[dateType.year].[fileType.fileformat]

crawler-beans.cxml
crawler-beans-S-2020.cxml

Adresáře

Konvence pojmenování adresáře vychází z metadatové specifikace v projektu grainnery vztahující se ke sklizním.
Každý název adresáře je tvořen pouze kombinací takto definovaných metadatových typů.

harvestType a directoryType.suffix ,
spolu s datumovým typem jako volným typem dateType.

[harvestType]-[directoryType.suffix]

Monthly-crawls/
Topic-crawls/
Shared-config/

Specifikované místní metadatové typy pouze pro potřeby repozitáře

fileType

prefix mimetype fileformat popis
seeds text/plain txt soubor se seznamem semínek vybraných pro sklizeň
crawler-beans text/xml cxml soubor s konfigurací crawleru

directoryType

suffix popis
config adresář se sdílenou konfigurací pro všechny crawlery, blacklist, sheets, atp.
crawls adresář konfigurací crawleru a soubory se semínky specifický typ sklizně
reports adresář s logy a reporty o samotne sklizni

dateType

Definice data a času.

dateType format
year yyyy
month yyyy-MM
day yyyy-MM-DD
time yyyy-MM-DD@hhmmss

Specifikované metadatové typy v grainery/harvest a grainery/data

Pokud není zdůrazněno jinak vše platí pro sekci grainery/harvest

harvestName

Abstrahovaný název sklizně (abstrakce viz níže).
Další informace o metadatovém typu harvestName #v04

harvestType

Jedná se o kurátorskou definici sklizně, ze které je odvozen seznam semínek odpovídajících zaměření sklizně.
Další informace o metadatovém typu harvestType #v04

harvestType tag popis
Serials S Každoměsíční sklizeň (Kombinace výběrových sklizní s různou roční frekvencí )
Topics T Speciální tématická výběrová sklizeň. Tato sklizeň se může opakovat několikrát.
Totals Celoplošná sklizeň národní domény .cz ve spolupráci s CZ.NIC. Zde bohužel nenajdete semínka ani logy ze sklizní. 1
Tests Zkušební a testovací sklizně
Requests Vyžádaná sklizeň ve spolupráci s jinou institucí
Continuous Průběžná speciální tématická výběrová sklizeň , sklízí se na denní bázi,

harvestFreq

Jedná se o kurátorský výběr semínek s definovanou frekvencí opakováného sklízení:
Další informace o metadatovém typu harvestFreq #v04

harvestFreq popis
1M výběr semenínek, která se mají sklízet každý měsíc
2M výběr semenínek, která se mají sklízet každý druhý měsíc
3M výběr semenínek, která se mají sklízet každé čtvrtletí
6M výběr semenínek, která se mají sklízet každý půlrok
12M výběr semenínek, která se mají sklízet jednou do roka
Archive_IT výběr nových semenínek, která se mají sklízet jednorázově
OneShot mimosystémově ručně přidaná další semínka, která se mají sklízet jednorázově

Reference

Terminologie vztahující se k archivaci webu
Sklizně ve Webarchivu
Celoplošné sklizně
Metadatová specifikace projektu grainery/harvest

Software

Software Version Language Official source of code Utilization
Heritix 3.4.0 Java https://github.com/internetarchive/heritrix3 crawler
Seeder Python https://github.com/WebarchivCZ/Seeder.git web curator tool

Není zapracováno

  • Vydefinování licence která bude pro repozitář použita
  • Aktualizace a revize konfiguračních souborů crawleru pro všechny typy sklizní
  • Oveření možností pro vytvoření adresáře pro logy a reporty ze sklizní
  • Vytvořit muster formulař pro nahlášení "nevhodného chování" našeho crawleru
  • Revize manualu ke skliznim

Licence


Footnotes

  1. Bylo by to v rozporu s naší dohodu o manipulaci s doménovým datasetem poskytováným sdružením CZ.NIC
    Proto nemůžeme zveřejnit seznam semínek pro celoplošné sklizně a samozřejmě ani výstupy z logů.

About

WebArchiv.cz crawler configuration.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published