Skip to content

Nutné úpravy logiky backendu jaro 2014

cosmo-cz edited this page Nov 21, 2014 · 2 revisions

Vysoká priorita

  • Tabulka eshop obsahuje spam. Registrační formulář zneužívají roboti a tabulka je plná viagry, pills, loans, ... Na formuláře použít captcha.
  • Tabulka fileblob obsahuje záznamy, které už není možné využít. Při vložení nové obálky (pokud je změna CRC v porovnání se stávající) se založí nové 4 záznamy do fileblob (originál, medium, thumb a icon) a starý záznam se ponechává. Už není k ničemu, původní vazba na cover se zruší.

Ostatní

  • Script /opt/obalky/bin/harvester.pl nedělá nic užitečné. Pouze běží a updatuje sloupce harvest_max_eshop a harvest_last_time. Původně sbíral obálky z pár webů, ale teď tuto roli nahradil crawler.pl
  • Apache logy /opt/obalky/log je obrovský, bylo by dobré odlévat a archivovat. Také logy /opt/obalky/log_archiv přesunout na jiný storage, není potřebné aby zabíraly místo na rychlém storage.
  • Script pro vkládání obálek na webu neaktualizuje autora
  • Do sloupce modified v tabulce product se ukládá čas -1hod
  • Web okcz dává na výběr změnu obálky knihovni po zalogování. Náhledy ale nejsou správné.
  • Obrázek obálky se nyní přeráží vždy novějším záznamem. Tj. když knihovna naskenuje obálku a po pár hodinách crawler nalezne tu samou knihu u libovolného vydavatele/knihkupce obrázek se změní na nově nalezenou. Bylo by dobré v tomto případě ponechat naskenovanou, skenování ma vyšší prioritu. Také u každé změny, např. ceny u vydavatele/knihkupce crawler udělá to samé. Příklad: knihovna naskenuje obal, ten je okamžitě dostupný na webu. Následně crawler nalezne tu samou knihu a přerazí původní naskenovanou obálku (co stálo knihovnu čas). Knihovna to po nějaké době zistí a chce svoji obálku. Přepnutí je možné pomocí webu okcz po zalogování. Následně po pár dnech knihkupec změní cenu a obálka se opět přepne na náhled od knihkupce. Takže snaha knihovny je marná.
  • Crawlují se pouze 3 zdroje (Fragment.cz, Městská knihovna v Praze, Antikvariát Kodytek). Dají se oslovit další (zavisí na politice, aby se obalkyknih nezměnily na heureku)
  • Novinky na homepage nerotují
Řešení těchto problémů je buďto realizováno, nebo naplánováno.
Clone this wiki locally