Laboration 1, duschskrapan
Att skrapa en sida är egentligen ingen större teknisk skillnad mot om en människa läser sidan. Däremot kan det bli problematiskt beroende på vad skrapan sedan använder informationen till. Vissa skrapar är till för att samla mailadresser att spamma eller hitta kommentarsfält att spamma. Det finns också robotar som skrapar sidor och sedan sätter ihop informationen till egna sidor för att locka klick till reklam. Där är främsta problem att upphovsrätten inte respekteras.
Finns det några riktlinjer för utvecklare att tänka på om man vill vara "en god skrapare" mot serverägarna?
- Belasta inte servern. Servern kan ha en klen uppkoppling så bara för att min skrapa klarar trafiken betyder inte det att den servern jag skrapar klarar trafiken.
- Ta hand om din robot. Det är viktigt att veta vad ens robot gör och att om den skulle spåra ur så upptäcker man det och kan stoppa den. Här finns ett exempel på en robot som fastnade i en loop, inte så lyckat.
- Lämna dina kontaktuppgifter. Se till att det går att få tag på dig om någon skulle stöta på problem med din robot.
- Det finns inget hårdkodat, förutom att de tre olika sidorna innehåller orden "cinema", "dinner" och "calendar". Det är den informationen som skrapan har hårdkodat för att veta vart den ska gå vidare.
- För att få fram vilka tider som är lediga på restaurangen letar skrapan efter syskon till
input
. Skulle bokningen ligga nere kan inte skrapan hitta några lediga tider. - Skrapan förutsätter att alla sidorna finns på samma subdomän. Skrapan lagrar den inmatade url:en och lägger på de länkarna den skrapar fram på den url:en för att gå vidare till nästa sida.
I robots.txt kan webbplats-ägaren ange om vilka begränsningar som gäller för olika typer av robotar.
Rapporten finns på engelska här.
Koden till laboration 3 finns i branchen gh-pages och är publicerad här.