1DV449_oklib08

Laboration 1, duschskrapan

Finns det några etiska aspekter vid webbskrapning. Kan du hitta något rättsfall?

Att skrapa en sida är egentligen ingen större teknisk skillnad mot om en människa läser sidan. Däremot kan det bli problematiskt beroende på vad skrapan sedan använder informationen till. Vissa skrapar är till för att samla mailadresser att spamma eller hitta kommentarsfält att spamma. Det finns också robotar som skrapar sidor och sedan sätter ihop informationen till egna sidor för att locka klick till reklam. Där är främsta problem att upphovsrätten inte respekteras.

Finns det några riktlinjer för utvecklare att tänka på om man vill vara "en god skrapare" mot serverägarna?

Belasta inte servern. Servern kan ha en klen uppkoppling så bara för att min skrapa klarar trafiken betyder inte det att den servern jag skrapar klarar trafiken.
Ta hand om din robot. Det är viktigt att veta vad ens robot gör och att om den skulle spåra ur så upptäcker man det och kan stoppa den. Här finns ett exempel på en robot som fastnade i en loop, inte så lyckat.
Lämna dina kontaktuppgifter. Se till att det går att få tag på dig om någon skulle stöta på problem med din robot.

Begränsningar i din lösning- vad är generellt och vad är inte generellt i din kod?

Generellt

Det finns inget hårdkodat, förutom att de tre olika sidorna innehåller orden "cinema", "dinner" och "calendar". Det är den informationen som skrapan har hårdkodat för att veta vart den ska gå vidare.

Ej generellt

För att få fram vilka tider som är lediga på restaurangen letar skrapan efter syskon till input. Skulle bokningen ligga nere kan inte skrapan hitta några lediga tider.
Skrapan förutsätter att alla sidorna finns på samma subdomän. Skrapan lagrar den inmatade url:en och lägger på de länkarna den skrapar fram på den url:en för att gå vidare till nästa sida.

Vad kan robots.txt spela för roll?

I robots.txt kan webbplats-ägaren ange om vilka begränsningar som gäller för olika typer av robotar.

Laboration 2

Rapporten finns på engelska här.

Laboration 3

Koden till laboration 3 finns i branchen gh-pages och är publicerad här.

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
Laboration 2		Laboration 2
NodejsWebScraper		NodejsWebScraper
.gitattributes		.gitattributes
.gitignore		.gitignore
NodejsWebScraper.sln		NodejsWebScraper.sln
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Laboration 2

Laboration 2

NodejsWebScraper

NodejsWebScraper

.gitattributes

.gitattributes

.gitignore

.gitignore

NodejsWebScraper.sln

NodejsWebScraper.sln

README.md

README.md

Repository files navigation

1DV449_oklib08

Laboration 1, duschskrapan

Finns det några etiska aspekter vid webbskrapning. Kan du hitta något rättsfall?

Finns det några riktlinjer för utvecklare att tänka på om man vill vara "en god skrapare" mot serverägarna?

Begränsningar i din lösning- vad är generellt och vad är inte generellt i din kod?

Generellt

Ej generellt

Vad kan robots.txt spela för roll?

Laboration 2

Laboration 3

About

Releases

Packages

Languages

OskarKlintrotSkolarbeteWP14/1DV449_oklib08

Folders and files

Latest commit

History

Repository files navigation

1DV449_oklib08

Laboration 1, duschskrapan

Finns det några etiska aspekter vid webbskrapning. Kan du hitta något rättsfall?

Finns det några riktlinjer för utvecklare att tänka på om man vill vara "en god skrapare" mot serverägarna?

Begränsningar i din lösning- vad är generellt och vad är inte generellt i din kod?

Generellt

Ej generellt

Vad kan robots.txt spela för roll?

Laboration 2

Laboration 3

About

Resources

Stars

Watchers

Forks

Languages