# Innhenting av data fra eksterne datakilder

Som oftest så er dataene du behøver for å gjennomføre ett gitt data analyse prosjekt hentet fra eksterne kilder.
Det er fullt mulig å manuelt laste ned data filene du trenger fra websider og flyte dem til de forskjellige mappene hvor du skal arbeide, men dette er ikke en god metode i det lange løp. Manuelt arbeid som dette må da dokumenters i tilegg til analyse arbeidet og muligheten for feil forstørres.

"Best practice" i data science miljøet er å skrive skript som tar seg av innhetingen av data. Det er mange fordeler med dette. Innheting prosessen er da eksplisit dokumentert i kode og man sparer tid ved gjenntatte innhentinger.


![title](resources/HTTP_request_response.svg)

Vi skal ta i dette prosjektet ta i bruk data filer gjort tilgjengelig av NAV hos  __http://www.data.norge.no__

Vi skal jobbe på data samlet inn om stillingsannonser som har blitt utlyst gjennom NAV i perioden 2002 - 2017

#### I dette prosjektet så skal vi bruke python pakken Requests
Requests er en python pakke som gjør skripting av HTTP baserte operasjoner lett og smertefritt
<br>Dokumentasjon: __http://docs.python-requests.org/en/master/__
<br><br>For mer informasjon ang HTTP som er den grunnleggende protokolen som styrer kommunikasjonen til websider og det fleste tilgjengelige APIer:<br>
__https://developer.mozilla.org/en-US/docs/Web/HTTP/Overview__

Vi kan bruke requests til å gjøre kall til nettsider akkurat som en nettleser gjør.

In [5]:
import requests

#gjør kall til google.com med HTTP metoden "GET"
result = r = requests.get("https://google.com")

#Serveren returnerer HTTP status kode 200 hvis kallet ble gjennomført uten feil.
r.status_code

200

In [13]:
# os er en innebygd python pakke som gir oss tigang til å interaktere med operativsystemet.
import os

api_url = "https://hotell.difi.no/download/nav/ledige-stillinger/2017"

#Finner path til data/raw mappen hvor vi legger rå data.
file_name = "arbeids_utlysininger_2017.csv"
data_path = os.path.join(os.path.pardir, "data", "raw")
write_path = os.path.join(data_path, file_name)

#Henter data settet fra API endepunktet med HTTP GET
result = requests.get(api_url)

#Hvis vi kallet var suksessfult og vi har motatt data så lagrer vi data settet i rå data mappen.
if result.status_code == 200:
        with open(write_path, "wb") as handle:
            for block in result.iter_content(1024):
                handle.write(block)
        if os.path.isfile(write_path):
            print(file_name + " er lagret under: " + data_path)
else:
    print("Kunne ikke laste ned data settet | HTTP Response: " + str(result.status_code))


arbeids_utlysininger_2017.csv er lagret under: ../data/raw
