# Innhenting av data fra eksterne datakilder

Som oftest så er dataene du behøver for å gjennomføre ett gitt data analyse prosjekt hentet fra eksterne kilder.
Det er fullt mulig å manuelt laste ned data filene du trenger fra websider og flyte dem til de forskjellige mappene hvor du skal arbeide, men dette er ikke en god metode i det lange løp. Manuelt arbeid som dette må da dokumenters i tilegg til analyse arbeidet og muligheten for feil forstørres.

"Best practice" i data science miljøet er å skrive skript som tar seg av innhetingen av data. Det er mange fordeler med dette. Innheting prosessen er da eksplisit dokumentert i kode og man sparer tid ved gjenntatte innhentinger.


![title](resources/HTTP_request_response.svg)

Vi skal ta i dette prosjektet ta i bruk data filer gjort tilgjengelig av NAV hos  __http://www.data.norge.no__

Vi skal jobbe på data samlet inn om stillingsannonser som har blitt utlyst gjennom NAV i perioden 2002 - 2017

#### I dette prosjektet så skal vi bruke python pakken Requests
Requests er en python pakke som gjør skripting av HTTP baserte operasjoner lett og smertefritt
<br>Dokumentasjon: __http://docs.python-requests.org/en/master/__
<br><br>For mer informasjon ang HTTP som er den grunnleggende protokolen som styrer kommunikasjonen til websider og det fleste tilgjengelige APIer på nett:<br>
__https://developer.mozilla.org/en-US/docs/Web/HTTP/Overview__

Vi kan bruke requests til å gjøre kall til nettsteder akkurat som en nettleser gjør.

In [1]:
import requests

#gjør kall til google.com med HTTP GET metoden
result = r = requests.get("https://google.com")

#Serveren returnerer HTTP status kode 200 hvis kallet ble gjennomført uten feil.
r.status_code

#Du kan se HTML returnert i kallet ved å fjerne # tegnet under og kjøre blokken på nytt
#r.content

200

## Innhenting av CSV datafiler
CSV er en vanlig brukt fil type for data sett og er standard måten å hente ut arbeids utlysing data settet.

In [13]:
# os er en innebygd python pakke som gir oss tigang til å interaktere med operativsystemet.
import os

#URL til API endepunket for data om stillings annonser utlyst i 2017
api_url = "https://hotell.difi.no/download/nav/ledige-stillinger/2017"

#Finner path til data/raw mappen hvor vi legger rå data.
file_name = "arbeids_utlysininger_2017.csv"
data_path = os.path.join(os.path.pardir, "data", "raw")
write_path = os.path.join(data_path, file_name)

#Henter data settet fra API endepunktet med HTTP GET
result = requests.get(api_url)

#Hvis vi kallet var suksessfult og vi har motatt data så lagrer vi data settet i rå data mappen.
if result.status_code == 200:
        with open(write_path, "wb") as handle:
            for block in result.iter_content(1024):
                handle.write(block)
        if os.path.isfile(write_path):
            print(file_name + " er lagret under: " + data_path)
else:
    print("Kunne ikke laste ned data settet | HTTP Response: " + str(result.status_code))


arbeids_utlysininger_2017.csv er lagret under: ../data/raw


## Innhenting av JSON
Vi kan også hente ut data settet i JSON formatet. JSON er et relativt nytt format for å transportere data, men har raskt blitt det vanligste transport formatet av data til og fra APIer på nett.

In [50]:
import os
import pandas as pd
import codecs
import json

#JSON api URLen for ledige stillinger datasettet 2017
json_api_url = "https://hotell.difi.no/api/json/nav/ledige-stillinger/2017"


#Setter filnavn og finner path til data/raw mappen hvor vi legger rå data.
file_name = "arbeids_utlysininger_2017.json"
data_path = os.path.join(os.path.pardir, "data", "raw")
write_path = os.path.join(data_path, file_name)

#Henter data settet fra API endepunktet med HTTP GET
result = requests.get(json_api_url)

#Skriver data til disk
with open(write_path, 'wb') as f:
    for block in result.iter_content(1024):
            f.write(block)

## Hjelpe skript

For å gjøre data innhentingen litt enklere har vi laget skripts som tar seg av dette deg. Alt du trenger å gjøre er å importere modulen inn i notebooken din og kalle funskjonene du trenger.<br><br>
Hjelpe skriptene for innhenting av data ligger i src.data pakken.
<br><br>
Eks:

### CSV

In [1]:
#Hjelpe skriptet for innheting av ledige stillinger dataset
from src.data import make_work_ads_data_set

In [2]:
#Innheter et dataset for et git år og lagrer det under gitt navn
make_work_ads_data_set.make_data_set_for_year(2003, "../data/raw/examplefile.csv")

'file:///Users/H153869/dev/nav_ds/nav_a%CC%8Apne_data/notebooks/../data/raw/examplefile.csv'

In [5]:
#Innhenter alle tilgjengelige ledige stillinger dataset 2002-2017
make_work_ads_data_set.make_complete_data_set("../data/raw/work_ad")

Downloading...
Downloading work ad data set for year: 2002
Downloading work ad data set for year: 2003
Downloading work ad data set for year: 2004
Downloading work ad data set for year: 2005
Downloading work ad data set for year: 2006
Downloading work ad data set for year: 2007
Downloading work ad data set for year: 2008
Downloading work ad data set for year: 2009
Downloading work ad data set for year: 2010
Downloading work ad data set for year: 2011
Downloading work ad data set for year: 2012
Downloading work ad data set for year: 2013
Downloading work ad data set for year: 2014
Downloading work ad data set for year: 2015
Downloading work ad data set for year: 2016
Downloading work ad data set for year: 2017
Completed download successfully


In [4]:
%pwd

'/Users/H153869/dev/nav_ds/nav_åpne_data/notebooks'