# Hente data programmatisk

* Så langt har vi bladd igjennom statistikkbanken til ssb, funnet data vi er interessert i.
* Deretter har vi lastet det ned som csv-fil og lest det inn til pandas
 

* Dersom dataen er ferskvare, feks de forskjellige vareindeksene på ssb, valutakurser, aksjekurser osv har vi ikke tid til å laste ned dataen manuelt hver gang


* Da vil vi at python skal hente inn dataen for oss. 
* Vi kan for eksempel lage en valutakalkulator som automatisk henter inn de nyeste valutakursene
* For å se på hvordan dette kan gjøres i python må vi undersøke hvordan datanettverk er bygd opp

# OSI-modellen:
<img src="https://cf-assets.www.cloudflare.com/slt3lc6tev37/6ZH2Etm3LlFHTgmkjLmkxp/59ff240fb3ebdc7794ffaa6e1d69b7c2/osi_model_7_layers.png">

* Hvert lag i OSI-modellen har protokoller/måter å løse sine oppgaver på.
* For å hente data fra nettet bruker vi en protokoll i lag 7: **h**yper**t**ext **t**ransfer **p**rotocol

## Http: Hyptertext transfer protocol
<img src="https://study-ccna.com/wp-content/images/http_process_explained.jpg">

 * Http protokollen består av et sett regler/fremgangsmåter som følges av *klient* og *server*
 * Når vi skal laste inn en nettside, feks nrk.no, sender vi en *http-request* til nrk.no webserveren
 * nrk.no leser denne og sender tilbake en *http-respons* som inneholder diverse data pluss nettsiden i html-format
 * Nettleseren vår kan da vise nettsiden til nrk.no

# HTTP-request
<img src="https://miro.medium.com/v2/resize:fit:720/format:webp/1*R8Li_PHLFdB-VyMtl8G5_w.png">

* Vi har et lite antall request-metoder, vi trenger:
    - *GET*: Ber om data eller en annen ressurs på webserver
    - *PUT*: Gir webserveren noe data som den skal gjøre noe med

# HTTP-request
<img src="https://www3.ntu.edu.sg/home/ehchua/programming/webprogramming/images/HTTP_RequestMessageExample.png">

 * Metodene består i alle tilfeller av 4 deler:
     - requestlinjen: GET/POST + ressurs-URI + HTTP-versjon
     - requestheaders: flere linjer av typen: *header-name: header-value*
     - en tom linje markerer slutt på headerern
     - data

# HTTP-respons

<img src="https://www3.ntu.edu.sg/home/ehchua/programming/webprogramming/images/HTTP_ResponseMessageExample.png">

* Responsen har også 4 deler:
    - Statuslinje
    - Responsheadere
    - blank linje
    - data


# Responskoder

* Statuslinjen gir en responskode med 3 siffer.
* Responskoder under 400 betyr at ting har gått greit.
* Du har kanskje sett:
    - 404: not found
    - 403: forbidden
* Dersom alt gikk greit sendes *200 OK*

<img src="https://preview.redd.it/3lsp5tedugt41.jpg?auto=webp&s=d26b8d5a5b6825ce14f3b872ad44f05e89ce67af">

# Web API
<img src="https://content.altexsoft.com/media/2021/03/rest_api_works.png.webp">

* Vi skal hente data fra ulike kilder ved å sende http-requests til forskjellige *web-apier*
* API er en forkortelse for **a**plication **p**rogramming **i**nterface og er en type protokoll eller måte for to programmer å snakke sammen
* I et webapi dreier det seg om kommunikasjon mellom en klient (pythonprogrammet ditt) og en server (ssb, eurostat etc)
* De kommer i mange former, et vanlig type API er bygget på REST-prinsipper


<img src="https://images.ctfassets.net/vwq10xzbe6iz/5sBH4Agl614xM7exeLsTo7/9e84dce01735f155911e611c42c9793f/rest-api.png" width="600px">

* Et http-request til et REST-API består av:
    - http-metode (GET PUT)
    - Et URL-endepunkt
    - Parametre/data
* Web-APIer gir typisk tilbake data i *xml* eller *json* format.
* Vi skal konsentrere oss om JSON

# JSON
* JSON er forkortelse for javascript object notation
* Det har nesten helt identisk form som et dictionary i python
* Noen forskjeller:
    - `None`er erstattet med `null`
    - `True/False` er erstattet med `true/false`

In [2]:
import json

minDict = {"Alder": 32,
           "Ansatt": True,
           "Verv": None,
           "fag": ["matematikk", "programmering"]
}

#json.dumps(dict) - printer ut dictionary som json-streng
json.dumps(minDict) 


'{"Alder": 32, "Ansatt": true, "Verv": null, "fag": ["matematikk", "programmering"]}'

#### Nyttiger json-funksjoner
* `json.dump(fil, dictionary)` - skriver dictionary til json-fil
* `dictionary =json.load(fil)` - leser inn jsonfil til dictionary
* `dictionary =json.loads("strengrep av json objekt")` - leser json-streng til dict
* `tekst_rep = json.dumps(dictionary)` skriver dictionary til json-formatert tekststreng

In [9]:
# Eksempler
 # Skriv dict om til json-formatert tekst
json_tekst = json.dumps(minDict)
 # Les json-formatert tekst til dict
nyDictionary = json.loads(json_tekst)

 #Åpne fil "test.json" - vi skal skrive til filen (write = "w")
with open("test.json", "w") as jsonfil:
    json.dump(nyDictionary, jsonfil)
 # Skriv dictionary til json-fil

 #Åpne fil "test.json" - vi skal lese filen (read = "r")
with open("test.json", "r") as file:
    sisteDict = json.load(file)
sisteDict

{'Alder': 32,
 'Ansatt': True,
 'Verv': None,
 'fag': ['matematikk', 'programmering']}

# URL -- Uniform resource locator
`https://www.ntnu.no/sok?query=IIRA2001&category=all&sortby=magic`
* En url har flere deler: `protokoll://host/path?spørring`
* Protokollen er som regel `http://` (hypertext transfer protocoll)
  * Det finnes andre, feks `ftp`(file transfer protocoll)
* host er er "tjeneren" `feks www.nrk.no`, eller `www.ntnu.no`
* path er en sti på tjeneren feks `studies/courses/IIRA2001` er path til emnet på tjeneren ntnu.edu
* `?` Kalles en *separator* og bak separatoren kan vi "legge til litt data" eller en spørring
  * *Kalles typisk parametre*

## URL
<img src="https://wikis.ec.europa.eu/download/attachments/44165598/image_10.png?version=1&modificationDate=1651036868305&api=v2">

* Figuren viser et api-url fra eurostat
* Alt frem til spørsmålstegnet er api-endepunktet
* Spørsmålstegnet i url'en kalles en separator
* Bak separator i url kan man legge ved forskjellige *parametre*
     - Parameterverdiene har en egen tegnkoding `urlencoding`
     - De har form: `...?variabel1=verdi&variabel=verdi2`

# Hvordan?

* Hvordan parametre, url-endepunkt, http-metoder osv skal se ut er det web-api som bestemmer
* Skal vi bruke et web-api **MÅ VI LESE DOKUMENTASJONEN TIL API'ET**
    - Det forteller oss hvordan det skal brukes
    - Bruker ofte å være gode
    - Eksempler kan ofte finnes i python med `urllib` eller `requests` bibliotek
    - Eksempler på bruk også ofte gitt med `cURL`(et kommandolinjeverktøy)
* Noen API'er har også verktøy som lar deg bygge riktig url med et grafisk grensesnitt (feks SSB)

# Eksempelvis:

* [Trivia/quiz API](https://opentdb.com)

Vi fikk følgende url:

Vi kan bruke [CURL](https://reqbin.com/curl) til å sende api-spørringen/HTTP requestet


<img src="https://jvns.ca/images/curl.jpeg">

* Vi skal ikke bruke *curl*, men mange api'er bruker det i tutorials.
* Vi trenger kanskje å lese ut hva som er headere, parametre, url-endepunkt og data
    - `curl -G -d "parameter=value" http:/test.com/api` sender en GET request til `http:/test.com/api?parameter=value`


* Finner dere et kult API dere vil bruke og dokumentasjon/tutorials er gitt med curl kan dere spørre studass

# http requests i python!

* Da er vi klare til å bruke et web-api i python
* Der er 2 populære bibliotek:`urllib` og `requests`
* Vi anbefaler å bruke `requests`
* La oss gjøre noen sidesøk i wikipedia med python
* wikipedia API [her](https://www.mediawiki.org/wiki/API:REST_API)

*Noen bruker urllib -- det virker som det stort sett er borte*

In [23]:
import urllib
import json

limit = 5
query = input("Hva vil du søke etter?\n")
query_urlencoded = urllib.parse.quote(query)
url = f"https://en.wikipedia.org/w/rest.php/v1/search/page?q={query_urlencoded}&limit={limit}"

response = urllib.request.urlopen(url) #"åpne" url og motta resultat
data = response.read() #hent data
data_str = data.decode('utf-8')
data_dict = json.loads(data_str)

for page in data_dict["pages"]:
    print(page["title"], ":")
    print("------------------")
    print(page["description"],"\n\n")

print(query_urlencoded)

Hva vil du søke etter?
led zeppelin
Led Zeppelin :
------------------
English rock band (1968–1980) 


Led Zeppelin IV :
------------------
1971 studio album by Led Zeppelin 


Led Zeppelin (album) :
------------------
1969 studio album by Led Zeppelin 


Led Zeppelin III :
------------------
1970 studio album by Led Zeppelin 


Led Zeppelin II :
------------------
1969 studio album by Led Zeppelin 


led%20zeppelin


In [31]:
# Gjør et søk på wikipedia med python!

#Anbefaler å bruke requests
#!pip install requests_toolbelt
import requests
from requests_toolbelt.utils import dump #Fordi jeg vil undersøke nøyaktig hva som blir sendt
import pprint

pp = pprint.PrettyPrinter(indent=4)

search =input("Hva vil du søke etter?\n")

#URL endepunkt sidesøk på wiki-api 
url_endepunkt = "https://en.wikipedia.org/w/rest.php/v1/search/page"

#Antall Søkeresultat
antall_resultat=10


# Med requests lager vi dictionaries med headere og parametere
parametere = {"q": search, "limit": antall_resultat }

# requests fyller ut mange headere automatisk også
header = {"Connection": "Close"}

#Send get-request
response = requests.get(url_endepunkt, params=parametere, headers=header)

#http_melding = dump.dump_all(response)
#pp.pprint(http_melding.decode('utf-8'))

#print("Tilgjenglige metoder til responsen: ", dir(response))

 # Dersom vi får json tilbake
#data = resonse.text # Dersom vi får noe annet enn json tilbake

#print("Tilgjenglige metoder til responsen: ", dir(response))

 # Dersom vi får json tilbake
#data = response.text # Dersom vi får noe annet enn json tilbake
data = response.json()

#print("\n\nExit code:", response.status_code)
print("URL: ", response.url)
#print("headers", response.headers)

#Print ut søketreff på en fornuftig måte
#pp.pprint(data)
for page in data["pages"]:
    print(page["title"])
    print("================\n")
    print(page["description"],"\n\n")
print("\n\nExit code:", "")
print("URL: ", "")
print("headers", "")


#Print ut søketreff på en fornuftig måte

Hva vil du søke etter?
Deep purple
URL:  https://en.wikipedia.org/w/rest.php/v1/search/page?q=Deep+purple&limit=10
Deep Purple

English rock band 


Deep Purple discography

Cataloguing of published recordings by English rock band Deep Purple 


Deep Purple in Rock

1970 studio album by Deep Purple 


Shades of Deep Purple

1968 studio album by Deep Purple 


Deep Purple (album)

1969 studio album by Deep Purple 


Burn (Deep Purple album)

1974 studio album by Deep Purple 


List of Deep Purple members

None 


Deep Purple (song)

1933 song by Peter DeRose 


Rod Evans

English singer 


Bananas (Deep Purple album)

2003 studio album by Deep Purple 




Exit code: 
URL:  
headers 


In [29]:
#print("Tilgjenglige metoder til responsen: ", dir(response))

 # Dersom vi får json tilbake
#data = response.text # Dersom vi får noe annet enn json tilbake
data = response.json()

#print("\n\nExit code:", response.status_code)
print("URL: ", response.url)
#print("headers", response.headers)

#Print ut søketreff på en fornuftig måte
#pp.pprint(data)
for page in data["pages"]:
    print(page["title"])
    print("================\n")
    print(page["description"],"\n\n")

URL:  https://en.wikipedia.org/w/rest.php/v1/search/page?q=Donald+Trump&limit=10
Donald Trump

47th President-elect and 45th President of the United States 


Donald Trump Jr.

American businessman (born 1977) 


Family of Donald Trump

None 


Attempted assassination of Donald Trump in Pennsylvania

2024 shooting in Pennsylvania, U.S. 


Donald Trump 2024 presidential campaign

American political campaign 


Donald Trump and fascism

None 


Political positions of Donald Trump

None 


Donald Trump 2016 presidential campaign

2016 presidential campaign 


Age and health concerns about Donald Trump

American political controversy 


Racial views of Donald Trump

None 




# Eurostats api:

* Eurostat api: [https://ec.europa.eu/eurostat/web/user-guides/data-browser/api-data-access/api-detailed-guidelines/api-statistics](https://ec.europa.eu/eurostat/web/user-guides/data-browser/api-data-access/api-detailed-guidelines/api-statistics)


In [44]:
import requests
import pprint

pp = pprint.PrettyPrinter()

tabell = "nama_10_gdp"
url = f"https://ec.europa.eu/eurostat/api/dissemination/statistics/1.0/data/{tabell}"

parametere = {"format": "JSON", "lang": "EN", "sinceTimePeriod": 2018}

response = requests.get(url, params=parametere)

In [None]:
response.json()

# JSON-stat

* Man får gjerne statistisk data tilbake i json_stat-format
* Vi kan bruke `pyjstat` til å lese data inn til pandas
* Eurostat og ssb anbefaler json_stat format

In [91]:
#!pip install pyjstat
from pyjstat import pyjstat
import pandas as pd


dataset = pyjstat.Dataset.read(response.text)

tittel = dataset["label"]
df = dataset.write("dataframe")
df_id = dataset.write("dataframe", naming="id")
df_orig = df.copy()

In [71]:
#df = df.drop(columns="Time frequency")
#df["Unit of measure"].unique()
#df = df.query("`Unit of measure` =='Current prices, million euro'").drop(columns="Unit of measure")
df =df.query("`National accounts indicator (ESA 2010)` == 'Gross domestic product at market prices'")\
    .drop(columns="National accounts indicator (ESA 2010)")

In [73]:
df["Time"] = pd.PeriodIndex(df["Time"], freq="Y")

Unnamed: 0,Geopolitical entity (reporting),Time,value
72072,European Union - 27 countries (from 2020),2018,13628365.8
72073,European Union - 27 countries (from 2020),2019,14122990.7
72074,European Union - 27 countries (from 2020),2020,13580272.9
72075,European Union - 27 countries (from 2020),2021,14794356.4
72076,European Union - 27 countries (from 2020),2022,16143727.6
...,...,...,...
72331,Kosovo*,2019,7056.2
72332,Kosovo*,2020,6771.6
72333,Kosovo*,2021,7957.9
72334,Kosovo*,2022,8895.7


In [90]:
df=df.set_index(["Geopolitical entity (reporting)","Time"])
df

KeyError: "None of ['Time'] are in the columns"

In [89]:
df.query("not `Geopolitical entity (reporting)`.str.contains('Euro')")\
         .sort_values("value", ascending=False)\
         .head(10)


Unnamed: 0_level_0,Geopolitical entity (reporting),value
Time,Unnamed: 1_level_1,Unnamed: 2_level_1
2023,Germany,4185550.0
2022,Germany,3953850.0
2021,Germany,3676460.0
2019,Germany,3534880.0
2020,Germany,3449620.0
2018,Germany,3431130.0
2023,France,2822454.6
2022,France,2655435.0
2019,United Kingdom,2526615.2
2021,France,2508102.3
