# Hente og sende data på Internett

In [None]:
[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) er et Pyton bibliotek for å trekke data ut av HTML og XML.


## Overvåke pris i en nettbutikk

Det kan hende du venter på at et produkt skal falle i pris. Da kan du bruke webscraping for å hente ut prisen fra en webside. Dette kan du f.eks. utvikle til å kjøre av seg selv og f.eks. bruke IFTTT til å gjøre noe om prisen endrer seg. (Eks. sende en e-post) 

In [5]:
# Begynner med å importere nødvendige biblioteker
import requests
from bs4 import BeautifulSoup

# Dette er prisen vi ønsker at skal være lavere enn
TARGET_PRICE = 3191

# Dette er adressen til nettsiden vi ønsker å se på
URL = 'https://www.komplett.no/product/953709/tv-lyd-bilde/hodetelefoner/hodetelefoner/bose-qc-35-ii-traadloese-hodetelefoner#'
# Vi bruker request for å hente hele siden
r = requests.get(URL)
# Vi oppretter BeatifulSoup instans med innholde fra nettsiden (Befinner seg i r.text)
soup = BeautifulSoup(r.text, 'html.parser')

# Når vi inspiserte nettsiden , så så vi at prisen lå i en meta tag med attributten itemprop="price"
# Vi trekker ut taggen ved å bruke "find"

meta = soup.find('meta', {'itemprop':'price'})
# Vi sjekker hva vi fikk ut av find
print(meta)
# Det så bra ut, vi trekker så "content" ut av meta
content = meta['content']
# Sjekker hva vi fikk ut av denne
print(content)
# content er en streng så vi konvertere den til float
price = float(content)

# Så sjekker vi mot prisen vi ønsker at den skal bli lavere enn



if price < TARGET_PRICE:
    print('Løp og kjøp!')
else:
    print('Vent litt til med å kjøpe')


<meta content="3190.00" itemprop="price"/>
3190.00
Løp og kjøp!


Uten kommentarer og tester

In [1]:
import requests
from bs4 import BeautifulSoup

TARGET_PRICE = 3191
URL = 'https://www.komplett.no/product/953709/tv-lyd-bilde/hodetelefoner/hodetelefoner/bose-qc-35-ii-traadloese-hodetelefoner#'

soup = BeautifulSoup(requests.get(URL).text, 'html.parser')

if float(soup.find('meta', {'itemprop':'price'})['content']) < TARGET_PRICE:
    print('Løp og kjøp')



Løp og kjøp


*Komplett hadde gjort dette veldig enkelt for oss.<br>
Finn en nettbutikk hvor du ønsker og sjekke prisen og trekk ut pris fra denne*


## Nyhetssaker fra NRK

Vi kan f.eks. trekke ut de siste nyhetssakene fra nrk.no med koden under.
<img  src="https://notebooks.azure.com/sauce1971/libraries/vgdatapythonmaster/raw/img%2Fnrk_nyheter.png">

In [1]:
import requests
from bs4 import BeautifulSoup
r = requests.get('https://www.nrk.no/nyheter/')
soup = BeautifulSoup(r.text, 'html.parser')

#for bulletin_title in soup.find_all('h2', class_= 'bulletin-title'): # Finner alle HTML h2 elementer med classen bulletin-title
#    print(bulletin_title.text)
d = soup.find_all('h2', class_= 'bulletin-title')
print(d)

[<h2 class="bulletin-title">Bombetrusler i Danmark</h2>, <h2 class="bulletin-title">Holder kirker stengt på Sri Lanka</h2>, <h2 class="bulletin-title">Skogbrannfaren redusert</h2>, <h2 class="bulletin-title">Millioner uten meslingvaksine</h2>, <h2 class="bulletin-title">Nettavisen er nede </h2>, <h2 class="bulletin-title">Gamle forsider på lokalaviser</h2>, <h2 class="bulletin-title">Politiet på Snapchat for russen</h2>, <h2 class="bulletin-title">NOAH reagerer på nedskyting</h2>, <h2 class="bulletin-title">Slår alarm om ungdomskriminalitet</h2>, <h2 class="bulletin-title">Bil kjørte over mur og inn i hage</h2>]


Beautiful Soup lar deg navigere rundt i XML/HTML Treet. I eksempelet nedenfor plukker vi også opp tidspunktet for nyhetssaken.

In [None]:
import requests
from bs4 import BeautifulSoup
r = requests.get('https://www.nrk.no/nyheter/')
soup = BeautifulSoup(r.text, 'html.parser')
for bulletin_title in soup.find_all('h2', class_= 'bulletin-title'):
    title = bulletin_title.text
    # Vi navigerer til forelder noden og bruker find for å finne elementet med classen bulletin-publish-time
    publish_time = bulletin_title.parent.find(class_='bulletin-publish-time').text 
    print(publish_time, title)

*Oppgave: Skriv også ut de 100 første bokstavene av selve teksten til artikkelen.*

## Data i XML format

### api.met.no

Meteorolgisk institutt lar deg bruke det meste av sine [data helt gratis](https://api.met.no/). Akkurat på samme måte som de blir brukt på yr.no eller i yr appen. Mye av disse dataene er foreløpig bare i XML format.

[Nowcast](https://api.met.no/weatherapi/nowcast/0.9/documentation) Gir deg regn for de nærmeste timene.

In [None]:
import requests
from bs4 import BeautifulSoup
r = requests.get('https://api.met.no/weatherapi/nowcast/0.9/?lat=59.173551&lon=9.620759')
soup = BeautifulSoup(r.text, 'xml')
for data in soup.find_all('time'):
    from_time = data['from'][11:16]
    precipitation = data.find('precipitation')['value']
    print(from_time, precipitation, 'mm')

*Oppgave: Analyser dataene fra Nowcast og gi et varsel om det snart blir regn eller ikke.*

*Oppgave: Fortell hvor lenge det er til det eventuelt kommer noe regn. Hint: Du må bruke [datetime.strptime()](https://docs.python.org/3/library/datetime.html?highlight=datetime#datetime.datetime.strptime) for å gjøre from_time om til et datetime objekt. (Google ekspempler på bruk av strptime).*

*Oppgave: Lag et stolpediagram som viser nedbør de nærmeste timene. Kan f.eks. lese [denne](https://pythonprogramming.net/bar-chart-histogram-matplotlib-tutorial/) for å se hvordan.*

### yr.no

En kan også få data som brukes på yr.no i xml ved å legge på varsel.xml i url'en<br>
https://www.yr.no/place/Norway/Telemark/Skien/Skien/varsel.xml

Tekstvarselet for i dag blir.

In [2]:
import requests
from bs4 import BeautifulSoup
r = requests.get('https://www.yr.no/place/Norway/Telemark/Skien/Skien/varsel.xml')
soup = BeautifulSoup(r.text, 'xml')
text_forecast = soup.select('forecast text') # Returnerere en liste med matchende elementer
print(text_forecast[0].find('title').text)
print(text_forecast[0].find('body').text)

Obs! Note!
Tekstvarsel-tjenesten er nedlagt. The text forecast service is suspended


Nå verdiene er (Om du lager værstasjon uten sensorer?)

In [3]:
import requests
from bs4 import BeautifulSoup
r = requests.get('https://www.yr.no/place/Norway/Telemark/Skien/Skien/varsel.xml')
soup = BeautifulSoup(r.text, 'xml')
weatherstation_name = soup.select('weatherstation')[0]['name']
weatherstation_temperature = soup.select('weatherstation')[0].find('temperature')['value']
print(f'{weatherstation_name}: {weatherstation_temperature} °C')


: 0 °C


*Oppgave: Vis temperatur og navn på alle de næreste stasjonene. Der det er vind, så viser du også verdien for dette.*

*Oppgave: Lag en graf som viser temperatur fra varselet under "tabluar". (Dette er beskrevet i kapittel 4)* 

In [None]:
import requests
import matplotlib.pyplot as plt
import numpy as np
from bs4 import BeautifulSoup
r = requests.get('https://www.yr.no/place/Norway/Telemark/Skien/Skien/varsel.xml')
soup = BeautifulSoup(r.text, 'xml')
# Finner time taggene under tabular og plukker ut from attributten
time_data = [t['from'] for t in soup.find('tabular').find_all('time')] 
# Finner precipitation taggene under tabular og plukker ut value attributten
precipation_data = [p['value'] for p in soup.find('tabular').find_all('precipitation')]
x = [n for n in range(len(precipation_data))] # Lager x verdier fra 0 til antall datapunkt
plt.figure(figsize=(20,3)) # Angir størrelsen på figuren (Plottet)
plt.bar(x ,precipation_data, label="Nedbør", color='b')
#plt.xticks(x, time_data, rotation=45) # Tekster på X aksen
#plt.legend()
#plt.xlabel('Tid')
#plt.ylabel('Nedbør mm/t')
#plt.title('Nedbørsoversikt')
plt.show()
