# Scraping med Beatiful Soup i Python 

Beatiful Soup er et enkelt scraping-bibliotek i python. Beatiful soup er kun en parser, og må derfor kombineres med et bibliotek som kan sende reqeusts og hente data fra nettsider. 

Passer godt for:
* Enkle oppgaver
* Ikke gjentakende oppgaver

Fordeler:
* Svært enkelt i bruk 
* God dokumentasjon
* Automatisk gjennkjenning av HTML/CSS kode

Ulemper:
* Kan ikke parse javascript
* Kan være treg i bruk (spesielt hvis man ikke kombinerer det med lxml-parser)

In [1]:
import requests
import urllib.request
import lxml
import bs4 as bs
from collections import Counter
import pandas as pd

## Beautiful Soup Basics

Lese inn HTML fra en nettside (med `requests`-biblioteket) 

In [2]:
source =  requests.get("https://www.nrk.no/") # Hente rå-hrml fra nettsiden

Parse HTML-koden med Beautiful Soup

In [3]:
soup = bs.BeautifulSoup(source.content, 'lxml') # Parse innholdet

Finn et gitt element

In [4]:
# Finner første instans av en gitt tag
print(soup.find('h2'))

# Finn første instans av en tag med en spesifikk klasse
print(soup.find('h2', class_ ="kur-newsfeed__title"))

<h2>Nyheter</h2>
<h2 class="kur-newsfeed__title"> <span>Nyhetsmeldinger</span> </h2>


Finn alle av et gitt element

In [5]:
# Finner alle instanser av en gitt tag
#print(soup.find_all('button'))

# Finn alle instanser av en tag med en spesifikk klasse
print(soup.find_all('button', class_ ="nrk-masthead__more"))

[<button aria-controls="nrk-masthead__mega" aria-expanded="false" class="nrk-masthead__more">
<span>Mer</span>
<svg aria-hidden="true" focusable="false" height="1.500em" viewbox="0 0 15 15" width="1.500em"><path d="M1.5 5l6 6 6-6" fill="none" stroke="currentColor" stroke-linecap="round"></path></svg>
</button>]


Hente ut tekst fra tag

In [6]:
print(soup.find('h2', class_ ="kur-newsfeed__title").get_text())

 Nyhetsmeldinger 


Hente ut link fra `<a>`-tag

In [7]:
print(soup.find('a', href = True)['href'])

https://www.nrk.no/


## Enkelt kodeeksempel 

Gå gjennom forsiden på NRK.no og hent ut alle overskriftene + lenke til artikklene 

In [8]:
forside =  requests.get("https://www.nrk.no/") # Hente rå-hrml fra nettsiden
forside = bs.BeautifulSoup(forside.content, 'lxml') # Parse innholdet

In [10]:
# Sjekk hvordan HTML-en leses inn
#print(forside.body.prettify()) #Prettify er greit for å få ca riktig indentering på HTML-elementene

In [14]:
# Henter ut alle nyhetsartiklere, de ligger i section-tags
seksjoner = forside.find_all('section')

# Vi er ikke interessert i den første (nyhetsvarselene), så denne fjernes fra listen 
seksjoner.pop(0)
len(seksjoner)

38

`find_all` returnerer en liste med alle section-tagsene (med innhold) som finnes på nettsiden. Før vi henter ut det vi skal kan det være greit å ta en ekstra sjekk på hvordan det leses inn og hvor vi finner informasjonen vi trenger

In [15]:
# print(seksjoner[5].prettify()) # Velger et tilfeldig element fra listen

Vi er interessert i lenker til hver artikkel (som ligger i `<a>` tags) og overskriftene, som finnes i `<h1>`, `<h2>` eller `<h3>` tags.

Som vi ser av printen ligger det en del informasjon nøstet i hver `<a>`-tag, deriblant overskriften på artikkelen. Vi trenger derfor kun å hente ut informasjonen som ligger i hver `<a>`-tag, og jobbe videre med det. Hver `<section>`-tag kan inneholde flere artikler, så vi må passe på å hente ut all informasjonen som trengs fra hver artikkel i hver `<section>`.

Vi lager derfor en funksjon som henter ut og cleaner overskrift + link til artikkel for hver `<a>` tag i en `<section>`: 

In [16]:
def section_extractor (section):
    results = pd.DataFrame(columns = ['Overskrift','Lenke']) # Holder informasjonen som skal returneres
    
    elems = section.find_all('a', href=True) # Vi så over at overskriftene og linkene lå nøstet i a-tagsene, henter derfor ut de
    for elem in elems:
        title = elem.find(['h1','h2','h3']) # Henter ut overskriftene. Fra HTML-koden kan vi se at de vairerer mellom hvilken h, men aldri mer enn en per bolk
        if(title == None): # Dersom det ikke er tilknyttet en overskrift til linken hopper vi videre til neste
            continue
            
        title = ' '.join(title.text.split()) # Rensker opp, fjerner linjeskift etc
        link = elem['href'] # Henter ut lenken
        res = [title, link]
        results = results.append(pd.Series(res, index = ['Overskrift','Lenke']), ignore_index = True) # Lagrer resultatene
        
        
    return(results)


section_extractor(seksjoner[5])
        

Unnamed: 0,Overskrift,Lenke
0,Mener flyplass­planer i nord må skrotes,https://www.nrk.no/nordland/naturvernforbundet...
1,Avslørt i Frankrike: Politiet på jakt etter in...,https://www.nrk.no/urix/fransk-politi-jakter-i...


Looper gjennom alle seksjonene vi har hentet ut for å få et samlet resultatsett

In [17]:
results = pd.DataFrame(columns = ['Overskrift','Lenke']) # Holder informasjonen som skal returneres

for seksjon in seksjoner:
    temp = section_extractor(seksjon)
    results = results.append(temp, ignore_index = True)

In [18]:
results

Unnamed: 0,Overskrift,Lenke
0,Maria (21) skal skru den biologiske alderen si...,https://www.nrk.no/vestland/maria-_21_-skal-se...
1,Ringnes reagerer på øl-merke – ser du likheten?,https://www.nrk.no/kultur/synes-du-noe-virker-...
2,Måtte amputere foten etter feiloperasjon – kal...,https://www.nrk.no/sorlandet/feilopererte-finn...
3,Uveret: Melder om bilar med sommar­dekk,https://www.nrk.no/vestland/sno-skapar-store-u...
4,Mannskapet evakuert: Kystverket: Risiko for at...,https://www.nrk.no/norge/kystverket_-risiko-fo...
...,...,...
71,Rundstal utviklings­hemma foster­dotter for å ...,https://www.nrk.no/mr/spelte-vekk-pengane-til-...
72,"Er Herman Dahl en selvgod, uplaget gladlaks?",https://radio.nrk.no/podkast/saann_er_du/l_500...
73,Toves papir­kunst er kjent på andre siden av k...,https://www.nrk.no/hvordan-lage-blomster-av-pa...
74,Åshild er en av få dragkings i Norge: – Det er...,https://p3.no/ashild-er-en-av-fa-drag-kings-i-...
