# Scraping med Beatiful Soup i Python 

`Beatiful Soup` er et enkelt scraping-bibliotek i python. Beatiful soup er kun en parser, og må derfor kombineres med et bibliotek som kan sende reqeusts og hente data fra nettsider, ofte `requests`-biblioteket. [Dokumentasjon](https://beautiful-soup-4.readthedocs.io/en/latest/)

Passer godt for:
* Enkle oppgaver
* Ikke gjentakende oppgaver

Fordeler:
* Svært enkel i bruk 
* God dokumentasjon
* Automatisk gjennkjenning av HTML/CSS kode

Ulemper:
* Kan ikke parse javascript
* Kan være treg i bruk (spesielt hvis man ikke kombinerer det med lxml-parser)

Her brukes `requests` i sin standardversjon, men man kan også bruke `requests-respectful` for å håndtere begrensninger satt i robots.txt på ulike nettsider ([Lenke](https://pypi.org/project/requests-respectful/)). NB. dette krever Redis og vil ikke bli gjennomgått i denne sesjonen. For små enkle prosjekter kan pålagt ventetid/request per sekund håndteres med `time`-modulen

In [34]:
import requests
import lxml
import bs4 as bs
import pandas as pd

## Beautiful Soup Basics

Lese inn HTML fra en nettside (med `requests`-biblioteket) 

In [35]:
source =  requests.get("https://www.nrk.no/") # Hente rå-html fra nettsiden

Parse HTML-koden med Beautiful Soup

In [36]:
soup = bs.BeautifulSoup(source.content, 'lxml') # Parse innholdet med lxml-parser

Finn et gitt element

In [37]:
# Finner første instans av en gitt tag
print(soup.find('h2'))

# Finn første instans av en tag med en spesifikk klasse
print(soup.find('h2', class_ ="kur-newsfeed__title"))

<h2>Nyheter</h2>
<h2 class="kur-newsfeed__title"> <span>Nyhetsmeldinger</span> </h2>


Finn alle av et gitt element

In [38]:
# Finner alle instanser av en gitt tag
#print(soup.find_all('button'))

# Finn alle instanser av en tag med en spesifikk klasse
#print(soup.find_all('button', class_ ="nrk-masthead__more"))

Hente ut tekst fra tag

In [39]:
print(soup.find('h2', class_ ="kur-newsfeed__title").get_text())

 Nyhetsmeldinger 


Hente ut link fra `<a>`-tag

In [40]:
print(soup.find('a', href = True)['href'])

https://www.nrk.no/


## Enkelt kodeeksempel 

Gå gjennom forsiden på NRK.no og hent ut alle overskriftene + lenke til artikklene 

In [41]:
# Hente rå-html fra nettsiden
source =  requests.get("https://www.nrk.no/")

# Parse innholdet
soup = bs.BeautifulSoup(source.content, 'lxml') 

# Du kan sjekke hvordan HTML-koden leses inn, prettify() gir ca. riktig indentering på HTML-elementene
#print(forside.body.prettify()) 

# Henter ut alle nyhetsartiklere, de ligger i section-tags
seksjoner = soup.find_all('section')

# Vi er ikke interessert i den første (nyhetsvarselene), så denne fjernes fra listen 
seksjoner.pop(0) 
len(seksjoner) 

37

Vi er interessert i lenker til hver artikkel (som ligger i `<a>` tags) og overskriftene, som finnes i `<h1>`, `<h2>` eller `<h3>` tags.

Som vi ser av printen ligger det en del informasjon nøstet i hver `<a>`-tag, deriblant overskriften på artikkelen. Vi trenger derfor kun å hente ut informasjonen som ligger i hver `<a>`-tag, og jobbe videre med det. Hver `<section>`-tag kan inneholde flere artikler, så vi må passe på å hente ut all informasjonen som trengs fra hver artikkel i hver `<section>`.

In [43]:
# Holder informasjonen som skal returneres
resultat = pd.DataFrame(columns = ['Overskrift','Lenke']) 

# Looper gjennom alle nyhetene i hver section-tag
for seksjon in seksjoner:
    for nyhet in seksjon.find_all('a', href=True):
        
        # Finner tittel-tekst fra riktig tag
        tittel = nyhet.find(['h1','h2','h3']) 
        
        # Hopp videre dersom artikkelen ikke har tittel
        if(tittel == None):
            continue
        
        # Fjerner linjeskift etc
        tittel = ' '.join(tittel.text.split())
        
        # Henter ut lenken
        link = nyhet['href']
        
        # Lagrer resultatene
        resultat = resultat.append(pd.Series(
            [tittel,link], index = ['Overskrift','Lenke']), ignore_index = True)

        
resultat

Unnamed: 0,Overskrift,Lenke
0,Advokat Tor Kjærvik skutt og drept – siktede o...,https://www.nrk.no/norge/en-person-dod-etter-s...
1,Tor Kjærvik: Kjent fra flere av krim­historien...,https://www.nrk.no/norge/advokat-tor-kjaervik-...
2,Danmark: Råkjørere risikerer at politiet selge...,https://www.nrk.no/urix/ny-lov-i-danmark_-kan-...
3,Nakstad om smitten: – Det er på vei litt nedov...,https://www.nrk.no/norge/nakstad__-gir-et-hap-...
4,IT-selskap ber folk rydde i innboksen,https://www.nrk.no/vestland/ber-folk-rydde-i-i...
...,...,...
73,Rusinstitusjon frustrert: – Vi har ikke tatt u...,https://www.nrk.no/rogaland/trond-skarpsno-i-f...
74,Her ligg Mercedesen midt i Oslo­fjorden,https://www.nrk.no/blalys-for-havet-1.15433282
75,De unge kan nesten ikke vente: – Jeg skal rett...,https://www.nrk.no/spesial/lyspunkt/
76,Norsk «is-tsunami» fanga på film,https://www.nrk.no/innlandet/fanga-video-av-_i...
