# Introduktion til webscraping i Python
## Af Henrik Sterner

I det følgende vil vi se på hvorledes man kan bruge webscraping til at samle data ind fra hjemmeside, som så kan behandles og analyseres på i Python. 

## Hvad er webscraping?
Webscraping er en metode til at indsamle data fra hjemmesider. Det kan være data, som er gemt i tabeller, eller det kan være data, som er gemt i tekst.

## Hvorfor webscraping?
Webscraping kan bruges i mange forskellige sammenhænge. Det kan eksempelvis bruges til at indsamle data til en analyse, eller det kan bruges til at indsamle data til en maskinlæringsmodel.




Fordelene ved at bruge webscraping er mange:
* Det er hurtigt, nemt og billigt at indsamle data
* Det er muligt at indsamle data, som ikke er tilgængeligt i andre formater
* Data kan indsamles dynamisk og løbende 
* Hentning og indlæsning af data kan automatiseres
* Data kan indsamles fra mange forskellige kilder
* Data kan indsamles fra mange forskellige formater

Ulemperne ved at bruge webscraping er også mange:
* Det er ikke altid tilladt at webscrape. Vær opmærksom på, at det kan være ulovligt at webscrape data fra en hjemmeside. Det er derfor vigtigt, at du undersøger, om det er tilladt at webscrape fra den hjemmeside, som du ønsker at webscrape fra.
* Det er ikke altid muligt at webscrape. Det kan være, at hjemmesiden er beskyttet mod webscraping, eller at hjemmesiden er dynamisk opbygget, således at det er svært at webscrape fra hjemmesiden.
* 

## Webscraping i python
I nærværende tekst benyttes biblioteket BeautifulSoup til at webscrape. BeautifulSoup er et bibliotek, som kan bruges til at webscrape i Python. Det er et meget populært bibliotek, som er nemt at bruge.

## Installation af BeautifulSoup
Vi starter med at installere BeautifulSoup. Vi åbner Anaconda Prompt og skriver følgende kommando:

```python
pip install beautifulsoup4
```

Hvis du bruger Jupyter Notebook, kan du også installere BeautifulSoup ved at skrive følgende kommando i en celle:

```python
!pip install beautifulsoup4
```

Hvis du bruger Anaconda, kan du også installere BeautifulSoup ved at åbne Anaconda Prompt og skrive følgende kommando:

```python
conda install -c anaconda beautifulsoup4
```
## Import af biblioteker
Vi starter med at importere de biblioteker, som vi skal bruge. Vi skal bruge biblioteket BeautifulSoup til at webscrape, og vi skal bruge biblioteket pandas til at behandle data.

```python
from bs4 import BeautifulSoup
```


## Eksempel på webscraping
I det følgende vil vi se på et eksempel på webscraping. Vi vil webscrape data fra en hjemmeside, som vi konstruerer herunder. I praksis vil vi webscrape data fra en hjemmeside på internettet, men vi konstruerer en hjemmeside herunder, så vi kan se, hvordan webscraping fungerer. 

Herunder html-koden til hjemmesiden, som vi konstruerer.

```html
<!DOCTYPE html>
<html>
<body>

<h1>Min hjemmeside</h1>

<table>
  <tr>
    <th>Navn</th>
    <th>Alder</th>
  </tr>
  <tr>
    <td>Henrik</td>
    <td>45</td>
  </tr>
  <tr>
    <td>Anders</td>
    <td>40</td>
  </tr>
  <tr>
    <td>Thomas</td>
    <td>35</td>
  </tr>
</table>

</body>
</html>
```

Vi gemmer html-koden i en fil, som vi kalder index.html. Vi gemmer filen i samme mappe som vores Jupyter Notebook-fil.


## Indlæsning af data
Vi starter med at indlæse html-koden fra filen index.html. Vi indlæser html-koden ved at bruge funktionen open. Vi gemmer html-koden i variablen html. Vi antager, at html-filen ligger i samme mappe som vores Jupyter Notebook-fil.


```python   
html = open("index.html")
```



## Konvertering af html-kode til BeautifulSoup-objekt
Vi konverterer html-koden til et BeautifulSoup-objekt. Vi gør det ved at bruge BeautifulSoup-funktionen. Vi gemmer BeautifulSoup-objektet i variablen soup.

```python
soup = BeautifulSoup(html, 'html.parser')
```



## Udtrækning af data fra BeautifulSoup-objektet
Vi er nu klar til at webscrape data fra vores meget simple hjemmeside. I første omgang vil vi webscrape data fra tabellen på hjemmesiden. Vi starter med at finde tabellen på hjemmesiden. Vi gør det ved at bruge funktionen find. Vi angiver, at vi vil finde tabellen, som har tagget table. Vi gemmer tabellen i variablen table.

```python
table = soup.find('table')
```

Vi kan nu udtrække data fra tabellen. Vi starter med at udtrække kolonnenavne. Vi gør det ved at bruge funktionen find_all. Vi angiver, at vi vil finde alle kolonnenavne, som har tagget th. Vi gemmer kolonnenavnene i variablen headings.

```python
headings = [th.get_text() for th in table.find_all('th')]
```

Vi kan nu udtrække rækkerne i tabellen. Vi gør det ved at bruge funktionen find_all. Vi angiver, at vi vil finde alle rækker, som har tagget tr. Vi gemmer rækkerne i variablen rows.

```python
rows = table.find_all('tr')
```

Vi kan nu udtrække data fra rækkerne. Vi gør det ved at bruge funktionen find_all. Vi angiver, at vi vil finde alle data, som har tagget td. Vi gemmer data i variablen data.

```python
data = [[td.get_text() for td in rows[i].find_all('td')] for i in range(len(rows))]
```
Fremfor at bruge liste-komprehension kan vi også bruge en for-løkke til at udtrække data fra rækkerne:
    
    ```python
    data = []
    for i in range(len(rows)):
        data.append([td.get_text() for td in rows[i].find_all('td')])
    ```
Lad os se på, hvordan data ser ud.

```python
data
```

    [['Henrik', '45'], ['Anders', '40'], ['Thomas', '35']]  

Vi kan eksempelvis udtrække navne og aldre i seperate lister.

```python
navne =[]; aldre = []
for bruger in data:
    navne.append(bruger[0])
    aldre.append(bruger[1])

print(navne)
print(aldre)
```

    ['Henrik', 'Anders', 'Thomas']
    ['45', '40', '35']  
```

## Vigtige funktioner i BeautifulSoup
I det følgende vil vi se på nogle af de vigtigste funktioner i BeautifulSoup.

### find
Funktionen find bruges til at finde et element i html-koden. Vi angiver, hvilket element vi vil finde. Vi kan eksempelvis angive, at vi vil finde et element, som har tagget table. Vi kan også angive, at vi vil finde et element, som har en bestemt klasse. Vi kan eksempelvis angive, at vi vil finde et element, som har klassen table. Vi kan også angive, at vi vil finde et element, som har en bestemt id. Vi kan eksempelvis angive, at vi vil finde et element, som har id'et table1.

```python
soup.find('table')
soup.find(class_='table')
soup.find(id='table1')
```

### find_all
Funktionen find_all bruges til at finde alle elementer i html-koden. Vi angiver, hvilket element vi vil finde. Vi kan eksempelvis angive, at vi vil finde alle elementer, som har tagget table. Vi kan også angive, at vi vil finde alle elementer, som har en bestemt klasse. Vi kan eksempelvis angive, at vi vil finde alle elementer, som har klassen table. Vi kan også angive, at vi vil finde alle elementer, som har en bestemt id. Vi kan eksempelvis angive, at vi vil finde alle elementer, som har id'et table1.

```python
soup.find_all('table')
soup.find_all(class_='table')
soup.find_all(id='table1')
```

### get_text
Funktionen get_text bruges til at udtrække tekst fra et element. Vi angiver, hvilket element vi vil udtrække tekst fra. Vi kan eksempelvis angive, at vi vil udtrække tekst fra et element, som har tagget table. Vi kan også angive, at vi vil udtrække tekst fra et element, som har en bestemt klasse. Vi kan eksempelvis angive, at vi vil udtrække tekst fra et element, som har klassen table. Vi kan også angive, at vi vil udtrække tekst fra et element, som har en bestemt id. Vi kan eksempelvis angive, at vi vil udtrække tekst fra et element, som har id'et table1.

```python
soup.find('table').get_text()
soup.find(class_='table').get_text()
soup.find(id='table1').get_text()
```

### get
Funktionen get bruges til at udtrække attributter fra et element. Vi angiver, hvilket element vi vil udtrække attributter fra. Vi kan eksempelvis angive, at vi vil udtrække attributter fra et element, som har tagget table. Vi kan også angive, at vi vil udtrække attributter fra et element, som har en bestemt klasse. Vi kan eksempelvis angive, at vi vil udtrække attributter fra et element, som har klassen table. Vi kan også angive, at vi vil udtrække attributter fra et element, som har en bestemt id. Vi kan eksempelvis angive, at vi vil udtrække attributter fra et element, som har id'et table1.

```python
soup.find('table').get('class')
soup.find(class_='table').get('class')
soup.find(id='table1').get('class')
```

### children
Funktionen children bruges til at finde alle børn til et element. Vi angiver, hvilket element vi vil finde børn til. Vi kan eksempelvis angive, at vi vil finde børn til et element, som har tagget table. Vi kan også angive, at vi vil finde børn til et element, som har en bestemt klasse. Vi kan eksempelvis angive, at vi vil finde børn til et element, som har klassen table. Vi kan også angive, at vi vil finde børn til et element, som har en bestemt id. Vi kan eksempelvis angive, at vi vil finde børn til et element, som har id'et table1.

```python
soup.find('table').children
soup.find(class_='table').children
soup.find(id='table1').children
```

### parent
Funktionen parent bruges til at finde forælderen til et element. Vi angiver, hvilket element vi vil finde forælderen til. Vi kan eksempelvis angive, at vi vil finde forælderen til et element, som har tagget table. Vi kan også angive, at vi vil finde forælderen til et element, som har en bestemt klasse. Vi kan eksempelvis angive, at vi vil finde forælderen til et element, som har klassen table. Vi kan også angive, at vi vil finde forælderen til et element, som har en bestemt id. Vi kan eksempelvis angive, at vi vil finde forælderen til et element, som har id'et table1.

```python
soup.find('table').parent
soup.find(class_='table').parent
soup.find(id='table1').parent
```

### parents
Funktionen parents bruges til at finde alle forældre til et element. Vi angiver, hvilket element vi vil finde forældre til. Vi kan eksempelvis angive, at vi vil finde forældre til et element, som har tagget table. Vi kan også angive, at vi vil finde forældre til et element, som har en bestemt klasse. Vi kan eksempelvis angive, at vi vil finde forældre til et element, som har klassen table. Vi kan også angive, at vi vil finde forældre til et element, som har en bestemt id. Vi kan eksempelvis angive, at vi vil finde forældre til et element, som har id'et table1.

```python
soup.find('table').parents
soup.find(class_='table').parents
soup.find(id='table1').parents
```

### next_sibling
Funktionen next_sibling bruges til at finde det næste søskende til et element. Vi angiver, hvilket element vi vil finde det næste søskende til. Vi kan eksempelvis angive, at vi vil finde det næste søskende til et element, som har tagget table. Vi kan også angive, at vi vil finde det næste søskende til et element, som har en bestemt klasse. Vi kan eksempelvis angive, at vi vil finde det næste søskende til et element, som har klassen table. Vi kan også angive, at vi vil finde det næste søskende til et element, som har en bestemt id. Vi kan eksempelvis angive, at vi vil finde det næste søskende til et element, som har id'et table1.

```python
soup.find('table').next_sibling
soup.find(class_='table').next_sibling
soup.find(id='table1').next_sibling
```

### next_siblings
Funktionen next_siblings bruges til at finde alle næste søskende til et element. Vi angiver, hvilket element vi vil finde alle næste søskende til. Vi kan eksempelvis angive, at vi vil finde alle næste søskende til et element, som har tagget table. Vi kan også angive, at vi vil finde alle næste søskende til et element, som har en bestemt klasse. Vi kan eksempelvis angive, at vi vil finde alle næste søskende til et element, som har klassen table. Vi kan også angive, at vi vil finde alle næste søskende til et element, som har en bestemt id. Vi kan eksempelvis angive, at vi vil finde alle næste søskende til et element, som har id'et table1.

```python
soup.find('table').next_siblings
soup.find(class_='table').next_siblings
soup.find(id='table1').next_siblings
```

### previous_sibling
Funktionen previous_sibling bruges til at finde det forrige søskende til et element. Vi angiver, hvilket element vi vil finde det forrige søskende til. Vi kan eksempelvis angive, at vi vil finde det forrige søskende til et element, som har tagget table. Vi kan også angive, at vi vil finde det forrige søskende til et element, som har en bestemt klasse. Vi kan eksempelvis angive, at vi vil finde det forrige søskende til et element, som har klassen table. Vi kan også angive, at vi vil finde det forrige søskende til et element, som har en bestemt id. Vi kan eksempelvis angive, at vi vil finde det forrige søskende til et element, som har id'et table1.

```python
soup.find('table').previous_sibling
soup.find(class_='table').previous_sibling
soup.find(id='table1').previous_sibling
```



# Eksempel på at trække navnene ud fra en hjemmeside

Til at starte med indlæse html:

In [1]:
# sæt html ind i en variabel:
htmltest = """
<!DOCTYPE html>
<html>
<body>

<h1>Min hjemmeside</h1>

<table>
  <tr>
    <th>Navn</th>
    <th>Alder</th>
  </tr>
  <tr>
    <td>Henrik</td>
    <td>45</td>
  </tr>
  <tr>
    <td>Anders</td>
    <td>40</td>
  </tr>
  <tr>
    <td>Thomas</td>
    <td>35</td>
  </tr>
</table>

</body>
</html>
"""


In [2]:
# omform til et soup objekt:
from bs4 import BeautifulSoup
soup = BeautifulSoup(htmltest, 'html.parser')


In [4]:
# print hele html dokumentet:
#print(soup.prettify())


In [7]:
# Find navne og aldre:

# find alle td tags:
td_tags = soup.find_all('td')
print(td_tags)

# find værdierne i td tags:
liste = []
for td in td_tags:
    liste.append(td.text)

# tag hver anden værdi og lav en liste:
navne = liste[0::2]
aldre = liste[1::2]

print(navne)
print(aldre)

# zip listerne sammen:
navne_og_aldre = list(zip(navne, aldre))
print(navne_og_aldre)


[<td>Henrik</td>, <td>45</td>, <td>Anders</td>, <td>40</td>, <td>Thomas</td>, <td>35</td>]
['Henrik', 'Anders', 'Thomas']
['45', '40', '35']


## Et større eksempel på webscraping af data fra en hjemmeside
I det følgende vil vi se på et eksempel på webscraping af data fra en hjemmeside. Vi vil webscrape data fra hjemmesiden https://www.worldometers.info/coronavirus/. Vi vil webscrape data om antal smittede, antal døde og antal helbredte i forbindelse med coronavirus. Vi vil webscrape data for alle lande i verden. Vi vil gemme data i en pandas DataFrame.

### Import af biblioteker
Vi starter med at importere de biblioteker, som vi skal bruge. Vi skal bruge biblioteket BeautifulSoup til at webscrape, og vi skal bruge biblioteket pandas til at behandle data.

```python
from bs4 import BeautifulSoup
import numpy as np
```

### Indlæsning af data
Vi starter med at indlæse html-koden fra hjemmesiden https://www.worldometers.info/coronavirus/. Vi indlæser html-koden ved at bruge funktionen open. Vi gemmer html-koden i variablen html.

```python
html = open("https://www.worldometers.info/coronavirus/")
```

### Konvertering af html-kode til BeautifulSoup-objekt
Vi konverterer html-koden til et BeautifulSoup-objekt. Vi gør det ved at bruge BeautifulSoup-funktionen. Vi gemmer BeautifulSoup-objektet i variablen soup.

```python
soup = BeautifulSoup(html, 'html.parser')
```

### Udtrækning af data fra BeautifulSoup-objektet
Vi er nu klar til at webscrape data fra hjemmesiden https://www.worldometers.info/coronavirus/. Vi starter med at finde tabellen på hjemmesiden. Vi gør det ved at bruge funktionen find. Vi angiver, at vi vil finde tabellen, som har tagget table. Vi gemmer tabellen i variablen table.

```python
table = soup.find('table')
```

Vi kan nu udtrække kolonnenavne. Vi gør det ved at bruge funktionen find_all. Vi angiver, at vi vil finde alle kolonnenavne, som har tagget th. Vi gemmer kolonnenavnene i variablen headings.

```python
headings = [th.get_text() for th in table.find_all('th')]
```

Vi kan nu udtrække rækkerne i tabellen. Vi gør det ved at bruge funktionen find_all. Vi angiver, at vi vil finde alle rækker, som har tagget tr. Vi gemmer rækkerne i variablen rows.

```python
rows = table.find_all('tr')
```

Vi kan nu udtrække data fra rækkerne. Vi gør det ved at bruge funktionen find_all. Vi angiver, at vi vil finde alle data, som har tagget td. Vi gemmer data i variablen data.

```python
data = [[td.get_text() for td in rows[i].find_all('td')] for i in range(len(rows))]
```

Vi kan nu oprette et numpy array med data. Vi gør det ved at bruge funktionen array. Vi angiver, at vi vil oprette et numpy array med data. Vi gemmer numpy arrayet i variablen data_array.

```python
data_array = np.array(data)
```

Alternativt kan bruges pandas til at oprette et pandas DataFrame med data. Vi gør det ved at bruge funktionen DataFrame. Vi angiver, at vi vil oprette et pandas DataFrame med data. Vi gemmer pandas DataFrameet i variablen data_df.

```python
data_df = pd.DataFrame(data)
```

Vi kan nu oprette et pandas DataFrame med data. Vi gør det ved at bruge funktionen DataFrame. Vi angiver, at vi vil oprette et pandas DataFrame med data. Vi gemmer pandas DataFrameet i variablen data_df.

```python
data_df = pd.DataFrame(data)
```



