<figure>
   <IMG SRC="https://mamba-python.nl/images/logo_basis.png" WIDTH=125 ALIGN="right">
   
</figure>



#  Oefening voor webscrapen met BeautifulSoup



Webscraping is een techniek om automatisch toegang te krijgen tot grote hoeveelheden informatie van een website, zonder handmatig alles te moeten bezoeken. Webscraping kan aan het begin een beetje intimiderend zijn, daarom gaan we het in dit werkboek stap voor stap doorlopen. 

We gebruiken package Beautiful soup, requests en urllib.requests omdat dit relatief eenvoudig te gebruiken is. Voor geavanceerdere toepassingen van webscrapen is het package scrapy geschikter. 


# Theorie



### De stappen om webpagina's binnen te halen

In dit voorbeeld bekijken we eerst hoe we dit zouden doen voor de website 'http://web.mta.info/developers/turnstile.html. Deze bevat data informatie over de metro's in New York per station en lijn. Deze bestanden zijn te downloaden per dag. Zonder scrapen zou dit betekenen dat al deze bestanden één voor één geopend moeten worden en opgeslagen. Gelukkig kan dat met webscrapen handiger. Hoe dit moet is in de volgende stappen beschreven. Daaronder staat een oefening om het zelf te proberen.

<br/>
<figure>
   <IMG SRC="imgs/Turnstile_img.png" WIDTH=725 ALIGN="middle">
   
</figure>

### 1. Importeer de packages

Beautiful soup werkt altijd samen met andere packages om de requests naar de browser te sturen.  
Daarvoor importeren we requests en urllib.requests. importeer lxml om de html goed te kunnen parsen. Importeer time om de nodige pauze in het scrapen te kunnen aanbrengen. 

Deze kunnen geinstalleeerd worden via 'pip install' of 'conda install' in je Anaconda Prompt. 

In [110]:
import requests
import urllib.request
import time
from bs4 import BeautifulSoup

### 2. Set the URL you want to webscrape from

In [111]:
url = 'http://web.mta.info/developers/turnstile.html'

### 3. Connect to the URL

In [112]:
response = requests.get(url)

In [113]:
response # het getal in haakjes geeft aan wat de status van het request is. 200 betekend gelukt. 

<Response [200]>

### 4. Parse de HTML met Beautiful Soup

In [114]:
# hier wordt de html van de response binnen gehaald en geparst aan de hand van het lxml package.
soup = BeautifulSoup(response.text, "html.parser") 


In [115]:
soup 


<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
   "http://www.w3.org/TR/html4/strict.dtd">

<html lang="en">
<head>
<title>mta.info | Turnstile Data</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<!--<meta http-equiv="X-UA-Compatible" content="IE=EmulateIE7">-->
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="/siteimages/favicon.ico" rel="shortcut icon"/>
<link href="/css/base.css" rel="stylesheet" type="text/css"/>
<link href="/css/grid.css" rel="stylesheet" type="text/css"/>
<link href="/css/topbar.css" rel="stylesheet" type="text/css"/>
<link href="/css/formalize.css" rel="stylesheet" type="text/css"/>
<!-- <link rel="stylesheet" type="text/css" href="/css/jquery.datepick.css"> -->
<!-- jQuery include should be at the top -->
<script language="javascript" src="/js/jquery-1.4.4.min.js" type="text/javascript"></script>
<!-- Global site tag (gtag.js) - Google Analy

# Doorlinken naar subpagina's

Dat valt best mee. Nu is het vervolgens de kunst om de goede informatie uit de html te halen. Hiervoor is het handig om de basis van HTML te kennen. Voor meer informatie over HTML kun je hier kijken: https://www.w3schools.com/html/html_intro.asp. Om de rauwe text achter de website te zien ga je naar de website, klik je op de rechter muisknop en dan op 'inspect'/'Element controleren'.
<br/>
<br/>
<figure>
   <IMG SRC="/imgs/inspect.png" WIDTH=180 ALIGN="middle">
   
</figure>


De HTML verschijnt dan aan de rechterkant (Chrome) of onderkant (Internet Explorerer) van je browser. Het zou er zo uit moeten zien:
<br/>

<br/>
<figure>
   <IMG SRC="imgs/inspect_output.png" WIDTH=725 ALIGN="middle">
   
</figure>
<br/><br/>
Als je met de rechtermuisknop klinkt op een specifiek element (bijvoorbeeld de titel) en op inspecteren klikt, zie je gelijk waar dat stukje in het html bestand wordt aangegeven. 

De HTML pagina is gebouwd aan de hand van 'tags'. Zo'n tag vertelt de browser om iets te doen. Tags staan altijd binnen '<' en '>'.  In het voorbeeld hieronder is <html> een tag. De tag wordt afgesloten door de naam te herhalen met een '/' ervoor: </html>
    
<br/>
 <figure>
   <IMG SRC="imgs/html.png" WIDTH=325 ALIGN="middle">
   
</figure>


### We kunnen de tags opvragen aan de hand van hun naam

In [116]:
soup.findAll('a')

[<a href="#main-content">Skip to main content</a>,
 <a href="http://www.mta.info"><img alt="Go to MTA homepage" src="/template/images/mta_info.gif"/></a>,
 <a href="https://new.mta.info/accessibility">Accessibility</a>,
 <a href="http://assistive.usablenet.com/tt/http://www.mta.info">Text-only</a>,
 <a href="https://new.mta.info/customer-self-service">Customer Self-Service</a>,
 <a href="https://new.mta.info/careers">Employment</a>,
 <a href="https://new.mta.info/customer-feedback">FAQs/Contact Us</a>,
 <a href="http://www.mta.info" style="padding-left:18px;">Home</a>,
 <a href="http://www.mta.info">MTA Home</a>,
 <a href="http://www.mta.info/nyct">NYC Subways and Buses</a>,
 <a href="http://www.mta.info/lirr">Long Island Rail Road</a>,
 <a href="http://www.mta.info/mnr">Metro-North Railroad</a>,
 <a href="http://www.mta.info/bandt">Bridges and Tunnels</a>,
 <a href="https://new.mta.info/capital">MTA Capital Program</a>,
 <a href="https://new.mta.info/schedules">Schedules</a>,
 <a href

### Pak een specifieke tag uit je lijst

De eerste datafile die we willen bekijken start op regel 36. We kunnen deze opvragen uit de lijst.

In [117]:
one_a_tag = soup.findAll('a')[36]
one_a_tag

<a href="data/nyct/turnstile/turnstile_191123.txt">Saturday, November 23, 2019</a>

### We willen de echte link eruit halen

we kunnen naar de attribute 'href' uit de tag met label a verwijzen met vierkante haken

In [118]:
link = one_a_tag['href']
link

'data/nyct/turnstile/turnstile_191123.txt'

### Het pad is relatief: 
de volledige download is:  'http://web.mta.info/developers/' + link

In [119]:
tot_url  = 'http://web.mta.info/developers/'+ link

# Om te downloaden gebruiken we request.urlretrieve + de download link. Deze zou in het mapje moeten komen te staan. 
urllib.request.urlretrieve(tot_url) 


('C:\\Users\\PETRAI~1\\AppData\\Local\\Temp\\tmpgjqwad9l',
 <http.client.HTTPMessage at 0x2190c961088>)

## Oefening 1: download de eerste 5 files

Als we meerdere requests doen naar een server kunnen we deze overbelasten. Het is daarom netjes om een pauze in je request te bouwen. Bovendien voorkomt dit dat je onnodig geblokkeerd wordt. Hiervoor kun je het package time gebruiken.

time.sleep(1) laat bijvoorbeeld je script een seconde pauzeren. 

Opdracht: Download de eerste 5 files van de mta website met een ingebouwde pauze van 2 seconde tussen de downloads in. 

<a href="#antw1">Antwoord Oefening 1</a>

# Oefeningen met quotes.toscrape.com

De onderstaande oefeningen zijn om te oefenen met het binnenhalen van specifieke data. We gebruiken hiervoor de website 'http://quotes.toscrape.com/'. Dit is een oefen-website voor scrapen waarom quotes staan van verschillende schrijvers uit GoodReads. 

## Oefening 2:

Lees met beautiful soup de data (geparst) binnen van 'http://quotes.toscrape.com/'. 

<a href="#antw2">Antwoord Oefening 2</a>

## Specificeren van tags en attributes

De functie findall & find kunnen we niet alleen gebruiken om tag namen te vinden, maar ook welke waarde de attirbutes moeten hebben, of dat we alleen de textuele waarden willen zien.  Ter illustratie:






### Vb 1 Finding a text based on attributes values

In [122]:
#### vb1 de eerste quote heeft als tag:
# <span class="text" itemprop="text">“The world as we have created it is a process of our thinking. 
# It cannot be changed without changing our thinking.”</span>

# Haal de goede website binnen (als het goed is al gedaan)
url = 'http://quotes.toscrape.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser") 

# we kunnen de attributes class en itemprop en de waarde die hebben opgeven. .text geeft dan de text die tussen de <span> ...
# en </span> instaat. In dit geval de eerste quote
soup.find('span', attrs={'class': 'text', 'itemprop':'text'}).text

'“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”'

### Vb2 Finding all text based on attributes values

In [123]:
# dit kunnen we ook gebruiken met findall:

all_quotes_elements = soup.find_all('span', attrs={'class': 'text', 'itemprop':'text'})

# we kunnen nu niet de .text opvragen omdat we een hele set met resultaten hebben gekregen, van het type 'resultset'
print(type(all_quotes_elements))

# Dit ziet er zo uit
print(all_quotes_elements[0])


<class 'bs4.element.ResultSet'>
<span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>


In [124]:
#Als we hier doorheen loopen dan kunnen we een voor een de quote opvragen
for quote in all_quotes_elements:
    print(quote.text)


“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
“It is our choices, Harry, that show what we truly are, far more than our abilities.”
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
“Try not to become a man of success. Rather become a man of value.”
“It is better to be hated for what you are than to be loved for what you are not.”
“I have not failed. I've just found 10,000 ways that won't work.”
“A woman is like a tea bag; you never know how strong it is until it's in hot water.”
“A day without sunshine is like, you know, night.”


### Vb 3 Find attribute values based on tag name

In [125]:
# Om de attribute value terug te krijgen gebruiken we weer [attribute_name] nadat we het element 
# hebben gevonden aan de hand van de tag naam. 

# Laten we de links zoeken naar de author description. Met inspecteren zien we dat de tag er zo uit ziet
# <a href="/author/Albert-Einstein">(about)</a>
# Echter als we zoeken op alleen tag-naam a dan vinden we veel meer tags dan alleen die met de href die wij zoeken

for element in soup.find_all("a"):
    print(element['href'])

/
/login
/author/Albert-Einstein
/tag/change/page/1/
/tag/deep-thoughts/page/1/
/tag/thinking/page/1/
/tag/world/page/1/
/author/J-K-Rowling
/tag/abilities/page/1/
/tag/choices/page/1/
/author/Albert-Einstein
/tag/inspirational/page/1/
/tag/life/page/1/
/tag/live/page/1/
/tag/miracle/page/1/
/tag/miracles/page/1/
/author/Jane-Austen
/tag/aliteracy/page/1/
/tag/books/page/1/
/tag/classic/page/1/
/tag/humor/page/1/
/author/Marilyn-Monroe
/tag/be-yourself/page/1/
/tag/inspirational/page/1/
/author/Albert-Einstein
/tag/adulthood/page/1/
/tag/success/page/1/
/tag/value/page/1/
/author/Andre-Gide
/tag/life/page/1/
/tag/love/page/1/
/author/Thomas-A-Edison
/tag/edison/page/1/
/tag/failure/page/1/
/tag/inspirational/page/1/
/tag/paraphrased/page/1/
/author/Eleanor-Roosevelt
/tag/misattributed-eleanor-roosevelt/page/1/
/author/Steve-Martin
/tag/humor/page/1/
/tag/obvious/page/1/
/tag/simile/page/1/
/page/2/
/tag/love/
/tag/inspirational/
/tag/life/
/tag/humor/
/tag/books/
/tag/reading/
/tag/fri

In [126]:
# Al de links naar de auteur hebben gelukkig dezelfde text: "(about)", dus kunnen we deze toevoegen in de zoekfunctie.
# Als we nu find_all gebruiken en daar doorheen loopen vinden we alle links terug:
author_links = soup.find_all("a", string="(about)")

for element in author_links:
    print(element['href'])

/author/Albert-Einstein
/author/J-K-Rowling
/author/Albert-Einstein
/author/Jane-Austen
/author/Marilyn-Monroe
/author/Albert-Einstein
/author/Andre-Gide
/author/Thomas-A-Edison
/author/Eleanor-Roosevelt
/author/Steve-Martin


## Oefening 3:

Print de namen van alle auteurs op de startpagina van 'http://quotes.toscrape.com/'.

<a href="#antw3">Antwoord Oefening 3</a>

## Oefening 4:

Er zijn meerdere pagina's met quotes. We kunnen naar de volgende pagina gaan door op next() te klikken. Ook kunnen we zelf 
bedenken hoe het url pad eruit ziet en zo verschillende requests maken. Beide gedachtegangen kunnen we volgen als we meerdere pagina's willen scrapen. De eerste is het makkelijkst. 

Oefening: Scarape van de eerste 3 pagina's alle quotes en print deze. Kies zelf je methode. 

<a href="#antw4">Antwoord Oefening 4</a>

# Zelf gaan scrapen

Nu wordt het tijd om iets te gaan scrapen wat relevant is voor jouw eigen werk of gewoon je interesse heeft. Succes. Mocht je op den duur naar geavanceerdere toepassingen willen kijken (bijvoorbeeld hogere snelheid) van scrapen, dan is scrapy het package voor jou. Wil je hiermee aan de slag, kijk naar het volgende online tutorial: https://docs.scrapy.org/en/latest/intro/tutorial.html

# Antwoorden

#### <a href="#opdr1">Antwoord Oefening 1</a> <a name="antw1"></a>

In [None]:
# Even zeker weten dat de goede url gebruikt wordt
url = 'http://web.mta.info/developers/turnstile.html'
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser") 

# zoek alle a tags (a' tags zijn voor de links)
all_a_tags =  soup.findAll('a')

# loop door de nummers die je wilt (a-tags zijn er veel te veel)
for i in range(36,42): # i is 36,37,.. 41
    one_a_tag = all_a_tags[i]
    
    # zoek de waarde van href (de relatieve link)
    link = one_a_tag['href']
    
    # combineer de relative link met de basis link
    download_url = 'http://web.mta.info/developers/'+ link
    
    # maak het verzoek te downloaden
    urllib.request.urlretrieve(download_url,'./'+link[link.find('/turnstile_')+1:]) 
    
    # voeg de pauze toe om de website niet te over belasten (en zelf niet geblokt te worden)
    time.sleep(2)

#### <a href="#opdr2">Antwoord Oefening 2</a> <a name="antw2"></a>

In [131]:
url = 'http://quotes.toscrape.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser") 

#### <a href="#opdr3">Antwoord Oefening 3</a> <a name="antw3"></a>

In [130]:
authors = soup.find_all('small', attrs={'class' :"author"})
for author in authors:
    print (author.text)

Pablo Neruda
Ralph Waldo Emerson
Mother Teresa
Garrison Keillor
Jim Henson
Dr. Seuss
Albert Einstein
J.K. Rowling
Albert Einstein
Bob Marley


#### <a href="#opdr4">Antwoord Oefening 4</a> <a name="antw4"></a> - twee opties

In [128]:
# Oplossing 1:

# Door goed te kijken naar de opbouw van de URLs zie ik dat ze als volgt lopen
#http://quotes.toscrape.com/page/1/
#http://quotes.toscrape.com/page/2/
# .... tot en met
#http://quotes.toscrape.com/page/10/

# Het is dus mogelijk om beurtlings die urls aan te roepen en te scrapen. 
start_url_format = "http://quotes.toscrape.com/page/{}/"

for i in range(1,4): #getallen 1 tm 3
    # First parse the desired url
    url = start_url_format.format(i)
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    
    # Second search for the quotes & print!
    all_quotes_elements = soup.find_all('span', attrs={'class': 'text', 'itemprop':'text'})
    for quote in all_quotes_elements:
        print(quote.text)
    

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
“It is our choices, Harry, that show what we truly are, far more than our abilities.”
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
“Try not to become a man of success. Rather become a man of value.”
“It is better to be hated for what you are than to be loved for what you are not.”
“I have not failed. I've just found 10,000 ways that won't work.”
“A woman is like a tea bag; you never know how strong it is until it's in hot water.”
“A day without sunshine is like, you know, night.”
“This life is what you make it. No matter what, you're going to mess up sometimes, it's a unive

In [129]:
# Oplossing 2:

# De opvolgende link kan ook gevonden worden door te zoeken by de tag die hoort bij de 'next' knop. 
# Het inspecteren van het element geeft de volgende tag: <a href="/page/2/">Next <span aria-hidden="true">→</span></a>
# Deze kunnen is relatief en kunnen we koppelen aan de basis url: "http://quotes.toscrape.com"

def print_all_quotes(soup):
    """
    This function takes the parsed response and looks for tag & attributes that
    define the quote text on the quotes.toscrape webpage and prints these
    """
    all_quotes_elements = soup.find_all('span', attrs={'class': 'text', 'itemprop':'text'})
    for quote in all_quotes_elements:
        print(quote.text)    

        
def scrape_next_page(soup, base_url):
    """
    get link to second page and return the new parsed html.
    """
    # find the right tag by looking at the more specific class next above the actual link
    page_tag = soup.find("li", attrs= {'class': 'next'})
    
    # within that look for the a tag and the href attribute
    page_link = page_tag.find('a')['href']    
    new_url = base_url + page_link
    response = requests.get(url)
    
    return  BeautifulSoup(response.text, "html.parser")
    

# The script!

base_url = "http://quotes.toscrape.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

#print the quotes for the first page
print_all_quotes(soup)

# find the link to next page and scrape it
soup = scrape_next_page(soup, base_url)
print_all_quotes(soup)

# And again for page 3 (obviously, this could also be written in a for or while loop to scrape all pages)
soup = scrape_next_page(soup, base_url)
print_all_quotes(soup)

 

“I love you without knowing how, or when, or from where. I love you simply, without problems or pride: I love you in this way because I do not know any other way of loving but this, in which there is no I or you, so intimate that your hand upon my chest is my hand, so intimate that when I fall asleep your eyes close.”
“For every minute you are angry you lose sixty seconds of happiness.”
“If you judge people, you have no time to love them.”
“Anyone who thinks sitting in church can make you a Christian must also think that sitting in a garage can make you a car.”
“Beauty is in the eye of the beholder and it may be necessary from time to time to give a stupid or misinformed beholder a black eye.”
“Today you are You, that is truer than true. There is no one alive who is Youer than You.”
“If you want your children to be intelligent, read them fairy tales. If you want them to be more intelligent, read them more fairy tales.”
“It is impossible to live without failing at something, unless you 