# Example
Deze notebook bevat voorbeelden voor het gebruik van de functies en code in deze repository.

## Import Packages
Deze cellen importen de benodigde packages en methods.

In [1]:
# import all methods from scraper in folder /code
# from code.scraper import * #alleen als deze package is geïnstalleerd in je environment
import sys; sys.path.append('./code') # import scraper vanuit de relatieve folder in dit project (dus niet vanuit je python environment)
from scraper import *

## Definities
Hier staat een lijst van definities die handig zijn om te weten bij het gebruiken van deze package.

- URL: een URL is de locatie van een website.
- HTML: de HTML is een object dat je webbrowser omzet in leesbare tekst en ontwerp.
- Anchor: de anchor is een element in een HTML object die links bevat. Dit kan naar interne als extern websites of documenten of plaatjes.
- HREF: de HREF is een parameter in de anchor die de link bevat.

## Methods
De volgende cellen laten een voorbeeld zien van alle methodes/functies in de scraper package

In [2]:
url = 'www.onderwijsincijfers.nl'

### `beatify_url(url)`

Deze functie maakt een URL bruikbaar voor een http intepreter. Hiervoor is een `http` voorzetsel nodig.

In [3]:
b_url = beautify_url(url)
print(b_url)

http://www.onderwijsincijfers.nl


### `domain_styles(b_url)`

Deze functie gebruikt een beautified URL en geeft twee lists terug, de eerste met domeinstijlen zonder `http` en de tweede met `http`.

In [7]:
domain_styles(b_url)

(['onderwijsincijfers.nl/',
  'onderwijsincijfers.nl',
  'www.onderwijsincijfers.nl/',
  'www.onderwijsincijfers.nl'],
 ['http://www.onderwijsincijfers.nl/',
  'http://www.onderwijsincijfers.nl',
  'https://www.onderwijsincijfers.nl/',
  'https://www.onderwijsincijfers.nl',
  'http://onderwijsincijfers.nl/',
  'http://onderwijsincijfers.nl',
  'https://onderwijsincijfers.nl/',
  'https://onderwijsincijfers.nl'])

### `set_headers()`

Sommige websites proberen bots te weren door een eis te stellen aan requests dat het van een webbrowser komt. Deze eis kan je omzeilen door te spoofen dat je vanuit een webbrowser een request stuurt. Hiervoor heb je een header nodig, deze zijn hardcoded in deze method.

In [8]:
set_headers()

{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36 Edg/91.0.864.41'}

### `check_url(url)`

Deze functie geeft de response code van een request naar een url. Aan de hand van deze response code kun je kijken of je de website succesvol kan bereiken of dat je een bepaalde foutmelding krijgt.

Note: de functie probeert eerst met `verify=True` flag maar kan dan tegen een `Max Retries` error aanlopen en zet dan `verify=False` om deze error te omzeilen. Dit geeft een warning omdat je dan een onveilige verbinding aangaat met de host.

Voor meer informatie over http response codes kijk op `https://developer.mozilla.org/en-US/docs/Web/HTTP/Status`.

In [9]:
check_url(url)



200

### `get_url(url)`

Deze functie haalt de URL op die wordt gepingd. Soms wordt de request naar een URL redirected zoals een subdomein of een ander host (bijvoorbeeld http -> https of naar een externe host zoals google).

In [10]:
get_url(url)

'https://www.onderwijsincijfers.nl/'

### `fix_url(url)`

Deze functie checkt een url op veelvoorkomende fouten en tracht deze te repareren.

In [11]:
fix_url('www,onderwijsincijfers.nl')

'www.onderwijsincijfers.nl'

### `fetch_html(url)`

Deze functie haalt het html object op van de url.

In [12]:
fetch_html(url)



rsteunt deze standaarden niet. Stap daarom over op een recente browser.</strong></p>");\n    }\n\n  </script>\n  </header>\n<div id="navBar">\n  <div class="wrapper">\n    <nav class="breadCrumbNav" aria-labelledby="breadCrumbNavLabel">\n  <span class="assistive" id="breadCrumbNavLabel">U bevindt zich hier:</span>\n  <a href="/" aria-current="page">Home</a>\n</nav>\n<div id="searchForm" role="search" class="searchForm" data-search-closed="Open zoekveld" data-search-opened="Start zoeken">\n  <form method="get" action="/zoeken" id="search-form" data-clearcontent="Invoer wissen">\n    <label for="search-keyword">Zoeken binnen Onderwijs in cijfers</label>\n    <input type="text" id="search-keyword" class="searchInput" name="trefwoord"\n      title="Typ hier uw zoektermen" placeholder="Zoeken" />\n    <button id="search-submit" class="searchSubmit" name="search-submit" type="submit" \n        title="Start zoeken">\n      Zoek</button>\n  </form>\n</div>\n</div>\n</div><main id="content-wrap

### `get_links(url)`

Deze functie neemt een URL en gebruikt de `fetch_html()` functie om een HTML op te halen, vormt deze om tot een `soup` object met BeautifulSoup4 package en zoekt in de `<a>` anchors naar `href`'s waar links in zitten. Deze links koppelen naar subdomeinen of externe websites. 

In [4]:
get_links(url)



{'http://www.cbs.nl/nl-NL/menu/home/default.htm',
 'http://www.onderwijsincijfers.nl#content-wrapper',
 'http://www.onderwijsincijfers.nl/',
 'http://www.onderwijsincijfers.nl/actueel/nieuws',
 'http://www.onderwijsincijfers.nl/actueel/nieuws/2020/09/12/nieuwe-cijfers',
 'http://www.onderwijsincijfers.nl/actueel/nieuws/2020/10/29/actualisatie-op-basis-van-roa-en-vsnu-publicaties',
 'http://www.onderwijsincijfers.nl/actueel/nieuws/2020/12/08/rapport-timss-2019',
 'http://www.onderwijsincijfers.nl/actueel/nieuws/2020/12/10/trendrapportage-arbeidsmarkt-leraren-po-vo-en-mbo-2020',
 'http://www.onderwijsincijfers.nl/actueel/nieuws/2021/04/1/inzicht-in-de-%E2%80%98arbeidsmarkt-en-personeelstekorten%E2%80%99-voor-het-voortgezet-onderwijs',
 'http://www.onderwijsincijfers.nl/actueel/nieuws/2021/07/01/regioscanner-geactualiseerd',
 'http://www.onderwijsincijfers.nl/contact',
 'http://www.onderwijsincijfers.nl/cookies',
 'http://www.onderwijsincijfers.nl/copyright',
 'http://www.onderwijsincijfe

### `is_internal(url, url2)`

Deze functie legt twee URLs naast elkaar en checkt of de tweede URL naar een interne of een externe website doorverwijst.

In [5]:
is_internal(url, 'http://www.onderwijsincijfers.nl/toelichting-cijfers')

True

In [6]:
is_internal(url, 'https://www.ocwincijfers.nl/verantwoord-begroten/begroting/dashboard-beleidsagenda-2021')

False

### `index_url(url, max_depth = 2)`

Deze functie indexeert de url tot een maximale diepte van `max_depth`. 

In [4]:
index_url(url)

sonderwijs/aandeel-lesuren-bewegingsonderwijs',
 'http://www.rijksoverheid.nl/copyright',
 'http://www.onderwijsincijfers.nl/kengetallen/vo/personeel-vo/arbeidsmarkt-en-personeelstekorten-vo/regionale-arbeidsmarktcijfers-landkaart-en-tabel#content-wrapper',
 'http://www.onderwijsincijfers.nl/kengetallen/vo/instellingen-vo#content-wrapper',
 'http://www.onderwijsincijfers.nl/help/structuur-van-de-site',
 'https://twitter.com/share?url=https%3A%2F%2Fwww.onderwijsincijfers.nl%2Fkengetallen%2Fwo%2Fpersoneel-wo%2Faantallen-personeelssterkte-wo&text=Personeelssterkte+wetenschappelijk+onderwijs%20%23onderwijsincijfers',
 'https://www.facebook.com/sharer.php?u=https%3A%2F%2Fwww.onderwijsincijfers.nl%2Fkengetallen%2Fmbo%2Fuitgaven-mbo',
 'https://www.onderwijsinderegioincijfers.nl/',
 'https://www.linkedin.com/shareArticle?mini=true&url=https%3A%2F%2Fwww.onderwijsincijfers.nl%2Fkengetallen%2Fonderwijs-algemeen%2Fhoogst-behaald-onderwijsniveau&title=Hoogst+behaald+onderwijsniveau&source=Onderwij

### `check_href(href)`

Deze functie neemt een href (een link in een html object) en kijkt of deze voldoet aan bepaalde eisen en dus bruikbaar is om te parsen. Deze eisen zijn hardcoded dus deze functie is robuust maar niet flexibel.

In [4]:
check_href('https://www.facebook.com/sharer.php?u=https%3A%2F%2Fwww.onderwijsincijfers.nl%2Fkengetallen%2Fonderwijs-algemeen%2Fuitgaven%2Ftotale-uitgaven-aan-onderwijs')

False

### `download_docs(index, path='C:\\Temp\\', folder='docs')`

Deze functie download de .pdf en de .doc/.docx gegeven de index van een website. De documenten worden gedownload naar path/folder.

In [5]:
download_docs('https://duo.nl/images/aanvraag-ov-vergoeding-buitenland-en-of-uitwonendenbeurs.pdf')

### `make_docname(link)`

Deze functie maakt een documentnaam gegeven de weblink naar het document. De naam is gebaseerd op de link naam en niet de documentnaam op de website.

In [4]:
make_docname('https://duo.nl/images/aanvraag-ov-vergoeding-buitenland-en-of-uitwonendenbeurs.pdf')

'aanvraag-ov-vergoeding-buitenland-en-of-uitwonendenbeurs.pdf'

### `is_downloadstream(url)`

Deze functie checkt een url, bijvoorbeeld een link uit een href, om te kijken of het download stream is. Sommige files worden gehost op de site en kan je openen in de browser (dit zijn geen streams) en sommige files moet je naar je pc streamen (dan wordt je download manager geopend).

In [15]:
is_downloadstream('https://duo.nl/images/aanvraag-ov-vergoeding-buitenland-en-of-uitwonendenbeurs.pdf')

False

### `download_stream(url, path='C:\\Temp\\', folder='docs')`

Deze functie download de file van een stream. Deze handeling is anders dan een file die gehost wordt opslaan naar je lokale pc.

In [None]:
download_stream(url, path='C:\\Temp\\', folder='docs')

## External Methods
In deze cellen staan enkele methodes van externe packages die erg handig kunnen zijn in het scrapen en parsen van websites.

In [6]:
import requests
from bs4 import BeautifulSoup
#from func_timeout import func_timeout, FunctionTimedOut
from urllib.parse import urlparse
from urllib.parse import urljoin
from urllib3.exceptions import InsecureRequestWarning

### `BeautifulSoup(html)`

BeautifulSoup() maakt een een soup object van een html, oftewel, hij parsed de html tot een leesbaar tekstblok die makkelijk gequeried kan worden met regex. De keyword `features` kan worden meegegeven, daarmee kan je specificeren wat voor type html object de functie binnen krijgt.

In [8]:
html = fetch_html(url)
BeautifulSoup(html, features='lxml')

<!DOCTYPE html>
<html class="no-js fullWidth" lang="nl-NL" xml:lang="nl-NL">
<!-- Version: 2021.8.4 -->
<head>
<meta charset="utf-8"/>
<meta content="https://www.onderwijsincijfers.nl/binaries/large/content/gallery/onderwijs-in-cijfers/content-afbeeldingen/logohomepage.png" property="og:image"/>
<title>Onderwijs in Cijfers | Onderwijs in cijfers</title>
<meta content="Onderwijs in Cijfers - Onderwijs in cijfers" name="DCTERMS.title"/>
<link href="https://www.onderwijsincijfers.nl/" rel="canonical"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="nl-NL" name="DCTERMS.language" title="XSD.language"/>
<meta content="Ministerie van Onderwijs, Cultuur en Wetenschap" name="DCTERMS.creator" title="RIJKSOVERHEID.Organisatie"/>
<meta content="https://www.onderwijsincijfers.nl/" name="DCTERMS.identifier" title="XSD.anyURI"/>
<meta content="start=2013-05-14;" name="DCTERMS.available" title="DCTERMS.Period"/>
<meta content="2020-09-15T19:00" name="DCTERMS.modi

### `.findAll()`

Deze regular expression functie is handig voor het vinden van `<a> ... </a>` anchors in de soup object. Hier staan de links in de href parameter.

In [14]:
html = fetch_html(url)
soup = BeautifulSoup(html, features='lxml')
soup.findAll('a')

[<a href="#content-wrapper">Ga direct naar inhoud</a>,
 <a aria-current="page" href="/">Home</a>,
 <a href="https://www.ocwincijfers.nl/verantwoord-begroten/begroting/dashboard-beleidsagenda-2021">
             Dashboard beleidsagenda 2021</a>,
 <a href="https://www.ocwincijfers.nl/onderwijs/dashboard-gelijke-kansen">
             Dashboard Gelijke Kansen</a>,
 <a href="/themas/dashboard-baten-en-lasten-besturen">
             Dashboard Jaarrekeninggegevens</a>,
 <a href="https://www.ocwincijfers.nl/verantwoord-begroten/dashboard-sectorakkoorden">
             Dashboard sectorakkoorden</a>,
 <a href="/kengetallen/onderwijs-algemeen/leerlingen-en-studenten/prestaties-voortijdig-schoolverlaten">
             Voortijdig schoolverlaters</a>,
 <a aria-label="www.onderwijsinderegioincijfers.nl (opent externe website)" class="external" href="http://www.onderwijsinderegioincijfers.nl/">
         www.onderwijsinderegioincijfers.nl</a>,
 <a href="/kengetallen/onderwijs-algemeen">
 <div class="ic

### `urlparse(url)`

Deze functie parsed een url in losse onderdelen. Aan deze onderdelen kun je bijvoorbeeld domein, subdomein en scheme ontlenen.

In [17]:
urlparse('https://www.onderwijsincijfers.nl/binary/andere-hoofdrubrieken/kengetallen/hbo/studenten-hbo/aantallen-ingeschrevenen-hbo/index/hboingeschrevengeslacht2020.csv')

ParseResult(scheme='https', netloc='www.onderwijsincijfers.nl', path='/binary/andere-hoofdrubrieken/kengetallen/hbo/studenten-hbo/aantallen-ingeschrevenen-hbo/index/hboingeschrevengeslacht2020.csv', params='', query='', fragment='')

### `urljoin(url, href)`

Een href heeft niet altijd een standaardformat, soms zit het hoofddomein in de naam, soms niet, soms begint het met een /, soms niet. `urljoin()` joined de hoofdwebsite url met de href tot een bruikbare subdomein url.

In [18]:
urljoin('https://www.onderwijsincijfers.nl ', '/binary/andere-hoofdrubrieken/kengetallen/hbo/studenten-hbo/aantallen-ingeschrevenen-hbo/index/hboingeschrevengeslacht2020.csv')

'https://www.onderwijsincijfers.nl /binary/andere-hoofdrubrieken/kengetallen/hbo/studenten-hbo/aantallen-ingeschrevenen-hbo/index/hboingeschrevengeslacht2020.csv'

### `requests.get(url)`

Deze functie wordt gebruikt in `fetch_html()`. Deze functie pingt de url om een reactie terug te krijgen van de host. Deze functie haalt allerlei bruikbare informatie op en kan verschillende parameters meekrijgen om de gewenste informatie op te halen.

Note: als je gebruikt maakt van de parameter `verify=False` kan je een onveilige connectie warning krijgen. Om deze te suppressen moet je `requests.packages.urllib3.disable_warnings(category=InsecureRequestWarning)` aanroepen voor de functie call.

In [20]:
requests.get(b_url)

<Response [200]>

In [22]:
requests.get(b_url).status_code

200

In [21]:
requests.get(b_url).text

rsteunt deze standaarden niet. Stap daarom over op een recente browser.</strong></p>");\n    }\n\n  </script>\n  </header>\n<div id="navBar">\n  <div class="wrapper">\n    <nav class="breadCrumbNav" aria-labelledby="breadCrumbNavLabel">\n  <span class="assistive" id="breadCrumbNavLabel">U bevindt zich hier:</span>\n  <a href="/" aria-current="page">Home</a>\n</nav>\n<div id="searchForm" role="search" class="searchForm" data-search-closed="Open zoekveld" data-search-opened="Start zoeken">\n  <form method="get" action="/zoeken" id="search-form" data-clearcontent="Invoer wissen">\n    <label for="search-keyword">Zoeken binnen Onderwijs in cijfers</label>\n    <input type="text" id="search-keyword" class="searchInput" name="trefwoord"\n      title="Typ hier uw zoektermen" placeholder="Zoeken" />\n    <button id="search-submit" class="searchSubmit" name="search-submit" type="submit" \n        title="Start zoeken">\n      Zoek</button>\n  </form>\n</div>\n</div>\n</div><main id="content-wrap

In [23]:
requests.get(b_url, headers=set_headers())

<Response [200]>

In [24]:
requests.get(b_url, verify=False)

<Response [200]>

In [25]:
requests.get(b_url, allow_redirects=True)

<Response [200]>