## 1 - Installs and imports

In [92]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
%matplotlib inline
from urllib.request import urlopen
from bs4 import BeautifulSoup

## 2 - URL -> HTML -> *Beautiful Soup* object

In [95]:
url = "https://sdgimpact.nl"
html = urlopen(url)

In [96]:
soup = BeautifulSoup(html, 'lxml')
type(soup)

bs4.BeautifulSoup

## 3 - Extract information from the website

Get the title

In [97]:
title = soup.title
print(title)

<title>SDG Impact</title>


Let's print only the string part of the title, not the tags

In [98]:
print(soup.title.string)

SDG Impact


Print out the text

In [99]:
text = soup.get_text()
print(soup.text)






SDG Impact










{
				"@context": "https://schema.org",
				"@type": "WebSite",
				"url" : "https:\/\/sdgimpact.nl",
				"potentialAction": {
					"@type": "SearchAction",
					"target": "https:\/\/sdgimpact.nl\/?s={search_term_string}",
					"query-input": "required name=search_term_string"
				}
			}












            {"@context":"https:\/\/schema.org","@type":"Organization","name":"SDG Impact","url":"https:\/\/sdgimpact.nl"}        


body{--wp--preset--color--black: #000000;--wp--preset--color--cyan-bluish-gray: #abb8c3;--wp--preset--color--white: #ffffff;--wp--preset--color--pale-pink: #f78da7;--wp--preset--color--vivid-red: #cf2e2e;--wp--preset--color--luminous-vivid-orange: #ff6900;--wp--preset--color--luminous-vivid-amber: #fcb900;--wp--preset--color--light-green-cyan: #7bdcb5;--wp--preset--color--vivid-green-cyan: #00d084;--wp--preset--color--pale-cyan-blue: #8ed1fc;--wp--preset--color--vivid-cyan-blue: #0693e3;--wp--preset--color--vivid-purple: #9b51e0;--wp--

Prettify the indentation

In [100]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="en-US">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width" name="viewport"/>
  <!-- WP_HEAD() START -->
  <title>
   SDG Impact
  </title>
  <meta content="SDG Impact" name="dc.title"/>
  <meta content="Jouw bijdrage aan de SDG's communiceren" name="dc.description"/>
  <meta content="https://sdgimpact.nl/" name="dc.relation"/>
  <meta content="https://sdgimpact.nl/" name="dc.source"/>
  <meta content="en_US" name="dc.language"/>
  <meta content="Jouw bijdrage aan de SDG's communiceren" name="description"/>
  <meta content="index, follow" name="robots"/>
  <meta content="index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1" name="googlebot"/>
  <meta content="index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1" name="bingbot"/>
  <link href="https://sdgimpact.nl/" rel="canonical"/>
  <script type="application/ld+json">
   {
				"@context": "https://schema.org",
				"@type": "WebSite",
				"u

Extract all the hyperlinks within the webpage.

In [101]:
soup.find_all('a')

[<a class="ct-link" href="/" id="link-506-88" target="_self"><img alt="SDG Impact" class="ct-image" height="60" id="image-207-88" src="https://sdgimpact.nl/media/SDG-logo.svg"/></a>,
 <a data-ps2id-api="true" href="/deelnemers/">Deelnemers</a>,
 <a data-ps2id-api="true" href="https://sdgimpact.nl/partners/">Partners</a>,
 <a data-ps2id-api="true" href="https://sdgimpact.nl/hoe-het-werkt/">Hoe het werkt</a>,
 <a data-ps2id-api="true" href="https://sdgimpact.nl/sdg-predicaten/">SDG Predicaten</a>,
 <a data-ps2id-api="true" href="https://sdgimpact.nl/over-ons/">Over ons</a>,
 <a data-ps2id-api="true" href="/impactkennis/">Impact Kennis</a>,
 <a data-ps2id-api="true" href="https://sdgimpact.nl/contact/">Contact</a>,
 <a class="ct-link-text btn-s btn-primary uppercase" href="http://" id="link_text-11-88" target="_self">Inloggen</a>,
 <a class="ct-link-text btn-s btn-secondary uppercase" href="/aanmelden/" id="link_text-13-88" target="_self">aanmelden</a>,
 <a class="ct-link btn-m btn-second

Print only the hyperlinks

In [102]:
all_links = soup.find_all("a")
for link in all_links:
    print(link.get("href"))

/
/deelnemers/
https://sdgimpact.nl/partners/
https://sdgimpact.nl/hoe-het-werkt/
https://sdgimpact.nl/sdg-predicaten/
https://sdgimpact.nl/over-ons/
/impactkennis/
https://sdgimpact.nl/contact/
http://
/aanmelden/
/aanmelden/
/hoe-het-werkt/
/over-ons/
/hoe-het-werkt/#_tab_content-51-95
/hoe-het-werkt/#_tab_content-51-95
/hoe-het-werkt/#_tab_content-51-95
/aanmelden/
/aanmelden/
/
/
/deelnemers/
/partners/
/hoe-het-werkt/
/impact-kennis/
/over-ons/
/contact/
/aanmelden/
/privacy-statement/
/partner-login/
/impactkennis/de-sdgs/de-17-sdgs/
http://
/impactkennis/impact-communiceren/wat-is-jouw-huidige-impact-doe-de-quickscan/
/impactkennis/handleidingen/hoe-kan-jij-als-organisatie-bijdragen/
/impactkennis/bedrijf-verduurzamen/het-belang-van-duurzaamheidsstrategie/


Print out the table rows only

In [103]:
rows = soup.find_all('tr')
print(rows)

[]


Fetch all the table tags (alternative to above)

In [104]:
all_table = soup.find_all('table')
print(all_table)

[]


Let's find all tags starting with a given tag

In [105]:
print (soup.find_all(re.compile("^d")))

[<defs><filter id="wp-duotone-dark-grayscale"><fecolormatrix color-interpolation-filters="sRGB" type="matrix" values=" .299 .587 .114 0 0 .299 .587 .114 0 0 .299 .587 .114 0 0 .299 .587 .114 0 0 "></fecolormatrix><fecomponenttransfer color-interpolation-filters="sRGB"><fefuncr tablevalues="0 0.49803921568627" type="table"></fefuncr><fefuncg tablevalues="0 0.49803921568627" type="table"></fefuncg><fefuncb tablevalues="0 0.49803921568627" type="table"></fefuncb><fefunca tablevalues="1 1" type="table"></fefunca></fecomponenttransfer><fecomposite in2="SourceGraphic" operator="in"></fecomposite></filter></defs>, <defs><filter id="wp-duotone-grayscale"><fecolormatrix color-interpolation-filters="sRGB" type="matrix" values=" .299 .587 .114 0 0 .299 .587 .114 0 0 .299 .587 .114 0 0 .299 .587 .114 0 0 "></fecolormatrix><fecomponenttransfer color-interpolation-filters="sRGB"><fefuncr tablevalues="0 1" type="table"></fefuncr><fefuncg tablevalues="0 1" type="table"></fefuncg><fefuncb tablevalues="

Find all tags

In [107]:
taglist = []

for tag in soup.find_all(True): 
  taglist.append(tag.name)

taglist = list (set(taglist))
print (taglist)

['head', 'input', 'li', 'form', 'fecomponenttransfer', 'vime-default-ui', 'filter', 'vime-player', 'fefunca', 'html', 'svg', 'link', 'noscript', 'fecolormatrix', 'h1', 'use', 'label', 'h4', 'title', 'br', 'section', 'span', 'h2', 'a', 'body', 'vime-youtube', 'style', 'symbol', 'div', 'p', 'defs', 'fefuncg', 'fefuncr', 'header', 'ul', 'img', 'fecomposite', 'meta', 'path', 'h3', 'fefuncb', 'vime-default-controls', 'script', 'iframe']


Find lengths of different tags

In [108]:
print (len(soup.select("div")))
print (len(soup.select("a")))

89
34


## 4 - Text processing on the web-scraped data

Finding a pattern/string (i.e., certain text) and print the output

In [111]:
pattern = "SDG Impact"

# Anchor tag
print (soup.find_all('a', text = pattern))

# Span tag
print (soup.find_all('span', text = pattern)) 
 
# Heading tag
print (soup.find_all('h1', text = pattern))

# Sub-heading tag
print (soup.find_all('h2', text = pattern))

# Sub-subheading tag
print (soup.find_all('h3', text = pattern))

# Paragraph (<p>) tag
print (soup.find_all('p', text = pattern))

# List tag
print (soup.find_all('li', text = pattern))

# Table(row) tag
print (soup.find_all('tr', text = pattern))

[]
[<span class="ct-span color-primary" id="span-379-89">SDG Impact</span>]
[]
[]
[]
[]
[]
[]


Find presence of a string/text in a particular tag

In [115]:
txt = 'SDG Impact'
for c in soup.find_all("div", string=re.compile(txt)):
    print (c.string)
    print ('===============================================')

SDG Impact is hét platform dat bedrijven helpt om op basis van de Sustainable Development Goals positieve impact te maken, te verbeteren, en te communiceren. Daarnaast is het de plek waar samenwerkingen tussen duurzaam ondernemende bedrijven ontstaan.
Wil je meer lezen over wat SDG Impact is en wat ons typeert? Neem dan eens een kijkje op de over ons pagina.
SDG Impact wil bedrijfsvoering op basis van zichtbare en meetbare impact op de Sustainable Development Goals de norm maken.

Dit doen we door een database te ontwikkelen waarin alle bedrijven die op basis van impact ondernemen opgenomen kunnen worden. Zo kan iedereen makkelijk opzoeken of een bepaald bedrijf impact maakt op de Sustainable Development Goals en in welke mate.
SDG Impact wil bedrijfsvoering op basis van zichtbare en meetbare impact op de Sustainable Development Goals de norm maken.

Dit doen we door een database te ontwikkelen waarin alle bedrijven die op basis van impact ondernemen opgenomen kunnen worden. Zo kan

Find the presence of a string in all tags

In [118]:
text = 'SDG Impact'
for tag in range (len(taglist)): 
  for c in soup.find_all(taglist[tag], string=re.compile(text)):
    print (taglist[tag])
    print (c.string)
    print ('===============================================')

title
SDG Impact
span
SDG Impact
h2
Waarom SDG Impact bestaat
div
SDG Impact is hét platform dat bedrijven helpt om op basis van de Sustainable Development Goals positieve impact te maken, te verbeteren, en te communiceren. Daarnaast is het de plek waar samenwerkingen tussen duurzaam ondernemende bedrijven ontstaan.
div
Wil je meer lezen over wat SDG Impact is en wat ons typeert? Neem dan eens een kijkje op de over ons pagina.
div
SDG Impact wil bedrijfsvoering op basis van zichtbare en meetbare impact op de Sustainable Development Goals de norm maken.

Dit doen we door een database te ontwikkelen waarin alle bedrijven die op basis van impact ondernemen opgenomen kunnen worden. Zo kan iedereen makkelijk opzoeken of een bepaald bedrijf impact maakt op de Sustainable Development Goals en in welke mate.
div
SDG Impact wil bedrijfsvoering op basis van zichtbare en meetbare impact op de Sustainable Development Goals de norm maken.

Dit doen we door een database te ontwikkelen waarin all