In [1]:
import requests

In [11]:
from bs4 import BeautifulSoup

### Retrieve and save HTML

In [2]:
url = "https://www.berlin.de/rbmskzl/"

In [3]:
response = requests.get(url)

In [5]:
response.status_code

200

In [6]:
html_text = response.text

In [7]:
html_text[:100]

'<!doctype html>\n<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="de" lang="de">\n<head prefix="og'

In [9]:
with open('berlin_rbmskzl_main_page.html', 'w') as openfile:
    openfile.write(html_text)

### Parse HTML (strukturierte parsen, one page)

In [31]:
with open('berlin_rbmskzl_main_page.html') as openfile:
    html_text = openfile.read()

In [32]:
soup = BeautifulSoup(html_text)

#### 1. Parse the top news section of the website

![berlin_de_top](berlin_de_top.png)

If we inspect the unredlying HTML code, we'll see that it is in a `<div>` element with a CSS class `'herounit-homepage herounit-homepage--default'`. Let's retrieve this div using BeautifulSoup syntax:

In [41]:
topdiv = soup.find("div", {"class": "herounit-homepage herounit-homepage--default"})

In [43]:
type(topdiv)

bs4.element.Tag

In [46]:
print(topdiv.prettify())

<div class="herounit-homepage herounit-homepage--default">
 <h1 class="title">
  Der Regierende Bürgermeister von Berlin - Senatskanzlei
 </h1>
 <div class="modul-buehne buehne--tileslayout">
  <ul class="buhne__list--teaser">
   <li>
    <div class="modul-teaser_buehne" data-add-clickable-area="smart">
     <div class="teaser_buehne__left">
      <div class="image">
       <!-- Image.view -->
       <div class="image__image image__image" style="">
        <img alt="Senat vor Ort in Treptow-Köpenick am 17.09.2024" class="jpg" data-orig="/rbmskzl/aktuelles/media/crop_nan_434.51666259765625_nan_104.48333740234375_807_539_fb29c4e3675dfc82ec843890a273ff2a_dsc05599.jpg" loading="lazy" src="/imgscaler/rBvs_FtS1ShRICRId3iJPDG_OaSxawMMyEJ7Ryf_vrg/rbig2zu1/L3N5czExLXByb2QvcmJtc2t6bC9ha3R1ZWxsZXMvbWVkaWEvY3JvcF9uYW5fNDM0LjUxNjY2MjU5NzY1NjI1X25hbl8xMDQuNDgzMzM3NDAyMzQzNzVfODA3XzUzOV9mYjI5YzRlMzY3NWRmYzgyZWM4NDM4OTBhMjczZmYyYV9kc2MwNTU5OS5qcGc.jpg?ts=1726737769"/>
       </div>
       <p class="im

In [62]:
topdiv_h2titles = topdiv.find_all('h2')

In [63]:
topdiv_h2titles

[<h2 class="title">Senat vor Ort in Treptow-Köpenick</h2>,
 <h2 class="title">Kai Wegner vor Ort</h2>,
 <h2 class="title">Neue Imagekampagne </h2>,
 <h2 class="title">Fokusthemen</h2>]

In [64]:
topdiv_texts =  topdiv.find_all('p', {"class":"text"})

In [65]:
topdiv_texts

[<p class="text">
                     Nach einer gemeinsamen Sitzung begaben sich der Regierende Bürgermeister Kai Wegner und Bezirksbürgermeister Oliver Igel mit Mitgliedern des Senats und des Bezirksamts auf Tour durch den Bezirk.                        </p>,
 <p class="text">
                 Der Regierende Bürgermeister besuchte am 16. September den Bezirk Steglitz-Zehlendorf und stellte sich den Fragen der Berlinerinnen und Berliner.                        </p>,
 <p class="text">
                 Berlin startet eine neue bundesweite Imagekampagne. Ziel ist es, das Gemeinschaftsgefühl der Stadt zu stärken und national für Berlin zu werben.                        </p>,
 <p class="text">
                 Berlin steht vor diversen gesellschaftlichen Herausforderungen. Der Berliner Senat setzt einen Fokus auf sechs Themenschwerpunkte.                        </p>]

In [66]:
topdiv_texts = [x.text.strip() for x in topdiv_texts]

In [67]:
topdiv_texts

['Nach einer gemeinsamen Sitzung begaben sich der Regierende Bürgermeister Kai Wegner und Bezirksbürgermeister Oliver Igel mit Mitgliedern des Senats und des Bezirksamts auf Tour durch den Bezirk.',
 'Der Regierende Bürgermeister besuchte am 16. September den Bezirk Steglitz-Zehlendorf und stellte sich den Fragen der Berlinerinnen und Berliner.',
 'Berlin startet eine neue bundesweite Imagekampagne. Ziel ist es, das Gemeinschaftsgefühl der Stadt zu stärken und national für Berlin zu werben.',
 'Berlin steht vor diversen gesellschaftlichen Herausforderungen. Der Berliner Senat setzt einen Fokus auf sechs Themenschwerpunkte.']

In [68]:
topdiv_h2titles = [x.text.strip() for x in topdiv_h2titles]

In [69]:
resulting_data = []

for i, text in enumerate(topdiv_texts):
    new_entry = {}
    new_entry['title'] = topdiv_h2titles[i]
    new_entry['text'] = text
    resulting_data.append(new_entry)

In [70]:
resulting_data

[{'title': 'Senat vor Ort in Treptow-Köpenick',
  'text': 'Nach einer gemeinsamen Sitzung begaben sich der Regierende Bürgermeister Kai Wegner und Bezirksbürgermeister Oliver Igel mit Mitgliedern des Senats und des Bezirksamts auf Tour durch den Bezirk.'},
 {'title': 'Kai Wegner vor Ort',
  'text': 'Der Regierende Bürgermeister besuchte am 16. September den Bezirk Steglitz-Zehlendorf und stellte sich den Fragen der Berlinerinnen und Berliner.'},
 {'title': 'Neue Imagekampagne',
  'text': 'Berlin startet eine neue bundesweite Imagekampagne. Ziel ist es, das Gemeinschaftsgefühl der Stadt zu stärken und national für Berlin zu werben.'},
 {'title': 'Fokusthemen',
  'text': 'Berlin steht vor diversen gesellschaftlichen Herausforderungen. Der Berliner Senat setzt einen Fokus auf sechs Themenschwerpunkte.'}]

### Parse HTML for links

In [71]:
links = soup.find_all('a', href=True)

In [72]:
links[1]

<a href="/rbmskzl" title='Startseite von "Der Regierende Bürgermeister Senatskanzlei"'><span class="institution">Der Regierende Bürgermeister</span><span class="title">Senatskanzlei</span></a>

Separate internal and external links

In [73]:
internal_links = []
external_links = []

for link in links:
    link_url = link['href']
    if link_url.startswith('/'):
        internal_links.append(link_url)
    else:
        external_links.append(link_url)                           

In [74]:
external_links[:5]

['https://www.berlin.de',
 'https://twitter.com/RegBerlin',
 'https://www.facebook.com/RegBerlin/',
 'https://www.instagram.com/regberlin/',
 'https://www.linkedin.com/company/regberlin/']

In [75]:
internal_links[:5]

['/rbmskzl',
 '/rbmskzl/leichte-sprache/',
 '/rbmskzl/gebaerdensprache/',
 '/rbmskzl/barrierefreiheitserklaerung.879589.php',
 '/rbmskzl/barrierefreiheitserklaerung.879589.php#contactbfe']

*To be continued*