# 🚀 Massenscraping von Pressemitteilungen

## Hinweise zur Ausführung des Notebooks
Dieses Notebook kann auf unterschiedlichen Levels erarbeitet werden (siehe Abschnitt ["Technische Voraussetzungen"](../markdown/introduction_requirements)): 
1. Book-Only Mode
2. Cloud Mode: Dafür auf 🚀 klicken und z.B. in Colab ausführen.
3. Local Mode: Dafür auf Herunterladen ↓ klicken und ".ipynb" wählen. 

## Übersicht

Im Folgenden werden alle Pressemitteilungen der Berliner Staatskanzlei gescraped

Dafür werden folgendene Schritte durchgeführt:
1. Wir werden die Struktur des Teils der Website untersuchen, der alle Pressemitteilungen enthält.
2. Wir werden die URL-Links zu allen Pressemitteilungen abrufen.
3. Abschließend werden wir alle Pressemitteilungen scrapen.

In [None]:
# 🚀 Install libraries 
!pip install requests 

In [None]:
import requests

## Retrieve and inspect the press releases search page

In the chapter ['Aufbau des Forschungskorpus'](../corpus_collection/corpus-collection_building-our-corpus.html#aufbau-des-forschungskorpus) we have outlined the selection & filtering process for our corpus of press releases. Now it is time to imlement scraping of tha corpus using scraping tools and knowledge of HTML. 

1. We already know that the [Search menu](https://www.berlin.de/presse/pressemitteilungen/index/search) on the Berlin.de website allows to select only the departments that interest us:
   
![selection](../book_images/selection_of_depts.png)

2. After that we can [perform search with selected depatrmentes and an empty query](https://www.berlin.de/presse/pressemitteilungen/index/search?searchtext=&boolean=0&startdate=&enddate=&institutions%5B%5D=Presse-+und+Informationsamt+des+Landes+Berlin&institutions%5B%5D=Senatsverwaltung+f%C3%BCr+Bildung%2C+Jugend+und+Familie&institutions%5B%5D=Senatsverwaltung+f%C3%BCr+Finanzen&institutions%5B%5D=Senatsverwaltung+f%C3%BCr+Inneres+und+Sport&institutions%5B%5D=Senatsverwaltung+f%C3%BCr+Arbeit%2C+Soziales%2C+Gleichstellung%2C+Integration%2C+Vielfalt+und+Antidiskriminierung&institutions%5B%5D=Senatsverwaltung+f%C3%BCr+Justiz+und+Verbraucherschutz&institutions%5B%5D=Senatsverwaltung+f%C3%BCr+Kultur+und+Gesellschaftlichen+Zusammenhalt&institutions%5B%5D=Senatsverwaltung+f%C3%BCr+Stadtentwicklung%2C+Bauen+und+Wohnen&institutions%5B%5D=Senatsverwaltung+f%C3%BCr+Mobilit%C3%A4t%2C+Verkehr%2C+Klimaschutz+und+Umwelt&institutions%5B%5D=Senatsverwaltung+f%C3%BCr+Wirtschaft%2C+Energie+und+Betriebe&institutions%5B%5D=Senatsverwaltung+f%C3%BCr+Wissenschaft%2C+Gesundheit+und+Pflege&institutions%5B%5D=Bezirksamt+Charlottenburg-Wilmersdorf&institutions%5B%5D=Bezirksamt+Friedrichshain-Kreuzberg&institutions%5B%5D=Bezirksamt+Lichtenberg&institutions%5B%5D=Bezirksamt+Marzahn-Hellersdorf&institutions%5B%5D=Bezirksamt+Mitte&institutions%5B%5D=Bezirksamt+Neuk%C3%B6lln&institutions%5B%5D=Bezirksamt+Pankow&institutions%5B%5D=Bezirksamt+Reinickendorf&institutions%5B%5D=Bezirksamt+Spandau&institutions%5B%5D=Bezirksamt+Steglitz-Zehlendorf&institutions%5B%5D=Bezirksamt+Tempelhof-Sch%C3%B6neberg&institutions%5B%5D=Bezirksamt+Treptow-K%C3%B6penick&institutions%5B%5D=Beauftragte+des+Senats+f%C3%BCr+Integration+und+Migration&institutions%5B%5D=Beauftragter+zur+Aufarbeitung+der+SED-Diktatur&institutions%5B%5D=B%C3%BCrger-+und+Polizeibeauftragter+des+Landes+Berlin&institutions%5B%5D=Pflegebeauftragte+des+Landes+Berlin&institutions%5B%5D=Landestierschutzbeauftragte&institutions%5B%5D=Landeswahlleitung&bt=#searchresults) and retrieve all press releases belonging to these departments:

![suchergebnisse](../book_images/suchergebnisse.png)

We can see that the links here are stored in a table. In HTML a table is encoded with the `<table>` element. If we look at the source code of this page, we can find that the page contains one table with all the links:

![selection](../book_images/pm_table_source_html.png) 

To crawl these links we could use the basic HTML querying machinery of the BeautifulSoup library that we've already seen. We will do it in the next section:

## Parse search output for links (on one page): 

## End of the updated version

## Generate set of links to all pages containing links to press releases
This means that to generate this links all we need is to iterate over numbers. 
Let's make a rough estimate at first and simply create 10000 entries.

First we will create an empty list:

In [None]:
links_to_releases = []

Then we will iterate over numbers from 1 to 10000, form a link and store it in the list

In [None]:
for i in range(1, 10000):
    url = f'https://www.berlin.de/presse/pressemitteilungen/index/index/page/{i}'
    links_to_releases.append(url)

Let us look at the first five entries:

In [None]:
print(links_to_releases[:5])

Let us try to access one of them with an HTTP request and see if it returns status code 200:

In [None]:
links_to_releases[3]

In [None]:
links_to_releases[3]

## Obtain links to the actual press releases

To study the way Berlin authorities communicate with the public, we can focus on their press-releases. Let us examine the page with press releases: https://www.berlin.de/presse/pressemitteilungen
Iа we look at the menu, we'll see that it contains the press-releases of the Berlin authorities since 1993... The links to the pages with press-releases are quite predictable, they just go from page 1 to more than 7000 (the entire number is growing as new releases are being added):  

* https://www.berlin.de/presse/pressemitteilungen/index/index/page/2
* https://www.berlin.de/presse/pressemitteilungen/index/index/page/3
* https://www.berlin.de/presse/pressemitteilungen/index/index/page/4
* https://www.berlin.de/presse/pressemitteilungen/index/index/page/5
* ...
* ...
* https://www.berlin.de/presse/pressemitteilungen/index/index/page/7193
* https://www.berlin.de/presse/pressemitteilungen/index/index/page/7194
* https://www.berlin.de/presse/pressemitteilungen/index/index/page/7195
