<a href="https://colab.research.google.com/github/tobias-biele/scraper-colab-notebook/blob/main/Events_Webscraper_ZKI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Eine Kopie dieses Notebooks ist [hier](https://github.com/tobias-biele/scraper-colab-notebook/blob/main/Events_Webscraper_ZKI.ipynb) gespeichert. Über die Versions-Historie können Änderungen rückgängig gemacht werden.

### Importiere die Python-Dateien von Gitlab, installiere Dependencies, lade deutsches Datumsformat

In [1]:
# Backup repository: https://github.com/tobias-biele/event-scraper
# Falls https://gitlab.adelphi.app/ offline ist, ersetze die URL in der nächsten Zeile durch die URL aus der vorherigen
!git clone https://gitlab.adelphi.app/biele/event-scraper.git
!pip install xlsxwriter
!pip install feedparser
!pip install selenium

import sys
sys.path.append('/content/event-scraper')

import os
if not os.path.exists("data"):
  os.makedirs("data")

Cloning into 'event-scraper'...
remote: Enumerating objects: 428, done.[K
remote: Counting objects: 100% (428/428), done.[K
remote: Compressing objects: 100% (131/131), done.[K
remote: Total 428 (delta 289), reused 428 (delta 289), pack-reused 0[K
Receiving objects: 100% (428/428), 64.02 KiB | 2.46 MiB/s, done.
Resolving deltas: 100% (289/289), done.
Collecting xlsxwriter
  Downloading XlsxWriter-3.1.9-py3-none-any.whl (154 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.8/154.8 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: xlsxwriter
Successfully installed xlsxwriter-3.1.9
Collecting feedparser
  Downloading feedparser-6.0.10-py3-none-any.whl (81 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.1/81.1 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting sgmllib3k (from feedparser)
  Downloading sgmllib3k-1.0.0.tar.gz (5.8 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wh

### Setze die Parameter für den Scraper
#### DETAIL_SEITEN_SCRAPEN
Die Informationen auf den Kalender-Seiten enthalten häufig nicht alle Informationen. Um auch die Informationen von den Detail-Seiten der Events zu scrapen, setze `DETAIL_SEITEN_SCRAPEN = True`. Dies dauert allerdings etwas länger. Wenn du den Scraper nur schnell testen möchtest und dir die Vollständigkeit der Informationen nicht wichtig ist, setze `DETAIL_SEITEN_SCRAPEN = False`.

Da das Schema der Detailseite bekannt sein muss, damit der Scraper funktionieren kann, werden Detailseiten auf manchen Webseiten nicht gescrapt, nämlich dann, wenn die Verlinkungen auf den Events auf externe Webseiten verweisen.

#### MINDESTDATUM
Alle Events welche vor diesem Datum stattfinden/stattgefunden haben werden nicht berücksichtigt. Du kannst ein konkretes Datum setzen, z. B. `MINDESTDATUM = "2024-01-01"` oder das MINDESTDATUM auf `"heute"` setzen, so dass alle in der Vergangenheit liegenden Veranstaltungen ignoriert werden. Wenn du `MINDESTDATUM = None` setzt, dann werden alle Veranstaltungen gescrapt, die auf der Seite stehen, auch die welche in der Vergangenheit liegen.

In [2]:
DETAIL_SEITEN_SCRAPEN = True
MINDESTDATUM = "heute"

import locale
from parser.utils import today_date_string
if MINDESTDATUM == "heute":
  MINDESTDATUM = today_date_string(reverse_format=True)

print("Datum, ab dem Events berücksichtigt werden:", MINDESTDATUM)
if DETAIL_SEITEN_SCRAPEN:
  print("Auch die Detailseiten der einzelnen Events werden gescrapt. Dadurch dauert der Durchlauf etwas länger.")
else:
  print("Detailseiten der einzelnen Events werden nicht gescrapt.")

Datum, ab dem Events berücksichtigt werden: 2023-12-04
Detailseiten der einzelnen Events werden nicht gescrapt.


### Optional: Schränke die Liste der Akteure ein
#### INCLUDE
Wenn INCLUDE gesetzt wird, dann werden nur Akteure in dieser Liste gescrapt.
#### EXCLUDE
Alle Akteure in dieser Liste werden nicht gescrapt.

In [3]:
# List of actors: ['bbsr', 'bfn', 'bmbf', 'bmdv', 'bmel', 'bmuv', 'difu', 'dwd', 'fona', 'hlnug', 'jki', 'lfu_bayern', 'lubw', 'mukmav_saarland', 'mluk_bb', 'niko', 'rlp', 'sachsen', 'tlubn', 'uan', 'uba']
INCLUDE = None
EXCLUDE = None
# INCLUDE = []
EXCLUDE = ["lubw"]


### Lasse den Scraper laufen

In [4]:
import scraper
scraper.run(parse_details_pages=DETAIL_SEITEN_SCRAPEN, cut_off_date=MINDESTDATUM, include=INCLUDE, exclude=EXCLUDE)

Exclude list provided. The scraper will not scrape the following actors: ['lubw']
Starting...
The scraper will not parse details pages.
Scraped 4 events from arl (0 skipped)
Scraped 3 events from bbsr (1 skipped)
Scraped 5 events from bfn (0 skipped)
Scraped 0 events from bmbf (7 skipped)
Scraped 3 events from bmdv (0 skipped)
Scraped 2 events from bmel (0 skipped)
Scraped 16 events from bmuv (0 skipped)
Scraped 74 events from bund (0 skipped)
Scraped 7 events from climate_adapt (2 skipped)
Scraped 7 events from cmcc (0 skipped)
Scraped 33 events from difu (0 skipped)
Scraped 1 events from dkk (1 skipped)
Scraped 1 events from dwd (0 skipped)
Scraped 7 events from eu_mayors (0 skipped)
Scraped 7 events from fona (1 skipped)
Scraped 1 events from hlnug (>=1 skipped)
Scraped 61 events from idw (401 skipped [including duplicates])
Scraped 2 events from jki (0 skipped)
Scraped 8 events from lfu_bayern (0 skipped)
Skipping lubw because it is in the exclude list.
Scraped 15 events from mukma

### Filtere die gesammelten Events (optional)

#### Setze die Filter-Keywords

In [5]:
KEYWORDS = [
  "Hitze",
  "Starkregen",
  "Hochwasser",
  "Trockenheit",
  "Dürre",
  "Naturbasiert",
  "Biodiversität",
  "Stadtgrün",
  "Bürgerkommunikation",
  "Stadtplanung",
  "Bauleitplanung",
  "Gesundheit",
  "Eigenvorsorge",
  "Verbraucherschutz",
  "Akteurskommunikation",
  "Verkehrsplanung",
  "Straßengestaltung",
]

#### Wende den Filter an

In [6]:
from filter import filter_by_keywords

files = os.listdir("data")
for file in files:
  if file.endswith(".xlsx") and not file.endswith("_filtered.xlsx") and not file.endswith("_filtered_excluded.xlsx"):
    print(f"Filtering file {file}")
    filter_by_keywords(file, KEYWORDS)

Filtering file event_scraper_output_04.12.2023.xlsx
Filtering file event_scraper_output_04.12.2023.xlsx
