In [1]:
%load_ext autoreload
%autoreload complete

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import statsmodels.api as sm
from matplotlib_inline.backend_inline import set_matplotlib_formats
from tqdm.notebook import tqdm

from src.cache import cache

set_matplotlib_formats("svg")

- Login first and manually select:
  - In the search interface:
    - Interpret spaces as word distance of 1, rather than OR operator
  - In the settings, under the heading _Ergebnisse_ (results):
    - Daily counts as the primary _results_ page (_not_ the primary _corpus representation_ page, which is irrelevant)
    - Page limit = 20_000 or so
    - Sort by date
- Then close the browser and it should be saved via the cookies, which the script will reuse
- Reuse the same cookie session as much as possible, otherwise rate limiting issues arise
- Scrape at night or on the weekend, it is a huge performance difference for searching in the database

In [2]:
from src.data.news.dereko.scraping import prepare, start

page, browser, context = await start(headless=False)
page, browser = await prepare(page, browser, context)

In [7]:
corpora = pd.read_csv(
    project_root / "data/ids-dereko/corpora/dereko_corpora.csv", delimiter=";"
)
# corpora["bis"] = corpora["bis"].fillna(0).astype(int)
corpora["bis_"] = corpora["bis_"].fillna(0).astype(int)
corpora = corpora[(corpora["bis"] == "2022") | (corpora["bis_"] == 2022)]
corpora

Unnamed: 0,Corpus,Sigle,Titel,von_,bis_,von,bis,Lizenz,Stadt,Region,National,Leitmedium
1,W1,bmp,Berliner Morgenpost,1997.0,2022,,Berlin,BE,,,,
4,W1,bzt-pub,Berliner Zeitung,2009.0,2022,,Berlin,BE,,,,
5,W1,dpr,Die Presse,1991.0,2022,,,,AT,,,
6,W1,flt,Falter,2000.0,2022,,,,AT,,,
7,W1,foc,FOCUS,2000.0,2022,,Berlin,BE,DE,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
180,W4,wez,Westdeutsche Zeitung,,0,2009,2022,,Wuppertal,NW,,
181,W4,wfb,Westfalen-Blatt,2010.0,2015,2018,2022,,Bielefeld,NW,,
182,W4,wiz,Wiener Zeitung,,0,2000,2022,,,,,
183,W4,wku,Wiesbadener Kurier,,0,2000,2022,,Wiesbaden,HE,,


In [8]:
from time import time

from src.data.news.dereko.scraping import scrape_count_table

for type_ in ["subsidiary_goal", "framing", "goal", "protest", "not_protest"]:
    for corpus, code, title in tqdm(corpora[["Corpus", "Sigle", "Titel"]].values):
        print(corpus, code, title, end="\t\t")
        t0 = time()
        await scrape_count_table(corpus, code, title, type_, headless=False)
        print(f"{time() - t0:.2f} sec")

  0%|          | 0/157 [00:00<?, ?it/s]

W1 bmp Berliner Morgenpost		0.01 sec
W1 bzt-pub Berliner Zeitung		0.00 sec
W1 dpr Die Presse		0.01 sec
W1 flt Falter		0.00 sec
W1 foc FOCUS		0.00 sec
W1 haz Hannoversche Allgemeine		0.00 sec
W1 hmp Hamburger Morgenpost		0.00 sec
W1 mm Mannheimer Morgen		0.00 sec
W1 news NEWS		0.00 sec
W1 nku Nordkurier		0.00 sec
W1 non Niederösterreichische Nachrichten		0.00 sec
W1 nun Nürnberger Nachrichten		0.00 sec
W1 nuz Nürnberger Zeitung		0.01 sec
W1 nzs NZZ am Sonntag		0.00 sec
W1 nzz Neue Zürcher Zeitung		0.00 sec
W1 prf profil		0.00 sec
W1 rhz Rhein-Zeitung		0.00 sec
W1 sbl Sonntagsblick		0.00 sec
W1 sgt St. Galler Tagblatt		0.00 sec
W1 spiegel Der Spiegel		0.00 sec
W1 ste Stern		0.00 sec
W1 sz Süddeutsche Zeitung		0.00 sec
W1 tas SonntagsZeitung (Tages-Anzeiger)		0.00 sec
W1 taz-pub die tageszeitung		0.00 sec
W1 wwo Weltwoche		0.00 sec
W1 zeit Die Zeit		0.00 sec
W1 zta Tages-Anzeiger		0.00 sec
W2 aan Aachener Nachrichten		0.00 sec
W2 aaz Aachener Zeitung		0.00 sec
W2 abo Aar-Bote		0.00 sec
W2

  0%|          | 0/157 [00:00<?, ?it/s]

W1 bmp Berliner Morgenpost		0.00 sec
W1 bzt-pub Berliner Zeitung		0.00 sec
W1 dpr Die Presse		0.00 sec
W1 flt Falter		0.00 sec
W1 foc FOCUS		0.00 sec
W1 haz Hannoversche Allgemeine		0.00 sec
W1 hmp Hamburger Morgenpost		0.00 sec
W1 mm Mannheimer Morgen		0.00 sec
W1 news NEWS		0.00 sec
W1 nku Nordkurier		0.00 sec
W1 non Niederösterreichische Nachrichten		0.00 sec
W1 nun Nürnberger Nachrichten		0.00 sec
W1 nuz Nürnberger Zeitung		0.00 sec
W1 nzs NZZ am Sonntag		0.00 sec
W1 nzz Neue Zürcher Zeitung		0.00 sec
W1 prf profil		0.00 sec
W1 rhz Rhein-Zeitung		0.00 sec
W1 sbl Sonntagsblick		0.00 sec
W1 sgt St. Galler Tagblatt		0.00 sec
W1 spiegel Der Spiegel		0.00 sec
W1 ste Stern		0.00 sec
W1 sz Süddeutsche Zeitung		0.00 sec
W1 tas SonntagsZeitung (Tages-Anzeiger)		0.00 sec
W1 taz-pub die tageszeitung		0.00 sec
W1 wwo Weltwoche		0.00 sec
W1 zeit Die Zeit		0.00 sec
W1 zta Tages-Anzeiger		0.00 sec
W2 aan Aachener Nachrichten		0.00 sec
W2 aaz Aachener Zeitung		0.00 sec
W2 abo Aar-Bote		0.00 sec
W2

  0%|          | 0/157 [00:00<?, ?it/s]

W1 bmp Berliner Morgenpost		0.00 sec
W1 bzt-pub Berliner Zeitung		0.00 sec
W1 dpr Die Presse		0.00 sec
W1 flt Falter		0.00 sec
W1 foc FOCUS		0.00 sec
W1 haz Hannoversche Allgemeine		0.00 sec
W1 hmp Hamburger Morgenpost		0.00 sec
W1 mm Mannheimer Morgen		0.00 sec
W1 news NEWS		0.00 sec
W1 nku Nordkurier		0.00 sec
W1 non Niederösterreichische Nachrichten		0.00 sec
W1 nun Nürnberger Nachrichten		0.00 sec
W1 nuz Nürnberger Zeitung		0.00 sec
W1 nzs NZZ am Sonntag		0.00 sec
W1 nzz Neue Zürcher Zeitung		0.00 sec
W1 prf profil		0.00 sec
W1 rhz Rhein-Zeitung		0.00 sec
W1 sbl Sonntagsblick		0.00 sec
W1 sgt St. Galler Tagblatt		0.00 sec
W1 spiegel Der Spiegel		0.00 sec
W1 ste Stern		0.00 sec
W1 sz Süddeutsche Zeitung		0.00 sec
W1 tas SonntagsZeitung (Tages-Anzeiger)		0.00 sec
W1 taz-pub die tageszeitung		0.00 sec
W1 wwo Weltwoche		0.00 sec
W1 zeit Die Zeit		0.00 sec
W1 zta Tages-Anzeiger		0.00 sec
W2 aan Aachener Nachrichten		0.00 sec
W2 aaz Aachener Zeitung		0.00 sec
W2 abo Aar-Bote		0.00 sec
W2

  0%|          | 0/157 [00:00<?, ?it/s]

W1 bmp Berliner Morgenpost		0.00 sec
W1 bzt-pub Berliner Zeitung		0.00 sec
W1 dpr Die Presse		0.00 sec
W1 flt Falter		0.00 sec
W1 foc FOCUS		0.00 sec
W1 haz Hannoversche Allgemeine		0.00 sec
W1 hmp Hamburger Morgenpost		0.00 sec
W1 mm Mannheimer Morgen		0.00 sec
W1 news NEWS		0.00 sec
W1 nku Nordkurier		0.00 sec
W1 non Niederösterreichische Nachrichten		0.00 sec
W1 nun Nürnberger Nachrichten		0.00 sec
W1 nuz Nürnberger Zeitung		0.00 sec
W1 nzs NZZ am Sonntag		0.00 sec
W1 nzz Neue Zürcher Zeitung		0.00 sec
W1 prf profil		0.00 sec
W1 rhz Rhein-Zeitung		0.00 sec
W1 sbl Sonntagsblick		0.00 sec
W1 sgt St. Galler Tagblatt		0.00 sec
W1 spiegel Der Spiegel		0.00 sec
W1 ste Stern		0.00 sec
W1 sz Süddeutsche Zeitung		0.00 sec
W1 tas SonntagsZeitung (Tages-Anzeiger)		0.00 sec
W1 taz-pub die tageszeitung		0.00 sec
W1 wwo Weltwoche		0.00 sec
W1 zeit Die Zeit		0.00 sec
W1 zta Tages-Anzeiger		0.00 sec
W2 aan Aachener Nachrichten		0.00 sec
W2 aaz Aachener Zeitung		0.00 sec
W2 abo Aar-Bote		0.00 sec
W2

  0%|          | 0/157 [00:00<?, ?it/s]

W1 bmp Berliner Morgenpost		0.00 sec
W1 bzt-pub Berliner Zeitung		0.00 sec
W1 dpr Die Presse		0.00 sec
W1 flt Falter		0.00 sec
W1 foc FOCUS		0.00 sec
W1 haz Hannoversche Allgemeine		0.00 sec
W1 hmp Hamburger Morgenpost		0.00 sec
W1 mm Mannheimer Morgen		0.00 sec
W1 news NEWS		0.00 sec
W1 nku Nordkurier		0.00 sec
W1 non Niederösterreichische Nachrichten		0.00 sec
W1 nun Nürnberger Nachrichten		0.00 sec
W1 nuz Nürnberger Zeitung		0.00 sec
W1 nzs NZZ am Sonntag		0.00 sec
W1 nzz Neue Zürcher Zeitung		0.00 sec
W1 prf profil		0.00 sec
W1 rhz Rhein-Zeitung		0.00 sec
W1 sbl Sonntagsblick		0.00 sec
W1 sgt St. Galler Tagblatt		0.00 sec
W1 spiegel Der Spiegel		0.00 sec
W1 ste Stern		0.00 sec
W1 sz Süddeutsche Zeitung		0.00 sec
W1 tas SonntagsZeitung (Tages-Anzeiger)		0.00 sec
W1 taz-pub die tageszeitung		0.00 sec
W1 wwo Weltwoche		0.00 sec
W1 zeit Die Zeit		0.00 sec
W1 zta Tages-Anzeiger		0.00 sec
W2 aan Aachener Nachrichten		0.00 sec
W2 aaz Aachener Zeitung		0.00 sec
W2 abo Aar-Bote		0.00 sec
W2

In [None]:
try:
    raise Exception("hello")
except Exception as e:
    print(str(e))

In [None]:
# from src.data.news.dereko.scraping import parse_html_table

# df = parse_html_table(html)
# print(len(df))
# df.sample(20)

In [4]:
from pprint import pprint

from src.data.protests.keywords import climate_queries

print(climate_queries(mode="dereko", short=True)["protest"])

(klimawandel OR erderwärmung OR klimaschutz OR klimagerechtigkeit OR klimapolitik OR klimaneutral* OR (hambacher forst) OR lützerath) AND (*protest* OR *demo OR *demonstr* OR *kundgebung OR *versamm* OR *besetz* OR *streik* OR *blockade OR *blockier* OR sitzblock* OR *aktivis* OR *marsch OR klimabewegung OR klimaaktivis* OR klimastreik* OR (for future) OR (4 future) OR (extinction rebellion) OR (just stop oil) OR (letzte* generation) OR klimakleb* OR (ende gelände) OR (end fossil) OR (fossil occupy) OR greenpeace)


In [None]:
(klimawandel OR erderwärmung OR klimaschutz OR klimagerechtigkeit OR klimapolitik OR klimaneutral* OR (hambacher forst) OR lützerath) AND (*protest* OR *demo OR *demonstr* OR *kundgebung OR *versamm* OR *besetz* OR *streik* OR *blockade OR *blockier* OR sitzblock* OR *aktivis* OR *marsch OR klimabewegung OR klimaaktivis* OR klimastreik* OR (for future) OR (4 future) OR (extinction rebellion) OR (just stop oil) OR (letzte* generation) OR klimakleb* OR (ende gelände) OR (end fossil) OR (fossil occupy) OR greenpeace)