# 02 Was will uns der Autor sagen?

Nachdem wir nun wissen, wie wir an die Artikel kommen, schauen wir uns die Artikel selbst genauer an.

In [1]:
import requests

url = "https://www.presseportal.de/blaulicht/pm/110975/4391289"
r = requests.get(url)
r.status_code

200

Aus diesem Artikel interessieren uns die folgenden Bestanteile:

![Artikel Screenshot](../images/article.png)

Die Teile 1-4 finden sich in einem `<div>` mit Klasse `card`.

``` html
<div class="card" lang="de">
  <p class="date">02.10.2019 – 13:14</p>
  <p class="customer">
    <a class="story-customer" title="weiter zum newsroom von Polizeipräsidium Offenburg"
      href="/blaulicht/nr/110975">Polizeipräsidium Offenburg</a>
  </p>
  <h1>POL-OG: Baden-Baden - Eingebrochen</h1>
  <div class="story-sharing">
    Redacted
  </div>
  <p>
    <i><a data-category="citylink-story-view" data-action="click" data-label="Citylink in Meldungsansicht"
        class="story-city event-trigger" href="/blaulicht/r/Baden-Baden" title="News aus Baden-Baden ">Baden-Baden</a>
      (ots)</i>
  </p>
  <p>
    Nach einem Einbruch am Dienstagabend in ein Zweifamilienhaus in der
    Albert-Schweitzer-Straße, haben die Beamten des Polizeireviers Baden-Baden
    die Ermittlungen aufgenommen. Zwischen 19:30 Uhr und 21 Uhr verschaffte sich
    ein Unbekannter gewaltsam Zugang, in dem er die Haus- und Wohnungstüre
    aufhebelte. Mit einem Mobiltelefon als Beute suchte der Langfinger im
    Anschluss das Weite.
  </p>
  <p>/rs</p>
  <p></p>
  <p>
    Rückfragen bitte an:<br />

    <br />
    Polizeipräsidium Offenburg<br />
    Telefon: 0781 - 211211<br />
    E-Mail:
    <a href="mailto:offenburg.pp.stab.oe@polizei.bwl.de"
      class="uri-mailto">offenburg.pp.stab.oe@polizei.bwl.de</a><br />
    <a target="_blank" href="http://www.polizei-bw.de/" class="uri-ext outbound">http://www.polizei-bw.de/</a>
  </p>
  <p class="originator">
    Original-Content von: Polizeipräsidium Offenburg, übermittelt durch news
    aktuell
  </p>
  <div class="no-float"></div>
</div>                
```

In [2]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(r.text, "html.parser")
div_card = soup.find("div", class_="card")

## 1. Publish Date

Im Artikel finden sich vermehrt `<p>` Tags, aber die Klassen sind eindeutig, das Datum findet sich mit der Klasse `date`. Den Inhalt parsen wir auch gleich.

In [3]:
from datetime import datetime

date_text = div_card.find("p", class_="date").get_text()
publish_date = datetime.strptime(date_text, "%d.%m.%Y – %H:%M")
publish_date

datetime.datetime(2019, 10, 2, 13, 14)

## 2. Publisher

Zwar interessieren uns nur die Meldungen des Polizeipräsidiums Offeburg, aber was man hat, das hat man. 😃

In [4]:
publisher = div_card.find("p", class_="customer").get_text().strip()
publisher

'Polizeipräsidium Offenburg'

## 3. Headline

Die Headline findet sich (vorbildlich) in einem `<h1>` Tag. Das Kürzel zu Beginn ist allerdings redundant.

In [5]:
headline_raw = div_card.find("h1").get_text()
headline = "".join(headline_raw.split(":")[1:]).strip()
headline

'Baden-Baden - Eingebrochen'

## 4. Content

Hier gibt es keine Klasse und wir müssen die Paragraphen durchzählen.

In [6]:
content = div_card.find_all("p")[3].get_text().strip()
content

'Nach einem Einbruch am Dienstagabend in ein Zweifamilienhaus in der Albert-Schweitzer-Straße, haben die Beamten des Polizeireviers Baden-Baden die Ermittlungen aufgenommen. Zwischen 19:30 Uhr und 21 Uhr verschaffte sich ein Unbekannter gewaltsam Zugang, in dem er die Haus- und Wohnungstüre aufhebelte. Mit einem Mobiltelefon als Beute suchte der Langfinger im Anschluss das Weite.'

Die beiden Tag Clouds finden sich in einem `<div>` mit der Klasse `story-linkbox`.

``` html
<div class="story-linkbox">
  <div class="story-linkbox-newsroom" id="author">
    Redacted
  </div>

  <div class="story-linkbox-docs">
    Redacted
  </div>

  <h4 class="mtxl">Orte in dieser Meldung</h4>
  <ul class="tags">
    <li data-name="viperTag" data-score="1"><a href="/blaulicht/r/Baden-Baden" class="btn event-trigger" rel="tag"
        data-category="story-tags" data-action="click" data-label="Baden-Baden" data-callback="link"
        data-url="/blaulicht/r/Baden-Baden">Baden-Baden</a></li>
    <li data-name="viperTag" data-score="1"><a href="/blaulicht/l/baden-wuerttemberg" class="btn event-trigger"
        rel="tag" data-category="story-tags" data-action="click" data-label="Baden-Württemberg" data-callback="link"
        data-url="/blaulicht/l/baden-wuerttemberg">Baden-Württemberg</a></li>
  </ul>
  <h4 class="mts">Themen in dieser Meldung</h4>
  <ul class="tags">
    <li data-name="viperTag" data-score="0.24487918615341"><a href="/blaulicht/st/POL" class="btn event-trigger"
        rel="tag" data-category="story-tags" data-action="click" data-label="POL" data-callback="link"
        data-url="/blaulicht/st/POL">POL</a></li>
    <li data-name="viperTag" data-score="0.082585297524929"><a href="/blaulicht/st/Einbruch" class="btn event-trigger"
        rel="tag" data-category="story-tags" data-action="click" data-label="Einbruch" data-callback="link"
        data-url="/blaulicht/st/Einbruch">Einbruch</a></li>
    <li data-name="viperTag" data-score="0.076921388506889"><a href="/blaulicht/st/Haus-" class="btn event-trigger"
        rel="tag" data-category="story-tags" data-action="click" data-label="Haus-" data-callback="link"
        data-url="/blaulicht/st/Haus-">Haus-</a></li>
    <li data-name="viperTag" data-score="0.0090736802667379"><a href="/blaulicht/st/Polizeireviers%20Baden-Baden"
        class="btn event-trigger" rel="tag" data-category="story-tags" data-action="click"
        data-label="Polizeireviers Baden-Baden" data-callback="link"
        data-url="/blaulicht/st/Polizeireviers%20Baden-Baden">Polizeireviers Baden-Baden</a></li>
    <li data-name="viperTag" data-score="0.64840000867844"><a href="/blaulicht/st/Diebstahl" class="btn event-trigger"
        rel="tag" data-category="story-tags" data-action="click" data-label="Diebstahl" data-callback="link"
        data-url="/blaulicht/st/Diebstahl">Diebstahl</a></li>
    <li data-name="viperTag" data-score="1"><a href="/blaulicht/d/polizei" class="btn event-trigger" rel="tag"
        data-category="story-tags" data-action="click" data-label="Polizei" data-callback="link"
        data-url="/blaulicht/d/polizei">Polizei</a></li>
    <li data-name="viperTag" data-score="1"><a href="/blaulicht/d/polizei/l/baden-wuerttemberg"
        class="btn event-trigger" rel="tag" data-category="story-tags" data-action="click"
        data-label="Polizei Baden-Württemberg" data-callback="link"
        data-url="/blaulicht/d/polizei/l/baden-wuerttemberg">Polizei Baden-Württemberg</a></li>
  </ul>

  <div class="no-float"></div>
</div>
```

In [7]:
sidebar = soup.find("div", class_="story-linkbox")

## 5. Locations

Beide Tagclouds sind jeweils in einem `<ul>` Tag, diese zählen wir wieder durch. Der Ort "Baden-Württemberg" liefert keinen Mehrwert, daher filtern wir diesen Wert aus.

In [8]:
from bs4 import Tag

location_cloud = sidebar.find_all("ul", class_="tags")[0]
location_tags = list(filter(
    lambda tag: tag != "Baden-Württemberg",
    [tag.get_text() for tag in location_cloud.contents]
))
location_tags

['Baden-Baden']

## 6. Topics

Auch hier gibt es Tags ohne Mehrwert, welche wir filtern. Die Tags selbst scheinen automatisiert erstellt worden zu sein, daher sind sie eventuell nicht zu nützlich. Aber wie beim Publisher gilt, was man hat, das hat man.

In [9]:
topic_cloud = sidebar.find_all("ul", class_="tags")[1]
topic_tags = list(filter(
    lambda tag: tag not in ["POL", "Polizei", "Polizei Baden-Württemberg"],
    [tag.get_text() for tag in topic_cloud.contents]
))
topic_tags

['Einbruch', 'Haus-', 'Polizeireviers Baden-Baden', 'Diebstahl']

Aus all diesen Einzelteilen basteln wir uns ein Artikel Objekt.

In [10]:
article = {
    "url": url,
    "publish_date": publish_date,
    "publisher": publisher,
    "headline": headline,
    "content": content,
    "location_tags": location_tags,
    "topic_tags": topic_tags
}
article

{'url': 'https://www.presseportal.de/blaulicht/pm/110975/4391289',
 'publish_date': datetime.datetime(2019, 10, 2, 13, 14),
 'publisher': 'Polizeipräsidium Offenburg',
 'headline': 'Baden-Baden - Eingebrochen',
 'content': 'Nach einem Einbruch am Dienstagabend in ein Zweifamilienhaus in der Albert-Schweitzer-Straße, haben die Beamten des Polizeireviers Baden-Baden die Ermittlungen aufgenommen. Zwischen 19:30 Uhr und 21 Uhr verschaffte sich ein Unbekannter gewaltsam Zugang, in dem er die Haus- und Wohnungstüre aufhebelte. Mit einem Mobiltelefon als Beute suchte der Langfinger im Anschluss das Weite.',
 'location_tags': ['Baden-Baden'],
 'topic_tags': ['Einbruch',
  'Haus-',
  'Polizeireviers Baden-Baden',
  'Diebstahl']}

Und wieder erstellen wir uns eine Funktion für alle Aufgaben.

In [11]:
def get_article(url):
    soup = BeautifulSoup(
        requests.get(url).text,
        "html.parser"
    )
    div_card = soup.find("div", class_="card")
    sidebar = soup.find("div", class_="story-linkbox")
    
    date_text = div_card.find("p", class_="date").get_text()
    publish_date = datetime.strptime(date_text, "%d.%m.%Y – %H:%M")
    
    publisher = div_card.find("p", class_="customer").get_text().strip()
    
    headline_raw = div_card.find("h1").get_text()
    headline = "".join(headline_raw.split(":")[1:]).strip()
    
    content = div_card.find_all("p")[3].get_text().strip()
    
    location_tags = list(filter(
        lambda tag: tag != "Baden-Württemberg",
        [tag.get_text() for tag in sidebar.find_all("ul", class_="tags")[0].contents]
    ))
    
    topic_tags = list(filter(
        lambda tag: tag not in ["POL", "Polizei", "Polizei Baden-Württemberg"],
        [tag.get_text() for tag in sidebar.find_all("ul", class_="tags")[1].contents]
    ))
    
    return {
        "url": url,
        "publish_date": publish_date,
        "publisher": publisher,
        "headline": headline,
        "content": content,
        "location_tags": location_tags,
        "topic_tags": topic_tags
    }

get_article(url)

{'url': 'https://www.presseportal.de/blaulicht/pm/110975/4391289',
 'publish_date': datetime.datetime(2019, 10, 2, 13, 14),
 'publisher': 'Polizeipräsidium Offenburg',
 'headline': 'Baden-Baden - Eingebrochen',
 'content': 'Nach einem Einbruch am Dienstagabend in ein Zweifamilienhaus in der Albert-Schweitzer-Straße, haben die Beamten des Polizeireviers Baden-Baden die Ermittlungen aufgenommen. Zwischen 19:30 Uhr und 21 Uhr verschaffte sich ein Unbekannter gewaltsam Zugang, in dem er die Haus- und Wohnungstüre aufhebelte. Mit einem Mobiltelefon als Beute suchte der Langfinger im Anschluss das Weite.',
 'location_tags': ['Baden-Baden'],
 'topic_tags': ['Einbruch',
  'Haus-',
  'Polizeireviers Baden-Baden',
  'Diebstahl']}

Und wieder wandert die Funktion nach extern:

In [12]:
from scraping import get_article as ga

ga(url)

{'url': 'https://www.presseportal.de/blaulicht/pm/110975/4391289',
 'publish_date': datetime.datetime(2019, 10, 2, 13, 14),
 'publisher': 'Polizeipräsidium Offenburg',
 'headline': 'Baden-Baden - Eingebrochen',
 'content': 'Nach einem Einbruch am Dienstagabend in ein Zweifamilienhaus in der Albert-Schweitzer-Straße, haben die Beamten des Polizeireviers Baden-Baden die Ermittlungen aufgenommen. Zwischen 19:30 Uhr und 21 Uhr verschaffte sich ein Unbekannter gewaltsam Zugang, in dem er die Haus- und Wohnungstüre aufhebelte. Mit einem Mobiltelefon als Beute suchte der Langfinger im Anschluss das Weite.',
 'location_tags': ['Baden-Baden'],
 'topic_tags': ['Einbruch',
  'Haus-',
  'Polizeireviers Baden-Baden',
  'Diebstahl']}

Tada!