# Artikel von Spiegel Online laden

## Imports

In [1]:
import re
import time
import random

import pandas as pd
import requests
from bs4 import BeautifulSoup

## Funktionen für die Abfrage

#### Links zu Artikeln in Suchergebnissen extrahieren

In [2]:
def get_result_page_urls(result_page):
    
    response = requests.get(result_page, timeout=5)
    
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, "html.parser")
        results = soup.find_all(class_="search-teaser")
        urls = [result.find("a").get("href") for result in results]
        return urls
    
    else:
        return None

#### absolute Links filtern / relative Links behalten

In [3]:
def filter_urls(result_page_urls, host):
    urls = [host+url for url in result_page_urls if url.startswith("/")]
    return urls

#### Inhalt extrahieren

In [4]:
def extract_content(url, conf):
    
    url_elements = url.split("/")
    media = url_elements[2]
    ressort = url_elements[3]
    NA = "NaN"
    
    r = requests.get(url)
    soup = BeautifulSoup(r.text, "html.parser")

    author = soup.find(attrs=conf["author"])
    try:
        author = author.text
    except AttributeError:
        author = NA
    
    headline = soup.find(attrs=conf["headline"])
    if headline:
        headline = " ".join(headline.text.split())
    else:
        headline = NA
    
    intro = soup.find(attrs=conf["intro"])
    if intro:
        intro = " ".join(intro.text.split())
    else:
        intro = NA
    
    article = soup.find(attrs=conf["article"])
    if article:
        article = " ".join([p.text.strip() for p in article.find_all("p")])
    else:
        article = NA
    
    return (media, ressort, author, headline, intro, article, url)

## Artikel-URLs abfragen

In [5]:
host = "http://www.spiegel.de"
path = "/suche/"
n = 3

article_urls = []
for i in range(1, n+1):

    params = {
        "suchbegriff": "Syrien-Konflikt",
        "pageNumer": i,
    }    
    
    result_page = requests.get(host+path, params=params)
    result_page_urls = get_result_page_urls(result_page.url)
    result_page_urls = filter_urls(result_page_urls, host)
    
    article_urls.extend(result_page_urls)
    timer = round(random.random()*2, 2)
    time.sleep(timer)

In [6]:
# Elemente und HTML-Tags konfigurieren
spon_conf = {
    "author": {"rel": "author"},
    "headline": {"class": "article-title lp-article-title"},
    "intro": {"class": "article-intro"},
    "article": {"class": "article-section clearfix"},
}

### Inhalte extrahieren

In [7]:
results = [extract_content(url, spon_conf) for url in article_urls]

## Pandas DataFrame mit den Ergebnissen erstellen

In [8]:
cols = "media ressort author headline intro text url".split()
df = pd.DataFrame(results, columns=cols)
df.head()

Unnamed: 0,media,ressort,author,headline,intro,text,url
0,www.spiegel.de,wissenschaft,Christian Stöcker,"""Lügenpresse"" Merkels Fehler, Putins Sieg",Angela Merkel hat neulich etwas sehr Unkluges ...,Für die sonst so bedachte Kanzlerin Angela Mer...,http://www.spiegel.de/wissenschaft/mensch/lueg...
1,www.spiegel.de,politik,Milena Hassenkamp,Amerikanische IS-Kämpferin Warum Hoda Muthana ...,Die ehemalige IS-Anhängerin Hoda Muthana möcht...,Als Hoda Muthana sich von den USA auf den Weg ...,http://www.spiegel.de/politik/ausland/donald-t...
2,www.spiegel.de,politik,,"Münchner Sicherheitskonferenz Klare Ansagen, t...",Kanzlerin Merkel rechnet mit US-Präsident Trum...,Die Münchner Sicherheitskonferenz war - wieder...,http://www.spiegel.de/politik/ausland/muenchne...
3,www.spiegel.de,politik,,"""Kalifat vor seinem Fall"" US-Präsident verlang...","Donald Trump hat die Europäer aufgefordert, me...","""Wir tun so viel und geben so viel aus"", bekla...",http://www.spiegel.de/politik/ausland/syrien-d...
4,www.spiegel.de,politik,,"Sicherheitsberater des Irak ""Es kommt mir so v...","Die USA sagen, der ""Islamische Staat"" sei so g...","SPIEGEL ONLINE: Die US-Regierung behauptet, de...",http://www.spiegel.de/politik/ausland/falih-al...


----

### Zusatz

#### Query-Dictionary

In [9]:
def query_params_to_dict(pattern, url):
    query = re.search(pattern, url).group().split("&")
    params = {}
    for q in query:
        k, v = q.split("=")
        params.update({k:v}) 
    return params

In [10]:
# Funktionstest
url = "http://www.spiegel.de/suche/?suchbegriff=Syrien-Konflikt&pageNumber=2"
pattern = re.compile("(?<=\?).*(?=#)|(?<=\?).*")

params = query_params_to_dict(pattern, url)
r = requests.get("http://www.spiegel.de/suche/", params=params)

r.url == url

True