# Scrape Stories from Psychologie Heute

Scrape German Corona stories from the website of Psychologie Heute (psychology today): https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html.

All the stories are on the main page.

The stories are stored in dictionaries with the following fields:

- `link`: The link of the main page (string)
- `title`: The title of the main page (string)
- `subtitle`: The subtitle of the story (string)
- `intro_text`: The introductory text giving some background on all stories (string)
- `date`: The date when the stories where published (string)
- `author`: The author of each story (string)
- `box_text`: The story text in each box (string)

In [1]:
from urllib.request import urlopen
from urllib.request import Request
from bs4 import BeautifulSoup

In [2]:
# Set URL of the main page containing the links to the story pages

URL = "https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html"

In [3]:
# Function to extract links to the story pages from main page

def extract_text_from_url(URL):
    new_req = Request(URL, headers = {"User-Agent": "Mozilla/5.0"})
    new_page = BeautifulSoup(urlopen(new_req).read(), "html.parser")
    new_title = new_page.title.string
    new_subtitle = new_page.find("h2", attrs = {"class": "articleSubtitle"}).get_text().strip()
    new_intro_text = new_page.find("div", attrs = {"class": "box-standard"}).previousSibling.get_text()
    new_date = new_page.find("span", attrs = {"class": "date"}).string
    new_authors = [auth.string for auth in new_page.find_all("b")]
    new_box_text = new_page.find_all("div", attrs = {"class": "box-standard"})
    new_box_text_stripped = [text.get_text().replace("\xa0", "") for text in new_box_text]
    
    docs = []
    
    for i in range(len(new_box_text_stripped)):
        new_doc = {
            "link": URL,
            "title": new_title,
            "subtitle": new_subtitle,
            "intro_text": new_intro_text,
            "date": new_date,
            "author": new_authors[i],
            "box_text": new_box_text_stripped[i]
        }
        docs.append(new_doc)
        
        print("Extracted story {} from {}".format(i+1, URL))
    
    print("Done")
    
    return docs

In [4]:
docs = extract_text_from_url(URL)

Extracted story 1 from https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html
Extracted story 2 from https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html
Extracted story 3 from https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html
Extracted story 4 from https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html
Extracted story 5 from https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html
Extracted story 6 from https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html
Extracted story 7 from https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html
Extracted story 8 from https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html
Extracted story 9 from https://w

In [5]:
# Function to print doc

def print_doc(doc):
    for field in doc.keys():
        if isinstance(doc[field], list):
            print(field + ": " + doc[field][0] + "\n")
        else:
            print(field + ": " + doc[field] + "\n")
        
    return

In [6]:
print_doc(docs[0])

link: https://www.psychologie-heute.de/gesellschaft/artikel-detailansicht/40776-corona-geschichten.html

title: Corona-Geschichten: Unsere Leser erzählen

subtitle: Wir haben unsere Leser gefragt, wie es ihnen in der Coronakrise geht. Sie haben geantwortet. Denn Geschichten bringen uns zusammen.

intro_text: Deshalb haben wir als Psychologie Heute unsere Leser über Socia Media und unseren Newsletter aufgerufen, ihre ganz persönliche Corona-Geschichte zu erzählen. Wir  bedanken uns für die Einsendungen und freuen uns, sie hier auf unserer Webseite zu veröffentlichen. Weil wir glauben, dass wir durch Erzählen und Zuhören mehr von der Welt verstehen. Und es uns ein Stück näher zusammenbringt.

date: 03. Sep 2020

author: Stefanie Heß

box_text: Hallo zusammen,Mir ging es vor Corona oft schlecht. Ich habe eine PTBS, dadurch war der Weg zur Arbeit und die Arbeit selbst eine riesige Kraftanstrengung, Termine bei Ärzten und Therapeuten verstärkten dies und ich war oft krankgeschrieben. Seit J