In [1]:
%load_ext autoreload
%autoreload 2

# Web Scraping of Beiersdorf Blogs

Der Begriff __Web Scraping__ umfasst Verfahren zur Gewinnung von Informationen durch gezieltes Extrahieren der benötigten Daten von Internetquellen ([Wikipedia](https://de.wikipedia.org/wiki/Screen_Scraping)).

> ## Ziel: Das Extrahieren von Textdaten vom [_Beiersdorf Blog_](https://www.beiersdorf.de/beiersdorf-live/karriere-blog/blog-uebersicht) und deren Visualisierung in Form einer [Schlagwortwolke](https://de.wikipedia.org/wiki/Schlagwortwolke)

> __Aufgabe:__ 
* Besuchen Sie die Webseite des [Beiersdorf Blogs]() und machen Sie sich mit deren Struktur vertraut.
* Nutzen Sie Web- oder Developer Toolkits und versuchen Sie zu ergründen, wie wir auf die Blogtexte zugreifen können.  

## Web Scraping mit [Python](https://www.python.org/) mit [`BeautifulSoup`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) und [`requests`](https://2.python-requests.org/en/master/)

__Importieren von Python Bibliotheken__

In [2]:
from bs4 import BeautifulSoup
import requests

### Festlegen der URL

In [3]:
base_url = "https://www.beiersdorf.de/"
blog_url = "beiersdorf-live/karriere-blog/blog-uebersicht"
#url = 'https://www.beiersdorf.de/beiersdorf-live/karriere-blog/blog-uebersicht/2019/02/13-nivea-hebt-das-crowdsourcing-auf-ein-neues-level'
base_url +  blog_url

'https://www.beiersdorf.de/beiersdorf-live/karriere-blog/blog-uebersicht'

### Laden der Webseiteninhalte

In [4]:
page = requests.get(base_url +  blog_url)
soup = BeautifulSoup(page.content, 'html.parser')

In [5]:
#soup

### Finden des entsprechenden Links

In [6]:
article = soup.find('article')
article

<article class="navigation teaser blog-post" data-module="BlogModule" data-status-handler-url="/HttpHandler/Beiersdorf/LikeHandler.ashx?id=0da165f9-d020-43e7-b710-85cc43d0aacc&amp;method=getStatus" id="blog-post-0da165f9d02043e7b71085cc43d0aacc">
<a href="/beiersdorf-live/karriere-blog/blog-uebersicht/2019/05/22-101-tage-kwesi">
<div class="media">
<img src="/~/media/Beiersdorf/career/beiersdorf-live/2019-05-22-101-days-of-kwesi/Beiersdorf-kwesi-ofosu-teaser.jpg?bc=white&amp;w=380&amp;h=220"/>
<div class="icon-like like-btn icon-like-liked">
<span class="badge">0</span>
</div>
</div>
<div class="description">
<h3>101 Tage Kwesi</h3>
<div class="paragraph">
<p>Kwesi Ofosu über seine ersten 101 Tage als Marketing Director Pharmacy Business Unit Deutschland.</p>
</div>
<div class="button-wrapper">
<span class="teaser-button">Mehr erfahren <span class="icon"></span></span>
</div>
</div>
</a>
</article>

In [7]:
article.find('a')

<a href="/beiersdorf-live/karriere-blog/blog-uebersicht/2019/05/22-101-tage-kwesi">
<div class="media">
<img src="/~/media/Beiersdorf/career/beiersdorf-live/2019-05-22-101-days-of-kwesi/Beiersdorf-kwesi-ofosu-teaser.jpg?bc=white&amp;w=380&amp;h=220"/>
<div class="icon-like like-btn icon-like-liked">
<span class="badge">0</span>
</div>
</div>
<div class="description">
<h3>101 Tage Kwesi</h3>
<div class="paragraph">
<p>Kwesi Ofosu über seine ersten 101 Tage als Marketing Director Pharmacy Business Unit Deutschland.</p>
</div>
<div class="button-wrapper">
<span class="teaser-button">Mehr erfahren <span class="icon"></span></span>
</div>
</div>
</a>

In [8]:
hyper_link = article.find('a').get('href')
base_url + hyper_link

'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/05/22-101-tage-kwesi'

### Finden aller relevaten Links

In [9]:
articles = soup.find_all('article')
len(articles)

16

In [10]:
hyper_links = []
for article in articles:
    hyper_link = article.find('a').get('href')
    hyper_links.append(base_url + hyper_link)

In [11]:
hyper_links

['https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/05/22-101-tage-kwesi',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/05/17-eine-aktive-rolle-im-recruiting-einnehmen',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/05/08-austausch-trifft-erfindergeist',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/05/22-101-tage-kwesi',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/05/17-eine-aktive-rolle-im-recruiting-einnehmen',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/05/08-austausch-trifft-erfindergeist',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/05/02-wir-muessen-wie-ein-startup-agieren',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/04/04-augmented-reality-das-naechste-format-des-storytellings',
 'https://www.beiersdorf.de/

> __Problem:__ 
* Was ist das Problem mit der Liste `hyper_links`?

In [12]:
set(hyper_links)

{'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2018/08/30-beiersdorf-gruendet-tochtergesellschaft-in-kairo',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2018/08/31-new-york-new-york-und-film-ab',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2018/10/12-interview-mit-marielen-winter',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2018/10/22-faszinierend-spannend-divers-ein-halbes-jahr-in-suedafrika',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2018/11/14-wir-erarbeiten-taeglich-einen-wettbewerbsvorteil',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/02/13-nivea-hebt-das-crowdsourcing-auf-ein-neues-level',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2019/03/06-die-digitalisierung-fuer-kindergaerten-wertvoll-gestalten',
 'https://www.beiersdorf.de//beiersdorf-live/karriere-blog/b

In [13]:
print(len(set(hyper_links)))

12


> __Problem:__ 
* Nur so wenige Blogs! Was haben wir übersehen?

In [14]:
import numpy as np 
loadCounts = np.arange(0, 76, 12)
loadCounts

array([ 0, 12, 24, 36, 48, 60, 72])

In [15]:
blog_urls = [blog_url+f'?loadCount={i}' for i in loadCounts]
blog_urls

['beiersdorf-live/karriere-blog/blog-uebersicht?loadCount=0',
 'beiersdorf-live/karriere-blog/blog-uebersicht?loadCount=12',
 'beiersdorf-live/karriere-blog/blog-uebersicht?loadCount=24',
 'beiersdorf-live/karriere-blog/blog-uebersicht?loadCount=36',
 'beiersdorf-live/karriere-blog/blog-uebersicht?loadCount=48',
 'beiersdorf-live/karriere-blog/blog-uebersicht?loadCount=60',
 'beiersdorf-live/karriere-blog/blog-uebersicht?loadCount=72']

In [16]:
hyper_links = []
for url in blog_urls:
    page = requests.get(base_url + url)
    soup = BeautifulSoup(page.content, 'html.parser')
    articles = soup.find_all('article')
    for article in articles:
        hyper_link = article.find('a').get('href')
        hyper_links.append(base_url + hyper_link)
hyper_links = list(set(hyper_links))

In [17]:
len(hyper_links)

71

### Extrahieren der Textelemente eines Blog Artikels

In [18]:
print(hyper_links[0])
page = requests.get(hyper_links[0])
blog = BeautifulSoup(page.content, 'html.parser')

https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2018/03/13-sag-mir-wo-du-wohnst-und-ich-entwickele-dir-was-du-brauchst


In [19]:
#blog

In [20]:
text_segments = blog.find_all('div', {"class" : 'rte'})
text_segments

[<div class="text-module-content rte all-col"><div><figure class="right-image horizontal-image"><div class="image-wrapper"><img alt="" height="529" src="/~/media/Beiersdorf/career/beiersdorf-live/2018-03-13-tell-me-where-you-live-and-i-ll-develop-what-you-need/dr-nills-hoffmann.JPG?la=de-DE&amp;mw=940&amp;highRes=1" width="940"/></div><figcaption>Dr. Nils Hoffmann (l.) bei einer Unterstützungsaktion von Beiersdorf für die NGO „Smile Foundation“.</figcaption></figure><div class="rte"><p>Haut ist nicht gleich Haut, das ist vielen wohl bekannt.
 Doch es steckt mehr dahinter als man auf den ersten Blick vermutet: Was unsere
 Haut an Pflege braucht und welche Kosmetikbedürfnisse wir haben, ist stark von
 unserer Genetik, Umwelt und Kultur abhängig. Welche Produkte benutzen
 Konsumenten beispielsweise in Afrika oder Asien? Worin unterscheiden sich diese
 Bedürfnisse von denen, die Europäer haben? Mit diesen und ähnlichen
 Fragestellungen beschäftigen sich Geokosmetik-Forscher.</p>
 <p>Einer 

> __Problem:__ 
* Was ist das Problem mit der Liste `text_segments`?

In [21]:
text_segments = []
for elem in blog.find_all('div', {"class" : 'rte'}):
    if elem.attrs['class'][0] == 'rte':
        text_segments.append(elem)

In [22]:
text_segments

[<div class="rte"><p>Haut ist nicht gleich Haut, das ist vielen wohl bekannt.
 Doch es steckt mehr dahinter als man auf den ersten Blick vermutet: Was unsere
 Haut an Pflege braucht und welche Kosmetikbedürfnisse wir haben, ist stark von
 unserer Genetik, Umwelt und Kultur abhängig. Welche Produkte benutzen
 Konsumenten beispielsweise in Afrika oder Asien? Worin unterscheiden sich diese
 Bedürfnisse von denen, die Europäer haben? Mit diesen und ähnlichen
 Fragestellungen beschäftigen sich Geokosmetik-Forscher.</p>
 <p>Einer von ihnen ist Dr. Nils Hoffmann, R&amp;D Director Near
 East bei Beiersdorf. Seit drei Jahren lebt und arbeitet der gebürtige Hamburger
 in der indischen Tochtergesellschaft, 600km nördlich von Mumbai. Zu seinen
 Hauptaufgaben gehört die Erforschung der Konsumentenwünsche an Hautpflegeprodukte
 in Indien, Afrika, im Mittleren Osten, der Türkei und Russland um dann
 entsprechende Produkte auf den Markt zu bringen. </p></div>,
 <div class="rte"><p>„Weit gefasst beschr

#### Zusammenfügen aller Texte eins Blog Artikels

In [23]:
text_segments[0]

<div class="rte"><p>Haut ist nicht gleich Haut, das ist vielen wohl bekannt.
Doch es steckt mehr dahinter als man auf den ersten Blick vermutet: Was unsere
Haut an Pflege braucht und welche Kosmetikbedürfnisse wir haben, ist stark von
unserer Genetik, Umwelt und Kultur abhängig. Welche Produkte benutzen
Konsumenten beispielsweise in Afrika oder Asien? Worin unterscheiden sich diese
Bedürfnisse von denen, die Europäer haben? Mit diesen und ähnlichen
Fragestellungen beschäftigen sich Geokosmetik-Forscher.</p>
<p>Einer von ihnen ist Dr. Nils Hoffmann, R&amp;D Director Near
East bei Beiersdorf. Seit drei Jahren lebt und arbeitet der gebürtige Hamburger
in der indischen Tochtergesellschaft, 600km nördlich von Mumbai. Zu seinen
Hauptaufgaben gehört die Erforschung der Konsumentenwünsche an Hautpflegeprodukte
in Indien, Afrika, im Mittleren Osten, der Türkei und Russland um dann
entsprechende Produkte auf den Markt zu bringen. </p></div>

In [24]:
text_segments[0].get_text()

'Haut ist nicht gleich Haut, das ist vielen wohl bekannt.\r\nDoch es steckt mehr dahinter als man auf den ersten Blick vermutet: Was unsere\r\nHaut an Pflege braucht und welche Kosmetikbedürfnisse wir haben, ist stark von\r\nunserer Genetik, Umwelt und Kultur abhängig. Welche Produkte benutzen\r\nKonsumenten beispielsweise in Afrika oder Asien? Worin unterscheiden sich diese\r\nBedürfnisse von denen, die Europäer haben? Mit diesen und ähnlichen\r\nFragestellungen beschäftigen sich Geokosmetik-Forscher.\nEiner von ihnen ist Dr. Nils Hoffmann, R&D Director Near\r\nEast bei Beiersdorf. Seit drei Jahren lebt und arbeitet der gebürtige Hamburger\r\nin der indischen Tochtergesellschaft, 600km nördlich von Mumbai. Zu seinen\r\nHauptaufgaben gehört die Erforschung der Konsumentenwünsche an Hautpflegeprodukte\r\nin Indien, Afrika, im Mittleren Osten, der Türkei und Russland um dann\r\nentsprechende Produkte auf den Markt zu bringen. '

In [25]:
full_text = ' '.join([s.get_text() for s in text_segments])
full_text

'Haut ist nicht gleich Haut, das ist vielen wohl bekannt.\r\nDoch es steckt mehr dahinter als man auf den ersten Blick vermutet: Was unsere\r\nHaut an Pflege braucht und welche Kosmetikbedürfnisse wir haben, ist stark von\r\nunserer Genetik, Umwelt und Kultur abhängig. Welche Produkte benutzen\r\nKonsumenten beispielsweise in Afrika oder Asien? Worin unterscheiden sich diese\r\nBedürfnisse von denen, die Europäer haben? Mit diesen und ähnlichen\r\nFragestellungen beschäftigen sich Geokosmetik-Forscher.\nEiner von ihnen ist Dr. Nils Hoffmann, R&D Director Near\r\nEast bei Beiersdorf. Seit drei Jahren lebt und arbeitet der gebürtige Hamburger\r\nin der indischen Tochtergesellschaft, 600km nördlich von Mumbai. Zu seinen\r\nHauptaufgaben gehört die Erforschung der Konsumentenwünsche an Hautpflegeprodukte\r\nin Indien, Afrika, im Mittleren Osten, der Türkei und Russland um dann\r\nentsprechende Produkte auf den Markt zu bringen.  „Weit gefasst beschreibt Geokosmetik Produkte, die weltweit\r

### Extrahieren der Textelemente aller Blog Artikel

In [26]:
full_texts = []
for url in hyper_links[0:3]:
    print(url)
    page = requests.get(url)
    blog = BeautifulSoup(page.content, 'html.parser')
    print(f'Exracting {url}')
    text_segments = []
    for elem in blog.find_all('div', {"class" : 'rte'}):
        if elem.attrs['class'][0] == 'rte':
            text_segments.append(elem)
    full_text = ' '.join([s.get_text().replace('\r\n', ' ').strip() for s in text_segments])
    full_texts.append(full_text)

https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2018/03/13-sag-mir-wo-du-wohnst-und-ich-entwickele-dir-was-du-brauchst
Exracting https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2018/03/13-sag-mir-wo-du-wohnst-und-ich-entwickele-dir-was-du-brauchst
https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2017/04/06-die-menschen-hinter-unseren-produkten-anil-yumut
Exracting https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2017/04/06-die-menschen-hinter-unseren-produkten-anil-yumut
https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2017/03/06-die-menschen-hinter-unseren-produkten-annika-schuepfer
Exracting https://www.beiersdorf.de//beiersdorf-live/karriere-blog/blog-uebersicht/2017/03/06-die-menschen-hinter-unseren-produkten-annika-schuepfer


In [27]:
full_texts[2]

'In dieser Folge unsere Serie „Die Menschen hinter unseren Produkten" lernt ihr Annika Schüpfer aus dem Global Sales Team kennen. Erfahrt, warum Annika es spannend findet, in einem internationalen Team zu arbeiten und welche Innovation sie gerne für Beiersdorf entwickeln würde. Film ab!'

***