# Access Contents of HTML Page

- Author:      Johannes Maucher
- Last update: 2018-10-21

This notebook demonstrates how to parse a HTML document and access dedicated elements of the parse tree.
[Beautiful Soup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#) is a python package for parsing HTML. Download and install version 4 by typing:

> `pip install beautifulsoup4`

into the command shell. Once it is installed it can be imported by

In [1]:
from bs4 import BeautifulSoup

For accessing arbitrary resources by URL the python modul [urllib](https://docs.python.org/2/library/urllib.html) must also be installed. Import the method _urlopen()_ from this module:  

In [2]:
from urllib.request import urlopen

If these two modules are available the HTML parse tree of the specified URL can easily be generated as follows.

In [3]:
#url="http://www.zeit.de"
url="http://www.spiegel.de"
#url="http://www.sueddeutsche.de"
html=urlopen(url).read()
soup=BeautifulSoup(html,"html.parser")

Now e.g. the title of the URL can be accessed by:

In [4]:
titleTag = soup.html.head.title
print("Title of page:  ",titleTag.string)

Title of page:   DER SPIEGEL | Online-Nachrichten


## Get all links in the page
All links in the page can be retrieven by the following code (only the first 20 links are printed)

In [5]:
hreflinks=[]
Alllinks=soup.findAll('a') #The <a> tag defines a hyperlink, which is used to link from one page to another.
for l in Alllinks:
    if l.has_attr('href'):
        hreflinks.append(l)
print("Number of links in this page: ",len(hreflinks))
for l in hreflinks[:20]:
    print(l['href'])

Number of links in this page:  570
#Inhalt
https://www.spiegel.de/
https://abo.spiegel.de/?b=SPOHNAVABO&requestAccessToken=true&sara_icid=disp_upd_9h6L5hu8K1AAnttzYATx3hvk7taDkP&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://gruppenkonto.spiegel.de/authenticate?requestAccessToken=true&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://www.spiegel.de/fuermich/
https://www.spiegel.de/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/audio/
https://www.spiegel.de/fuermich/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/thema/coronavirus/
https://www.spiegel.de/thema/us_praesidentschaftswahl_2020/
https://www.spiegel.de/thema/klimawandel/
https://www.spiegel.de/politik/deutschland/
https://www.spiegel.de/politik/ausland/
https://www.spiegel.de/panorama/
https://www.spiegel.de/sport/
https://www.spiegel.de/wirtschaft/


## Get all news titles
Get title of all news, which are currently listed on [www.zeit.de](http://www.zeit.de):

In [6]:
#print soup.get_text()hreflinks=[]
AllTitles=soup.findAll('h2')
alltitles=[]
alltitleLinks=[]
for l in AllTitles:
    #print l
    try:
        title = l.find('a')['title']
        link = l.find('a')['href']
        print('-'*40)
        print(title)
        print(link)
        alltitles.append(title)
        alltitleLinks.append(link)
    except:
        pass

----------------------------------------
Trumps brutale Migrationspolitik: Was Joe Biden rückgängig machen kann – und was nicht
https://www.spiegel.de/politik/ausland/joe-biden-ringt-mit-der-migrationspolitik-von-donald-trump-a-9c065cae-7edc-4e05-82f2-1207f8bcd599
----------------------------------------
Hauptstadtflughafen BER: Das Schönefeld-Terminal soll schließen
https://www.spiegel.de/wirtschaft/hauptstadtflughafen-ber-schoenefeld-terminal-5-soll-schliessen-a-43949e7c-61cb-46f6-9d61-111927377b3a
----------------------------------------
Berlin: Polizei löst Techno-Party mit 130 Gästen auf
https://www.spiegel.de/panorama/justiz/berlin-polizei-loest-techno-party-in-lichtenberg-mit-130-gaesten-auf-a-f9d62af2-58b1-477e-85e3-6d7847f236af
----------------------------------------
John-Lennon-Relikt: Unterschrift für den Mörder – historisches »Double Fantasy«-Album wird versteigert
https://www.spiegel.de/panorama/john-lennon-double-fantasy-album-seines-moerders-wird-versteigert-a-9f68d319-

## Get all images of the page

Get url of all images, which are currently displayed on [www.zeit.de](http://www.zeit.de):

In [7]:
imglinks=[]
AllImgs=soup.findAll('img')
for l in AllImgs:
    if l.has_attr('src'):
       imglinks.append(l)

for l in imglinks[:10]:
    print(l['src'])

data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
https://cdn.prod.www.spiegel.de/images/e8644ab3-335a-4796-ab21-1cb49912c048_w872_r1.77_fpx37_fpy48.jpg
https://cdn.prod.www.spiegel.de/images/a3602227-2c19-4dc7-a1f6-fe5693f84b41_w488_r1.77_fpx61.34_fpy50.jpg
https://cdn.prod.www.spiegel.de/images/a3602227-2c19-4dc7-a1f6-fe5693f84b41_w117_r1.33_fpx61.34_fpy50.jpg
https://cdn.prod.www.spiegel.de/images/9503fc93-085e-4003-b429-1d571a820ea6_w488_r1.77_fpx46_fpy38.jpg
https://cdn.prod.www.spiegel.de/images/9503fc93-085e-4003-b429-1d571a820ea6_w117_r1.33_fpx46_fpy38.jpg
https://cdn.prod.www.spiegel.de/images/34ebd2d8-7bb6-409a-8433-893ca13338af_w488_r1.77_fpx45.85_fpy44.89.jpg
https://cdn.prod.www.spiegel.de/images/34ebd2d8-7bb6-409a-8433-893ca13338af_w117_r1.33_fpx45.85_fpy44.89.jpg
https://cdn.prod.www.spiegel.de/images/ef67715b-ebd4-4c78-a40b-5a04f6b86bbc_w117_r1.33_fpx6_fpy46.jpg
https://cdn.prod.www.spiegel.de/images/ef67715b-ebd4-4c78-a40b-5a04f6b86bbc_w488_r1.

## Get entire text of a news-article

In [8]:
IDX=0
suburl=alltitleLinks[IDX]
try:
    html=urlopen(suburl).read() #works if subdomains are referenced by absolute path
except:
    html=urlopen(url+suburl).read() #works if subdomains are referenced by relative path
soup=BeautifulSoup(html,"html.parser")
AllP=soup.findAll('p')
for p in AllP:
    print(p.get_text())

Kommt mit Joe Biden eine Wende in der Migrationspolitik?
Die USA waren lange Zeit ein Land, dessen Grenzen offener waren als anderswo: »Gebt mir eure Müden, eure Armen / Eure geknechteten Massen, die sich danach sehnen, frei zu atmen«, so steht es am Fuß der Freiheitsstatue. Einwanderung ist das Fundament der Vereinigten Staaten gewesen. Bis Nochpräsident Donald Trump es zerstörte.
In vier Jahren Amtszeit hat er die Vereinigten Staaten systematisch abgeriegelt. An der Grenze zu Mexiko begann er, eine Mauer zu bauen. Er sperrte die Kinder von lateinamerikanischen Migranten in Zeltstädte, um weitere Männer und Frauen von ihrer Reise abzuhalten. Er ließ Jagd auf jene Schwarzarbeiter machen, die das Land seit Jahrzehnten mit am Laufen halten. Menschen aus mehrheitlich muslimischen Ländern verbot er zeitweise die Einreise und drohte Jugendlichen, die als Kinder in die USA gekommen waren, mit Abschiebung.
Lassen sich diese Wunden heilen? Und wenn ja, wie will es die Administration des kommen

## Questions and Remarks
1. This notebook demonstrates how raw-text can be crawled from news-sites. But what is the drawback of this method?
2. Execute the entire notebook also for `www.spiegel.de` and `www.sueddeutsche.de`.
3. What do you observe? How to solve the problem?