# Access Contents of HTML Page

- Author:      Johannes Maucher
- Last update: 2018-10-21

This notebook demonstrates how to parse a HTML document and access dedicated elements of the parse tree.
[Beautiful Soup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#) is a python package for parsing HTML. Download and install version 4 by typing:

> `pip install beautifulsoup4`

into the command shell. Once it is installed it can be imported by

In [1]:
from bs4 import BeautifulSoup

For accessing arbitrary resources by URL the python modul [urllib](https://docs.python.org/2/library/urllib.html) must also be installed. Import the method _urlopen()_ from this module:  

In [2]:
from urllib.request import urlopen

If these two modules are available the HTML parse tree of the specified URL can easily be generated as follows.

In [3]:
#url="http://www.zeit.de"
url="http://www.spiegel.de"
#url="http://www.sueddeutsche.de"
html=urlopen(url).read()
soup=BeautifulSoup(html,"html.parser")

Now e.g. the title of the URL can be accessed by:

In [4]:
titleTag = soup.html.head.title
print("Title of page:  ",titleTag.string)

Title of page:   DER SPIEGEL | Online-Nachrichten


## Get all links in the page
All links in the page can be retrieven by the following code (only the first 20 links are printed)

In [5]:
hreflinks=[]
Alllinks=soup.findAll('a') #The <a> tag defines a hyperlink, which is used to link from one page to another.
for l in Alllinks:
    if l.has_attr('href'):
        hreflinks.append(l)
print("Number of links in this page: ",len(hreflinks))
for l in hreflinks[:20]:
    print(l['href'])

Number of links in this page:  563
#Inhalt
https://www.spiegel.de/
https://abo.spiegel.de/?b=SPOHNAVABO&requestAccessToken=true&sara_icid=disp_upd_9h6L5hu8K1AAnttzYATx3hvk7taDkP&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://gruppenkonto.spiegel.de/authenticate?requestAccessToken=true&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://www.spiegel.de/fuermich/
https://www.spiegel.de/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/audio/
https://www.spiegel.de/fuermich/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/thema/coronavirus/
https://www.spiegel.de/thema/us_praesidentschaftswahl_2020/
https://www.spiegel.de/thema/klimawandel/
https://www.spiegel.de/politik/deutschland/
https://www.spiegel.de/politik/ausland/
https://www.spiegel.de/panorama/
https://www.spiegel.de/sport/
https://www.spiegel.de/wirtschaft/


## Get all news titles
Get title of all news, which are currently listed on [www.zeit.de](http://www.zeit.de):

In [6]:
#print soup.get_text()hreflinks=[]
AllTitles=soup.findAll('h2')
alltitles=[]
alltitleLinks=[]
for l in AllTitles:
    #print l
    try:
        title = l.find('a')['title']
        link = l.find('a')['href']
        print('-'*40)
        print(title)
        print(link)
        alltitles.append(title)
        alltitleLinks.append(link)
    except:
        pass

----------------------------------------
SPIEGEL-Klimabericht: Ist das 1,5-Grad-Ziel noch zu schaffen?
https://www.spiegel.de/wissenschaft/mensch/klima-krise-ist-das-1-5-grad-ziel-noch-zu-schaffen-a-695a6d46-e4f2-4194-8aa1-a14379b3f470
----------------------------------------
Mit Radartechnologie: Düsseldorf testet kontaktlosen Ampeltaster
https://www.spiegel.de/auto/duesseldorf-stadt-testet-kontaktlosen-ampeltaster-mit-radartechnologie-a-6e79504e-e6a4-4bf6-8c8e-f0b56cea0f7e
----------------------------------------
Frankreich: Im Namen der Sicherheit
https://www.spiegel.de/politik/ausland/frankreich-umstrittenes-gesetz-frontalangriff-im-namen-der-sicherheit-a-8f338c2f-1f4d-4c90-ae6d-d068efa3f17c
----------------------------------------
Daimler-Vorstand gegen Betriebsrat: Eskalation in Untertürkheim
https://www.spiegel.de/wirtschaft/unternehmen/eskalation-in-untertuerkheim-a-b4039af2-5557-4d2c-9137-eff59afecec2
----------------------------------------
Wegen steigender Neuinfektionen: Za

## Get all images of the page

Get url of all images, which are currently displayed on [www.zeit.de](http://www.zeit.de):

In [7]:
imglinks=[]
AllImgs=soup.findAll('img')
for l in AllImgs:
    if l.has_attr('src'):
       imglinks.append(l)

for l in imglinks[:10]:
    print(l['src'])

https://cdn.prod.www.spiegel.de/images/163dd7a2-7b30-4583-ad22-1eac21b122ec_w40_r1_fpx54.23_fpy47.24.png
https://cdn.prod.www.spiegel.de/images/163dd7a2-7b30-4583-ad22-1eac21b122ec_w40_r1_fpx54.23_fpy47.24.png
data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
https://cdn.prod.www.spiegel.de/images/e428f0cb-d2c7-4e4b-92ce-d677d91af11f_w56_r1_fpx56_fpy47.png
https://cdn.prod.www.spiegel.de/images/e428f0cb-d2c7-4e4b-92ce-d677d91af11f_w56_r1_fpx56_fpy47.png
https://cdn.prod.www.spiegel.de/images/224d5342-0001-0004-0000-000000039831_w872_r1.77_fpx65_fpy51.jpg
https://cdn.prod.www.spiegel.de/images/ea92b851-490a-454b-b5f0-d6b571f6a727_w488_r1.77_fpx52.1_fpy49.99.jpg
https://cdn.prod.www.spiegel.de/images/875379b1-8ab2-47cc-86c8-c90b07ebb34a_w56_r1_fpx53_fpy50.png
https://cdn.prod.www.spiegel.de/images/875379b1-8ab2-47cc-86c8-c90b07ebb34a_w56_r1_fpx53_fpy50.png
https://cdn.prod.www.spiegel.de/images/a1f240cf-210a-411c-a9e9-fee16aa82398_w872_r1.77_fpx51_fpy37.jpg


## Get entire text of a news-article

In [8]:
IDX=0
suburl=alltitleLinks[IDX]
try:
    html=urlopen(suburl).read() #works if subdomains are referenced by absolute path
except:
    html=urlopen(url+suburl).read() #works if subdomains are referenced by relative path
soup=BeautifulSoup(html,"html.parser")
AllP=soup.findAll('p')
for p in AllP:
    print(p.get_text())

1,5 oder lieber deutlich unter 2? Ein knappes halbes Grad hat das Zeug für eine Kontroverse in der Klimaszene. Gemeint sind die beiden Temperaturlimits für die Erderwärmung im Jahr 2100 gegenüber vorindustrieller Zeit, die im Klimavertrag von Paris als gerade noch vertretbar vereinbart wurden. Im Team 1,5 spielt die Bewegung um Fridays for Future, die sich von Anfang an für das strengere Klimaschutzziel einsetzt. Auf der anderen Seite des Spektrums stehen die etwas mutigeren Politiker und anderen gesellschaftlichen Akteure, die zuversichtlich sind, dass auch bei einer Erwärmung oberhalb von 1,5 Grad die Erde schon nicht untergehen wird – obwohl mit jeder Nachkommastelle die Risiken schwerer Klimaschäden zunehmen.
Die Debatte über den richtigen Weg beim Klimaschutz hat nun auch die Grünen erreicht. Teile der Basis hatten gefordert, das 1,5-Grad-Ziel zur »Maßgabe« grüner Politik zu machen. Bei ihrem Bundesparteitag am Wochenende konnte die Parteiführung eine Kampfabstimmung gerade noch v

## Questions and Remarks
1. This notebook demonstrates how raw-text can be crawled from news-sites. But what is the drawback of this method?
2. Execute the entire notebook also for `www.spiegel.de` and `www.sueddeutsche.de`.
3. What do you observe? How to solve the problem?