# Access Contents of HTML Page

- Author:      Johannes Maucher
- Last update: 2018-10-21

This notebook demonstrates how to parse a HTML document and access dedicated elements of the parse tree.
[Beautiful Soup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#) is a python package for parsing HTML. Download and install version 4 by typing:

> `pip install beautifulsoup4`

into the command shell. Once it is installed it can be imported by

In [1]:
from bs4 import BeautifulSoup

For accessing arbitrary resources by URL the python modul [urllib](https://docs.python.org/2/library/urllib.html) must also be installed. Import the method _urlopen()_ from this module:  

In [2]:
from urllib.request import urlopen

If these two modules are available the HTML parse tree of the specified URL can easily be generated as follows.

In [3]:
#url="http://www.zeit.de"
url="http://www.spiegel.de"
#url="http://www.sueddeutsche.de"
html=urlopen(url).read()
soup=BeautifulSoup(html,"html.parser")

Now e.g. the title of the URL can be accessed by:

In [4]:
titleTag = soup.html.head.title
print("Title of page:  ",titleTag.string)

Title of page:   DER SPIEGEL | Online-Nachrichten


## Get all links in the page
All links in the page can be retrieven by the following code (only the first 20 links are printed)

In [5]:
hreflinks=[]
Alllinks=soup.findAll('a') #The <a> tag defines a hyperlink, which is used to link from one page to another.
for l in Alllinks:
    if l.has_attr('href'):
        hreflinks.append(l)
print("Number of links in this page: ",len(hreflinks))
for l in hreflinks[:20]:
    print(l['href'])

Number of links in this page:  524
#Inhalt
https://www.spiegel.de/nutzungsbedingungen
https://www.spiegel.de/
https://abo.spiegel.de/?b=SPOHNAVABO&requestAccessToken=true&sara_icid=disp_upd_9h6L5hu8K1AAnttzYATx3hvk7taDkP&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://gruppenkonto.spiegel.de/authenticate?requestAccessToken=true&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://www.spiegel.de/fuermich/
https://www.spiegel.de/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/audio/
https://www.spiegel.de/fuermich/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/thema/coronavirus/
https://www.spiegel.de/politik/deutschland/
https://www.spiegel.de/politik/ausland/
https://www.spiegel.de/panorama/
https://www.spiegel.de/sport/
https://www.spiegel.de/wirtschaft/
https://www.spiegel.de/netzwelt/


## Get all news titles
Get title of all news, which are currently listed on [www.zeit.de](http://www.zeit.de):

In [6]:
#print soup.get_text()hreflinks=[]
AllTitles=soup.findAll('h2')
alltitles=[]
alltitleLinks=[]
for l in AllTitles:
    #print l
    try:
        title = l.find('a')['title']
        link = l.find('a')['href']
        print('-'*40)
        print(title)
        print(link)
        alltitles.append(title)
        alltitleLinks.append(link)
    except:
        pass

----------------------------------------
Uefa-Auszeichnung: Lewandowski und Neuer als "Europas Fußballer des Jahres" nominiert
https://www.spiegel.de/sport/fussball/robert-lewandowski-und-manuel-neuer-als-europas-fussballer-des-jahres-nominiert-a-25c8f450-027b-4dcf-a73d-54a0cb29a416
----------------------------------------
Coronakrise: Einkommen brechen weltweit ein
https://www.spiegel.de/wirtschaft/soziales/corona-krise-weltweite-einkommen-brechen-drastisch-ein-a-9f935891-658b-4c6e-b176-2873191ca17e
----------------------------------------
Motorradfahrerin Ana Carrasco: Sie fährt wie ein Mädchen - und wurde so Weltmeisterin bei den Jungs
https://www.spiegel.de/sport/motorsport-ana-carrasco-faehrt-wie-ein-maedchen-und-wird-weltmeisterin-bei-den-superbike-jungs-a-c26f0b93-8323-4da9-b221-a5357162b458
----------------------------------------
Deutsche Bank im Geldwäsche-Skandal: Die gefallene deutsche Ikone
https://www.spiegel.de/wirtschaft/unternehmen/deutsche-bank-im-geldwaesche-skandal-

## Get all images of the page

Get url of all images, which are currently displayed on [www.zeit.de](http://www.zeit.de):

In [7]:
imglinks=[]
AllImgs=soup.findAll('img')
for l in AllImgs:
    if l.has_attr('src'):
       imglinks.append(l)

for l in imglinks[:10]:
    print(l['src'])

https://cdn.prod.www.spiegel.de/images/fcc756cc-0001-0004-0000-000000955049_w40_r1_fpx49_fpy46.jpg
https://cdn.prod.www.spiegel.de/images/fcc756cc-0001-0004-0000-000000955049_w40_r1_fpx49_fpy46.jpg
data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
https://cdn.prod.www.spiegel.de/images/cd1fdb20-7955-4e95-bfdc-50d510a5e23d_w872_r1.77_fpx66_fpy40.jpg
https://cdn.prod.www.spiegel.de/images/c6cc53ca-d6e6-4633-ab7f-2be92e2fc529_w488_r1.77_fpx61.88_fpy50.jpg
https://cdn.prod.www.spiegel.de/images/5f37195e-e98f-49ba-ad3d-9b31ce587083_w488_r1.77_fpx46_fpy47.jpg
https://cdn.prod.www.spiegel.de/images/5f37195e-e98f-49ba-ad3d-9b31ce587083_w488_r1.77_fpx46_fpy47.jpg
https://cdn.prod.www.spiegel.de/images/e916d3ac-6a1b-4817-937e-6f56f56cf23e_w56_r1_fpx45_fpy54.42.png
https://cdn.prod.www.spiegel.de/images/e916d3ac-6a1b-4817-937e-6f56f56cf23e_w56_r1_fpx45_fpy54.42.png
https://cdn.prod.www.spiegel.de/images/692ffd31-0c77-4723-8e83-c41df51c0295_w56_r1_fpx52.84_fpy46.82.png


## Get entire text of a news-article

In [8]:
IDX=0
suburl=alltitleLinks[IDX]
try:
    html=urlopen(suburl).read() #works if subdomains are referenced by absolute path
except:
    html=urlopen(url+suburl).read() #works if subdomains are referenced by relative path
soup=BeautifulSoup(html,"html.parser")
AllP=soup.findAll('p')
for p in AllP:
    print(p.get_text())


SPIEGEL+-Zugang wird gerade auf einem anderen Gerät genutzt

SPIEGEL+ kann nur auf einem Gerät zur selben Zeit genutzt werden.

Klicken Sie auf den Button, spielen wir den Hinweis auf dem anderen Gerät aus und Sie können SPIEGEL+ weiter nutzen.


Manuel Neuer (l), Robert Lewandowski: Geht die Auszeichnung nach München?
Swen Pförtner/ dpa
Robert Lewandowski und Manuel Neuer dürfen auf die Auszeichnung als "Europas Fußballer des Jahres" hoffen. Die beiden Profis von Champions-League-Sieger FC Bayern München zählen neben Kevin De Bruyne von Manchester City zu den drei Nominierten einer Jury für die Auszeichnung des Uefa-Spielers der Saison 2019/2020. Das teilte der Kontinentalverband mit.
Maßgeblich war die Abstimmung von 80 Trainern der Klubs, die an der Gruppenphase von Champions League und Europa League teilnahmen, sowie 55 Journalisten - jeweils einer pro Uefa-Mitgliedsverband. Die Preise werden am 1. Oktober im Rahmen der Auslosung der Champions-League-Auslosung vergeben.
Besonders 

## Questions and Remarks
1. This notebook demonstrates how raw-text can be crawled from news-sites. But what is the drawback of this method?
2. Execute the entire notebook also for `www.spiegel.de` and `www.sueddeutsche.de`.
3. What do you observe? How to solve the problem?