# Access Contents of HTML Page

- Author:      Johannes Maucher
- Last update: 2018-10-21

This notebook demonstrates how to parse a HTML document and access dedicated elements of the parse tree.
[Beautiful Soup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#) is a python package for parsing HTML. Download and install version 4 by typing:

> `pip install beautifulsoup4`

into the command shell. Once it is installed it can be imported by

In [1]:
from bs4 import BeautifulSoup

For accessing arbitrary resources by URL the python modul [urllib](https://docs.python.org/2/library/urllib.html) must also be installed. Import the method _urlopen()_ from this module:  

In [2]:
from urllib.request import urlopen

If these two modules are available the HTML parse tree of the specified URL can easily be generated as follows.

In [3]:
#url="http://www.zeit.de"
url="http://www.spiegel.de"
#url="http://www.sueddeutsche.de"
html=urlopen(url).read()
soup=BeautifulSoup(html,"html.parser")

Now e.g. the title of the URL can be accessed by:

In [4]:
titleTag = soup.html.head.title
print("Title of page:  ",titleTag.string)

Title of page:   DER SPIEGEL | Online-Nachrichten


## Get all links in the page
All links in the page can be retrieven by the following code (only the first 20 links are printed)

In [5]:
hreflinks=[]
Alllinks=soup.findAll('a') #The <a> tag defines a hyperlink, which is used to link from one page to another.
for l in Alllinks:
    if l.has_attr('href'):
        hreflinks.append(l)
print("Number of links in this page: ",len(hreflinks))
for l in hreflinks[:20]:
    print(l['href'])

Number of links in this page:  588
#Inhalt
https://www.spiegel.de/
https://abo.spiegel.de/?b=SPOHNAVABO&requestAccessToken=true&sara_icid=disp_upd_9h6L5hu8K1AAnttzYATx3hvk7taDkP&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://gruppenkonto.spiegel.de/authenticate?requestAccessToken=true&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://www.spiegel.de/fuermich/
https://www.spiegel.de/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/audio/
https://www.spiegel.de/fuermich/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/thema/coronavirus/
https://www.spiegel.de/thema/us_praesidentschaftswahl_2020/
https://www.spiegel.de/thema/klimawandel/
https://www.spiegel.de/politik/deutschland/
https://www.spiegel.de/politik/ausland/
https://www.spiegel.de/panorama/
https://www.spiegel.de/sport/
https://www.spiegel.de/wirtschaft/


## Get all news titles
Get title of all news, which are currently listed on [www.zeit.de](http://www.zeit.de):

In [6]:
#print soup.get_text()hreflinks=[]
AllTitles=soup.findAll('h2')
alltitles=[]
alltitleLinks=[]
for l in AllTitles:
    #print l
    try:
        title = l.find('a')['title']
        link = l.find('a')['href']
        print('-'*40)
        print(title)
        print(link)
        alltitles.append(title)
        alltitleLinks.append(link)
    except:
        pass

----------------------------------------
Designierter US-Präsident: "Für Joe Biden geht die Arbeit jetzt erst richtig los"
https://www.spiegel.de/politik/ausland/designierter-us-praesident-joe-biden-fuer-joe-biden-geht-die-arbeit-jetzt-erst-richtig-los-a-bbde6f6e-ec63-427b-9695-d51b7c567c0c
----------------------------------------
Angeblich aus Bremen importiert: China sieht deutsche Schweinshaxe als Grund für neuen Corona-Fall
https://www.spiegel.de/wirtschaft/unternehmen/schweinshaxe-unter-corona-verdacht-china-sieht-deutsches-fleisch-als-grund-fuer-neue-infektion-a-6b8f320a-faeb-41c5-b3ec-44ac97dee0a8
----------------------------------------
Politik in der Coronakrise: Wie der Bundestag für mehr Mitsprache kämpft
https://www.spiegel.de/politik/deutschland/politik-in-der-coronakrise-wie-der-bundestag-fuer-mehr-mitsprache-kaempft-a-b28a57f7-7f32-4f4a-b4e3-91cae4ec880f
----------------------------------------
Französischer Linkspolitiker: Mélenchon will Macron herausfordern
https://www

## Get all images of the page

Get url of all images, which are currently displayed on [www.zeit.de](http://www.zeit.de):

In [7]:
imglinks=[]
AllImgs=soup.findAll('img')
for l in AllImgs:
    if l.has_attr('src'):
       imglinks.append(l)

for l in imglinks[:10]:
    print(l['src'])

https://cdn.prod.www.spiegel.de/images/8e62e78d-b493-4ec4-a4c1-86aac43c3704_w40_r1_fpx49.57_fpy44.9.png
https://cdn.prod.www.spiegel.de/images/8e62e78d-b493-4ec4-a4c1-86aac43c3704_w40_r1_fpx49.57_fpy44.9.png
data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
https://cdn.prod.www.spiegel.de/images/9070c9b6-30e6-43c9-a19d-1e19bc32ce44_w948_r2.11_fpx64_fpy15.jpg
https://cdn.prod.www.spiegel.de/images/9070c9b6-30e6-43c9-a19d-1e19bc32ce44_w920_r1.77_fpx64_fpy15.jpg
https://cdn.prod.www.spiegel.de/images/3de98d9a-a401-4703-bd87-11bc2b933577_w488_r1.77_fpx33.34_fpy50.jpg
https://cdn.prod.www.spiegel.de/images/3de98d9a-a401-4703-bd87-11bc2b933577_w117_r1.33_fpx33.34_fpy50.jpg
https://cdn.prod.www.spiegel.de/images/d5ba8cab-f3b0-4f74-a3c7-8124574bea94_w488_r1.77_fpx49_fpy56.jpg
https://cdn.prod.www.spiegel.de/images/d5ba8cab-f3b0-4f74-a3c7-8124574bea94_w117_r1.33_fpx49_fpy56.jpg
https://cdn.prod.www.spiegel.de/images/dc601371-aa24-43ae-8c33-4fca75b399fc_w488_r1.77_fpx42.

## Get entire text of a news-article

In [8]:
IDX=0
suburl=alltitleLinks[IDX]
try:
    html=urlopen(suburl).read() #works if subdomains are referenced by absolute path
except:
    html=urlopen(url+suburl).read() #works if subdomains are referenced by relative path
soup=BeautifulSoup(html,"html.parser")
AllP=soup.findAll('p')
for p in AllP:
    print(p.get_text())


SPIEGEL+-Zugang wird gerade auf einem anderen Gerät genutzt


SPIEGEL+ kann nur auf einem Gerät zur selben Zeit genutzt werden.


Klicken Sie auf den Button, spielen wir den Hinweis auf dem anderen Gerät aus und Sie können SPIEGEL+ weiter nutzen.


Melden Sie sich an und diskutieren Sie mit


## Questions and Remarks
1. This notebook demonstrates how raw-text can be crawled from news-sites. But what is the drawback of this method?
2. Execute the entire notebook also for `www.spiegel.de` and `www.sueddeutsche.de`.
3. What do you observe? How to solve the problem?