# Access Contents of HTML Page

- Author:      Johannes Maucher
- Last update: 2018-10-21

This notebook demonstrates how to parse a HTML document and access dedicated elements of the parse tree.
[Beautiful Soup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#) is a python package for parsing HTML. Download and install version 4 by typing:

> `pip install beautifulsoup4`

into the command shell. Once it is installed it can be imported by

In [1]:
from bs4 import BeautifulSoup

For accessing arbitrary resources by URL the python modul [urllib](https://docs.python.org/2/library/urllib.html) must also be installed. Import the method _urlopen()_ from this module:  

In [2]:
from urllib.request import urlopen

If these two modules are available the HTML parse tree of the specified URL can easily be generated as follows.

In [3]:
#url="http://www.zeit.de"
url="http://www.spiegel.de"
#url="http://www.sueddeutsche.de"
html=urlopen(url).read()
soup=BeautifulSoup(html,"html.parser")

Now e.g. the title of the URL can be accessed by:

In [4]:
titleTag = soup.html.head.title
print("Title of page:  ",titleTag.string)

Title of page:   DER SPIEGEL | Online-Nachrichten


## Get all links in the page
All links in the page can be retrieven by the following code (only the first 20 links are printed)

In [5]:
hreflinks=[]
Alllinks=soup.findAll('a') #The <a> tag defines a hyperlink, which is used to link from one page to another.
for l in Alllinks:
    if l.has_attr('href'):
        hreflinks.append(l)
print("Number of links in this page: ",len(hreflinks))
for l in hreflinks[:20]:
    print(l['href'])

Number of links in this page:  577
#Inhalt
https://www.spiegel.de/
https://abo.spiegel.de/?b=SPOHNAVABO&requestAccessToken=true&sara_icid=disp_upd_9h6L5hu8K1AAnttzYATx3hvk7taDkP&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://gruppenkonto.spiegel.de/authenticate?requestAccessToken=true&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://www.spiegel.de/fuermich/
https://www.spiegel.de/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/audio/
https://www.spiegel.de/fuermich/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/thema/coronavirus/
https://www.spiegel.de/thema/us_praesidentschaftswahl_2020/
https://www.spiegel.de/thema/klimawandel/
https://www.spiegel.de/politik/deutschland/
https://www.spiegel.de/politik/ausland/
https://www.spiegel.de/panorama/
https://www.spiegel.de/sport/
https://www.spiegel.de/wirtschaft/


## Get all news titles
Get title of all news, which are currently listed on [www.zeit.de](http://www.zeit.de):

In [6]:
#print soup.get_text()hreflinks=[]
AllTitles=soup.findAll('h2')
alltitles=[]
alltitleLinks=[]
for l in AllTitles:
    #print l
    try:
        title = l.find('a')['title']
        link = l.find('a')['href']
        print('-'*40)
        print(title)
        print(link)
        alltitles.append(title)
        alltitleLinks.append(link)
    except:
        pass

----------------------------------------
Entscheidung des Bundesgerichtshofs: Ex-Wirecard-Chef Braun muss persönlich vor Untersuchungsausschuss erscheinen
https://www.spiegel.de/wirtschaft/unternehmen/ex-wirecard-chef-braun-muss-persoenlich-vor-untersuchungsausschuss-erscheinen-a-f5c9776b-5636-4175-9af4-0ceda25cc9b3
----------------------------------------
Schutz gegen Wilderer: Seltene weiße Giraffe in Kenia mit GPS-Sender versehen
https://www.spiegel.de/panorama/kenia-weisse-giraffe-mit-gps-sender-versehen-schutz-gegen-wilderer-a-37422d97-2925-4b48-94dc-559d20e92422
----------------------------------------
Turnier in Katar: Klub-WM mit den Bayern im Februar – wenn eigentlich die Bundesliga spielt
https://www.spiegel.de/sport/fussball/fc-bayern-muenchen-soll-klub-wm-im-februar-spielen-wenn-eigentlich-die-bundesliga-spielt-a-a80ef07e-59ad-435d-b47c-7b6af8f6e1d4
----------------------------------------
Spaniens Fußballstar Sergio Ramos vor Partie gegen Deutschland: Dominator mit Kratzer

## Get all images of the page

Get url of all images, which are currently displayed on [www.zeit.de](http://www.zeit.de):

In [7]:
imglinks=[]
AllImgs=soup.findAll('img')
for l in AllImgs:
    if l.has_attr('src'):
       imglinks.append(l)

for l in imglinks[:10]:
    print(l['src'])

data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
https://cdn.prod.www.spiegel.de/images/2a23e68e-8a57-40d8-9948-8fccd8e117b8_w872_r1.77_fpx42_fpy49.jpg
https://cdn.prod.www.spiegel.de/images/2a23e68e-8a57-40d8-9948-8fccd8e117b8_w872_r1.77_fpx42_fpy49.jpg
https://cdn.prod.www.spiegel.de/images/058ab179-d961-4997-9049-ab97a9c28fa3_w117_r1.33_fpx46.37_fpy49.98.jpg
https://cdn.prod.www.spiegel.de/images/058ab179-d961-4997-9049-ab97a9c28fa3_w117_r1.33_fpx46.37_fpy49.98.jpg
https://cdn.prod.www.spiegel.de/images/058ab179-d961-4997-9049-ab97a9c28fa3_w488_r1.77_fpx46.37_fpy49.98.jpg
https://cdn.prod.www.spiegel.de/images/058ab179-d961-4997-9049-ab97a9c28fa3_w488_r1.77_fpx46.37_fpy49.98.jpg
https://cdn.prod.www.spiegel.de/images/779f4009-5f1e-4eeb-8834-fdd4d87d0339_w488_r1.77_fpx43.14_fpy49.96.jpg
https://cdn.prod.www.spiegel.de/images/779f4009-5f1e-4eeb-8834-fdd4d87d0339_w488_r1.77_fpx43.14_fpy49.96.jpg
https://cdn.prod.www.spiegel.de/images/779f4009-5f1e-4eeb-8834-fd

## Get entire text of a news-article

In [8]:
IDX=0
suburl=alltitleLinks[IDX]
try:
    html=urlopen(suburl).read() #works if subdomains are referenced by absolute path
except:
    html=urlopen(url+suburl).read() #works if subdomains are referenced by relative path
soup=BeautifulSoup(html,"html.parser")
AllP=soup.findAll('p')
for p in AllP:
    print(p.get_text())

Markus Braun
Mehr in Kürze auf SPIEGEL.de

SPIEGEL+-Zugang wird gerade auf einem anderen Gerät genutzt


SPIEGEL+ kann nur auf einem Gerät zur selben Zeit genutzt werden.


Klicken Sie auf den Button, spielen wir den Hinweis auf dem anderen Gerät aus und Sie können SPIEGEL+ weiter nutzen.


Markus Braun
Melden Sie sich an und diskutieren Sie mit


## Questions and Remarks
1. This notebook demonstrates how raw-text can be crawled from news-sites. But what is the drawback of this method?
2. Execute the entire notebook also for `www.spiegel.de` and `www.sueddeutsche.de`.
3. What do you observe? How to solve the problem?