# Access Contents of HTML Page

- Author:      Johannes Maucher
- Last update: 2018-10-21

This notebook demonstrates how to parse a HTML document and access dedicated elements of the parse tree.
[Beautiful Soup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#) is a python package for parsing HTML. Download and install version 4 by typing:

> `pip install beautifulsoup4`

into the command shell. Once it is installed it can be imported by

In [1]:
from bs4 import BeautifulSoup

For accessing arbitrary resources by URL the python modul [urllib](https://docs.python.org/2/library/urllib.html) must also be installed. Import the method _urlopen()_ from this module:  

In [2]:
from urllib.request import urlopen

If these two modules are available the HTML parse tree of the specified URL can easily be generated as follows.

In [3]:
#url="http://www.zeit.de"
url="http://www.spiegel.de"
#url="http://www.sueddeutsche.de"
html=urlopen(url).read()
soup=BeautifulSoup(html,"html.parser")

Now e.g. the title of the URL can be accessed by:

In [4]:
titleTag = soup.html.head.title
print("Title of page:  ",titleTag.string)

Title of page:   DER SPIEGEL | Online-Nachrichten


## Get all links in the page
All links in the page can be retrieven by the following code (only the first 20 links are printed)

In [5]:
hreflinks=[]
Alllinks=soup.findAll('a') #The <a> tag defines a hyperlink, which is used to link from one page to another.
for l in Alllinks:
    if l.has_attr('href'):
        hreflinks.append(l)
print("Number of links in this page: ",len(hreflinks))
for l in hreflinks[:20]:
    print(l['href'])

Number of links in this page:  548
#Inhalt
https://www.spiegel.de/
https://abo.spiegel.de/?b=SPOHNAVABO&requestAccessToken=true&sara_icid=disp_upd_9h6L5hu8K1AAnttzYATx3hvk7taDkP&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://gruppenkonto.spiegel.de/authenticate?requestAccessToken=true&targetUrl=https%3A%2F%2Fwww.spiegel.de%2Ffuermich%2F
https://www.spiegel.de/fuermich/
https://www.spiegel.de/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/audio/
https://www.spiegel.de/fuermich/
https://www.spiegel.de/schlagzeilen/
https://www.spiegel.de/plus/
https://www.spiegel.de/thema/coronavirus/
https://www.spiegel.de/politik/deutschland/
https://www.spiegel.de/politik/ausland/
https://www.spiegel.de/panorama/
https://www.spiegel.de/sport/
https://www.spiegel.de/wirtschaft/
https://www.spiegel.de/wissenschaft/
https://www.spiegel.de/netzwelt/


## Get all news titles
Get title of all news, which are currently listed on [www.zeit.de](http://www.zeit.de):

In [6]:
#print soup.get_text()hreflinks=[]
AllTitles=soup.findAll('h2')
alltitles=[]
alltitleLinks=[]
for l in AllTitles:
    #print l
    try:
        title = l.find('a')['title']
        link = l.find('a')['href']
        print('-'*40)
        print(title)
        print(link)
        alltitles.append(title)
        alltitleLinks.append(link)
    except:
        pass

----------------------------------------
Nazis stahlen Kochbuch-Bestseller: "Aber meine jüdischen Hände auf den Fotos blieben drin"
https://www.spiegel.de/geschichte/alice-urbach-wie-nazis-einer-juedin-ihren-kochbuch-bestseller-raubten-a-3c9d3c5f-443f-4a9e-97f2-0832c8d8ba8d
----------------------------------------
"Erhebliche anhaltende Mängel": US-Großbank Citigroup muss 400 Millionen Dollar Strafe zahlen
https://www.spiegel.de/wirtschaft/unternehmen/citigroup-us-bank-muss-400-millionen-dollar-strafe-zahlen-a-fab55e74-58eb-486e-a17b-9403a4404515
----------------------------------------
Pence vs. Harris: Sehen Sie hier die Debatte in voller Länge
https://www.spiegel.de/politik/ausland/us-wahl-das-tv-duell-von-mike-pence-und-kamala-harris-a-20ff53fe-17ff-47ad-86f3-6cd580c84915
----------------------------------------
Autogramm VW Golf GTE: Sein Feind heißt GTI
https://www.spiegel.de/auto/fahrberichte/vw-golf-gte-im-test-es-muss-nicht-immer-sportlich-sein-a-69b8f3bb-2311-41c6-a446-e7ff4f

## Get all images of the page

Get url of all images, which are currently displayed on [www.zeit.de](http://www.zeit.de):

In [7]:
imglinks=[]
AllImgs=soup.findAll('img')
for l in AllImgs:
    if l.has_attr('src'):
       imglinks.append(l)

for l in imglinks[:10]:
    print(l['src'])

data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
https://cdn.prod.www.spiegel.de/images/75f56e81-a33f-46dc-844e-6fe7c48a5da3_w948_r2.11_fpx41.57_fpy50.jpg
https://cdn.prod.www.spiegel.de/images/75f56e81-a33f-46dc-844e-6fe7c48a5da3_w920_r1.77_fpx41.57_fpy50.jpg
https://cdn.prod.www.spiegel.de/images/8e62e78d-b493-4ec4-a4c1-86aac43c3704_w56_r1_fpx49.57_fpy44.9.png
https://cdn.prod.www.spiegel.de/images/8e62e78d-b493-4ec4-a4c1-86aac43c3704_w56_r1_fpx49.57_fpy44.9.png
https://cdn.prod.www.spiegel.de/images/b19f50a7-187a-46ee-83b0-13e16e372b20_w488_r1.77_fpx41_fpy24.jpg
https://cdn.prod.www.spiegel.de/images/166dc1cb-530b-42a6-ae94-d4ea71620559_w488_r1.77_fpx25.32_fpy55.01.png
https://cdn.prod.www.spiegel.de/images/32602f85-63c4-4c2b-b108-8bcb7d3d754c_w117_r1.33_fpx33.34_fpy50.jpg
https://cdn.prod.www.spiegel.de/images/32602f85-63c4-4c2b-b108-8bcb7d3d754c_w488_r1.77_fpx33.34_fpy50.jpg
https://cdn.prod.www.spiegel.de/images/10f8d093-b4ac-4ab4-80ba-805e727f923c_w872_

## Get entire text of a news-article

In [8]:
IDX=0
suburl=alltitleLinks[IDX]
try:
    html=urlopen(suburl).read() #works if subdomains are referenced by absolute path
except:
    html=urlopen(url+suburl).read() #works if subdomains are referenced by relative path
soup=BeautifulSoup(html,"html.parser")
AllP=soup.findAll('p')
for p in AllP:
    print(p.get_text())

privat
Das Buch Alice
SPIEGEL: Frau Urbach, Sie haben ein Buch über Ihre Großmutter Alice geschrieben. Es geht um das Leben im Wien der Zwanzigerjahre, um Spionage, Prominente, Verbrechen der Nationalsozialisten - und um eine beeindruckende Biografie. Ahnten Sie, wie fesselnd der Stoff sein würde, als Sie zu schreiben begannen?
Urbach: Überhaupt nicht. Meine Großmutter starb 1983 mit 97 Jahren. Sie lebte in den USA, kam in den Sommerferien immer in ihre alte Heimat, besuchte auch mich und meine Eltern. Ich habe sie als resolut, patent und sehr bescheiden in Erinnerung. Eine knuddelige Oma, die nie darüber sprach, was sie alles gemacht hat in ihrem Leben. Ich habe sie völlig unterschätzt.
Die Historikerin Karina Urbach (Jahrgang 1969) forscht in Cambridge unter anderem zu internationalen Beziehungen und zur Geschichte der Geheimdienste.
SPIEGEL: Wie kamen Sie dann auf die Idee für das Buch?
Urbach: Über Umwege. Eigentlich wollte ich mehr über meinen Vater Otto erfahren: Er arbeitete nac

## Questions and Remarks
1. This notebook demonstrates how raw-text can be crawled from news-sites. But what is the drawback of this method?
2. Execute the entire notebook also for `www.spiegel.de` and `www.sueddeutsche.de`.
3. What do you observe? How to solve the problem?