Scraping with Python: http://docs.python-guide.org/en/latest/scenarios/scrape/#web-scraping

Scrape SRF Wissenschaftsmagazin

Last change: 2016-06-08

In [1]:
#!/usr/bin/env python
## -*- coding: iso-8859-1 -*-
# -*- coding: utf-8 -*-

'''
    This script scrapes the news entries from the science podcast feed at SRF.
    As the news site may not in XML format, it could be a little bit tricky to parse
    the content of the site including the links. The links had to be reconstructed new.
    
    The site I've used in this example really exists. Please check their
    site's terms and conditions before you scrape this site. I've kept the
    site as an example to demonstrate the syntax I've used. Please scrape some other
    intersting web sites and do not send too much web requests to them.
    Usefull help sites: 
    -------------------
    Extracting attributes from HTML with lxml: 
    - http://lxml.de/tutorial.html
    - http://stackoverflow.com/questions/27070227/extracting-attributes-from-html-with-lxml
    
    s = """<div class="my_div">
      <a href="/foobar">
         <img src="my_img.png">
      </a>
    </div>"""
    
    ...
   tree = html.fromstring(page.text)
   for link_element in tree.xpath('//div[contains(@class, "my_div")]//a'):
      href = link_element.get('href')
      image_element = href.find('img')
      if image_element:
         img_src = image_element.get('src') 


    Usefull help sites: 
    -------------------
    Extracting attributes from HTML with lxml: 
    - http://stackoverflow.com/questions/27070227/extracting-attributes-from-html-with-lxml
    
    
    You will get something like this:
    ---------------------------------
    TITLE:  Seikan-Tunnel: Der Entthronte
    DESCRIPTION:  Bisher war der Seikan-Tunnel in Japan der längste Eisenbahntunnel der Welt. Er verbindet die Hauptinsel mit der Nordinsel Hokkaido, unter dem Meer hindurch. Seine Erbauer sind noch immer stolz auf ihr Werk, auch wenn der Gotthard ihnen nun den Rekord abnimmt.
                    Weitere Themen:

                        - Delaware-Aquädukt: Der Allerlängste
                                - Der längste Strassentunnel der Welt

    LINK:  guid {} http://podcasts.srf.ch/world/audio/Wissenschaftsmagazin_28-05-2016-1240.4.mp3
    PUBDATE:  Sat, 28 May 2016 13:35:00 +0200

    ====================

    TITLE:  Gärtnern – eine wirksame Medizin
    DESCRIPTION:  Wo es blüht und spriesst, erholt man sich nicht nur gut, sondern man kann auch gezielt etwas für die Gesundheit tun. Das ist auch wissenschaftlich bewiesen. Gärtnern unter therapeutischer Anleitung verhilft zum Beispiel Menschen mit chronischen Schmerzen zu mehr Lebensqualität.
                    Weitere Themen:

                        - Ausrottung Guinea-Wurm
                                - Kurz-Meldungen

    LINK:  guid {} http://podcasts.srf.ch/world/audio/Wissenschaftsmagazin_21-05-2016-1240.3.mp3
    PUBDATE:  Sat, 21 May 2016 13:35:00 +0200

    ====================
    ---
    Daniela Knoll - 2016-04-16
    @ElaOnMars
'''

from lxml import html
import requests

# Page http://www.srf.ch/sendungen/wissenschaftsmagazin
page_srf = requests.get('http://podcasts.srf.ch/wissenschaft_drs_2_mpx.xml', stream=True)
tree_srf = html.fromstring(page_srf.content)

# print(tree_srf.xpath('//div[@class="module-content"]/ul/li/text()'))


for child_of_root in tree_srf:
   print("CHILD: ", child_of_root.tag, child_of_root.attrib)


# http://robotframework.org/robotframework/latest/libraries/XML.html
# http://eli.thegreenplace.net/2012/03/15/processing-xml-in-python-with-elementtree
# for elem in tree_srf.iterfind('branch/sub-branch'):
#   print elem.tag, elem.attrib

print("http://podcasts.srf.ch/wissenschaft_drs_2_mpx.xml")
print("============================")
# Finding interesting elements
for elem in tree_srf.iter():
    # Print the elements first, then you can choose what you like to print
    # print("ELEM: ", elem.tag, elem.attrib, elem.text)
    if elem.tag == 'title':
        print("TITLE: ", elem.text)
    if elem.tag == 'description':
        print('DESCRIPTION: ', elem.text)
    if elem.tag == 'guid':
        print("LINK: ", elem.tag, elem.attrib, elem.text)
    if elem.tag == 'pubdate':
        print('PUBDATE: ', elem.text)
        print("\n====================\n")

CHILD:  channel {}
http://podcasts.srf.ch/wissenschaft_drs_2_mpx.xml
TITLE:  Wissenschaftsmagazin
DESCRIPTION:  Bildung, Wissenschaft und Innovation sind die Säulen einer modernen Gesellschaft. Das Wissenschaftsmagazin macht Forschen und Forschungsergebnisse zum Thema, informiert über die gesellschaftlichen Auswirkungen und stellt kritische Fragen nach dem Nutzen. Das Wissenschaftsmagazin

öffnet ein Fenster in die Welt von Forschung und Entwicklung und deren Auswirkungen,
berichtet aktuell und fundiert über Neues in Naturwissenschaft, Medizin und Technik,
schlägt Brücken zu angrenzenden Wissenschaften wie Wirtschaft, Psychologie und Soziologie,
verfolgt die Forschungs- und Bildungsdebatten der Politik
und richtet dabei ein besonderes Augenmerk auf den Forschungsplatz Schweiz.


TITLE:  Wissenschaftsmagazin
TITLE:  Gesundheitsrisiko Handystrahlung
DESCRIPTION:  Millionen von Menschen weltweit telefonieren täglich mit dem Handy. Das ist sehr praktisch, doch ist es auch gesund? Oder kann