# Web Scraping

## Struktur von HTML Seiten

HTML ist eine Sprache der Metasprache SGML. Eine syntaktisch strengere Form des SGML ist das bekanntere XML. Es ermöglicht die Definition von sogenannten Tags mit eigennen Attributen die entweder Zahlen oder Texte (Strings) sind. Jedes Tag hat einen Inhalt umgeben von zwei spitzen Klammern in denen der Name und die Attribute des Tags stehen. Das Dokument ist dann eine Folge von Tags die weitere Tags oder Text als Inhalt tragen können.

Die Struktur einer HTML Seite sieht in etwa so aus: 

Eine XML oder HTML Seite lässt sich als ein Baum darstellen
![title](pic_htmltree.gif)

## HTTP

Solche HTML Dokumente sind als Datei auf einem "Server" gespeichert der natürlich auch ein Computer ist.
Der "Client" ist der Computer welcher die Webseite (das HTML Dokument) über ein Netzwerk anfordert.
Dazu sendet der Client einen Request (Daten) zum Server. Dieser Antwortet wenn alles korrekt verläuft mit
den HTML Daten. Dabei müssen sich die gesendeten Anfragen an eine bestimmte Form halten.
Diese wird durch das Protokoll HTTP (Hypertext Transfer Protokoll) definiert die in der RFC 2616 
(https://tools.ietf.org/html/rfc2616) beschrieben ist.

Ein HTTP Request besteht aus einem Header mit allen Informationen zur Anfrage.
![title](HTTP_Request.png)


Die Hauptmethode des Clients ist

GET
Fordert die Datei zu der URL an

weitere Optionen sind:

POST
schickt unbegrenzte, je nach physischer Ausstattung des eingesetzten Servers, Mengen an Daten zur weiteren Verarbeitung zum Server, diese werden als Inhalt der Nachricht übertragen und können beispielsweise aus Name-Wert-Paaren bestehen, die aus einem HTML-Formular stammen.

HEAD
Hier wird nur nach dem Header der Response gefragt um z.B in Erfahrung zu bringen welcher Dateityp die URL enthält aber nicht die
Daten selbst

PUT
dient dazu, eine Ressource (zum Beispiel eine Datei) unter Angabe des Ziel-URIs auf einen Webserver hochzuladen. Besteht unter der angegebenen Ziel-URI bereits eine Ressource, wird diese ersetzt, ansonsten neu erstellt.

PATCH
Ändert ein bestehendes Dokument ohne dieses wie bei PUT vollständig zu ersetzen. 

DELETE
löscht die angegebene Ressource auf dem Server.

TRACE
liefert die Anfrage so zurück, wie der Server sie empfangen hat. So kann überprüft werden, ob und wie die Anfrage auf dem Weg zum Server verändert worden ist – sinnvoll für das Debugging von Verbindungen.

OPTIONS
liefert eine Liste der vom Server unterstützten Methoden und Merkmale.

CONNECT

Der Sever antwortet mit einem Response-Datenpaket welcher aus einem Header besteht mit Informationen zur Antwort und den Inhalten
gefolgt von dem Body wo sich die angeforderte Website in Bytes befindet.

Der wichstigste Eintrag im Header ist der sog. "Status Code". Dieser zeigt an ob alles in Ordnung war oder ein Fehler aufgetreten ist.
Die folgenden Statuscodes können vom Server zurück gesendet werden:

x steht für eine beliebige Ziffer.

1xx – Informationen

Die Bearbeitung der Anfrage dauert trotz der Rückmeldung noch an. Eine solche Zwischenantwort ist manchmal notwendig, da viele Clients nach einer bestimmten Zeitspanne (Zeitüberschreitung) automatisch annehmen, dass ein Fehler bei der Übertragung oder Verarbeitung der Anfrage aufgetreten ist, und mit einer Fehlermeldung abbrechen.

2xx – Erfolgreiche Operation
Die Anfrage wurde bearbeitet und die Antwort wird an den Anfragesteller zurückgesendet.

3xx – Umleitung
Um eine erfolgreiche Bearbeitung der Anfrage sicherzustellen, sind weitere Schritte seitens des Clients erforderlich. Das ist zum Beispiel der Fall, wenn eine Webseite vom Betreiber umgestaltet wurde, so dass sich eine gewünschte Datei nun an einem anderen Platz befindet. Mit der Antwort des Servers erfährt der Client im Location-Header, wo sich die Datei jetzt befindet.

4xx – Client-Fehler
Bei der Bearbeitung der Anfrage ist ein Fehler aufgetreten, der im Verantwortungsbereich des Clients liegt. Ein 404 tritt beispielsweise ein, wenn ein Dokument angefragt wurde, das auf dem Server nicht existiert. Ein 403 weist den Client darauf hin, dass es ihm nicht erlaubt ist, das jeweilige Dokument abzurufen. Es kann sich zum Beispiel um ein vertrauliches oder nur per HTTPS zugängliches Dokument handeln.

5xx – Server-Fehler
Es ist ein Fehler aufgetreten, dessen Ursache beim Server liegt. Zum Beispiel bedeutet 501, dass der Server nicht über die erforderlichen Funktionen (das heißt zum Beispiel Programme oder andere Dateien) verfügt, um die Anfrage zu bearbeiten.

Insgesamt sieht eine erfolgreiche http-Anfrage dann so aus

![title](HTTP-Anfrage.png)

## Inhalte von Webseiten, nicht alles ist natürlichsprachlicher Text !

Webseiten enthalten wie man sehen kann nicht nur Texte sondern auch Bilder, Interaktive Elemente wie zum Beispiel eine Navigation oder 
Formulare, Listen und Tabellen sowie auch Animationen wie an der Werbung zu sehen. 
Diese Inhalte sind oft mit bestimmten Tags verbunden:

Allgemeine Tags zur Gruppierung von Inhalten:
div

Tags für gruppierte Textinhalte: 
```
p , pre , hr , main , figure , blockquote
```

Tags für inline-Elemente (innerhalb Textzeilen):
```
abbr, b, bdi, br, cite, code, del, dfn, em, i, ins, kdb, 
mark, q, s, samp, small, span, strong, sub, sup, time, u, var, wbr
```

Tags für Listen: 
```
ul, ol, li
```

Tags für Tabellen:
```
caption, col, colgroup, table, td, th, tr, thead, tbody, tfoot
```

Tags für interaktive Inhalte: 
```
a, details, dialog, menu, mentitem, summary
```

Tags für eingebettete Inhalte:
```
area, audio, canvas, embed, iframe, img, object
```

Tags für den Programm der Seite und technische Inhalte:
```
script, style, link
```

Nun muss man den linguistisch verwertbaren Teil einer Website herausextrahieren.
Inhaltlich relevante Teile sind zum Beispiel der title Tag im head Tag.

Dazu gibt es einige Frameworks um Dokumente unter diesem Aspekt zu verarbeiten:

beautifulsoup -
HTML parsen und Texte aus Seiten extrahieren.

boilerpipe -
Extraktor für Textblöcke aus Webseiten.

readability -
Extraktor für Textblöcke aus Webseiten.

Doch zuerst wird gezeigt wie man überhaupt eine Website in Python laden kann und
diese anzeigbar macht.


In [8]:
import urllib
import urllib.request


url = 'http://ruhr-uni-bochum.de'

req = urllib.request.urlopen(url)

print( req.getcode() )

print( req.info() )
html = req.read()
print(len(html) )
print( html )

200
Date: Tue, 12 Dec 2017 12:25:20 GMT
Server: Apache/2.2.0 (Unix)
Last-Modified: Tue, 12 Dec 2017 12:12:02 GMT
ETag: "aee50-7999-560238efac6e6"
Accept-Ranges: bytes
Content-Length: 31129
Connection: close
Content-Type: text/html


31129
b'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\r\n\r\n\r\n\r\n\n\n\n<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="de" lang="de">\r\n\r\n  <head>\r\n    <meta http-equiv="Content-type"     content="text/html; charset=utf-8" />\r\n    <meta http-equiv="content-language" content="de" />\r\n    <meta name="Description"            content="Ruhr-Universit\xc3\xa4t Bochum, Menschlich - Weltoffen - Leistungsstark" />\r\n    <meta name="author"                 content="Ruhr-Universit\xc3\xa4t Bochum - Hochschulkommunikation" />\r\n\r\n    <title>Ruhr-Universit\xc3\xa4t Bochum | menschlich - weltoffen - leistungsstark</title>\r\n\r\n    <script type="text/javascript" src="https:

In [25]:
type(html)

bytes

In [2]:
html = html.decode('utf-8')
type(html)

str

Eine Möglichkeit inhaltlich bedeutungsvolle Informationen aus dem Seitenquelltext zu bekommen ist das Modul readability

In [4]:
from readability.readability import Document
rdoc = Document(html)
class_filter = Document(html, positive_keywords=["c25l"])
readable_article = rdoc.summary()
readable_title = rdoc.short_title()
print(readable_article)

<html><body><div><div class="field-rub-hp-marginal-text">
    <p>Das Internationalportal bietet Informationen für internationale Studierende und Wissenschaftler/innen, zu Auslandsaufenthalten sowie das internationale Profil der RUB.<br/>
	<a class="link_weiterlesen" href="http://international.rub.de/">Internationalportal</a></p>
  </div>
</div></body></html>


Dieses ist allerdings nicht sehr Funktionsreich und es gibt wesentlich bessere Programme welche die Funktionen enthalten.

Im Buch wird das Paket "boilerpipe" empfohlen welches die uninteressanten Inhalte herausfiltert. 
Doch das konnte nicht installiert werden obwohl einen ganzen Tag lang alles versucht wurde.

In [42]:
from boilerpipe.extract import Extractor
URL='http://radar.oreilly.com/2010/07/louvre-industrial-age-henry-ford.html'
extractor = Extractor(extractor='ArticleExtractor', url=URL)
print( extractor.getText() )

ImportError: No module named 'boilerpipe'

Als nächstes muss die Webseite "geparst" werden um ihre Baumstruktur in eine Python Datenstruktur als Objekt zu speichern.
Dazu eignet sich am besten das Framework "BeautifulSoup" welches die Website in ein Objekt mit vielen Attributen, 
Methoden und sehr nützlichen Funktionen kapselt.

Ein anderes Programm für Http-Requests ist übrigens das Modul "requests" welches vieles einfacher realisiert als urllib

In [68]:
import requests
res = requests.get("http://www.ruhr-uni-bochum.de")
res.encoding = 'utf-8'
uhtml = res.text




In [69]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(uhtml,'lxml')

# Es gibt mehrere Möglichkeiten an die Texte zu kommen 

# Alle Objekte in BeautifulSoup sind Elemente des Html-Baums
print( type(soup) )
print( type(soup.html) )
print( type(soup.head.title.string) )
#es gibt sonst noch Kommentare
print(str(soup.head.title.string))


<class 'bs4.BeautifulSoup'>
<class 'bs4.element.Tag'>
<class 'bs4.element.NavigableString'>
Ruhr-Universität Bochum | menschlich - weltoffen - leistungsstark


In [11]:
# generator für enthaltene Textknoten des Elements
#for rub in soup.findAll(['script','link','style']): rub.decompose()

for string in soup.stripped_strings:
    print(string,end='\n')

Ruhr-Universität Bochum | menschlich - weltoffen - leistungsstark
Shadowbox.init({
        handleOversize: "drag",
        overlayOpacity: 0.75
      });
.meldung-hp {
        margin:0 0 1em 0;
        border-top: 1px solid #7c9c09;
        width:100%;
        overflow:auto;
        padding-top: 0.25em;
      }
      
      .meldung-hp h3 {
        line-height: 1.4;
      }

      .meldung-hp img {
        display:inline-block;
        margin: 0.25em 1.5em 0.5em 0;
        width: 150px;
        border: 1px solid #ccc;
        padding: 5px;
        float: left;
      }
      
      #typischrub p {padding: 0;}
      
      #typischrub a:link, #typischrub a:visited {
        border-top: 2px solid #fff;
        border-bottom: 1px solid #fff;
      }
      
      #typischrub a:hover {
        border-bottom: 1px solid #f3f3f3;
      }
      
      #rub-chancen {display:none; visibility:hidden;}
      
      
      /* Slider 2017 */
      #rub-hp-slider-

In [14]:
wertz = soup.findAll('script')
print(wertz)

[<script src="https://www.ruhr-uni-bochum.de/scripte/jquery.min.js" type="text/javascript"></script>, <script src="https://www.ruhr-uni-bochum.de/scripte/superfish/superfish.js" type="text/javascript"></script>, <script src="https://www.ruhr-uni-bochum.de/scripte/stylewechsel.js" type="text/javascript"></script>, <script src="https://www.ruhr-uni-bochum.de/scripte/druckversion.js" type="text/javascript"></script>, <script src="https://www.ruhr-uni-bochum.de/scripte/jquery.cycle.all.js" type="text/javascript"></script>, <script src="https://www.ruhr-uni-bochum.de/scripte/boxscript/shadowbox.js" type="text/javascript"></script>, <script type="text/javascript">
      Shadowbox.init({
        handleOversize: "drag",
        overlayOpacity: 0.75
      });
    </script>, <script type="text/javascript">
                  $(document).ready(function(){

                    $('#rub-slider_control').show();
                    $('#rub-slider_outer').show();
                  });
      

In [49]:
for rub in soup.findAll(['script','link','style']): rub.decompose()

In [15]:
sstr = soup(string=True)
print ( type(sstr[1]) )
print(sstr[1].parent.name)
test = str(sstr[7])
print(test)
type(test)

<class 'bs4.element.NavigableString'>
html
Ruhr-Universität Bochum | menschlich - weltoffen - leistungsstark


str

In [18]:
for s in soup.findAll(string=True): print(s)

html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"












Ruhr-Universität Bochum | menschlich - weltoffen - leistungsstark






















[if lte IE 7]>
      <link href="https://www.ruhr-uni-bochum.de/css/patch_my_layout-3spaltig.css" rel="stylesheet" type="text/css" />
    <![endif]


















 start: skip link navigation 


Skip to the navigation


.
 
Skip to the content
.


 end: skip link navigation 










 Startseite

              |
              
Übersicht

              |
              
Suche

              |
              
A-Z










Die RUB für 




Schüler/innen 


Studieninteressierte


Studierende


Promovierende


Wissenschaftler/innen


Beschäftigte


Unternehmen


Förderer


Ehemalige


Journalisten/innen


Besucher/innen














›


 


 
 


‹


Nr












Kein Javascript? Kein Problem: 
Inhalte der Themengalerie anzeigen.
























Neujahr


Gute V

In [20]:
tp = filter (lambda x: len(x) > 1 , list(soup.stripped_strings) )
for k in tp: print(k)

Ruhr-Universität Bochum | menschlich - weltoffen - leistungsstark
Skip to the navigation
Skip to the content
Startseite
Übersicht
Suche
A-Z
Die RUB für
Schüler/innen
Studieninteressierte
Studierende
Promovierende
Wissenschaftler/innen
Beschäftigte
Unternehmen
Förderer
Ehemalige
Journalisten/innen
Besucher/innen
Nr
Kein Javascript? Kein Problem:
Inhalte der Themengalerie anzeigen.
Neujahr
Gute Vorsätze mit den richtigen Tricks in die Realität umsetzen
Warum es uns schwerfällt, alte Gewohnheiten abzulegen, und wie wir unsere gesteckten Ziele dennoch erreichen können.
Proteinforschung
Einblick in Details des angeborenen Immunsystems
Bochumer und Essener Forscher identifizieren potenzielle Ziele für neue Wirkstoffe.
Universität
Profil
Leitung und Gremien
Fakultäten
Einrichtungen
Campusentwicklung
Kultur und Freizeit
Fakten
Forschung
Auszeichnungen
Projekte
Forschungsstrukturen
Wissenschaftlicher Nachwuchs
Service für Forschende
Studium
Profil
Studienangebot
Bewerbung und Einschreibung
Bera

In [19]:
htx = soup.get_text()
print(htx)







Ruhr-Universität Bochum | menschlich - weltoffen - leistungsstark




















Skip to the navigation
. Skip to the content.





 Startseite
              |
              Übersicht
              |
              Suche
              |
              A-Z




Die RUB für 

Schüler/innen 
Studieninteressierte
Studierende
Promovierende
Wissenschaftler/innen
Beschäftigte
Unternehmen
Förderer
Ehemalige
Journalisten/innen
Besucher/innen






›
 
  
‹
Nr





Kein Javascript? Kein Problem: Inhalte der Themengalerie anzeigen.











Neujahr
Gute Vorsätze mit den richtigen Tricks in die Realität umsetzen
Warum es uns schwerfällt, alte Gewohnheiten abzulegen, und wie wir unsere gesteckten Ziele dennoch erreichen können.











Proteinforschung
Einblick in Details des angeborenen Immunsystems
Bochumer und Essener Forscher identifizieren potenzielle Ziele für neue Wirkstoffe.

















Universität

Profil 
Leitung und Gremien 
Fakultäten
Einrichtungen
Campusentwickl

In [None]:
htx.replace('\n\n',' ')
print(htx)

In [21]:
import re
satz = re.compile('[a-zA-Z]+ [a-zA-Z]+ [a-zA-Z]+ ?[.!?"]')
for txt in soup.findAll(string=satz): print(txt)

Inhalte der Themengalerie anzeigen.
Bochumer und Essener Forscher identifizieren potenzielle Ziele für neue Wirkstoffe.
Das Internationalportal bietet Informationen für internationale Studierende und Wissenschaftler/innen, zu Auslandsaufenthalten sowie das internationale Profil der RUB.

            Für Forschung und Lehre sind RUB-Mitglieder in der ganzen Welt unterwegs. In einer neuen Serie zeigen wir die 13 schönsten Fotos der Reisen, die es auch als Kalender zu kaufen gibt.


            Wie aus einer christlichen Tradition ein kommerzielles Familienfest wurde.



In [61]:
def count_all(duplicates,ratio=True,rounded=0):
    freq = {}
    #assert( isinstance(duplicates,list))
    
    if(ratio):
    
        d_size = len(duplicates)
        #if d_size == 0: d_size = 1

        for k in duplicates:
            num = freq.setdefault(k,[0,0])
            freq[k][0] = num[0]+1

        if(rounded):

            for k in freq.keys():
                freq[k][1] = str( round(100*freq[k][0]/d_size,rounded) )+' %'
                freq[k] = tuple(freq[k])
        else: 
            
            for k in freq.keys():
                freq[k][1] = str(100*freq[k][0]/d_size)+' %'
                freq[k] = tuple(freq[k])
    
    else:
         for k in duplicates:
            num = freq.setdefault(k,0)
            freq[k] = num+1
    
    return freq

In [54]:
#Tags heraussuchen
tags = count_all( [tag.name for tag in soup(True)] )
print(tags,end='\n\n')

#Attribute heraussuchen
attributes = count_all ( [atr for tag in soup(attrs=True) for atr in tag.attrs.keys()] )
print(attributes,end='\n\n')

#Alle Klassen finden
cl_tag = soup.find_all(attrs={'class': True})
clist = [ tag['class'] for tag in cl_tag ]
classlist = []
for c in clist: classlist.extend(c)
classlist = list( filter(None,classlist) )
classes = count_all(classlist)
print(classes, end='\n\n')

#Alle ids finden
ids = [ idd['id'] for idd in soup(id=True) ] 
print(ids,end='\n\n')

#Alle Hyperlinks
link = set( [ a['href'] for a in soup('a',href=re.compile('https?:') ) ] )
print(link,end='\n\n')

#Alle Bilder
images = [ img['src'] for img in soup('img',src=True)]
print(images,end='\n\n')

{'meta': (4, '1.2195121951219512 %'), 'p': (14, '4.2682926829268295 %'), 'title': (1, '0.3048780487804878 %'), 'a': (98, '29.878048780487806 %'), 'li': (50, '15.24390243902439 %'), 'html': (1, '0.3048780487804878 %'), 'h3': (10, '3.048780487804878 %'), 'br': (7, '2.1341463414634148 %'), 'h2': (2, '0.6097560975609756 %'), 'h1': (1, '0.3048780487804878 %'), 'ul': (9, '2.7439024390243905 %'), 'h6': (4, '1.2195121951219512 %'), 'div': (97, '29.573170731707318 %'), 'img': (17, '5.182926829268292 %'), 'body': (1, '0.3048780487804878 %'), 'noscript': (2, '0.6097560975609756 %'), 'head': (1, '0.3048780487804878 %'), 'strong': (1, '0.3048780487804878 %'), 'span': (8, '2.4390243902439024 %')}

{'target': (3, '1.6853932584269662 %'), 'title': (7, '3.932584269662921 %'), 'href': (12, '6.741573033707865 %'), 'width': (9, '5.056179775280899 %'), 'alt': (9, '5.056179775280899 %'), 'style': (8, '4.49438202247191 %'), 'name': (1, '0.5617977528089888 %'), 'id': (5, '2.808988764044944 %'), 'class': (103,

In [2]:
import webscrape
weblinks = webscrape.breath_search('http://www.ruhr-uni-bochum.de',['www.ruhr-uni-bochum.de'],3)


HOMEPAGE: http://www.ruhr-uni-bochum.de
load: http://www.ruhr-uni-bochum.de/universitaet/
Hyperlinks All: 73  intern/extern: 61/12
load: http://www.ruhr-uni-bochum.de/angebote/journalisten/
Hyperlinks All: 65  intern/extern: 29/36
load: http://www.ruhr-uni-bochum.de/forschung/projekte/index.html
Hyperlinks All: 22  intern/extern: 11/11
load: http://www.ruhr-uni-bochum.de/universitaet/fakultaeten/
Hyperlinks All: 87  intern/extern: 62/25
load: http://www.ruhr-uni-bochum.de/angebote/studieninteressenten/
Hyperlinks All: 63  intern/extern: 31/32
load: http://www.ruhr-uni-bochum.de/universitaet/profil/
Hyperlinks All: 66  intern/extern: 54/12
load: http://www.ruhr-uni-bochum.de/universitaet/leitung-gremien/
Hyperlinks All: 65  intern/extern: 53/12
load: http://www.ruhr-uni-bochum.de/wissenstransfer/forschungstransfer/
Hyperlinks All: 39  intern/extern: 25/14
load: http://www.ruhr-uni-bochum.de/wissenstransfer/
Hyperlinks All: 36  intern/extern: 24/12
load: http://www.ruhr-uni-bochum.de/flu

In [4]:
print([e for e in weblinks.errors if e[1] == 'TIMEOUT'])

[('http://www.ruhr-uni-bochum.de/dsb/', 'TIMEOUT')]


In [3]:
print('Besuchte Seiten insgesamt ' + str(len(weblinks.visited)) )
print('Auf erster Ebene: '+str(len(weblinks.treeIndex[1])) )
print('Auf zweiter Ebene: '+str(len(weblinks.treeIndex[2])) )
print('Auf dritter Ebene: '+str(len(weblinks.treeIndex[3])) )
print('Anzahl fehlerhafter Links: '+ str(len(weblinks.errors)+len(weblinks.bad_url)) )
print('Links welche keine HTML Seiten waren: '+str(len(weblinks.no_html)) )

extLinks = set ( [ ex for vals in weblinks.extern_links.values() for ex in vals ] )
print('Externe Links: '+str(len(extLinks)) )

Besuchte Seiten insgesamt 566
Auf erster Ebene: 50
Auf zweiter Ebene: 186
Auf dritter Ebene: 280
Anzahl fehlerhafter Links: 21
Links welche keine HTML Seiten waren: 28
Externe Links: 1774


In [4]:
# Alle externen Links 
extLinks

{'https://www.area-ruhr.de',
 'http://www.uni-due.de/mathematik/agpozzi/pozzi/pozzi.shtml',
 'http://www.rub.de/alumni/ueber_uns/team_en.html',
 'http://www.sfbtr87.de/',
 'http://www.hgi.rub.de',
 'http://www.kohlhammer.de/wms/instances/KOB/appDE/Paedagogik/Religionspaedagogik/Professionell-Religion-unterrichten/',
 'https://www.ei.rub.de/alumni/wiedersehen/',
 'http://www.rub.de/suche/',
 'https://www.stellenwerk-luebeck.de',
 'http://www.research-school.rub.de/vip.0.html',
 'http://www.ikt.de/english/',
 'http://www.it-services.ruhr-uni-bochum.de/support',
 'http://www.rub.de/studium/profil/kompetenzzentren/schreibzentrum/index_en.html',
 'http://www.aubi-plus.de/suchmaschine/',
 'http://www.autonomes-frauenlesbenreferat-bochum.de/warum/',
 'http://www.uv.ruhr-uni-bochum.de/oepe/',
 'https://www.linguistics.rub.de/kontakt/ansprechpartner.shtml',
 'https://www.solvation.de/about/partnerships/international-faculty/',
 'http://www.uv.ruhr-uni-bochum.de/ifb/programm_2014_2015/LM6.pdf',


In [5]:
# Seiten die nicht gefunden wurden
not_found =  [er for er in [l for l in weblinks.errors if l[1] == 'URLError'] if er[2] == 'Not Found']
for j in not_found: print(j[0])

http://www.ruhr-uni-bochum.de/studium/profil/foerderprogramme/forschendes-lernen/index_en.html
http://www.ruhr-uni-bochum.de/slider-alternative_en.html
http://www.ruhr-uni-bochum.de/jungeuni/infomaterial/mint-hautnah/
http://www.ruhr-uni-bochum.de/studierendensekretariat/virtuelles-sekretariat/online_bewerbung.htm
http://www.ruhr-uni-bochum.de/zsb/studienberatung.htm
http://www.ruhr-uni-bochum.de/universitaet/campus-und-kultur/
http://www.ruhr-uni-bochum.de/universitaet/menschen/
http://www.ruhr-uni-bochum.de/studium/doppelter-abiturjahrgang-2013/index.html
http://www.ruhr-uni-bochum.de/forschung/wissenschaftlicher-nachwuchs/nachwuchsgruppen/index.html
http://www.ruhr-uni-bochum.de/studium/kompetenzzentren/index_en.html
http://www.ruhr-uni-bochum.de/universitaet/menschen/index_en.html
http://www.ruhr-uni-bochum.de/studium/doppelter-abiturjahrgang-2013/index_en.html
http://www.ruhr-uni-bochum.de/koordinationsbuero/bereich1.html
http://www.ruhr-uni-bochum.de/imperia/md/content/pers-rat/a

In [82]:
soup.contents

['html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"',
 <html lang="de" xml:lang="de" xmlns="http://www.w3.org/1999/xhtml">
 <head>
 <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
 <meta content="de" http-equiv="content-language"/>
 <meta content="Ruhr-Universität Bochum, Menschlich - Weltoffen - Leistungsstark" name="Description"/>
 <meta content="Ruhr-Universität Bochum - Hochschulkommunikation" name="author"/>
 <title>Ruhr-Universität Bochum | menschlich - weltoffen - leistungsstark</title>
 
 
 
 
 
 
 
 
 
 
 <!--[if lte IE 7]>
       <link href="https://www.ruhr-uni-bochum.de/css/patch_my_layout-3spaltig.css" rel="stylesheet" type="text/css" />
     <![endif]-->
 
 </head>
 <body>
 <div class="page_margins">
 <div class="page">
 <div id="header">
 <a href="http://www.ruhr-uni-bochum.de"><img alt="Ruhr-Universität Bochum Wortmarke" height="18" id="schriftzug" name="schriftzug" src="https://www.ruhr-u

In [102]:
#finde ein tag welches nur von solchen tags umgeben ist
tname = 'div'
def wrapped(tag):
    if tag and tag.next_elment and tag.previous_element :
        #print(tag.previous_element.name)
        #print(tag.next_element.name)
        if tag.name == tname and tag.previous_element.name == tname and tag.next_element.name == tname:
            return True
        
    return False

found = soup.find(wrapped) 






In [103]:
#Alle paragraph innerhalb eines div können über sog. CSS-Selektoren gefunden werden
sel = soup.select('div p')
print(sel)

# Es folgt ein Teil über CSS-SElektoren

[<p>Kein Javascript? Kein Problem: <a href="slider-alternative.html">Inhalte der Themengalerie anzeigen.</a></p>, <p>Wie DNA im Blut krank macht – und was eine geeignete Therapie wäre.</p>, <p>Wie bilden sich länderübergreifende Institutionen und Identitäten in Ostasien im Vergleich zu anderen Regionen? Nachwuchswissenschaftler gehen dem auf den Grund.</p>, <p>
<a href="http://www.ruhr-uni-bochum.de/worldfactory"><img class="float_left" height="60" src="http://news.rub.de/sites/default/files/styles/rub_hp_-_marginal_thumb/public/rub_hp_worldfactory-logo_klein.jpg?itok=Wkxs-6sH" width="60"/></a>
<a href="http://www.ruhr-uni-bochum.de/worldfactory">Das neue Transfer- und Gründerkonzept der Ruhr-Universität</a>
</p>, <p>
<a href="http://www.ruhr-uni-bochum.de/fluechtlingshilfe/"><img class="float_left" height="60" src="http://news.rub.de/sites/default/files/styles/rub_hp_-_marginal_thumb/public/rub_hp_logo_weltoffene_hochschulen_gegen_fremdenfeindlichkeit-02.jpg?itok=Na5f_DKV" width="60"/