# 🚀 Abruf einer Webseite und Extraktion von Text aus HTML

<div class="alert alert-block alert-info"> <b> 🔔 Feinlernziel(e) dieses Kapitels</b></br>
Sie erkennen, in welche html-Elementen Text gespeichert ist und skizzieren, welche Informationen bei der reinen Textextraktion verloren gehen. 
Sie können bestimmen, welche Informationen in Metadatenfeldern gespeichert werden.
</div>

## Hinweise zur Ausführung des Notebooks
Dieses Notebook kann auf unterschiedlichen Levels erarbeitet werden (siehe Abschnitt ["Technische Voraussetzungen"](../markdown/introduction_requirements)): 
1. Book-Only Mode
2. Cloud Mode: Dafür auf 🚀 klicken und z.B. in Colab ausführen.
3. Local Mode: Dafür auf Herunterladen ↓ klicken und ".ipynb" wählen. 

## Übersicht

Im Folgenden wird die Webseite der  Senatskanzlei Berlin per HTTP-Aufruf aufgerufen. Aus der HTML-Response wird Plain-text extrahiert.

Dafür werden folgendene Schritte durchgeführt:
1. Zugriff auf eine Webseite über HTTP-Aufruf mithilfe der„requests“-Bibliothek
2. Abruf des HTML-Codes der Webseite aus der HTTP-Antwort.
3. Extrahierung des gesamten sichtbaren Textes von der Webseite aus dem HTML-Code.

<details>
  <summary><b>Informationen zum Ausführen des Notebooks – Zum Ausklappen klicken ⬇️</b></summary>
  
<b>Voraussetzungen zur Ausführung des Jupyter Notebooks:</b>
<ul>
<li> Installieren der Bibliotheken </li>
</ul>
Zum Testen: Ausführen der Zelle "load libraries".</br>
Alle Zellen, die mit 🚀 gekennzeichnet sind, werden nur bei der Ausführung des Noteboos in Colab / JupyterHub bzw. lokal ausgeführt. 
</details>

In [None]:
#  🚀 Install libraries 
! pip install requests beautifulsoup4 

In [None]:
import requests
from bs4 import BeautifulSoup, Tag, Comment

## Abruf einer Website

In [None]:
# Set url to the URL of the senatskanzlei Berlin
url = "https://www.berlin.de/rbmskzl/"

Nun verwenden wir die Methode `get` aus der Bibliothek `requests`, um den HTTP-Aufruf durchzuführen (!Link zum Markdown-Kapitel *Website-Exploration I: Einführung in die Methode des Scraping, Scraping einer Website* oben, wo wir die HTTP-Aufrufe erwähnen) und auf die Webseite über die URL zuzugreifen:

In [None]:
# Perform get request, save HTML in the variable response
response = requests.get(url)

# Check if the get request was successful
if response.status_code == 200:
    print("Die Abfrage des HTML-Codes war erfolgreich")
else:
    print(f"Die Abfrage war nicht erfolgreich! Der Fehlercode ist: {response.status_code}")

Jetzt können wir auf den gesamten HTML-Inhalt mit der Methode `.text` zugreifen.

In [None]:
# Get the HTML text from the reponse
html_text = response.text

# display the first 500 characters of the HTML
html_text[:500]

## Extraktion von Text aus HTML

Um HTML zu analysieren, werden wir die Bibliothek **Beautiful Soup** verwenden.

In [None]:
soup = BeautifulSoup(html_text)

Im Moment werden wir es nur verwenden, um Tags zu durchlaufen und ihren Text zu erhalten. Wir werden bestimmte Tags ignorieren, die Text enthalten, der von Browsern nicht angezeigt wird (z. B. JavaScript-Code im `<script>`-Tag, Metadaten im `<meta>`-Tag und so weiter).

In [None]:
# Only get text that is visible on the website 
# Inlcudes ads, pointers to more info and so on 

def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True

def text_from_html(soup):
    texts = soup.findAll(string=True)
    visible_texts = filter(tag_visible, texts)  
    return [t.strip() for t in visible_texts if len(t) > 1]

In [None]:
text = text_from_html(soup)

In [None]:
print(text)