### Übungsaufgabe: Extrahieren und Speichern von E-Mail-Adressen von einer Webseite

- Ziel der Aufgabe: Diese Übung prüft Ihre Fähigkeit, E-Mail-Adressen aus einer Webseite zu extrahieren und in einer Excel-Datei zu speichern.
Aufgabenstellung:

1. Einrichten der Bibliotheken und Initialisierung:
    - Richten Sie die erforderlichen Bibliotheken ein (requests, BeautifulSoup, xlwt) und stellen Sie sicher, dass Sie eine leere Excel-Datei zum Speichern der Daten erstellt haben.
    - Frage: Welche Rolle spielt die xlwt-Bibliothek in diesem Code?

2. Extrahieren der E-Mail-Adressen:
    - Schreiben Sie eine Funktion email_extractor(url), die alle E-Mail-Adressen von einer gegebenen Webseite (url) extrahiert und diese Adressen in einer Liste speichert.
    - Verwenden Sie die URL https://www.zh.ch/de/bildung/schulen.html, um die E-Mail-Adressen zu extrahieren.
    - Frage: Wie identifiziert der Code, dass es sich bei einem Element um eine E-Mail-Adresse handelt?

3. Speichern der E-Mail-Adressen in einer Excel-Datei:
    - Speichern Sie die extrahierten E-Mail-Adressen in einer Excel-Datei emails.xls. Jede E-Mail-Adresse sollte in einer eigenen Zeile stehen.
    - Frage: Warum ist es hilfreich, die Daten in einer Excel-Datei zu speichern?

4. Zusätzliche Aufgaben für die Prüfung:
    - Lesen Sie den Inhalt der Webseite und geben Sie die ersten 1000 Zeichen des HTML-Dokuments aus, um die Struktur zu überprüfen.
    - Extrahieren Sie die ersten drei E-Mail-Adressen und geben Sie diese im Terminal aus.

In [1]:
# Libraries and settings
import requests
import xlwt
from bs4 import BeautifulSoup

# Create workbook and worksheet
wb = xlwt.Workbook()
ws = wb.add_sheet('Emails')
ws.write(0, 0, 'Emails')

# URL der Seite zum Scrapen
urlString = 'https://www.zh.ch/de/bildung/schulen.html'

# Funktion zum Extrahieren von E-Mail-Adressen
def email_extractor(url):
    email_list = []
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    mailtos = soup.select('a[href^=mailto]')
    
    for i in mailtos:
        href = i['href']
        try:
            _, email = href.split(':')
            email_list.append(email)
        except ValueError:
            continue  # Ignoriere fehlerhafte Mailto-Links
            
    return email_list

# E-Mails extrahieren und speichern
email_list = email_extractor(urlString)
print("Extrahierte E-Mail-Adressen:", email_list[:3])  # Zeigt die ersten 3 E-Mails an

# E-Mails in Excel speichern
for index, email in enumerate(email_list, start=1):
    ws.write(index, 0, email)
wb.save('emails.xls')

# Zeigt die ersten 1000 Zeichen des HTML-Codes an
response = requests.get(urlString)
print("Erste 1000 Zeichen des HTML-Inhalts:", response.content[:1000])


Extrahierte E-Mail-Adressen: ['schule@adliswil.ch', 'praesidiumaesch@nassenmatt.ch', 'schulverwaltung@bruelmatt.ch']
Erste 1000 Zeichen des HTML-Inhalts: b'\n\n\n\n\n\n\n\n\n\n<!doctype html>\n<html lang="de">\n<head>\n    <meta charset="UTF-8"/>\n    <meta http-equiv="X-UA-Compatible" content="IE=edge"/>\n    <title>Schulen | Kanton Z\xc3\xbcrich</title>\n\n    <meta content="Kanton Z\xc3\xbcrich" property="og:site_name"/>\n    <meta content="Schulen" property="og:title"/>\n    <meta content="Der Kanton Z\xc3\xbcrich hat eine starke \xc3\xb6ffentliche Volksschule, ausgezeichnete Mittel- und Berufsfachschulen sowie international anerkannte Hochschulen." property="og:description"/>\n    <meta content="website" property="og:type"/>\n    <meta content="https://www.zh.ch/content/dam/zhweb/bilder-dokumente/footer/social-media-links/kantonzuerich.png.zhweb-transform/open-graph-teaser-image-large/kantonzuerich.1611224633548.png" property="og:image"/>\n    <meta content="https://www.zh.ch/de/b

In [2]:
import pandas as pd

# Wandelt die Liste der E-Mails in ein DataFrame um
df_emails = pd.DataFrame(email_list, columns=['Email'])

# Zeigt die ersten Zeilen des DataFrames an
print("DataFrame mit E-Mail-Adressen:")
print(df_emails.head())

# Optional: Speichern des DataFrames als CSV-Datei
df_emails.to_csv('emails.csv', index=False)

DataFrame mit E-Mail-Adressen:
                              Email
0                schule@adliswil.ch
1     praesidiumaesch@nassenmatt.ch
2      schulverwaltung@bruelmatt.ch
3  schulverwaltung@schule-aeugst.ch
4            schulverwaltung@osa.ch


THE END