# 04 Lesen wir die Daten auf einer einzelnen Webpage aus

Sehr oft sind die Daten nicht ideal formatiert, zumindest im Hintergrund einer Webpage. Und dann lesen wir mit Hilfe von Scraping-Methoden die Inhalte aus. Dafür brauchen wir ebenfalls requests. Und BeautifulSoup. Ihr könnt euch erinnern, das Werkzeug, mit dem wir HTML-Code in eine ansprechende Form gebracht und dann die Sachen herausgezogen haben, die uns interessieren.

In [24]:
# Die Imports die wir brauchen
from bs4 import BeautifulSoup
import requests
import pandas as pd
import csv

Wir wollen in einem ersten Schritt die Daten von diesem Dienst auslesen: https://www.homegate.ch/mieten/immobilien/plz-9000/trefferliste?loc=geo-zipcode-8000, zuerst nur die Daten einer einzigen Seite.

In [29]:
# Daten abholen
url = 'https://www.homegate.ch/mieten/immobilien/plz-9000/trefferliste?loc=geo-zipcode-8000'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Was wir hier haben sind List Comprehensions, wir können das auch als For Loops lösen. Schauen wir uns das später an. 
prices = [price.text.strip() for price in soup.find_all(class_="HgListingCard_price_sIIoV")]
rooms_livingspace = [info.find('strong').text.strip() for info in soup.find_all(class_="HgListingRoomsLivingSpace_roomsLivingSpace_FiW9E")]
translates = [item.text.strip() for item in soup.find_all(attrs={"translate": "no"})]

# Das hier ist nur eine Sicherheit. Der Code bricht ab, wenn es nicht richtig funktioniert.
assert len(prices) == len(rooms_livingspace) == len(translates)

# Store data in a pandas DataFrame
df = pd.DataFrame({
    'Price': prices,
    'Rooms & Living Space': rooms_livingspace,
    'Translate No Text': translates
})

# Abspreichern
df.to_csv('scraped_data.csv', index=False)
print(f"Data saved to scraped_data.csv")





Data saved to scraped_data.csv


Schauen wir uns eine solche List comprehension an, nehmen wir die erste:

In [30]:
translates = [item.text.strip() for item in soup.find_all(attrs={"translate": "no"})]

In [31]:
translates

['Alfred-Escher-Strasse 64, 8002 Zürich',
 'Scheideggstrasse 65, 8002 Zürich',
 'Weiherweidstrasse 5, 9000 St. Gallen',
 'Letzigraben 114/116, 8047 Zürich',
 'Letzigraben 114/116, 8047 Zürich',
 'Letzigraben 114/116, 8047 Zürich',
 'Flurhofstrasse 151, 9000 Saint-Gall',
 'Käferholzstrasse 32, 8057 Zürich',
 'Ankerstrasse 114, 8004 Zürich',
 'Militärstrasse 118, 8004 Zürich',
 '8008 Zürich',
 'Hagenholzstrasse 59, 8050 Zürich',
 'Höschgasse 29, 8008 Zürich',
 'Spiegelhofstrasse, 8032 Zürich',
 'Winzerstrasse 65, 8049 Zürich',
 'Kleinertstrasse, 8037 Zürich',
 'Haldenstrasse, 8045 Zürich',
 'Baumackerstrasse, 8050 Zürich',
 'Zollstrasse 6, 8005 Zürich',
 'Wildbachstrasse 69, 8008 Zürich']

In [32]:
result = []
for item in soup.find_all(attrs={"translate": "no"}):
    result.append(item.text.strip())

In [33]:
result

['Alfred-Escher-Strasse 64, 8002 Zürich',
 'Scheideggstrasse 65, 8002 Zürich',
 'Weiherweidstrasse 5, 9000 St. Gallen',
 'Letzigraben 114/116, 8047 Zürich',
 'Letzigraben 114/116, 8047 Zürich',
 'Letzigraben 114/116, 8047 Zürich',
 'Flurhofstrasse 151, 9000 Saint-Gall',
 'Käferholzstrasse 32, 8057 Zürich',
 'Ankerstrasse 114, 8004 Zürich',
 'Militärstrasse 118, 8004 Zürich',
 '8008 Zürich',
 'Hagenholzstrasse 59, 8050 Zürich',
 'Höschgasse 29, 8008 Zürich',
 'Spiegelhofstrasse, 8032 Zürich',
 'Winzerstrasse 65, 8049 Zürich',
 'Kleinertstrasse, 8037 Zürich',
 'Haldenstrasse, 8045 Zürich',
 'Baumackerstrasse, 8050 Zürich',
 'Zollstrasse 6, 8005 Zürich',
 'Wildbachstrasse 69, 8008 Zürich']