# Datengetriebene Analyse zur Optimierung von Airbnb-Investitionen in Zürich für "InvestZurich AG"

**Kontext:**
Dieser Report wurden im Rahmen des MSc in Wirtschaftsinformatik (BFH-OST-HSLU-FFHS) im Zuge des BINA-Moduls (Business Intelligence & Business Analytics) im Frühlingssemester 2025 erstellt. Die Fallstudie wurde als Gruppenarbeit erarbeitet und stellt einen Teil des Modul-Kompetenznachweises dar.

**Autoren:**
- Bielmann Tobias (BFH)
- Hösli Marc (BFH)
- Künzli Joel (BFH)
- Mühlemann Robin (BFH)
- Sinzig Basil (BFH)

**Datum:**
2. Juni 2025

## Einleitung

Die vorliegende Fallstudie untersucht den Airbnb-Markt der Stadt Zürich, zur Optimierung von Investitionsstrategien, für unsere hypothetische Investorenfirma "InvestZurich AG". In einem zunehmend wettbewerbsintensiven Umfeld für Kurzzeitvermietungen ist es für Investoren entscheidend, datengestützte Entscheidungen zu treffen, um die Rentabilität zu maximieren und Risiken zu minimieren.
Dieses Projekt zielt darauf ab, die Prinzipien des DDDM und die im Modul BINA erlernten Analysemethoden (inkl. Descriptive Statistics, Regression, Classification, Clustering, Time Series Analysis und Datenvisualisierung) anzuwenden, um InvestZurich AG bei der Beantwortung zentraler Fragen in Bezug auf Marktpotenzial, Preisgestaltung, Wettbewerbsanalyse, Rentabilität und Risikomanagement in Zürich zu unterstützen.

Die Vorgehensweise folgt dem von CPA Canada entwickelten Framework "From Data to Decisions", das datenbasierte Entscheidungsprozesse in fünf aufeinander aufbauenden Schritten strukturiert. In dieser Arbeit werden die Schritte 1 bis 4 adressiert:
1. Defining objectives and information needs
2. Collecting Data
3. Analyzing Data
4. Presenting Information

Zu Beginn werden die strategischen Ziele der InvestZurich AG sowie die daraus abgeleiteten Informationsbedürfnisse definiert. Dabei geht es darum, die relevanten Fragestellungen zu identifizieren, die für Investitionsentscheidungen von zentraler Bedeutung sind, beispielsweise zur Standortattraktivität, zur Preisgestaltung oder zur erwarteten Auslastung. Nur wenn die Informationsbedarfe klar formuliert sind, kann die Analyse zielgerichtet erfolgen.

Anschliessend liegt der Fokus auf die Erhebung, Auswahl und Aufbereitung geeigneter Datenquellen. Dazu zählen strukturierte Airbnb-Daten ebenso wie ergänzende Informationen zu Wohungspreisen in der Stadt Zürich. Die Daten werden bereinigt und so vorbereitet, dass eine valide und aussagekräftige Analyse möglich ist.

Im dritten Schritt erfolgt die Auswertung mithilfe den im Modul BINA erlernten Analysemethoden. Ziel ist es, aus den Daten konkrete Muster, Zusammenhänge und Trends abzuleiten, die für die InvestZurich AG wirtschaftlich relevante Erkenntnisse liefern.

Abschliessend werden die Analyseergebnisse zielgruppengerecht aufbereitet. Dabei stehen visuelle Elemente im Fokus, um zentrale Erkenntnisse klar und verständlich zu vermitteln. Auf dieser Grundlage werden konkrete, umsetzbare Handlungsmpfehlungen für die InvestZurich AG formuliert, die sie bei ihrer Entscheidungsfindung unterstützen sollen.

---

# Step 1: Defining Objectives and Information Needs

Der erste Schritt des CPA-Frameworks "From Data to Decisions" besteht in der klaren Definition der strategischen Zielsetzungen sowie der daraus abgeleiteten Informationsbedarfe. Dieser Schritt bildet die Grundlage für alle folgenden Phasen der datengestützten Entscheidungsfindung. Eine präzise Formulierung der geschäftlichen Ziele sowie der damit verbundenen Informationsanforderungen ist entscheidend, um die Analyse strukturiert und zielgerichtet ausrichten zu können.

Im Rahmen dieser Fallstudie steht die Optimierung von Investitionen im Airbnb-Markt der Stadt Zürich im Fokus. Für die fiktive Investorenfirma InvestZurich AG sollen auf Basis datengetriebener Analysen Entscheidungsgrundlagen erarbeitet werden, um Investitionsrisiken zu minimieren, Chancen systematisch zu identifizieren und die operative Performance der Vermietungsobjekte zu steigern. Die strategischen Ziele lassen sich in vier zentrale Themenfelder unterteilen.

## Objective 1 – Marktpotenzial und Standortanalyse
**Strategisches Ziel:** Identifikation besonders attraktiver Standorte für Airbnb-Investitionen in der Stadt Zürich.

**Informationsbedarfe:**
- Analyse der Nachfrage nach Kurzzeitvermietungen in den einzelnen Stadtquartieren.
- Identifikation unterversorgter Wohnungstypen hinsichtlich Grösse oder Zimmeranzahl.
- Vergleich von Auslastung und erzielbaren Preisen zwischen verschiedenen Quartieren.
- Untersuchung relevanter sozioökonomischer und infrastruktureller Standortfaktoren.

Ziel dieser Analysen ist es, fundierte Grundlagen für Standortentscheidungen zu schaffen und Quartiere mit überdurchschnittlichem Renditepotenzial zu priorisieren.

## Objective 2 – Preisstrategie und Ertragsprognose
**Strategisches Ziel:** Entwicklung evidenzbasierter Preisstrategien sowie realistischer Prognosen zu erzielbaren Einnahmen aus Airbnb-Vermietungen.

**Informationsbedarfe:**
- Ermittlung der wichtigsten Einflussfaktoren auf die Preisgestaltung im Zürcher Airbnb-Markt.
- Analyse marktüblicher Preisspannen für verschiedene Objektarten und Standorte.
- Identifikation saisonaler Schwankungen in Buchungszahlen und Preisniveaus.
- Bewertung des Zusammenhangs zwischen Preis, Ausstattung, Aufenthaltsdauer und Auslastung.

Diese Erkenntnisse unterstützen die wirtschaftliche Bewertung potenzieller Investitionsobjekte und ermöglichen die Feinjustierung der Preisgestaltung für maximale Auslastung und Ertrag.

## Objective 3 – Performance Optimierung und Benchmarking
**Strategisches Ziel:** Ableitung von Handlungsempfehlungen zur Verbesserung der operativen Performance basierend auf erfolgreichen Marktteilnehmern.

**Informationsbedarfe:**
- Analyse von Unterschieden zwischen besonders erfolgreichen Hosts (z.B. Superhosts) und durchschnittlichen Anbietern.
- Identifikation von Merkmalen und Services, die die Gästezufriedenheit und Buchungsraten erhöhen.
- Untersuchung der Bedeutung von Bewertungen, Reaktionsgeschwindigkeit und Mindestaufenthaltsdauer für die Performance.
- Definition konkreter Massnahmen zur Erlangung und Aufrechterhaltung des Superhost-Status.

Diese Informationen bilden die Basis für gezielte operative Verbesserungen und die Entwicklung eines professionellen, standardisierten Vermietungsansatzes.

## Objective 4 – Listing-Optimierung durch Textanalyse
**Strategisches Ziel:** Untersuchung des Einflusses der Beschreibungstexte auf das Buchungsverhalten und die Bewertung durch Gäste.

**Informationsbedarf:**
- Analyse sprachlicher Merkmale (Tonfall, Länge, Stilistik) in Listing-Beschreibungen.
- Untersuchung semantischer Inhalte in Bezug auf Vertrauen, Exklusivität, Komfort etc.
- Vergleich von Textmerkmalen zwischen hochfrequentierten und wenig gebuchten Objekten.
- Ermittlung potenzieller Optimierungsansätze zur Verbesserung der Listings.

Die Textanalyse soll Aufschluss darüber geben, ob bestimmte Formulierungen, Strukturen oder Emotionen in Beschreibungen einen messbaren Einfluss auf Buchungszahlen und Bewertungen haben. Ziel ist es, Empfehlungen für eine wirkungsvolle Kommunikation im digitalen Raum abzuleiten.

---

# Step 2: Collecting Data

Die für diese Analyse verwendeten Datensätze wurden ursprünglich von [Inside Airbnb](http://insideairbnb.com/get-the-data/#Zurich) (Datenstand ca. 23. März 2025) und [Stadt Zürich Open Data](https://data.stadt-zuerich.ch/dataset/bau_hae_preis_stockwerkeigentum_zimmerzahl_stadtquartier_od5155) (Datenstand ca. 20. Januar 2025) bezogen.

Diese Rohdaten wurden bereits in eine Supabase-Datenbank geladen und dort in den Tabellen `cleaned_listings` und `cleaned_selling_prices` zentral bereinigt und aufbereitet. Die Spaltennamen und Datentypen in diesen Supabase-Tabellen entsprechen den Definitionen der Dataclasses in `bina_models.py`.

**In Supabase durchgeführte Aufbereitungsschritte umfassen:**
* **Schema-Validierung und -Anpassung:** Sicherstellung, dass die Datenstruktur den `Listing`- und `SellingPrices`-Modellen entspricht
* **Behandlung von Duplikaten.**
* **Standardisierung von Formaten** `Datum`, `Boolean
* **Parsing komplexer Felder** (Preis-Strings zu numerischen Werten, initiale Textverarbeitung). Für `amenities` wurde sichergestellt, dass es als Liste von Strings geladen wird. `bathrooms` wurde als numerischer Wert `float` etabliert
* **Umgang mit fehlenden Werten (initial)**
* **Typkonvertierungen** gemäss `bina_models.py`

Für diese Analyse greifen wir über den benutzerdefinierten Python-Service `AirbnbAnalysisService` auf diese bereits in Supabase aufbereiteten Tabellen zu. In diesem Abschnitt wird genauer auf die oben genannten Schritte eingegangen.


## Datenquellen und -beschaffung via Supabase für `Listings`

### 1. Fehlende Werte identifizieren und einordnen / Zählen der fehlenden Werte pro Spalte für `listings`
Um eine fundierte Grundlage für den weiteren Analyseprozess zu schaffen, ist es essenziell, zunächst das Ausmass fehlender Werte im Datensatz zu quantifizieren. Die Identifikation von Spalten mit fehlenden Werten ermöglicht es, potenzielle Datenqualitätsprobleme frühzeitig zu erkennen und geeignete Massnahmen zur Datenbereinigung abzuleiten.
Ziel ist es zu verstehen, wo welche Spalten fehlende Werte `NULLs` enthalten und was das für die spätere Analyse bedeutet.

**SQL Query:**
```sql
SELECT 
  COUNT(*) AS total_rows,
  SUM(CASE WHEN id IS NULL THEN 1 ELSE 0 END) AS null_id,
  SUM(CASE WHEN listing_url IS NULL THEN 1 ELSE 0 END) AS null_listing_url,
  SUM(CASE WHEN scrape_id IS NULL THEN 1 ELSE 0 END) AS null_scrape_id,
  SUM(CASE WHEN last_scraped IS NULL THEN 1 ELSE 0 END) AS null_last_scraped,
  SUM(CASE WHEN source IS NULL THEN 1 ELSE 0 END) AS null_source,
  SUM(CASE WHEN name IS NULL THEN 1 ELSE 0 END) AS null_name,
  SUM(CASE WHEN description IS NULL THEN 1 ELSE 0 END) AS null_description,
  SUM(CASE WHEN neighborhood_overview IS NULL THEN 1 ELSE 0 END) AS null_neighborhood_overview,
  SUM(CASE WHEN picture_url IS NULL THEN 1 ELSE 0 END) AS null_picture_url,
  SUM(CASE WHEN host_id IS NULL THEN 1 ELSE 0 END) AS null_host_id,
  SUM(CASE WHEN host_url IS NULL THEN 1 ELSE 0 END) AS null_host_url,
  SUM(CASE WHEN host_name IS NULL THEN 1 ELSE 0 END) AS null_host_name,
  SUM(CASE WHEN host_since IS NULL THEN 1 ELSE 0 END) AS null_host_since,
  SUM(CASE WHEN host_location IS NULL THEN 1 ELSE 0 END) AS null_host_location,
  SUM(CASE WHEN host_about IS NULL THEN 1 ELSE 0 END) AS null_host_about,
  SUM(CASE WHEN host_response_time IS NULL THEN 1 ELSE 0 END) AS null_host_response_time,
  SUM(CASE WHEN host_response_rate IS NULL THEN 1 ELSE 0 END) AS null_host_response_rate,
  SUM(CASE WHEN host_acceptance_rate IS NULL THEN 1 ELSE 0 END) AS null_host_acceptance_rate,
  SUM(CASE WHEN host_is_superhost IS NULL THEN 1 ELSE 0 END) AS null_host_is_superhost,
  SUM(CASE WHEN host_thumbnail_url IS NULL THEN 1 ELSE 0 END) AS null_host_thumbnail_url,
  SUM(CASE WHEN host_picture_url IS NULL THEN 1 ELSE 0 END) AS null_host_picture_url,
  SUM(CASE WHEN host_neighbourhood IS NULL THEN 1 ELSE 0 END) AS null_host_neighbourhood,
  SUM(CASE WHEN host_listings_count IS NULL THEN 1 ELSE 0 END) AS null_host_listings_count,
  SUM(CASE WHEN host_total_listings_count IS NULL THEN 1 ELSE 0 END) AS null_host_total_listings_count,
  SUM(CASE WHEN host_verifications IS NULL THEN 1 ELSE 0 END) AS null_host_verifications,
  SUM(CASE WHEN host_has_profile_pic IS NULL THEN 1 ELSE 0 END) AS null_host_has_profile_pic,
  SUM(CASE WHEN host_identity_verified IS NULL THEN 1 ELSE 0 END) AS null_host_identity_verified,
  SUM(CASE WHEN neighbourhood IS NULL THEN 1 ELSE 0 END) AS null_neighbourhood,
  SUM(CASE WHEN neighbourhood_cleansed IS NULL THEN 1 ELSE 0 END) AS null_neighbourhood_cleansed,
  SUM(CASE WHEN neighbourhood_group_cleansed IS NULL THEN 1 ELSE 0 END) AS null_neighbourhood_group_cleansed,
  SUM(CASE WHEN latitude IS NULL THEN 1 ELSE 0 END) AS null_latitude,
  SUM(CASE WHEN longitude IS NULL THEN 1 ELSE 0 END) AS null_longitude,
  SUM(CASE WHEN property_type IS NULL THEN 1 ELSE 0 END) AS null_property_type,
  SUM(CASE WHEN room_type IS NULL THEN 1 ELSE 0 END) AS null_room_type,
  SUM(CASE WHEN accommodates IS NULL THEN 1 ELSE 0 END) AS null_accommodates,
  SUM(CASE WHEN bathrooms IS NULL THEN 1 ELSE 0 END) AS null_bathrooms,
  SUM(CASE WHEN bathrooms_text IS NULL THEN 1 ELSE 0 END) AS null_bathrooms_text,
  SUM(CASE WHEN bedrooms IS NULL THEN 1 ELSE 0 END) AS null_bedrooms,
  SUM(CASE WHEN beds IS NULL THEN 1 ELSE 0 END) AS null_beds,
  SUM(CASE WHEN amenities IS NULL THEN 1 ELSE 0 END) AS null_amenities,
  SUM(CASE WHEN price IS NULL THEN 1 ELSE 0 END) AS null_price,
  SUM(CASE WHEN minimum_nights IS NULL THEN 1 ELSE 0 END) AS null_minimum_nights,
  SUM(CASE WHEN maximum_nights IS NULL THEN 1 ELSE 0 END) AS null_maximum_nights,
  SUM(CASE WHEN minimum_minimum_nights IS NULL THEN 1 ELSE 0 END) AS null_minimum_minimum_nights,
  SUM(CASE WHEN maximum_minimum_nights IS NULL THEN 1 ELSE 0 END) AS null_maximum_minimum_nights,
  SUM(CASE WHEN minimum_maximum_nights IS NULL THEN 1 ELSE 0 END) AS null_minimum_maximum_nights,
  SUM(CASE WHEN maximum_maximum_nights IS NULL THEN 1 ELSE 0 END) AS null_maximum_maximum_nights,
  SUM(CASE WHEN minimum_nights_avg_ntm IS NULL THEN 1 ELSE 0 END) AS null_minimum_nights_avg_ntm,
  SUM(CASE WHEN maximum_nights_avg_ntm IS NULL THEN 1 ELSE 0 END) AS null_maximum_nights_avg_ntm,
  SUM(CASE WHEN calendar_updated IS NULL THEN 1 ELSE 0 END) AS null_calendar_updated,
  SUM(CASE WHEN has_availability IS NULL THEN 1 ELSE 0 END) AS null_has_availability,
  SUM(CASE WHEN availability_30 IS NULL THEN 1 ELSE 0 END) AS null_availability_30,
  SUM(CASE WHEN availability_60 IS NULL THEN 1 ELSE 0 END) AS null_availability_60,
  SUM(CASE WHEN availability_90 IS NULL THEN 1 ELSE 0 END) AS null_availability_90,
  SUM(CASE WHEN availability_365 IS NULL THEN 1 ELSE 0 END) AS null_availability_365,
  SUM(CASE WHEN calendar_last_scraped IS NULL THEN 1 ELSE 0 END) AS null_calendar_last_scraped,
  SUM(CASE WHEN number_of_reviews IS NULL THEN 1 ELSE 0 END) AS null_number_of_reviews,
  SUM(CASE WHEN number_of_reviews_ltm IS NULL THEN 1 ELSE 0 END) AS null_number_of_reviews_ltm,
  SUM(CASE WHEN number_of_reviews_l30d IS NULL THEN 1 ELSE 0 END) AS null_number_of_reviews_l30d,
  SUM(CASE WHEN first_review IS NULL THEN 1 ELSE 0 END) AS null_first_review,
  SUM(CASE WHEN last_review IS NULL THEN 1 ELSE 0 END) AS null_last_review,
  SUM(CASE WHEN review_scores_rating IS NULL THEN 1 ELSE 0 END) AS null_review_scores_rating,
  SUM(CASE WHEN review_scores_accuracy IS NULL THEN 1 ELSE 0 END) AS null_review_scores_accuracy,
  SUM(CASE WHEN review_scores_cleanliness IS NULL THEN 1 ELSE 0 END) AS null_review_scores_cleanliness,
  SUM(CASE WHEN review_scores_checkin IS NULL THEN 1 ELSE 0 END) AS null_review_scores_checkin,
  SUM(CASE WHEN review_scores_communication IS NULL THEN 1 ELSE 0 END) AS null_review_scores_communication,
  SUM(CASE WHEN review_scores_location IS NULL THEN 1 ELSE 0 END) AS null_review_scores_location,
  SUM(CASE WHEN review_scores_value IS NULL THEN 1 ELSE 0 END) AS null_review_scores_value,
  SUM(CASE WHEN license IS NULL THEN 1 ELSE 0 END) AS null_license,
  SUM(CASE WHEN instant_bookable IS NULL THEN 1 ELSE 0 END) AS null_instant_bookable,
  SUM(CASE WHEN calculated_host_listings_count IS NULL THEN 1 ELSE 0 END) AS null_calculated_host_listings_count,
  SUM(CASE WHEN calculated_host_listings_count_entire_homes IS NULL THEN 1 ELSE 0 END) AS null_calculated_host_listings_count_entire_homes,
  SUM(CASE WHEN calculated_host_listings_count_private_rooms IS NULL THEN 1 ELSE 0 END) AS null_calculated_host_listings_count_private_rooms,
  SUM(CASE WHEN calculated_host_listings_count_shared_rooms IS NULL THEN 1 ELSE 0 END) AS null_calculated_host_listings_count_shared_rooms,
  SUM(CASE WHEN reviews_per_month IS NULL THEN 1 ELSE 0 END) AS null_reviews_per_month
FROM listings;
```
Die Berechnung der Anzahl sowie des prozentualen Anteils fehlender Werte pro Spalte bietet eine klare Übersicht darüber, welche Merkmale besonders betroffen sind. 
Auf dieser Basis können fundierte Entscheidungen hinsichtlich Imputation, Löschung oder anderer Strategien zur Behandlung fehlender Daten getroffen werden.

### 2. Kategorisierung der Spalten nach Analyse-Relevanz für `listings`
Ein zentraler Schritt bei der Behandlung fehlender Werte besteht darin, die betroffenen Spalten hinsichtlich ihrer Bedeutung für die Analyse zu kategorisieren.
Diese Einordnung ermöglicht eine systematische Ableitung geeigneter Massnahmen im Umgang mit fehlenden Daten.
Im Folgenden wird eine beispielhafte Kategorisierung vorgenommen:

| Kategorie                                               | Beispielhafte Spalten                                                           | Empfohlener Umgang mit fehlenden Werten               |
| ------------------------------------------------------- | -------------------------------------------------------------------------------- | ----------------------------------------------------- |
| 🟥 **Kritisch (essenzielle Kerninformationen)**          | `id`, `price`, `latitude`, `longitude`, `room_type`, `accommodates`             | Zeilen mit fehlenden Werten sollten entfernt werden.  |
| 🟧 **Relevant für Analysen (wünschenswert vollständig)** | `beds`, `bedrooms`, `review_scores_*`, `availability_365`, `reviews_per_month`  | Fehlende Werte sollten durch Imputation oder Flags behandelt werden. |
| 🟨 **Optional / rein informativ / technische Informationen**                        | `host_about`, `description`, `host_thumbnail_url`                               | Fehlende Werte können in der Regel ignoriert werden.  |

Die Zuordnung erfolgt kontextabhängig, basierend auf der Zielsetzung der Analyse. 
Kritische Spalten sind für grundlegende Berechnungen unerlässlich und dürfen keine Lücken enthalten, während bei optionalen oder technischen Feldern eine höhere Toleranz gegenüber fehlenden Werten besteht.

### 3. Zentrale Leitfragen zur Bewertung fehlender Werte für `listings`
Bei der Bewertung fehlender Werte sollten bestimmte Leitfragen berücksichtigt werden, um fundierte Entscheidungen über den weiteren Umgang mit den Daten treffen zu können. Diese Fragen helfen, zwischen tolerierbaren und problematischen Ausprägungen zu unterscheiden:

- **Wie viele Einträge sind betroffen?**
  Ein hoher Anteil fehlender Werte (z. B. mehr als 30 %) kann die Aussagekraft einer Spalte erheblich beeinträchtigen und sollte als kritisch bewertet werden.
- **Wird die Spalte später für Berechnungen oder Modellierung verwendet?**
  Fehlt ein Wert in einem für mathematische Operationen relevanten Feld, kann dies zu Verzerrungen oder Fehlern führen.
- **Kann der fehlende Wert sinnvoll ersetzt werden?**
  In manchen Fällen ist eine Imputation möglich, z. B. durch Verwendung des Mittelwerts, Medians oder eines Platzhalterwertes wie "unknown".
- **Trägt das Fehlen des Wertes eine eigene Information?**
  Ein `NULL`-Wert kann unter Umständen auch eine inhaltliche Bedeutung haben, z. B. dass ein Gast keine Bewertung abgegeben hat. In solchen Fällen kann es sinnvoll sein, den fehlenden Wert explizit als "nicht vorhanden" zu interpretieren.

Diese Überlegungen unterstützen eine datengetriebene und analytisch begründete Entscheidungsfindung im Umgang mit fehlenden Werten.

### 4. Kategorisierung aller Spalten nach Relevanz für `listings`
Zur systematischen Behandlung fehlender Werte und zur Priorisierung von Datenbereinigungsschritten wurden alle Spalten des Datensatzes in drei Kategorien eingeteilt. Die Einordnung basiert auf ihrer analytischen Relevanz, insbesondere im Hinblick auf Zielgrössen wie die Berechnung der Rentabilität (ROI), räumliche Analysen (z. B. Heatmaps) sowie die Bewertung von Angebotsqualität und Nutzerverhalten.

| Kategorie                             | Spaltennamen                                                                                                          | Begründung |
|--------------------------------------|-----------------------------------------------------------------------------------------------------------------------|------------|
| 🟥 **High Impact (essentiell)**       | `id`, `latitude`, `longitude`, `price`, `room_type`, `accommodates`, `neighbourhood_cleansed`, `availability_365`, `number_of_reviews`, `reviews_per_month`, `review_scores_rating` | Diese Spalten sind zentral für Kernanalysen wie ROI-Berechnung, geografische Visualisierungen (z. B. Heatmaps) und zur Beurteilung der Angebotsqualität. Fehlende Werte führen zu erheblichen Einschränkungen der Aussagekraft. |
| 🟧 **Medium Impact (nützlich, aber nicht kritisch)** | `bathrooms`, `bedrooms`, `beds`, `host_id`, `host_listings_count`, `host_total_listings_count`, `property_type`, `review_scores_*`, `first_review`, `last_review`, `instant_bookable`, `calculated_host_listings_count_*`, `number_of_reviews_ltm`, `number_of_reviews_l30d`, `has_availability`, `minimum_nights`, `maximum_nights`, `amenities` | Diese Merkmale ergänzen die Analysen sinnvoll und tragen zur Erklärung von Erfolgsfaktoren bei (z. B. welche Eigenschaften machen ein Listing attraktiv oder profitabel). Fehlende Werte sind tolerierbar, sollten aber möglichst behandelt werden. |
| 🟨 **Low Impact (optional oder informativ)** | `listing_url`, `scrape_id`, `last_scraped`, `source`, `name`, `description`, `neighborhood_overview`, `picture_url`, `host_url`, `host_name`, `host_since`, `host_location`, `host_about`, `host_response_time`, `host_response_rate`, `host_acceptance_rate`, `host_is_superhost`, `host_thumbnail_url`, `host_picture_url`, `host_neighbourhood`, `host_verifications`, `host_has_profile_pic`, `host_identity_verified`, `neighbourhood`, `neighbourhood_group_cleansed`, `bathrooms_text`, `calendar_updated`, `calendar_last_scraped`, `license`, `minimum_minimum_nights`, `maximum_minimum_nights`, `minimum_maximum_nights`, `maximum_maximum_nights`, `minimum_nights_avg_ntm`, `maximum_nights_avg_ntm` | Diese Spalten enthalten vorwiegend Metadaten, beschreibende Texte, Bilder oder technische Informationen. Sie sind für Business-Intelligence-Analysen oder geografische Auswertungen nur bedingt relevant, können aber im Rahmen von UI-Design, Vollständigkeitsprüfungen oder NLP-Analysen von Interesse sein. |

Die vorliegende Klassifizierung stellt eine arbeitsorientierte Grundlage für alle weiteren Entscheidungen zur Datenvorverarbeitung dar.

### 5. Bereinigung kritischer Felder und Markierung unvollständiger Einträge (Flagging) für `listings`
Im Rahmen der Datenbereinigung wurde eine zweistufige Strategie verfolgt, um mit fehlenden Werten umzugehen. Zunächst wurden alle Datensätze entfernt, die in den als *High Impact* klassifizierten Spalten fehlende Werte aufwiesen. Diese Spalten sind für zentrale Analysen wie Rentabilitätsberechnungen, geografische Auswertungen und die allgemeine Bewertung der Angebotsqualität unerlässlich. Fehlende Werte in diesen Feldern würden die Aussagekraft der Analysen massiv beeinträchtigen.

Im Gegensatz dazu wurde bei den als *Medium Impact* eingestuften Spalten auf das Löschen von Zeilen verzichtet. Stattdessen wurde ein **Flagging-Mechanismus** eingeführt: Für jede Zeile wurde ein boolesches Flag (`missing_data_flag`) gesetzt, das anzeigt, ob in mindestens einem dieser mittleren Felder ein Wert fehlt. Dieses Vorgehen ermöglicht es, die Informationen zu fehlenden Werten zu einem späteren Zeitpunkt gezielt wiederzuverwenden – etwa zur Modellbewertung, Filterung oder bei der Entwicklung von Imputationsstrategien.

Die folgende SQL-Abfrage implementiert beide Schritte:
```sql
CREATE TABLE cleaned_listings AS
SELECT *,
  -- Setze Flag für Medium Impact Spalten mit fehlenden Werten
  CASE
    WHEN
      bathrooms IS NULL OR
      bedrooms IS NULL OR
      beds IS NULL OR
      host_id IS NULL OR
      host_listings_count IS NULL OR
      host_total_listings_count IS NULL OR
      property_type IS NULL OR
      review_scores_accuracy IS NULL OR
      review_scores_cleanliness IS NULL OR
      review_scores_checkin IS NULL OR
      review_scores_communication IS NULL OR
      review_scores_location IS NULL OR
      review_scores_value IS NULL OR
      first_review IS NULL OR
      last_review IS NULL OR
      instant_bookable IS NULL OR
      calculated_host_listings_count IS NULL OR
      calculated_host_listings_count_entire_homes IS NULL OR
      calculated_host_listings_count_private_rooms IS NULL OR
      calculated_host_listings_count_shared_rooms IS NULL OR
      number_of_reviews_ltm IS NULL OR
      number_of_reviews_l30d IS NULL OR
      has_availability IS NULL OR
      minimum_nights IS NULL OR
      maximum_nights IS NULL OR
      amenities IS NULL
    THEN TRUE
    ELSE FALSE
  END AS missing_data_flag

FROM listings
-- High Impact: Zeilen löschen, wenn diese Spalten NULL sind
WHERE 
  id IS NOT NULL AND
  latitude IS NOT NULL AND
  longitude IS NOT NULL AND
  price IS NOT NULL AND
  room_type IS NOT NULL AND
  accommodates IS NOT NULL AND
  neighbourhood_cleansed IS NOT NULL AND
  availability_365 IS NOT NULL AND
  number_of_reviews IS NOT NULL AND
  reviews_per_month IS NOT NULL AND
  review_scores_rating IS NOT NULL;
```
Mit dieser Vorgehensweise ist sichergestellt, dass alle für die Kernanalysen relevanten Spalten vollständig vorliegen, während gleichzeitig potenziell informative Lücken in weniger zentralen Spalten nicht verloren gehen, sondern gezielt gekennzeichnet werden.

### 6. Auswertung des `missing_data_flag` udn Analyse der unvollständigen Datensätze für `listings`
Nach der Bereinigung der *High Impact*-Spalten wurde ein Flag (`missing_data_flag`) eingeführt, das anzeigt, ob ein Datensatz in einer oder mehreren *Medium Impact*-Spalten fehlende Werte enthält. Um den Umfang des verbleibenden Datenqualitätsproblems besser einschätzen zu können, wurde eine erste Auswertung dieses Flags vorgenommen.

**Die Auswertung beantwortet unter anderem folgende Fragen:**
- Wie viele Datensätze enthalten noch fehlende Werte in *Medium Impact*-Feldern?
- Wie gross ist ihr Anteil am Gesamtbestand?
- Welche strategischen Optionen ergeben sich daraus (z. B. Imputation, gezielter Ausschluss)?

**In SQL:**
```sql
-- Zähle, wie viele Zeilen fehlende Werte in Medium Impact Feldern haben
SELECT 
  COUNT(*) AS total_rows,
  SUM(CASE WHEN missing_data_flag = TRUE THEN 1 ELSE 0 END) AS rows_with_missing,
  ROUND(100.0 * SUM(CASE WHEN missing_data_flag = TRUE THEN 1 ELSE 0 END) / COUNT(*), 2) AS percent_with_missing
FROM cleaned_listings;
```
Diese Kennzahlen bieten eine Grundlage für datenbasierte Entscheidungen im weiteren Verlauf der Analyse. Beispielsweise kann entschieden werden, ob die betroffenen Zeilen durch geeignete Verfahren ergänzt (Imputation) oder selektiv ausgeschlossen werden sollen.

### 7. Finalisierung und Typisierung der Tabelle `cleaned_listings`
Nach der ersten Bereinigung des Datensatzes und dem Setzen eines Flags für unvollständige *Medium Impact*-Spalten wurde die Tabelle `cleaned_listings` final strukturiert. Ziel war es, eine konsolidierte und konsistente Datenbasis zu schaffen, mit der im weiteren Analyseprozess effizient und ohne zusätzliche Nachbearbeitung gearbeitet werden kann.

**Vorgehen:**
1. Zunächst wurde eine Sicherungskopie der bereinigten Tabelle erstellt.
2. Anschliessend wurde die ursprüngliche Version entfernt.
3. Eine neue, typisierte Tabelle `cleaned_listings` wurde auf Basis des bisherigen Inhalts erstellt.

Besonderes Augenmerk lag dabei auf der **Daten-Typisierung**, um typische Inkonsistenzen – wie zum Beispiel Prozentangaben im Textformat ("95%") – direkt im SQL-Prozess zu bereinigen. Dadurch konnte eine nachgelagerte Datenreinigung in Python vermieden werden.

Zudem wurden gezielte **inhaltliche Korrekturen** vorgenommen, etwa das Auffüllen fehlender Werte im Feld `neighbourhood` mit dem Standardwert "Zürich". 

Die finale Struktur der Tabelle ist in folgender SQL-Definition abgebildet:
```sql
CREATE TABLE cleaned_listings (
  id NUMERIC,
  listing_url TEXT,
  scrape_id NUMERIC,
  last_scraped DATE,
  source TEXT,
  name TEXT,
  description TEXT,
  neighborhood_overview TEXT,
  picture_url TEXT,
  host_id INT,
  host_url TEXT,
  host_name TEXT,
  host_since DATE,
  host_location TEXT,
  host_about TEXT,
  host_response_time TEXT,
  host_response_rate TEXT,
  host_acceptance_rate INT,
  host_is_superhost BOOLEAN,
  host_thumbnail_url TEXT,
  host_picture_url TEXT,
  host_listings_count INT,
  host_total_listings_count INT,
  host_verifications TEXT,
  host_has_profile_pic BOOLEAN,
  host_identity_verified BOOLEAN,
  neighbourhood TEXT,
  neighbourhood_cleansed TEXT,
  neighbourhood_group_cleansed TEXT,
  latitude FLOAT,
  longitude FLOAT,
  property_type TEXT,
  room_type TEXT,
  accommodates INT,
  bathrooms FLOAT,
  bedrooms FLOAT,
  beds FLOAT,
  amenities JSONB,
  price FLOAT,
  minimum_nights INT,
  maximum_nights INT,
  minimum_minimum_nights INT,
  maximum_minimum_nights INT,
  minimum_maximum_nights INT,
  maximum_maximum_nights INT,
  minimum_nights_avg_ntm FLOAT,
  maximum_nights_avg_ntm FLOAT,
  has_availability BOOLEAN,
  availability_30 INT,
  availability_60 INT,
  availability_90 INT,
  availability_365 INT,
  calendar_last_scraped DATE,
  number_of_reviews INT,
  number_of_reviews_ltm INT,
  number_of_reviews_l30d INT,
  first_review DATE,
  last_review DATE,
  review_scores_rating FLOAT,
  review_scores_accuracy FLOAT,
  review_scores_cleanliness FLOAT,
  review_scores_checkin FLOAT,
  review_scores_communication FLOAT,
  review_scores_location FLOAT,
  review_scores_value FLOAT,
  instant_bookable BOOLEAN,
  calculated_host_listings_count INT,
  calculated_host_listings_count_entire_homes INT,
  calculated_host_listings_count_private_rooms INT,
  reviews_per_month FLOAT,
  missing_data_flag BOOLEAN
);
```
Mit dieser finalen Struktur stehen nun bereinigte, konsistent typisierte und vollständig analysierbare Daten zur Verfügung für alle nachfolgenden Analysen und Modellierungen.

### 8. Finaler Datenimport, Typkonvertierung und strukturierte Bereinigung in `cleaned_listings`
Nach mehreren Wochen aktiver Analyse durch die Gruppenmitglieder konnten die tatsächliche Relevanz und der Nutzungszweck vieler *Medium* und *Low Impact*-Felder deutlich besser eingeschätzt werden. Auf dieser Grundlage wurde beschlossen, die bestehende `cleaned_listings`-Tabelle final zu überarbeiten und dabei eine umfassende Typkonvertierung sowie gezielte Bereinigungen durchzuführen.

Ziel dieses Schritts war es, die noch enthaltenen inkonsistenten oder fehleranfälligen Werteformate (z. B. `"N/A"`, Prozentzeichen, Währungszeichen) systematisch zu bereinigen und in ein robustes Datenmodell zu überführen, das für analytische und statistische Auswertungen direkt einsetzbar ist – ohne zusätzliche Nachbearbeitung in Python oder anderen Tools.

**Beispiele für durchgeführte Konvertierungen:**
- Textuelle Platzhalter wie `"N/A"` wurden in `NULL` umgewandelt.
- Prozentwerte wie `"95%"` wurden bereinigt und als numerische Werte `95` gespeichert.
- Währungsangaben wie `"$123.00"` wurden durch Entfernen von Sonderzeichen in numerische Gleitkommazahlen `FLOAT` überführt.
- Wahrheitswerte wie `"t"` / `"f"` wurden als `BOOLEAN` gespeichert.
- JSON-Textfelder `amenities` wurden korrekt in das Datentypformat `JSONB` überführt.

**Das folgende SQL-Statement zeigt die konkrete Umsetzung:**
```sql
INSERT INTO cleaned_listings (
  id, listing_url, scrape_id, last_scraped, source, name, description,
  neighborhood_overview, picture_url, host_id, host_url, host_name, host_since,
  host_location, host_about, host_response_time, host_response_rate,
  host_acceptance_rate, host_is_superhost, host_thumbnail_url, host_picture_url,
  host_listings_count, host_total_listings_count, host_verifications,
  host_has_profile_pic, host_identity_verified, neighbourhood, 
  neighbourhood_cleansed, neighbourhood_group_cleansed, latitude, longitude,
  property_type, room_type, accommodates, bathrooms, bedrooms, beds, amenities,
  price, minimum_nights, maximum_nights, minimum_minimum_nights,
  maximum_minimum_nights, minimum_maximum_nights, maximum_maximum_nights,
  minimum_nights_avg_ntm, maximum_nights_avg_ntm, has_availability,
  availability_30, availability_60, availability_90, availability_365,
  calendar_last_scraped, number_of_reviews, number_of_reviews_ltm,
  number_of_reviews_l30d, first_review, last_review, review_scores_rating,
  review_scores_accuracy, review_scores_cleanliness, review_scores_checkin,
  review_scores_communication, review_scores_location, review_scores_value,
  instant_bookable, calculated_host_listings_count,
  calculated_host_listings_count_entire_homes,
  calculated_host_listings_count_private_rooms, reviews_per_month,
  missing_data_flag
)
SELECT
  NULLIF(id::TEXT, 'N/A')::NUMERIC,
  listing_url,
  NULLIF(scrape_id::TEXT, 'N/A')::NUMERIC,
  NULLIF(last_scraped::TEXT, 'N/A')::DATE,
  source,
  name,
  description,
  neighborhood_overview,
  picture_url,
  NULLIF(host_id::TEXT, 'N/A')::NUMERIC,
  host_url,
  host_name,
  NULLIF(host_since::TEXT, 'N/A')::DATE,
  host_location,
  host_about,
  host_response_time,
  host_response_rate,
  NULLIF(REPLACE(host_acceptance_rate::TEXT, '%', ''), 'N/A')::BIGINT,
  host_is_superhost = 't',
  host_thumbnail_url,
  host_picture_url,
  NULLIF(host_listings_count::TEXT, 'N/A')::NUMERIC,
  NULLIF(host_total_listings_count::TEXT, 'N/A')::NUMERIC,
  host_verifications,
  host_has_profile_pic = 't',
  host_identity_verified = 't',
  neighbourhood,
  neighbourhood_cleansed,
  neighbourhood_group_cleansed,
  NULLIF(latitude::TEXT, 'N/A')::FLOAT,
  NULLIF(longitude::TEXT, 'N/A')::FLOAT,
  property_type,
  room_type,
  NULLIF(accommodates::TEXT, 'N/A')::BIGINT,
  NULLIF(bathrooms::TEXT, 'N/A')::FLOAT,
  NULLIF(bedrooms::TEXT, 'N/A')::FLOAT,
  NULLIF(beds::TEXT, 'N/A')::FLOAT,
  NULLIF(amenities::TEXT, 'N/A')::JSONB,
  NULLIF(REPLACE(REPLACE("price", ',', ''), '$', '')::TEXT, 'N/A')::FLOAT,
  NULLIF(minimum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(maximum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(minimum_minimum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(maximum_minimum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(minimum_maximum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(maximum_maximum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(minimum_nights_avg_ntm::TEXT, 'N/A')::FLOAT,
  NULLIF(maximum_nights_avg_ntm::TEXT, 'N/A')::FLOAT,
  has_availability = 't',
  NULLIF(availability_30::TEXT, 'N/A')::BIGINT,
  NULLIF(availability_60::TEXT, 'N/A')::BIGINT,
  NULLIF(availability_90::TEXT, 'N/A')::BIGINT,
  NULLIF(availability_365::TEXT, 'N/A')::BIGINT,
  NULLIF(calendar_last_scraped::TEXT, 'N/A')::DATE,
  NULLIF(number_of_reviews::TEXT, 'N/A')::BIGINT,
  NULLIF(number_of_reviews_ltm::TEXT, 'N/A')::BIGINT,
  NULLIF(number_of_reviews_l30d::TEXT, 'N/A')::BIGINT,
  NULLIF(first_review::TEXT, 'N/A')::DATE,
  NULLIF(last_review::TEXT, 'N/A')::DATE,
  NULLIF(review_scores_rating::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_accuracy::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_cleanliness::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_checkin::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_communication::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_location::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_value::TEXT, 'N/A')::FLOAT,
  instant_bookable = 't',
  NULLIF(calculated_host_listings_count::TEXT, 'N/A')::BIGINT,
  NULLIF(calculated_host_listings_count_entire_homes::TEXT, 'N/A')::BIGINT,
  NULLIF(calculated_host_listings_count_private_rooms::TEXT, 'N/A')::BIGINT,
  NULLIF(reviews_per_month::TEXT, 'N/A')::FLOAT,
  missing_data_flag
FROM cleaned_listings_backup_14_05_2025;
```
Diese finale Version der Tabelle cleaned_listings bildet den Ausgangspunkt für alle weiterführenden Analysen und Modelle. 
Sie stellt sicher, dass sämtliche strukturellen Inkonsistenzen beseitigt wurden und bietet ein hohes Mass an Datenqualität, Nachvollziehbarkeit und Robustheit.


## Datenquellen und -beschaffung via Supabase für `SellingPrices`

Die Dataclass `SellingPrices` wurde als Ergänzung bei der Ausarbeitung der Objectives erstellt und mit Daten zu *Verkaufspreise (Median) pro Wohnung und pro Quadratmeter Wohnungsfläche im Stockwerkeigentum, nach Zimmerzahl und Quartier* der [Stadt Zürich Open Data](https://data.stadt-zuerich.ch/dataset/bau_hae_preis_stockwerkeigentum_zimmerzahl_stadtquartier_od5155) befüllt.

Die Tabelle `selling_prices`ist nicht so reich an Attributen wie die `listings` Tabelle von Airbnb. Desweiteren benötigten wir fast nur die Preise, weshalb die meisten Attribute dieser Tabelle ignoriert werden konnten.

In diesem Abschnitt wird Schritt für Schritt beschrieben, wie die `selling_prices` Tabelle für die Datenanalysen vorbereitet wurde.

### 1. Typanpassung und Neuanlage für `cleaned_selling_prices`
Analog zur Bearbeitung der `listings`-Tabelle wurde auch für die Wohnpreisdaten eine neue, typisierte Tabelle erstellt. Ziel war es, Datentypen so anzupassen, dass eine direkte Weiterverarbeitung der Werte möglich ist – insbesondere in Bezug auf numerische Analysen.

Beim Import der CSV-Datei wurden alle Spalten zunächst als Text `STRING` interpretiert. Für die Preisinformationen war dies jedoch ungeeignet, da diese Felder in späteren Analysen arithmetisch verarbeitet werden sollen (z. B. Mittelwertberechnungen, Preisvergleiche, Visualisierungen). Deshalb wurden gezielt die drei preisbezogenen Attribute in den passenden numerischen Datentyp `INTEGER` überführt:
- `HAPreisWohnflaeche`: Preis pro Quadratmeter
- `HAMedianPreis`: Medianpreis
- `HASumPreis`: Gesamtpreis

```sql
CREATE TABLE cleaned_ha_preise (
  Stichtagdatjahr INTEGER,
  DatenstandCd TEXT,
  HAArtLevel1Sort INTEGER,
  HAArtLevel1Cd INTEGER,
  HAArtLevel1Lang TEXT,
  HASTWESort INTEGER,
  HASTWECd TEXT,
  HASTWELang TEXT,
  RaumSort TEXT,
  RaumCd TEXT,
  RaumLang TEXT,
  AnzZimmerLevel2Sort_noDM INTEGER,
  AnzZimmerLevel2Cd_noDM INTEGER,
  AnzZimmerLevel2Lang_noDM TEXT,
  AnzHA TEXT,
  HAPreisWohnflaeche INTEGER,
  HAMedianPreis INTEGER,
  HASumPreis INTEGER
);
```

### 2. Filtern und Übertragen gültiger Preisdaten für `cleaned_selling_prices`

Um sicherzustellen, dass ausschliesslich qualitativ hochwertige und verarbeitbare Daten in die finale Analyse gelangen, wurden aus der Zwischen- bzw. Staging-Tabelle `stage_selling_prices` nur jene Datensätze in die endgültige Tabelle `cleaned_selling_prices` übernommen, bei denen **alle drei preisbezogenen Attribute gültige numerische Werte enthalten**.

Insbesondere sollten folgende Fehlerquellen ausgeschlossen werden:
- Leere Strings (`''`)
- Nicht-numerische Einträge (z. B. `'K'` bei `HASumPreis`)
- Formatierungsfehler (z. B. nicht ganzzahlig)
- `NULL`-Werte

Durch die Kombination von `IS NOT NULL`, expliziten Ausschlüssen und einem regulären Ausdruck `~ '^\d+$'` wurde sichergestellt, dass nur **reine Ganzzahlen** verarbeitet werden, die für Aggregationen, Vergleiche und Visualisierungen ohne vorherige Umwandlung nutzbar sind.

```sql
INSERT INTO cleaned_selling_prices( 
  Stichtagdatjahr, DatenstandCd, HAArtLevel1Sort, HAArtLevel1Cd, HAArtLevel1Lang,
  HASTWESort, HASTWECd, HASTWELang, RaumSort, RaumCd, RaumLang,
  AnzZimmerLevel2Sort_noDM, AnzZimmerLevel2Cd_noDM, AnzZimmerLevel2Lang_noDM,
  AnzHA, HAPreisWohnflaeche, HAMedianPreis, HASumPreis
)
SELECT
  Stichtagdatjahr,
  DatenstandCd,
  HAArtLevel1Sort,
  HAArtLevel1Cd,
  HAArtLevel1Lang,
  HASTWESort,
  HASTWECd,
  HASTWELang,
  RaumSort,
  RaumCd,
  RaumLang,
  AnzZimmerLevel2Sort_noDM,
  AnzZimmerLevel2Cd_noDM,
  AnzZimmerLevel2Lang_noDM,
  AnzHA,
  NULLIF(HAPreisWohnflaeche, '')::INTEGER,
  NULLIF(HAMedianPreis, '')::INTEGER,
  NULLIF(HASumPreis, '')::INTEGER
FROM stage_selling_prices
WHERE
  HAPreisWohnflaeche IS NOT NULL AND HAPreisWohnflaeche <> '' AND HAPreisWohnflaeche ~ '^\d+$' AND
  HAMedianPreis IS NOT NULL AND HAMedianPreis <> '' AND HAMedianPreis ~ '^\d+$' AND
  HASumPreis IS NOT NULL AND HASumPreis <> '' AND HASumPreis <> 'K' AND HASumPreis ~ '^\d+$';

## Datenaufbereitung für Analyse

In [3]:
# === Bibliotheken importieren ===
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import ast
import nltk
import dataclasses

# NLTK Ressourcen (Downloads)
nltk_resources = ['wordnet', 'stopwords', 'punkt', 'omw-1.4']
for resource in nltk_resources:
    try:
        resource_path_part = f'corpora/{resource}.zip' if resource in ['wordnet', 'stopwords', 'omw-1.4'] else f'tokenizers/{resource}.zip'
        nltk.data.find(resource_path_part)
        print(f"NLTK Ressource '{resource}' bereits vorhanden.")
    except LookupError: # Korrektes Abfangen von LookupError
        print(f"NLTK Ressource '{resource}' nicht gefunden. Versuche Download...")
        try:
            nltk.download(resource, quiet=False)
            print(f"NLTK Ressource '{resource}' erfolgreich heruntergeladen.")
        except Exception as e: # Allgemeiner Fehler beim Download
            print(f"Fehler beim Herunterladen von '{resource}': {e}. Bitte manuell prüfen mit nltk.download('{resource}').")

from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.metrics import (mean_squared_error, r2_score)
from sklearn.impute import SimpleImputer

# Importiere den Service und die Modelle
# Stelle sicher, dass airbnb_analysis_service.py und bina_models.py im selben Verzeichnis oder im Python-Pfad sind.
try:
    from airbnb_analysis_service import AirbnbAnalysisService
    from bina_models import Listing, SellingPrices
except ImportError as e:
    print(f"Fehler beim Importieren des Services oder der Modelle: {e}")
    AirbnbAnalysisService = None; Listing = None; SellingPrices = None

# Plotting-Einstellungen
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("muted")
# %matplotlib inline # Zeile für Jupyter Notebooks, um Plots inline anzuzeigen (kann hier auskommentiert bleiben)

# === Daten laden via Service ===
listings_df = pd.DataFrame() # Wird direkt mit den Daten aus dem Service befüllt
selling_prices_df = pd.DataFrame()

if AirbnbAnalysisService:
    try:
        service = AirbnbAnalysisService()
        print("Lade Airbnb Listings via Service (aus Supabase `cleaned_listings`)...")
        listings_objects = service.get_listings()

        if listings_objects and isinstance(listings_objects, list) and len(listings_objects) > 0:
            if hasattr(listings_objects[0], 'model_dump'): listings_data = [l.model_dump(exclude_none=True) for l in listings_objects]
            elif hasattr(listings_objects[0], 'dict'): listings_data = [l.dict(exclude_none=True) for l in listings_objects]
            elif dataclasses.is_dataclass(listings_objects[0]): listings_data = [dataclasses.asdict(l) for l in listings_objects]
            else: listings_data = [l.__dict__ for l in listings_objects]
            listings_df = pd.DataFrame(listings_data) # Direkte Zuweisung zu listings_df
            print(f"Airbnb Listings erfolgreich geladen. Shape: {listings_df.shape}")
        else:
            print("Keine Listings-Daten vom Service erhalten oder Liste ist leer.")

        print("\nLade Immobilien-Verkaufspreise via Service (aus Supabase `cleaned_selling_prices`)...")
        selling_prices_objects = service.get_selling_prices()
        if selling_prices_objects and isinstance(selling_prices_objects, list) and len(selling_prices_objects) > 0:
            if hasattr(selling_prices_objects[0], 'model_dump'): selling_prices_data = [sp.model_dump(exclude_none=True) for sp in selling_prices_objects]
            elif hasattr(selling_prices_objects[0], 'dict'): selling_prices_data = [sp.dict(exclude_none=True) for sp in selling_prices_objects]
            elif dataclasses.is_dataclass(selling_prices_objects[0]): selling_prices_data = [dataclasses.asdict(sp) for sp in selling_prices_objects]
            else: selling_prices_data = [sp.__dict__ for sp in selling_prices_objects]
            selling_prices_df = pd.DataFrame(selling_prices_data) # Direkte Zuweisung zu selling_prices_df
            print(f"Immobilien-Verkaufspreise erfolgreich geladen. Shape: {selling_prices_df.shape}")
        else:
            print("Keine Verkaufspreis-Daten vom Service erhalten oder Liste ist leer.")

    except Exception as e:
        print(f"Fehler beim Laden der Daten via Service: {e}")
else:
    print("AirbnbAnalysisService konnte nicht importiert werden. Daten können nicht geladen werden.")

# === Erste Inspektion der (aus Supabase geladenen) Daten ===
if not listings_df.empty:
    print("\n--- Listings DataFrame (aus Supabase): Erste 5 Zeilen ---"); print(listings_df.head())
    print(f"\n--- Listings DataFrame (aus Supabase): Dimensionen --- \nShape: {listings_df.shape}")
    print("\n--- Listings DataFrame (aus Supabase): Info ---"); listings_df.info()
    print("\n--- Listings DataFrame (aus Supabase): Fehlende Werte (Top 10) ---"); print(listings_df.isnull().sum().sort_values(ascending=False).head(10))
else:
    print("Listings DataFrame ist leer oder konnte nicht geladen werden.")

if not selling_prices_df.empty:
    print("\n\n--- Selling Prices DataFrame (aus Supabase): Erste 5 Zeilen ---"); print(selling_prices_df.head())
    print("\n--- Selling Prices DataFrame (aus Supabase): Info ---"); selling_prices_df.info()
else:
    print("\nSelling Prices DataFrame ist leer oder konnte nicht geladen werden.")

ModuleNotFoundError: No module named 'matplotlib'

## Finale Datenanpassungen und DataFrame Engineering für Analyse

Obwohl die Daten in Supabase grundlegend bereinigt wurden, führen wir hier finale Anpassungen durch, die spezifisch für die Analysen und Modellierungen in diesem Notebook notwendig sind. Wir erstellen eine Arbeitskopie `df_analysis` von listings_df`.

In [None]:
df_analysis = pd.DataFrame() # Initialisiere df_analysis als leeren DataFrame

if not listings_df.empty:
    df_analysis = listings_df.copy() # Arbeitskopie erstellen

    # 1. Preisspalte ('price') - finale Prüfung und Filterung
    # Annahme: 'price' ist bereits float aus Supabase (gemäss bina_models.Listing.price: Optional[float])
    if 'price' in df_analysis.columns:
        df_analysis['price'] = pd.to_numeric(df_analysis['price'], errors='coerce')
        df_analysis.dropna(subset=['price'], inplace=True)
        if not df_analysis.empty and df_analysis['price'].nunique() > 1 :
            price_q_low_notebook = df_analysis['price'].quantile(0.005)
            price_q_high_notebook = df_analysis['price'].quantile(0.995)
            if pd.notna(price_q_low_notebook) and pd.notna(price_q_high_notebook):
                 df_analysis = df_analysis[df_analysis['price'].between(price_q_low_notebook, price_q_high_notebook, inclusive='both')]
    else:
        print(f"KRITISCH: Preisspalte 'price' fehlt."); df_analysis['price'] = np.nan

    # 2. Numerische Spalten: Finale Imputation für Modellierung
    # 'bathrooms' ist Optional[float]
    # 'beds' ist Optional[float]
    numeric_cols_to_impute_final = [
        'bedrooms', 'bathrooms', 'accommodates', 'beds',
        'review_scores_rating', 'review_scores_accuracy', 'review_scores_cleanliness',
        'review_scores_checkin', 'review_scores_communication', 'review_scores_location',
        'review_scores_value', 'reviews_per_month', 'number_of_reviews', 'availability_365',
        'host_listings_count', 'host_total_listings_count'
    ]
    for col in numeric_cols_to_impute_final:
        if col in df_analysis.columns:
            df_analysis[col] = pd.to_numeric(df_analysis[col], errors='coerce')
            if df_analysis[col].isnull().sum() > 0:
                if not df_analysis[col].isnull().all():
                    df_analysis[col] = df_analysis[col].fillna(df_analysis[col].median())
                else:
                     df_analysis[col] = df_analysis[col].fillna(0)
        else:
            print(f"Info: Numerische Spalte '{col}' für finale Imputation fehlt."); df_analysis[col] = np.nan

    # 3. Prozentuale Host-Metriken
    # 'host_response_rate': Optional[str] (z.B. "90%")
    if 'host_response_rate' in df_analysis.columns:
        df_analysis['host_response_rate'] = df_analysis['host_response_rate'].replace(['N/A', None, ''], np.nan)
        # Da es als String von Supabase kommen kann (gem. bina_models)
        if df_analysis['host_response_rate'].dropna().apply(lambda x: isinstance(x, str)).any():
             df_analysis['host_response_rate'] = df_analysis['host_response_rate'].str.rstrip('%').astype(float) / 100.0
        else:
            df_analysis['host_response_rate'] = pd.to_numeric(df_analysis['host_response_rate'], errors='coerce')
            mask_hrr_analysis = (df_analysis['host_response_rate'] > 1.0) & (df_analysis['host_response_rate'] <= 100.0)
            df_analysis.loc[mask_hrr_analysis, 'host_response_rate'] = df_analysis.loc[mask_hrr_analysis, 'host_response_rate'] / 100.0

        if not df_analysis['host_response_rate'].isnull().all(): df_analysis['host_response_rate'] = df_analysis['host_response_rate'].fillna(df_analysis['host_response_rate'].median())
        else: df_analysis['host_response_rate'] = df_analysis['host_response_rate'].fillna(0.5)
    else:
        print(f"Info: Spalte 'host_response_rate' fehlt."); df_analysis['host_response_rate'] = np.nan

    # 'host_acceptance_rate_percent': Optional[int] (z.B. 90 für 90%)
    if 'host_acceptance_rate_percent' in df_analysis.columns:
        df_analysis['host_acceptance_rate_percent'] = pd.to_numeric(df_analysis['host_acceptance_rate_percent'], errors='coerce') / 100.0
        if not df_analysis['host_acceptance_rate_percent'].isnull().all(): df_analysis['host_acceptance_rate_percent'] = df_analysis['host_acceptance_rate_percent'].fillna(df_analysis['host_acceptance_rate_percent'].median())
        else: df_analysis['host_acceptance_rate_percent'] = df_analysis['host_acceptance_rate_percent'].fillna(0.5)
    else:
        print(f"Info: Spalte 'host_acceptance_rate_percent' fehlt."); df_analysis['host_acceptance_rate_percent'] = np.nan

    for rate_col in ['host_response_rate', 'host_acceptance_rate_percent']:
        if rate_col in df_analysis.columns: df_analysis[rate_col] = np.clip(df_analysis[rate_col], 0, 1)

    # 4. Amenities ('amenities' ist Optional[list[str]] in bina_models)
    if 'amenities' in df_analysis.columns:
        def count_amenities_from_model_list(amenity_input): # Bereits angepasst für Listen
            if isinstance(amenity_input, list): return len(amenity_input)
            if pd.isna(amenity_input): return 0
            if isinstance(amenity_input, str): # Seltener Fallback für Strings
                 if amenity_input in ['[]', '{}', ''] or not amenity_input.strip(): return 0
                 try:
                     parsed_list = ast.literal_eval(amenity_input)
                     return len(parsed_list) if isinstance(parsed_list, list) else 0
                 except: return 0
            return 0
        df_analysis['num_amenities'] = df_analysis['amenities'].apply(count_amenities_from_model_list)
    else:
        df_analysis['num_amenities'] = 0; print(f"Warnung: Spalte 'amenities' nicht gefunden.")

    # 5. Superhost Status ('host_is_superhost' ist Optional[bool])
    if 'host_is_superhost' in df_analysis.columns:
        df_analysis['host_is_superhost'] = df_analysis['host_is_superhost'].map({True: 1, False: 0}).fillna(0).astype(int)
    else:
        df_analysis['host_is_superhost'] = 0; print(f"Info: Spalte 'host_is_superhost' fehlt, wird mit 0 initialisiert.")

    # 6. Host Response Time ('host_response_time' ist Optional[str])
    if 'host_response_time' in df_analysis.columns:
        df_analysis['host_response_time'] = df_analysis['host_response_time'].fillna('N/A').astype('category')
    else:
        df_analysis['host_response_time'] = 'N/A'; df_analysis['host_response_time'] = df_analysis['host_response_time'].astype('category')

    # 7. Host Identity Verified ('host_identity_verified' ist Optional[bool])
    if 'host_identity_verified' in df_analysis.columns:
        df_analysis['host_identity_verified'] = df_analysis['host_identity_verified'].map({True: 1, False: 0}).fillna(0).astype(int)
    else:
        df_analysis['host_identity_verified'] = 0

    # 8. Standortspalte (`loc_col_for_analysis_notebook`) - Auswahl und Sicherstellung des Typs
    # Definiere eine lokale Variable für die Standortspalte, die in diesem Notebook verwendet wird
    loc_col_for_analysis_notebook = None
    if 'neighbourhood_group_cleansed' in df_analysis.columns and df_analysis['neighbourhood_group_cleansed'].nunique() >= 1:
        loc_col_for_analysis_notebook = 'neighbourhood_group_cleansed'
    elif 'neighbourhood_cleansed' in df_analysis.columns and df_analysis['neighbourhood_cleansed'].nunique() >= 1:
        loc_col_for_analysis_notebook = 'neighbourhood_cleansed'
    elif 'neighbourhood' in df_analysis.columns and df_analysis['neighbourhood'].nunique() >=1:
        loc_col_for_analysis_notebook = 'neighbourhood'

    if loc_col_for_analysis_notebook:
        print(f"Verwende '{loc_col_for_analysis_notebook}' als primäre Standortspalte für Analysen in diesem Notebook.")
        df_analysis[loc_col_for_analysis_notebook] = df_analysis[loc_col_for_analysis_notebook].fillna('Unknown').astype(str)
    else:
        print(f"KRITISCH: Keine valide Standortspalte gefunden. Erstelle 'location_fallback'.");
        df_analysis['location_fallback'] = 'Unknown'; loc_col_for_analysis_notebook = 'location_fallback'
    # Stelle sicher, dass die verwendete Spalte existiert, auch wenn es der Fallback ist
    if loc_col_for_analysis_notebook not in df_analysis.columns: df_analysis[loc_col_for_analysis_notebook] = 'Unknown'
    df_analysis[loc_col_for_analysis_notebook] = df_analysis[loc_col_for_analysis_notebook].astype(str)


    # 9. Room Type ('room_type' ist Optional[str])
    if 'room_type' in df_analysis.columns: df_analysis['room_type'] = df_analysis['room_type'].fillna('Unknown').astype('category')
    else: print(f"KRITISCH: Spalte 'room_type' fehlt."); df_analysis['room_type'] = 'Unknown'; df_analysis['room_type'] = df_analysis['room_type'].astype('category')

    # 10. Textspalten für NLP (UC4)
    text_cols_nlp_list = ['description', 'name', 'neighborhood_overview', 'host_about']
    for col in text_cols_nlp_list:
        if col in df_analysis.columns: df_analysis[col] = df_analysis[col].fillna('').astype(str)
        else: print(f"Info: Textspalte '{col}' für NLP fehlt."); df_analysis[col] = ''

    # Log-Transformation des Preises für Regression (UC2) und ggf. andere Analysen
    if 'price' in df_analysis.columns and df_analysis['price'].nunique() > 1 and pd.api.types.is_numeric_dtype(df_analysis['price']):
        df_analysis['price_log'] = np.log1p(df_analysis['price'])
    else:
        df_analysis['price_log'] = np.nan

    # Finale Bereinigung von Zeilen, falls Preis nach allem immer noch NaN ist
    if 'price' in df_analysis.columns: df_analysis.dropna(subset=['price'], inplace=True)

    print(f"\nFinale Datenanpassungen im Notebook abgeschlossen. Shape des DataFrames `df_analysis`: {df_analysis.shape}")
    if df_analysis.empty: print("WARNUNG: DataFrame `df_analysis` ist nach finalen Anpassungen leer!")
    else:
        print("\nÜberprüfung der wichtigsten Spalten nach finaler Anpassung (erste 5 Zeilen von `df_analysis`):")
        cols_to_show_final = ['price', loc_col_for_analysis_notebook, 'room_type', 'accommodates', 'bedrooms',
                              'bathrooms', 'num_amenities', 'host_is_superhost',
                              'review_scores_rating', 'host_response_time',
                              'host_response_rate', 'host_acceptance_rate_percent', 'price_log']
        existing_cols_to_show_final = [col for col in cols_to_show_final if col in df_analysis.columns]
        if existing_cols_to_show_final:
          print(df_analysis[existing_cols_to_show_final].head())
else:
    print("Ursprünglicher Listings DataFrame (`listings_df`) ist leer. Datenaufbereitung übersprungen.")
    df_analysis = pd.DataFrame()
    loc_col_for_analysis_notebook = 'location_fallback' # Fallback für loc_col_for_analysis_notebook

In [None]:
from airbnb_analysis_service import AirbnbAnalysisService
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

if __name__ == "__main__":

    # create service class
    airbnbAnalysis = AirbnbAnalysisService()

    # get all tables in form of a list
    listings = airbnbAnalysis.get_listings()

    print(f"listings {listings[0]}")

    # Schritt 1: Umwandeln in DataFrames
    listings_df = pd.DataFrame([l.__dict__ for l in listings])

# Step 3: Analyzing Data

## Objective 1 – Marktpotenzial und Standortanalyse
Im Rahmen dieses ersten Untersuchungsziels soll eine fundierte Analyse des Marktpotenzials sowie eine differenzierte Standortbewertung für Kurzzeitvermietung über Airbnb in der stadt Zürich erfolgen. Ziel ist es, für die InvestZurich AG belastbare Entscheidungsgrundlagen zu schaffen, um vielversprechende Investitionsgebiete zu identifizieren und zu priorisieren.

Zürich ist als internationale Wirtschaftsmetropole, Bildungsstandort und Tourismusziel von konstant hoher Nachfrage geprägt. Besonders im Bereich temporärer Unterkünfte - wie sie Airbnb bietet - ergeben sich daraus regelmässig neue Marktchance, aber auch dynamische Herausforderungen. Für eine Immobilien-Investmentstrategie in diesem Segment sind sowohl mikrogeografische Unterschiede zwischen Quartieren als auch spezifische Angebots- und Nachfragestrukturen zentral.

Daher verfolgt dieses Kapitel die Frage, wo innerhalb Zürich das grösste Potenzial für Airbnb-Investitionen liegt - unter Berücksichtigung von Preisniveau, Nachfrageintensität und Angebotsstrktur je Kreis. Zusätzlich wird untersucht, welche Wohnungstypen (z.B. Anzahl Zimmer, Wohnungsgrösse) besonders gefragt oder unterversorgt sind, um daraus konkrete Handlungsempfehlungen für die künftige Immobilienauswahl ableiten zu können.

Zur Beantwortung dieser fragestellungen werden verschiedene Datenquellen herangezogen, explorative Visualisierungen erstellt und relevante statistische Kennzahlen berechnet.

### Anzahl Listings pro Kreis
Ein zentraler Ausgangspunkt zur Analyse des Marktpotenzials im Zürcher Airbnb-Markt ist die Betrachtung der derzeitigen Angebotsverteilung über die verschiedenen Stadtkreise hinweg. Die folgende Visualisierung zeigt die absolute Anzahl an Airbnb-Angeboten ("Listings") pro Kreis. Dadurch lassen sich erste Aussagen über die Marktaktivität und mögliche Sättigung oder Unterversorgung einzelner Stadtteile treffen.

Die nachfolgende Darstellung zeigt die Anzahl Listing pro Kreis:

In [None]:
# Gruppierung – Anzahl Listings pro Stadtteilgruppe
kreis_counts = listings_df["neighbourhood_group_cleansed"].value_counts().reset_index()
kreis_counts.columns = ["neighbourhood_group_cleansed", "count"]
kreis_counts_sorted = kreis_counts.sort_values(by="count", ascending=False)

# Plot in fig1 speichern
fig1, ax = plt.subplots(figsize=(12,6))
bar_color = "#5DADE2"
barplot = sns.barplot(
    data=kreis_counts_sorted,
    x="neighbourhood_group_cleansed",
    y="count",
    ax=ax,
    color=bar_color
)

# Zahlen über den Balken anzeigen
for bar in barplot.patches:
    height = bar.get_height()
    barplot.text(
        bar.get_x() + bar.get_width() / 2,
        height,
        f'{int(height)}',
        ha='center',
        va='bottom'
    )

# Achsentitel und Design
ax.set_title("Anzahl Airbnb-Listings pro Kreis in Zürich", fontsize=14)
ax.set_xlabel("Kreis")
ax.set_ylabel("Anzahl Listings")
ax.tick_params(axis='x', rotation=45)
ax.grid(axis='y', linestyle='--', alpha=0.5)
fig1.tight_layout()

Wie aus der Visualisierung deutlich hervorgeht, konzentriert sich das Angebot derzeit stark auf bestimmte Stadtteile. Besonders Kreis 11 sticht mit 72 aktiven Listings hervor, gefolgt von Kreis 4 und Kreis 8 (jeweils 63) sowie Kreis 7 (60). Diese Kreise zeichnen sich offenbar durch eine bereits hohe Marktdurchdringung im Bereich Kurzzeitvermietung aus.

Demgegenüber zeigen Kreis 10 (25 Listings), Kreis 5 (22 Listings) und insbesondere Kreis 12 (nur 3 Listings) eine deutlich geringere Präsenz auf Airbnb. Diese niedrigeren Zahlen können verschieden interpretiert werden: Einerseits könnten sie auf geringere Nachfrage oder restriktivere Regulierungen hindeuten. Andererseits besteht hier möglicherweise ein bislang unerschlossenes Marktpotenzial, das gezielt erschlossen werden könnte – etwa durch gezielte Investitionen in passende Wohnungstypen und differenzierte Angebotsstrategien.

- Hohe Listings-Zahlen (z.B. Kreise 4, 8, 11): Diese Quartiere sind vermutlich stark frequentiert und bieten bereits funktionierende Geschäftsmodelle. Für Investoren könnten diese Bezirke trotz möglicher Konkurrenz weiterhin attraktiv sein – sofern Nachfrage, Auslastung und Preisniveau entsprechend hoch sind.

- Niedrige Listings-Zahlen (z.B. Kreise 5, 10, 12): Diese Bereiche könnten neue Chancen eröffnen, insbesondere wenn dort eine latente Nachfrage besteht, die bislang nicht durch Airbnb-Angebote gedeckt wurde. Eine tiefere Analyse von Besucherströmen, Infrastruktur und lokalen Gegebenheiten ist hier entscheidend.

### Durchschnittlicher Preis pro Nacht und Kreis
Im zweiten Schritt der Standortanalyse richtet sich der Fokus auf die durchschnittlichen Übernachtungspreise pro Airbnb-Listing, differenziert nach Keisen in Zürich. Diese Kennzahl ist von zentraler Bedeutung für die Bewertung der potenziellen Ertragskraft eines Investments: Je höher der durchschnittliche Preis pro Nacht, desto grösser ist – bei vergleichbarer Auslastung – das Umsatzpotenzial einer Unterkunft.

Die nachfolgende Visualisierung zeigt die durchschnittlichen Preise pro Nacht (in CHF) für jedes Zürcher Stadtquartier:


In [None]:
# Daten filtern
listings_df = listings_df[
    (listings_df['price'] > 0) &
    (listings_df['availability_365'] > 0) &
    (listings_df['neighbourhood'].notnull())
]

# Gruppieren nach neighbourhood_group_cleansed
group_stats = listings_df.groupby("neighbourhood_group_cleansed").agg({
    "price": "mean"
}).reset_index()

# Sortieren nach Preis
group_stats_sorted = group_stats.sort_values(by="price", ascending=False)

# Plot in fig2 speichern
fig2, ax = plt.subplots(figsize=(12,6))
sns.barplot(data=group_stats_sorted, x="neighbourhood_group_cleansed", y="price", ax=ax)
ax.set_title("Durchschnittlicher Preis pro Kreis / Nacht")
ax.set_ylabel("Durchschnittlicher Preis (CHF)")
ax.set_xlabel("Kreis")
ax.tick_params(axis='x', rotation=45)

# Durchschnittspreise oberhalb der Balken anzeigen
for bar in ax.patches:
    height = bar.get_height()
    ax.text(
        bar.get_x() + bar.get_width() / 2,
        height,
        f'{height:.0f}',
        ha='center',
        va='bottom'
    )

fig2.tight_layout()

durchschnittspreis = listings_df["price"].mean()
print(f"Durchschnittlicher Preis aller Airbnb-Angebote: {durchschnittspreis:.2f} CHF")

Der auffälligste Ausreisser ist klar Kreis 2, mit einem durchschnittlichen Preis von 487 CHF pro Nacht. Dieser Wert liegt deutlich über dem Marktdurchschnitt von 195 CHF und hebt sich stark von allen anderen Kreisen ab. Kreis 2 liegt direkt am Zürichsee und umfasst prestigeträchtige Wohnlagen wie Enge und Wollishofen – Stadtteile, die bei Touristen durch Seelage, Ruhe und Exklusivität besonders gefragt sind. Für Investoren bietet dieser Kreis somit ein überdurchschnittlich hohes Preisniveau, das allerdings mit entsprechend hohen Immobilienpreisen und regulatorischen Hürden einhergehen dürfte.

Es folgen Kreis 1 (246 CHF) – das historische und touristische Zentrum der Stadt – sowie Kreis 5 (213 CHF), das trendige ehemalige Industriequartier mit hoher kultureller Dichte und urbanem Flair. Auch Kreis 8 und 4 (je 206 CHF) zeigen attraktive durchschnittliche Übernachtungspreise.

Der Grossteil der übrigen Kreise bewegt sich im Bereich zwischen 130 und 170 CHF pro Nacht. Den niedrigsten Durchschnittspreis verzeichnet Kreis 12 mit 98 CHF, was auf eine geringere touristische Attraktivität oder geringere Zahlungsbereitschaft hinweist.

**Fazit und strategische Überlegungen:**
- Premium-Strategie: Investitionen in Kreise mit hohen durchschnittlichen Preisen (v.a. 2, 1, 5, 4, 8) versprechen potenziell hohe Umsätze pro Nacht. Diese Strategie setzt jedoch meist höhere Einstiegskosten, intensivere Konkurrenz und gegebenenfalls strengere Auflagen voraus.
- Wachstumsstrategie: In Kreisen mit bislang niedrigem Angebot und moderaten Preisen (z.B. 10, 12) könnten gezielte Investitionen lohnenswert sein – insbesondere, wenn dort Nachfragepotenziale bestehen, die bislang nicht durch Airbnb-Angebote gedeckt sind.
- Mischstrategie: Eine Kombination aus hochpreisigen Lagen mit etabliertem Marktumfeld und aufstrebenden, preisgünstigen Quartieren könnte für InvestZurich AG ein ausgewogenes Risiko-Ertrags-Profil darstellen.

In Kombination mit der zuvor analysierten Angebotsdichte ergibt sich ein differenziertes Bild: Ein hoher Preis bedeutet nicht zwangsläufig geringe Konkurrenz, ebenso ist ein niedriges Preisniveau nicht automatisch ein Ausschlusskriterium für Investitionen.

### Durchschnittliche Verfügbarkeit der Airbnb-Listings
Nach der Analyse von Angebotsdichte und durchschnittlichem Übernachtungspreis liefert ein weiterer wichtiger Indikator zusätzliche Einblicke in die Marktdynamik: die Verfügbarkeit von Airbnb-Angeboten pro Jahr und pro Stadtkreis.

Im dritten Analyseschritt betrachten wir die durchschnittliche Verfügbarkeit von Airbnb-Angeboten in den einzelnen Zürcher Stadtkreisen – gemessen an der Variable availability_365. Diese beschreibt, an wie vielen Tagen im Jahr ein Airbnb theoretisch verfügbar ist. Eine niedrige Verfügbarkeit kann darauf hinweisen, dass ein Objekt häufig gebucht und damit stark nachgefragt ist – also eine hohe Auslastung aufweist. Die nachfolgende Abbildung zeigt, an wie vielen Tagen die Airbnb's durchschnittlich pro Kreis innerhalb der nächsten 365 Tagen noch buchbar sind.

In [None]:
# Daten bereinigen und aggregieren
availability_stats = listings_df.groupby("neighbourhood_group_cleansed").agg({
    "availability_365": "mean"
}).reset_index()

# Sortieren nach Verfügbarkeit
availability_stats_sorted = availability_stats.sort_values(by="availability_365", ascending=False)

# Plot in fig3 speichern
fig3, ax = plt.subplots(figsize=(12,6))
bar_color = "#5DADE2"
sns.barplot(
    data=availability_stats_sorted,
    x="neighbourhood_group_cleansed",
    y="availability_365",
    color=bar_color,
    ax=ax
)

# Werte über den Balken anzeigen
for bar in ax.patches:
    height = bar.get_height()
    ax.text(
        bar.get_x() + bar.get_width() / 2,
        height,
        f'{height:.0f}',  # ganze Tage ohne Nachkommastellen
        ha='center',
        va='bottom'
    )

# Titel, Achsen und Layout
ax.set_title("Durchschnittliche Verfügbarkeit (Tage/Jahr) von Airbnbs pro Kreis", fontsize=14)
ax.set_xlabel("Kreis")
ax.set_ylabel("Ø Verfügbarkeit pro Jahr (Tage)")
ax.tick_params(axis='x', rotation=45)
ax.grid(axis='y', linestyle='--', alpha=0.5)
fig3.tight_layout()


**Interpretation der Verfügbarkeiten:**

Die geringsten durchschnittlichen Verfügbarkeiten zeigen sich in...
- Kreis 10 (138 Tage)
- Kreis 5 (151 Tage)
- Kreis 2 (157 Tage)

Diese Zahlen legen nahe, dass die dort gelisteten Unterkünfte besonders häufig gebucht sind – ein klares Zeichen für eine hohe Marktnachfrage und attraktive Standorte für Investitionen. Solche Kreise sind aus Investorensicht spannend, da sie auf eine gute Auslastung und stabile Einnahmen hindeuten.

Umgekehrt haben Kreise mit hoher Verfügbarkeit wie:
- Kreis 1 (227 Tage)
- Kreis 9 (224 Tage)
- Kreis 3 (213 Tage)
eher ein Überangebot oder eine geringere Buchungsfrequenz. Hier könnten Unterkünfte teilweise leer stehen oder noch nicht optimal ausgelastet sein – potenziell ein Zeichen für ein schwächeres Nachfrageprofil.
-
Es ist allerdings zu beachten, dass niedrige Verfügbarkeiten auch durch Kalendersperrungen durch Gastgeber oder gesetzliche Einschränkungen verursacht werden können. Dennoch: In der Regel gilt eine niedrige Verfügbarkeit als positives Marktzeichen, sofern sie auf eine tatsächliche Gästebuchung zurückzuführen ist.

**Verbindung zu bisherigen Erkenntnissen:**
- Kreis 2 ist besonders interessant: Er kombiniert sehr hohe Preise (487 CHF/Nacht) mit vergleichsweise geringer Verfügbarkeit – ein Indiz für lukrative, stark nachgefragte Premium-Listings.
- Kreis 10, obwohl mit moderaten Preisen und geringer Angebotsdichte, weist die geringste Verfügbarkeit auf. Dies könnte auf eine hohe Nachfrage bei gleichzeitig geringem Wettbewerb hinweisen – ein vielversprechender Nischenmarkt.

### Einfluss des Unterkunftstyps auf die Verfügbarkeit
Nachdem wir die Angebotsdichte, Preisstruktur und durchschnittliche Verfügbarkeit pro Stadtkreis betrachtet haben, widmet sich dieser Abschnitt der Frage, ob auch der Unterkunftstyp einen Einfluss auf die Beliebtheit und Auslastung eines Airbnb-Angebots hat. Dafür wurde erneut die Variable availability_365 verwendet und mittels Boxplot-Visualisierung nach Unterkunftstyp aufgeschlüsselt. Die nachfolgende Visualisierung zeigt die Verteilungsstruktur der jährlichen Verfügbarkeit für die drei  Unterkunftsarten, Private Room, Entire Home/Apt und Hotel Room auf Airbnb in Zürich.

In [None]:
# Datenvorbereitung
df = listings_df[
    (listings_df["availability_365"].notnull()) &
    (listings_df["room_type"].notnull())
]

# Extreme Verfügbarkeiten beschränken (nur bis 365 Tage erlaubt)
df = df[df["availability_365"] <= 365]

# Plot in fig4 speichern
fig4, ax = plt.subplots(figsize=(12,6))
box_color = "#5DADE2"
sns.boxplot(
    data=df,
    x="room_type",
    y="availability_365",
    color=box_color,
    showfliers=True,
    ax=ax
)

# Layout
ax.set_title("Verfügbarkeitsverteilung je Unterkunftstyp", fontsize=14)
ax.set_xlabel("Unterkunftstyp")
ax.set_ylabel("Verfügbarkeit im Jahr (Tage)")
ax.tick_params(axis='x', rotation=0)
ax.grid(axis='y', linestyle='--', alpha=0.5)
fig4.tight_layout()

**Einige zentrale Beobachtungen:**
- Private Rooms zeigen eine sehr breite Streuung, mit Verfügbarkeiten zwischen nahezu 0 und 365 Tagen. Der Median liegt jedoch relativ tief, was darauf hindeutet, dass diese Objekte häufig gebucht oder blockiert sind – ein möglicher Hinweis auf hohe Nachfrage.
- Entire Homes/Apartments weisen ebenfalls eine grosse Spannbreite auf, mit einem Median leicht oberhalb der Private Rooms. Dies lässt vermuten, dass sie etwas seltener gebucht oder bewusster dosiert verfügbar gemacht werden – etwa durch Gastgeber, die sie auch selbst nutzen.
- Hotel Rooms zeigen eine deutlich engere Verteilung mit einem höheren Median und vergleichsweise hoher konstanter Verfügbarkeit (oft über 250 Tage). Dies spiegelt die professionell betriebene Natur dieser Angebote wider, welche meist permanent buchbar und weniger von privaten Nutzungszyklen abhängig sind. Gleichzeitig kann die hohe Verfügbarkeit aber auch auf niedrigere Auslastung hindeuten, wenn der Markt gesättigt ist oder Nachfrage fehlt.

In dieser Darstellung ist der Unterkunftstyp "Private Room" tendenziell am wenigsten verfügbar, was als Indikator für hohe Nachfrage interpretiert werden kann – entweder durch eine Vielzahl an Buchungen oder durch punktuell aktivierte Verfügbarkeit. Investitionen in dieses Segment könnten sich für Anbieter mit begrenzten Immobilienressourcen (z.B. einzelne Zimmer in bewohnten Wohnungen) lohnen.

### Verfügbarkeit in Abhängigkeit von der Unterkunftskapazität
Ein weiterer entscheidender Faktor bei der Bewertung des Marktpotenzials von Airbnb-Angeboten ist die Grösse bzw. Gästekapazität der Unterkunft – gemessen an der maximalen Anzahl von Personen, die eine Unterkunft gleichzeitig beherbergen kann (accommodates). Das folgende Balkendiagramm untersucht, wie sich die durchschnittliche jährliche Verfügbarkeit in Abhängigkeit dieser Kapazität verändert.

In [None]:
# Daten vorbereiten
df = listings_df[
    (listings_df["accommodates"].notnull()) &
    (listings_df["availability_365"].notnull()) &
    (listings_df["accommodates"] > 0)
]

# Aggregation und Sortierung nach Verfügbarkeit (absteigend)
availability_stats = df.groupby("accommodates")["availability_365"].mean().reset_index()
availability_stats_sorted = availability_stats.sort_values(by="availability_365", ascending=False)

# Plot in fig5 speichern
fig5, ax = plt.subplots(figsize=(12,6))
sns.barplot(
    data=availability_stats_sorted,
    x="accommodates",
    y="availability_365",
    color="#5DADE2",
    ax=ax
)

# Balkenbeschriftung
for index, row in availability_stats_sorted.iterrows():
    ax.text(
        x=index,
        y=row["availability_365"] + 5,
        s=f"{row['availability_365']:.0f} Tage",
        ha='center',
        va='bottom',
        fontsize=9,
        color='black'
    )

# Layout
ax.set_title("Durchschnittliche Verfügbarkeit nach Unterkunftskapazität", fontsize=14)
ax.set_xlabel("Maximale Gästeanzahl (accommodates)")
ax.set_ylabel("Ø Verfügbarkeit (Tage/Jahr)")
ax.grid(axis='y', linestyle='--', alpha=0.5)
fig5.tight_layout()


**Interpretation der Visualisierung:**

Die Balkengrafik zeigt auf den ersten Blick ein nicht-lineares Muster
- Listings mit einer Kapazität von 8 Personen (115 Tage) und 6 Personen (134 Tage) sind im Durchschnitt am wenigsten verfügbar – was auf eine sehr hohe Nachfrage und häufige Buchungen schliessen lässt.
- Ebenfalls vergleichsweise niedrige Verfügbarkeiten zeigen sich bei Unterkünften für 1–2 Gäste (ca. 187–188 Tage), was auf konstant gute Auslastung bei kleinen Einheiten hindeutet.
- Deutlich höhere Verfügbarkeiten zeigen sich hingegen bei Kapazitäten von 7 Gästen (254 Tage) und vor allem bei sehr grossen Unterkünften mit 14 Gästen (289 Tage) – hier scheint die Nachfrage (relativ zur Angebotskapazität) geringer oder die Zielgruppe eingeschränkt zu sein.
- Mittelgrosse Kapazitäten (z.B. 3–5 Gäste) weisen eine ausgeglichene Verfügbarkeit im Bereich von 200–217 Tagen auf – ein Zeichen für solide, aber nicht überdurchschnittliche Nachfrage.

Die Daten deuten darauf hin, dass vor allem Unterkünfte mit mittlerer bis hoher Kapazität (6–8 Gäste) besonders stark nachgefragt werden – wie anhand ihrer niedrigen durchschnittlichen Verfügbarkeit ersichtlich ist. Dies könnte daran liegen, dass diese Objekte ideal für Familien, kleine Gruppen oder Geschäftsreiseteams sind – also Zielgruppen mit überdurchschnittlicher Buchungshäufigkeit

Für die InvestZurich AG ergeben sich aus der Analyse der Unterkunftskapazitäten konkrete strategische Implikationen. Besonders attraktiv erscheinen Investitionen in Immobilien mit einer Kapazität für 6 bis 8 Personen, da diese Einheiten im Durchschnitt am häufigsten gebucht werden und somit eine besonders hohe Auslastung aufweisen. Auch kleinere Objekte für 1 bis 2 Gäste bleiben relevant, da sie eine solide Nachfrage zeigen und im Markt weit verbreitet sind – sie bieten insbesondere für Alleinreisende oder Paare eine geeignete Unterkunftsform. Mit Vorsicht zu bewerten sind hingegen sehr grosse Unterkünfte, etwa mit einer Kapazität für 14 Personen. Obwohl diese Angebote am Markt verfügbar sind, deutet ihre vergleichsweise hohe Verfügbarkeit darauf hin, dass sie seltener gebucht werden und somit ein erhöhtes Auslastungsrisiko bergen.

### Klassifikation von Top Performern mittels Random Forest
Um potenziell erfolgreiche Airbnb-Angebote systematisch identifizieren zu können, wurde ein Klassifikationsmodell auf Basis eines Random Forest Algorithmus entwickelt. Ziel war es, sogenannte Top Performer zu erkennen – also Angebote, die sowohl hinsichtlich ihres Preises als auch ihrer Anzahl an Bewertungen über dem Median liegen. Diese Kombination wurde als Indikator für wirtschaftlich erfolgreiche und gleichzeitig nachgefragte Angebote interpretiert.

Die Modellierung erfolgte in mehreren Schritten. Zunächst wurde das zugrunde liegende Datenset bereinigt und nur solche Einträge berücksichtigt, die vollständige Informationen zu Preis, Raumanzahl, Badezimmern, Unterkunftskapazität, Unterkunftstyp und Lage enthielten. Anschliessend wurde die Zielvariable top_performer binär kodiert: Ein Listing erhielt den Wert 1, wenn sowohl Preis als auch Anzahl der Bewertungen über dem jeweiligen Median lagen; andernfalls wurde es mit 0 klassifiziert.

Als erklärende Merkmale wurden fünf Variablen ausgewählt: accommodates, bedrooms, bathrooms, room_type sowie neighbourhood_group_cleansed. Kategorische Variablen wurden mittels Label-Encoding numerisch transformiert, bevor das Modell mit einem RandomForestClassifier (100 Bäume) trainiert wurde. Die Daten wurden im Verhältnis 70% zu 30% in Trainings- und Testdaten aufgeteilt.


In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report, ConfusionMatrixDisplay

# Daten vorbereiten
df = listings_df.copy()

# Filter und Bereinigung
df = df[
    (df["price"] > 0) & (df["price"] < 1000) &
    (df["number_of_reviews"].notnull()) &
    (df["bedrooms"].notnull()) &
    (df["bathrooms"].notnull()) &
    (df["accommodates"].notnull()) &
    (df["room_type"].notnull()) &
    (df["neighbourhood_group_cleansed"].notnull())
]

# Zielvariable konstruieren (Top Performer = Preis und Reviews über Median)
df["top_performer"] = (
    (df["price"] > df["price"].median()) &
    (df["number_of_reviews"] > df["number_of_reviews"].median())).astype(int)

# Feature-Auswahl
features = [
    "accommodates", "bedrooms", "bathrooms",
    "room_type", "neighbourhood_group_cleansed"
]

X = df[features].copy()
y = df["top_performer"]

# Kategorische Variablen encodieren
le_room = LabelEncoder()
le_neigh = LabelEncoder()
X["room_type"] = le_room.fit_transform(X["room_type"])
X["neighbourhood_group_cleansed"] = le_neigh.fit_transform(X["neighbourhood_group_cleansed"])

# Train/Test-Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Modell trainieren
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Evaluation
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

# Feature Importance visualisieren
importances = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False)

fig6, ax = plt.subplots(figsize=(10,6))
sns.barplot(
    x=importances.values,
    y=importances.index,
    color="#5DADE2",
    ax=ax
)

ax.set_title("Feature Importance")
ax.set_ylabel("Merkmale")
ax.grid(axis='x', linestyle='--', alpha=0.5)
fig6.tight_layout()

# Confusion Matrix
fig7, ax = plt.subplots(figsize=(6,6))
ConfusionMatrixDisplay.from_estimator(model, X_test, y_test, ax=ax, cmap="Blues")

ax.set_title("Confusion Matrix", fontsize=14)
ax.grid(False)
fig7.tight_layout()

Das Modell erzielte auf dem Testdatensatz eine Gesamtgenauigkeit von 85%. Der F1-Score für die Klasse der Top Performer (1) lag bei 0.59, während die Klasse der Nicht-Performer (0) einen deutlich höheren F1-Score von 0.91 erreichte. Diese Differenz verdeutlicht, dass das Modell besonders gut darin ist, weniger erfolgreiche Angebote zu erkennen, während die Identifikation von Top Performern anspruchsvoller bleibt. Die Confusion Matrix zeigt, dass 17 der 30 tatsächlichen Top Performer korrekt vorhergesagt wurden, während 13 nicht erkannt wurden. Gleichzeitig wurden 11 Objekte fälschlicherweise als Top Performer klassifiziert.

Besonders aufschlussreich ist die Analyse der Merkmalswichtigkeit im Modell: Das wichtigste Kriterium für die Klassifikation war die Unterkunftskapazität (accommodates), gefolgt von der Lage (neighbourhood_group_cleansed) und der Anzahl der Schlafzimmer. Geringere Bedeutung hatten dagegen die Anzahl der Badezimmer sowie der Unterkunftstyp.

Diese Ergebnisse bestätigen die vorherigen Analysen der Nachfrageverteilung: Erfolgreiche Airbnb-Angebote sind häufig in der Lage, mehrere Gäste zu beherbergen und befinden sich in bestimmten, gefragten Stadtteilen. Das Random Forest Modell bietet somit eine fundierte Grundlage, um Investitionsentscheidungen datenbasiert zu unterstützen. Es kann als ergänzendes Werkzeug dienen, um Immobilienangebote frühzeitig auf ihr Potenzial zur erfolgreichen Kurzzeitvermietung hin zu prüfen. Weiteres Optimierungspotenzial besteht durch die Integration zusätzlicher Einflussfaktoren wie z.B. Ausstattung, Bewertungsscores oder saisonale Schwankungen.

## Objective 2 – Preisstrategie & Ertragsprognose

Analyse der Preistreiber und Erstellung eines Regressionsmodells zur Quantifizierung des Einflusses verschiedener Merkmale auf den Preis `price`.

### Aufbereitung der Immobilienverkaufsdaten aus `SellingPrices`
`selling_prices_df` wurde bereits in "Step 2" geladen und inspiziert. Wir führen nun die Aggregation durch.

In [None]:
if 'selling_prices_df' in locals() or 'selling_prices_df' in globals():
    if not selling_prices_df.empty:
        # Stelle sicher, dass die relevanten Spalten vorhanden sind
        required_columns_sp = ['raumlang', 'hapreiswohnflaeche']
        if all(col in selling_prices_df.columns for col in required_columns_sp):

            # Kopie erstellen, um SettingWithCopyWarning zu vermeiden
            processed_selling_prices_df = selling_prices_df.copy()

            # Konvertiere 'hapreiswohnflaeche' in einen numerischen Typ, Fehler werden zu NaN
            processed_selling_prices_df['hapreiswohnflaeche'] = pd.to_numeric(processed_selling_prices_df['hapreiswohnflaeche'], errors='coerce')

            # Entferne Zeilen, bei denen 'raumlang' (Quartier) oder 'hapreiswohnflaeche' (Preis pro m²) NaN ist
            # oder 'raumlang' leer ist.
            processed_selling_prices_df.dropna(subset=['raumlang', 'hapreiswohnflaeche'], inplace=True)
            # Entferne Zeilen, wo 'raumlang' nur aus Leerzeichen besteht oder leer ist
            processed_selling_prices_df = processed_selling_prices_df[processed_selling_prices_df['raumlang'].str.strip() != '']


            # Gruppiere nach 'raumlang' (Quartier) und berechne den Median von 'hapreiswohnflaeche'
            selling_prices_agg_df = processed_selling_prices_df.groupby('raumlang')['hapreiswohnflaeche'].median().reset_index()

            # Umbenennen der Spalten für bessere Lesbarkeit und Konsistenz
            selling_prices_agg_df.rename(columns={
                'raumlang': 'Quartier', # Dies ist der Name des Quartiers aus den Verkaufsdaten
                'hapreiswohnflaeche': 'Median_Preis_pro_m2_Quartier'
            }, inplace=True)

            print("Aggregierte Immobilienpreise pro Quartier (Median Preis pro m²)")
            print(selling_prices_agg_df.head())

            # Überprüfen auf fehlende Werte im aggregierten DataFrame
            print("\nFehlende Werte in selling_prices_agg_df:")
            print(selling_prices_agg_df.isnull().sum())
        else:
            print(f"Fehler: Die erforderlichen Spalten ({', '.join(required_columns_sp)}) wurden nicht im DataFrame 'selling_prices_df' gefunden.")
            print("Vorhandene Spaltennamen in selling_prices_df:", selling_prices_df.columns)
else:
    print("Der DataFrame 'selling_prices_df' aus Step 2 ist leer.")

### Aufbereitung der Airbnb aus `Listings` für die Ertragsanalyse
Jetzt kümmern wir uns um die Ertragsseite. Wir verwenden deinen bereits in "Step 2" aufbereiteten DataFrame `df_analysis` (die Arbeitskopie von `listings_df`). Ziel ist es, die potenziellen jährlichen Einnahmen pro Airbnb-Angebot zu schätzen und diese dann pro Quartier zu aggregieren.

**Die relevanten Spalten in `df_analysis` sind:**
- Die definierte Standortspalte (gespeichert in der Variable `loc_col_for_analysis_notebook`)
- `price` (Preis pro Nacht)
- `availability_365` (Verfügbarkeit über 365 Tage), woraus wir eine Schätzung für die Belegung ableiten können

In [None]:
# df_analysis wurde bereits in deinem "Step 2" des Notebooks umfassend vorbereitet.
# loc_col_for_analysis_notebook wurde in deinem "Step 2" definiert und enthält den Namen der relevanten Standortspalte.

if 'df_analysis' in locals() or 'df_analysis' in globals():
    if not df_analysis.empty:
        # Stelle sicher, dass die relevante Standortspalte und Preisspalte existieren
        # loc_col_for_analysis_notebook sollte aus deinem vorherigen Code-Teil verfügbar sein.
        # Falls nicht, musst du sie hier erneut definieren oder sicherstellen, dass sie global ist.
        # Beispiel: loc_col_for_analysis_notebook = 'neighbourhood_cleansed' # oder was auch immer es war

        # Überprüfe, ob die Variable loc_col_for_analysis_notebook existiert
        if 'loc_col_for_analysis_notebook' not in locals() and 'loc_col_for_analysis_notebook' not in globals():
            print("Fehler: Variable 'loc_col_for_analysis_notebook' ist nicht definiert. Bitte stelle sicher, dass sie aus Step 2 übernommen wurde.")
            # Definiere einen Fallback oder brich ab, je nach Anforderung
            # loc_col_for_analysis_notebook = 'neighbourhood_cleansed' # Beispiel-Fallback

        required_cols_airbnb = [loc_col_for_analysis_notebook, 'price', 'availability_365']
        if all(col in df_analysis.columns for col in required_cols_airbnb):

            airbnb_revenue_df = df_analysis.copy()

            # Bereinigung und Konvertierung für die Berechnung
            airbnb_revenue_df['price'] = pd.to_numeric(airbnb_revenue_df['price'], errors='coerce')
            airbnb_revenue_df['availability_365'] = pd.to_numeric(airbnb_revenue_df['availability_365'], errors='coerce')

            # Entferne Einträge, wo Preis oder Verfügbarkeit NaN sind oder Standort leer ist
            airbnb_revenue_df.dropna(subset=[loc_col_for_analysis_notebook, 'price', 'availability_365'], inplace=True)
            airbnb_revenue_df = airbnb_revenue_df[airbnb_revenue_df[loc_col_for_analysis_notebook].astype(str).str.strip() != '']

            # Berechnung der geschätzten jährlichen Einnahmen pro Listing
            # Annahme: Tage, an denen das Listing NICHT verfügbar ist (availability_365), sind gebuchte Tage.
            # Dies ist eine Vereinfachung, da Tage auch geblockt sein könnten.
            # Eine konservativere Annahme für die Belegung wäre z.B. 50% der verfügbaren Tage oder (365-availability_365)
            # Hier verwenden wir (365 - availability_365) als Schätzung für gebuchte Tage.
            # Wir stellen sicher, dass gebuchte Tage nicht negativ werden, falls availability_365 > 365 (sollte nicht sein)
            airbnb_revenue_df['estimated_booked_days_yearly'] = (365 - airbnb_revenue_df['availability_365']).clip(lower=0)
            airbnb_revenue_df['estimated_yearly_revenue'] = airbnb_revenue_df['price'] * airbnb_revenue_df['estimated_booked_days_yearly']

            # Einige Listings könnten einen Preis von 0 haben oder 0 gebuchte Tage, was zu 0 Einnahmen führt.
            # Überprüfe, ob estimated_yearly_revenue valide Werte hat (nicht negativ)
            airbnb_revenue_df = airbnb_revenue_df[airbnb_revenue_df['estimated_yearly_revenue'] >= 0]

            # Aggregation der geschätzten jährlichen Einnahmen pro Quartier (Median)
            # Wir verwenden hier den Median, um Ausreissern weniger Gewicht zu geben.
            airbnb_revenue_agg_df = airbnb_revenue_df.groupby(loc_col_for_analysis_notebook)['estimated_yearly_revenue'].median().reset_index()

            airbnb_revenue_agg_df.rename(columns={
                loc_col_for_analysis_notebook: 'Quartier', # Umbenennung für Konsistenz beim Mergen
                'estimated_yearly_revenue': 'Median_Estimated_Yearly_Revenue_Airbnb'
            }, inplace=True)

            print("\nAggregierte geschätzte jährliche Airbnb-Einnahmen pro Quartier (Median)")
            print(airbnb_revenue_agg_df.head())

            print(f"\nAnzahl der Quartiere im Airbnb-Ertrags-DataFrame: {airbnb_revenue_agg_df.shape[0]}")

            print("\nFehlende Werte in airbnb_revenue_agg_df:")
            print(airbnb_revenue_agg_df.isnull().sum())
else:
    print("Der DataFrame 'df_analysis' wurde in Step 2 nicht definiert oder ist nicht zugänglich.")

### Zusammenführen der Datensätze
In diesem Schritt werden wir `selling_prices_agg_df` und `airbnb_revenue_agg_df` über die gemeinsame Spalte `Quartier` zusammenführen.

In [None]:
# selling_prices_agg_df und airbnb_revenue_agg_df sollten nun existieren.
if ('selling_prices_agg_df' in locals() or 'selling_prices_agg_df' in globals()) and \
   ('airbnb_revenue_agg_df' in locals() or 'airbnb_revenue_agg_df' in globals()):

    if not selling_prices_agg_df.empty and not airbnb_revenue_agg_df.empty:

        # Zusammenführen der beiden DataFrames über die Spalte 'Quartier'
        # Wir verwenden einen 'inner' Merge, um nur Quartiere zu behalten, für die wir beide Arten von Daten haben.
        # Alternativ könnte man 'outer' verwenden und die fehlenden Werte später behandeln.
        combined_analysis_df = pd.merge(selling_prices_agg_df, airbnb_revenue_agg_df, on='Quartier', how='inner')

        print("Kombinierter DataFrame aus Immobilienpreisen und Airbnb-Erträgen")
        print(combined_analysis_df.head())

        print(f"\nShape des kombinierten DataFrames: {combined_analysis_df.shape}")
        print(f"Dies bedeutet, wir haben für {combined_analysis_df.shape[0]} Quartiere sowohl Preis- als auch Ertragsdaten.")

        print("\nFehlende Werte im combined_analysis_df:")
        print(combined_analysis_df.isnull().sum())

        # Kurze Überprüfung der Datentypen, um sicherzustellen, dass die numerischen Spalten korrekt sind
        print("\nDatentypen im combined_analysis_df:")
        print(combined_analysis_df.dtypes)

    else:
        print("Einer der DataFrames (selling_prices_agg_df oder airbnb_revenue_agg_df) ist leer.")
else:
    print("selling_prices_agg_df oder airbnb_revenue_agg_df wurde nicht gefunden.")

### Rentabilitätsanalyse

In diesem Schritt werden wir anhand des zusammengeführten DataFrame `combined_analysis_df` eine **Rentabilitätskennzahl** berechnen, um die Quartiere direkter vergleichen zu können. Wir nennen sie `Revenue_Yield_Proxy`. Sie wird als das Verhältnis der medianen jährlichen Airbnb-Einnahmen zum medianen Quadratmeterpreis der Immobilie berechnet. Ein höherer Wert dieser Kennzahl deutet auf eine potenziell bessere Rentabilität hin (höhere Einnahmen im Verhältnis zum Preis pro m²).

In [None]:
# combined_analysis_df sollte nun existieren.
# Wir benötigen auch matplotlib und seaborn für die Visualisierungen.
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np # Für den Fall, dass wir Inf-Werte behandeln müssen

if 'combined_analysis_df' in locals() or 'combined_analysis_df' in globals():
    if not combined_analysis_df.empty:

        # Berechnung der Rentabilitätskennzahl (Revenue Yield Proxy)
        # Dieser Proxy gibt an, wie viel des Quadratmeterpreises potenziell durch jährliche Airbnb-Einnahmen "gedeckt" wird.
        # Wir müssen sicherstellen, dass Median_Preis_pro_m2_Quartier nicht Null ist, um DivisionByZeroError zu vermeiden.
        if (combined_analysis_df['Median_Preis_pro_m2_Quartier'] == 0).any():
            print("Warnung: Einige Quartiere haben einen Median_Preis_pro_m2_Quartier von 0. Diese werden NaN/Inf in der Renditekennzahl ergeben.")

        # Ersetze 0 im Nenner temporär durch NaN, um Inf zu vermeiden, und fülle dann ggf. mit 0 oder behandle es.
        # In diesem Fall ist es unwahrscheinlich, dass der Preis 0 ist, aber eine gute Praxis.
        combined_analysis_df['Revenue_Yield_Proxy'] = combined_analysis_df['Median_Estimated_Yearly_Revenue_Airbnb'] / combined_analysis_df['Median_Preis_pro_m2_Quartier'].replace(0, np.nan)

        # Falls durch die obige Ersetzung NaNs entstanden sind (weil Preis 0 war), könnten wir sie mit 0 füllen.
        # combined_analysis_df['Revenue_Yield_Proxy'].fillna(0, inplace=True)

        # --- Visualisierung ---

        # a) Balkendiagramm für den Revenue_Yield_Proxy pro Quartier
        plt.figure(figsize=(12, 8))
        sns.barplot(x='Revenue_Yield_Proxy', y='Quartier', data=combined_analysis_sorted_df, palette='viridis')
        plt.title('Potenzielle Rentabilität (Revenue Yield Proxy) nach Quartier')
        plt.xlabel('Revenue Yield Proxy (Median Jährl. Airbnb-Ertrag / Median Preis pro m²)')
        plt.ylabel('Quartier')
        plt.tight_layout()
        plt.show()

        print("DataFrame mit Rentabilitätskennzahl (Revenue_Yield_Proxy)")
        # Sortieren nach der neuen Kennzahl, um die "Top"-Quartiere zu sehen
        combined_analysis_sorted_df = combined_analysis_df.sort_values(by='Revenue_Yield_Proxy', ascending=False)
        print(combined_analysis_sorted_df)

    else:
        print("Der DataFrame 'combined_analysis_df' ist leer.")
else:
    print("Der DataFrame 'combined_analysis_df' wurde nicht gefunden.")

Das Balkendiagramm `Potenzielle Rentabilität (Revenue Yield Proxy) nach Quartier` visualisiert das Ranking aus dem sortierten DataFrame. Kreis 12 ist klar als Quartier mit dem höchsten Revenue_Yield_Proxy zu erkennen, gefolgt von Kreis 4 und Kreis 6. Die Grafik macht die Unterschiede in der potenziellen Rentabilität zwischen den Quartieren sehr deutlich und ist ideal, um die attraktivsten Standorte schnell zu identifizieren.

Der DataFrame `combined_analysis_sorted_df` zeigt die 12 Quartiere, für die wir vollständige Daten haben, sortiert nach dem `Revenue_Yield_Proxy` in absteigender Reihenfolge. Diese Kennzahl stellt das Verhältnis der medianen geschätzten jährlichen Airbnb-Einnahmen zum medianen Quadratmeterpreis der Immobilien dar. Ein höherer Wert ist hier potenziell besser.

**Spitzenreiter:** `Kreis 12` weist mit einem `Revenue_Yield_Proxy` von ca. 3.78 den höchsten Wert auf. Das bedeutet, dass hier die geschätzten jährlichen Airbnb-Einnahmen im Verhältnis zum Quadratmeterpreis am höchsten sind. Dies könnte auf relativ moderate Immobilienpreise bei gleichzeitig guten Einnahmemöglichkeiten hindeuten.

**Weitere attraktive Quartiere:** `Kreis 4` (ca. 2.66) und `Kreis 6` (ca. 2.58) folgen dahinter und zeigen ebenfalls ein überdurchschnittlich gutes Verhältnis von Einnahmen zu Immobilienpreisen.

**Mittelfeld:** Quartiere wie `Kreis 2`, `Kreis 10` und `Kreis 3` bewegen sich im Mittelfeld mit Werten zwischen ca. 2.31 und 2.35.

**Unteres Ende:** `Kreis 1` hat mit ca. 1.60 den niedrigsten `Revenue_Yield_Proxy`. Dies ist nicht überraschend, da `Kreis 1` bekanntermassen sehr hohe Immobilienpreise hat (Altstadt), die durch die Airbnb-Einnahmen (obwohl absolut gesehen auch hoch) verhältnismässig weniger stark "aufgefangen" werden. Auch `Kreis 9` und `Kreis 7` zeigen hier vergleichsweise niedrigere Werte.

### Korrelationsanalyse Immobilienpreis vs. Airbnb-Einnahmen

In diesem weiterführenden Schritt werden wir die Korrelation zwischen den Immobilienpreisen und den Airbnb-Einnahmen untersuchen.

In [None]:
        # Korrelationsanalyse
        correlation_matrix = combined_analysis_df[['Median_Preis_pro_m2_Quartier', 'Median_Estimated_Yearly_Revenue_Airbnb', 'Revenue_Yield_Proxy']].corr()
        print("\nKorrelationsmatrix:")
        print(correlation_matrix)

        # --- Visualisierungen ---

        # b) Streudiagramm: Immobilienpreise vs. Airbnb-Einnahmen
        plt.figure(figsize=(10, 7))
        sns.scatterplot(x='Median_Preis_pro_m2_Quartier', y='Median_Estimated_Yearly_Revenue_Airbnb', hue='Quartier', size='Revenue_Yield_Proxy', sizes=(50,500), data=combined_analysis_df, legend='brief', palette='muted')
        plt.title('Immobilienpreise pro m² vs. Geschätzte jährliche Airbnb-Einnahmen')
        plt.xlabel('Median Preis pro m² (CHF)') # Annahme Euro, anpassen falls andere Währung
        plt.ylabel('Median geschätzte jährl. Airbnb-Einnahmen (CHF)')
        plt.grid(True)
        # Legende ausserhalb des Plots platzieren, um Überlappung zu vermeiden
        plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0.)
        plt.tight_layout(rect=[0,0,0.85,1]) # Platz für Legende schaffen
        plt.show()

**Immobilienpreis vs. Airbnb-Einnahmen:**
- `Median_Preis_pro_m2_Quartier` und `Median_Estimated_Yearly_Revenue_Airbnb` weisen eine Korrelation von ca. 0.30 auf.
- Es besteht eine schwache positive Korrelation. Das heisst, es gibt eine leichte Tendenz, dass in Quartieren mit höheren Immobilienpreisen auch tendenziell höhere Airbnb-Einnahmen erzielt werden. Der Zusammenhang ist jedoch nicht stark ausgeprägt, was darauf hindeutet, dass hohe Immobilienpreise nicht automatisch die höchsten Airbnb-Erträge garantieren.

Das Streudiagramm `Immobilienpreise pro m² vs. Geschätzte jährliche Airbnb-Einnahmen` positioniert die Quartiere im Preis-Ertrags-Raum.
- `Kreis 1` befindet sich oben rechts: höchste Preise und hohe (aber nicht die höchsten) Einnahmen.
- `Kreis 12` sticht heraus: Es hat nicht die niedrigsten Immobilienpreise, aber die höchsten medianen Airbnb-Einnahmen im Datensatz, was zu seiner führenden Position beim `Revenue_Yield_Proxy` führt.
- Die Punktgrösse, die den `Revenue_Yield_Proxy` darstellt, unterstreicht visuell, welche Quartiere relativ zu ihrem Preisniveau hohe Einnahmen generieren (grössere Blasen sind hier besser). `Kreis 12` sollte hier die grösste Blase haben.
Man kann Cluster oder Ausreisser erkennen und die allgemeine Verteilung besser verstehen.

**Immobilienpreis vs. Rentabilitätskennzahl:**
- `Median_Preis_pro_m2_Quartier` und `Revenue_Yield_Proxy` weisen eine Korrelation von ca. -0.48 auf.
- Hier zeigt sich eine moderate negative Korrelation. Dies bedeutet, dass mit steigenden Quadratmeterpreisen der `Revenue_Yield_Proxy tendenziell sinkt. Sehr teure Quartiere haben es also schwerer, einen hohen relativen "Ertrag" im Sinne unserer Kennzahl zu erzielen, da die hohen Preise die Einnahmen stark relativieren.

**Airbnb-Einnahmen vs. Rentabilitätskennzahl:**
- `Median_Estimated_Yearly_Revenue_Airbnb` und `Revenue_Yield_Proxy` weisen eine Korrelation von ca. 0.67 auf.
`Diese moderate bis starke positive Korrelation ist logisch. Höhere absolute Airbnb-Einnahmen führen ceteris paribus (bei gleichbleibenden Preisen) zu einem besseren (höheren) Revenue_Yield_Proxy. Dies unterstreicht, dass hohe Einnahmen ein wichtiger Treiber für die Rentabilität sind, aber immer im Kontext der Immobilienpreise gesehen werden müssen.

In [None]:
        # c) Heatmap der Korrelationsmatrix
        plt.figure(figsize=(8, 6))
        sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)
        plt.title('Korrelationsmatrix der Schlüsselmetriken')
        plt.show()

Die Headmap `Korrelationsmatrix der Schlüsselmetriken` ist die grafische Darstellung der zuvor diskutierten Korrelationsmatrix.

*Rottöne zeigen positive Korrelationen, Blautöne negative. Die Intensität der Farbe spiegelt die Stärke der Korrelation wider.*

**Die Heatmap bestätigt visuell:**
- Die moderate negative Korrelation (bläulich) zwischen `Median_Preis_pro_m2_Quartier` und `Revenue_Yield_Proxy`.
- Die moderate bis starke positive Korrelation (rötlich) zwischen `Median_Estimated_Yearly_Revenue_Airbnb` und `Revenue_Yield_Proxy`.
- Die schwach positive Korrelation (leicht rötlich) zwischen `Median_Preis_pro_m2_Quartier` und `Median_Estimated_Yearly_Revenue_Airbnb`.
- Die Heatmap macht es einfach, die wichtigsten Zusammenhänge auf einen Blick zu erfassen, ohne die Zahlen direkt lesen zu müssen.

## Objective 3 – Performance Optimierung & Benchmarking

Ziel dieses Untersuchungsabschnitts ist es, die zentralen Erfolgsfaktoren für den Superhost-Status auf Airbnb datenbasiert zu identifizieren. Im Fokus steht die Frage, welche quantifizierbaren Merkmale Top-Performer (Superhosts) von anderen Gastgebern im Raum Zürich unterscheiden – und wie die InvestZurich AG diese Erkenntnisse gezielt zur Optimierung ihrer eigenen Objekte nutzen kann.

Der Superhost-Status ist ein Qualitätssiegel innerhalb des Airbnb-Ökosystems, das mit höherer Sichtbarkeit, gesteigerter Buchungswahrscheinlichkeit und verbessertem Gästevertrauen einhergeht. Für professionelle Anbieter wie die InvestZurich AG stellt dieser Status daher einen strategisch bedeutsamen Wettbewerbsvorteil dar.

In einem ersten Schritt wird untersucht, welche Eigenschaften (z.B. Antwortzeit, Buchungsannahmequote, Bewertungsniveau oder Gastgeberaktivität) statistisch signifikant mit dem Superhost-Status korrelieren. Anschliessend werden mittels Klassifikationsmodellen – wie etwa Entscheidbäumen oder Random Forests – die einflussreichsten Prädiktoren herausgearbeitet.

Das Ziel besteht darin, auf Grundlage dieser Daten konkrete Handlungspfade für die InvestZurich AG abzuleiten, etwa zur Verbesserung von Gastgebermetriken oder zur internen Qualitätssicherung. Der Fokus liegt dabei nicht nur auf reiner Leistungsdiagnostik, sondern auf einer operationalisierbaren Optimierungsstrategie.
?

Die nachfolgende Analyse visualisiert zentrale Merkmale, die signifikant mit dem Superhost-Status zusammenhängen – und bildet damit die Grundlage für gezielte Massnahmen zur Performance-Steigerung.


In [None]:
from airbnb_analysis_service import AirbnbAnalysisService
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.metrics import roc_auc_score, roc_curve

if __name__ == "__main__":

    # create service class
    airbnbAnalysis = AirbnbAnalysisService()

    # get all tables in form of a list
    listings = airbnbAnalysis.get_listings()

    print(f"listings {listings[0]}")

    # Schritt 1: Umwandeln in DataFrames
    listings_df = pd.DataFrame([l.__dict__ for l in listings])

### Datenaufbereitung

Im Rahmen der Datenaufbereitung wurden zunächst 22 relevante Merkmale ausgewählt, die potenziell Einfluss auf den Superhost-Status haben. Dazu zählen hostbezogene Informationen (z. B. Antwortzeit, Annahmequote, Verifizierung), Objektmerkmale (wie Zimmeranzahl, Preis, Mindestaufenthalt) sowie Bewertungskennzahlen und Aktivitätsindikatoren (z. B. Anzahl Bewertungen pro Monat, durchschnittliche Bewertung).

Prozentangaben wie die Antwort- und Annahmequote wurden in dezimale Werte umgewandelt, um sie numerisch auswerten zu können. Anschliessend wurden alle Datensätze mit fehlendem Superhost-Status entfernt, um eine saubere Klassifikationsbasis zu schaffen. Der Zielwert wurde anschliessend in eine binäre Variable überführt (1 = Superhost, 0 = Nicht-Superhost).

Fehlende numerische Werte wurden mit dem Median der jeweiligen Spalte ersetzt, um Ausreisserverzerrungen zu vermeiden. Schliesslich wurden ausgewählte kategoriale Merkmale, darunter etwa die Zimmerart oder Buchbarkeit, mittels Label Encoding in numerische Kategorien umgewandelt, sodass sie für maschinelles Lernen geeignet sind.

In [None]:
cols = [
    'host_is_superhost', 'host_response_time', 'host_response_rate',
    'host_acceptance_rate_percent', 'host_total_listings_count', 'host_has_profile_pic',
    'host_identity_verified', 'room_type', 'accommodates', 'bathrooms',
    'bedrooms', 'beds', 'price', 'minimum_nights', 'number_of_reviews',
    'review_scores_rating', 'review_scores_cleanliness', 'review_scores_communication',
    'review_scores_value', 'instant_bookable', 'availability_365', 'reviews_per_month'
]
listings_df = listings_df[cols].copy()
def convert_percent(x):
    try:
        if isinstance(x, str) and '%' in x:
            return float(x.strip('%')) / 100
        return float(x) / 100
    except:
        return np.nan

listings_df['host_response_rate'] = listings_df['host_response_rate'].apply(convert_percent)

listings_df['host_acceptance_rate_percent'] = listings_df['host_acceptance_rate_percent'].apply(convert_percent)

listings_df = listings_df[listings_df['host_is_superhost'].notna()]

listings_df['host_is_superhost'] = listings_df['host_is_superhost'].astype(str).str.lower().map({'true': 1, 'false': 0, 't': 1, 'f': 0})

listings_df.fillna(listings_df.median(numeric_only=True), inplace=True)

for col in ['host_response_time', 'host_has_profile_pic', 'host_identity_verified', 'instant_bookable', 'room_type']:
    listings_df[col] = LabelEncoder().fit_transform(listings_df[col].astype(str))

### Überblick über die Verteilung des Superhost-Status

Zur ersten quantitativen Einschätzung wurde analysiert, wie viele Anbieter im Datensatz den Superhost-Status tragen und wie hoch deren Anteil im Vergleich zu regulären Hosts ist. Dazu wurden sowohl die absoluten Häufigkeiten als auch die prozentuale Verteilung berechnet.

Anschliessend wurde die Verteilung visuell mittels Balkendiagramm dargestellt. Die zweiseitige Darstellung zeigt deutlich, wie stark (oder schwach) Superhosts im Verhältnis zur Gesamtmenge vertreten sind. Diese Basisanalyse ist wichtig, um potenzielle Klassenungleichgewichte zu erkennen, die bei der späteren Modellierung berücksichtigt werden müssen.

In [None]:
print("Anzahl Superhosts vs. Nicht-Superhosts:")
print(listings_df['host_is_superhost'].value_counts())
print("\nProzentuale Verteilung:")
print(listings_df['host_is_superhost'].value_counts(normalize=True) * 100)

plt.figure(figsize=(6,4))
sns.countplot(x='host_is_superhost', data=listings_df)
plt.title("Verteilung Superhost vs. andere")
plt.xticks([0,1], ['Nicht Superhost', 'Superhost'])
plt.show()

Im betrachteten Datensatz sind rund 34 % der Anbieter Superhosts, während etwa 66 % keine Superhosts sind. Dies zeigt, dass der Superhost-Status zwar kein Standard, aber auch nicht selten ist – es handelt sich um eine bedeutende Teilgruppe.

Diese Verteilung weist auf eine gewisse Klassenungleichheit hin, was bei der Modellierung beachtet werden sollte (z. B. durch Balancing-Strategien). Gleichzeitig zeigt die relativ hohe Quote von Superhosts, dass der Status erreichbar ist – sofern bestimmte Merkmale oder Verhaltensweisen erfüllt werden.

Für InvestZurich AG bedeutet das: Der Superhost-Status stellt ein realistisches Ziel dar, das auf Grundlage datenbasierter Erkenntnisse gezielt angestrebt werden kann.

### Merkmalsvergleich zwischen Superhosts und Nicht-Superhosts

In diesem Abschnitt wird untersucht, wie sich die numerischen Merkmale zwischen Superhosts und Nicht-Superhosts unterscheiden. Dazu werden zunächst die Mittelwerte aller numerischen Variablen separat für beide Gruppen berechnet und gegenübergestellt.

Anschliessend wird für jedes Merkmal die prozentuale Differenz berechnet – also wie stark sich der Mittelwert bei Superhosts im Vergleich zu Nicht-Superhosts unterscheidet. Diese Analyse zeigt, welche Faktoren bei Superhosts überdurchschnittlich stark ausgeprägt sind und somit potenziell entscheidende Erfolgsfaktoren darstellen.

Die 15 Merkmale mit dem grössten relativen Unterschied werden in einem Balkendiagramm visualisiert. Dadurch wird sichtbar, welche quantitativen Eigenschaften besonders stark mit dem Superhost-Status assoziiert sind – z. B. häufige Bewertungen, hohe Sauberkeit oder hohe Buchungsaktivität. Diese Erkenntnisse bilden eine fundierte Grundlage für die Ableitung konkreter Optimierungsmassnahmen.

In [None]:
grouped_stats = listings_df.groupby('host_is_superhost').mean(numeric_only=True).T
diff = (grouped_stats[1] - grouped_stats[0]) / grouped_stats[0] * 100
print("\nMittelwerte der Merkmale nach Superhost-Status:")
print(grouped_stats.sort_values(by=1, ascending=False))

plt.figure(figsize=(10, 6))
diff.sort_values(ascending=False).head(15).plot(kind='bar')
plt.title("Top 15 Merkmale mit grösstem Unterschied (Superhost vs. Nicht-Superhost)")
plt.ylabel("Differenz in %")
plt.xlabel("Merkmal")
plt.xticks(rotation=75)
plt.grid(True)
plt.tight_layout()
plt.show()

Die Auswertung zeigt deutliche Unterschiede zwischen Superhosts und Nicht-Superhosts in mehreren zentralen Merkmalen. Am stärksten unterscheiden sich die Gruppen bei folgenden Aspekten:

- Anzahl Bewertungen (number_of_reviews): Superhosts erhalten im Durchschnitt mehr als doppelt so viele Bewertungen wie Nicht-Superhosts (+108 %). Dies deutet auf eine höhere Buchungsaktivität und Erfahrung hin.
- Sofortbuchbarkeit (instant_bookable): Superhosts bieten deutlich häufiger die Möglichkeit zur Sofortbuchung an (+67 %), was die Buchungshürde für Gäste senkt und Vertrauen signalisiert.
- Anzahl gelisteter Objekte (host_total_listings_count): Superhosts verwalten im Schnitt mehr Objekte (+40 %), was darauf hinweist, dass viele von ihnen Airbnb professionell nutzen.
- Monatliche Bewertungsfrequenz (reviews_per_month): Auch hier zeigen sich höhere Werte bei Superhosts (+35 %), ein weiterer Hinweis auf kontinuierliche Auslastung und Gästekontakt.
- Antwortzeit (host_response_time): Superhosts reagieren schneller (höherer numerischer Wert entspricht z. B. "innerhalb weniger Stunden") – ein Plus von 28 % im Vergleich zur Kontrollgruppe.

Auch bei Bewertungsdimensionen wie Sauberkeit, Kommunikation und Wertigkeit zeigen sich tendenziell bessere Werte bei Superhosts, wenn auch mit geringerem absoluten Unterschied.

Zusätzlich fällt auf, dass Superhosts kürzere Mindestaufenthalte zulassen, was die Buchungshäufigkeit erhöhen kann. Auch die Antwort- und Annahmequote ist bei ihnen deutlich höher, was auf Verlässlichkeit und aktives Hosting hinweist.

Die Mittelwertanalyse zeigt, dass Superhosts in mehreren operativen Bereichen systematisch besser abschneiden als andere Hosts. Besonders stark unterscheiden sie sich bei der Anzahl an Bewertungen, der Sofortbuchbarkeit, der Gastgeberaktivität und dem Antwortverhalten. Diese Muster deuten auf professionell geführte, effizient organisierte Unterkünfte hin.

**Für InvestZurich AG ergeben sich daraus folgende strategische Ansätze:**
- Mehr Bewertungen generieren, z. B. durch aktives Bewertungsmanagement.
- Sofortbuchung aktivieren, um die Buchungsquote zu erhöhen.
- Reaktionszeiten verbessern, idealerweise durch automatisierte Antworten.
- Mindestaufenthalte reduzieren, um spontane Buchungen zu ermöglichen.
- Gastgeberprozesse professionalisieren, vor allem bei wachsender Objektanzahl.

### Verteilungsanalyse

Im Anschluss an die Mittelwertanalyse bietet eine detaillierte Betrachtung der Verteilungen zentraler Merkmale zusätzliche Einblicke in die Unterschiede zwischen Superhosts und Nicht-Superhosts. Während Durchschnittswerte erste Hinweise auf potenziell relevante Einflussfaktoren liefern, zeigen Boxplots auf, wie sich diese Merkmale innerhalb der Gruppen tatsächlich verteilen.

Für neun besonders relevante Variablen – darunter Antwortverhalten, Bewertungsqualität, Buchungsaktivität und Verfügbarkeit – wird die Verteilung jeweils getrennt nach Superhost-Status visualisiert. So lassen sich Muster erkennen, die nicht nur im Mittelwert, sondern auch in der Streuung und Konsistenz deutlich voneinander abweichen.

In [None]:
features = [
    'host_response_time', 'host_response_rate', 'host_acceptance_rate_percent',
    'review_scores_rating', 'review_scores_cleanliness', 'review_scores_communication',
    'review_scores_value', 'availability_365', 'reviews_per_month'
]

# Plot-Layout automatisch berechnen
n_cols = 3
n_rows = -(-len(features) // n_cols)  # Aufrunden

plt.figure(figsize=(5 * n_cols, 4 * n_rows))

for i, feature in enumerate(features):
    plt.subplot(n_rows, n_cols, i + 1)
    sns.boxplot(
    x='host_is_superhost',
    y=feature,
    data=listings_df,
    hue='host_is_superhost',
    palette='pastel',
    legend=False
)

    plt.title(feature.replace('_', ' ').capitalize())
    plt.xlabel("Superhost")
    plt.ylabel("")  # optional für kompaktere Darstellung
    plt.xticks([0, 1], ['Nein', 'Ja'])

plt.tight_layout()
plt.show()

fig90, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.boxplot(x='host_is_superhost', y='host_response_rate', data=listings_df,
            hue='host_is_superhost', palette='pastel', ax=axes[0])
axes[0].set_title("Antwortrate nach Superhost-Status")
axes[0].set_xlabel("Superhost")
axes[0].set_ylabel("Antwortrate")
axes[0].set_xticks([0, 1])
axes[0].set_xticklabels(['Nein', 'Ja'])
axes[0].get_legend().remove()

sns.boxplot(x='host_is_superhost', y='host_acceptance_rate_percent', data=listings_df,
            hue='host_is_superhost', palette='pastel', ax=axes[1])
axes[1].set_title("Annahmequote nach Superhost-Status")
axes[1].set_xlabel("Superhost")
axes[1].set_ylabel("Annahmequote")
axes[1].set_xticks([0, 1])
axes[1].set_xticklabels(['Nein', 'Ja'])
axes[1].get_legend().remove()

plt.tight_layout()

fig91, ax91 = plt.subplots(figsize=(6, 5))

reviews = listings_df.groupby('host_is_superhost')['number_of_reviews'].mean()
ax91.bar(['Nicht-Superhost', 'Superhost'], reviews, color='slateblue')
ax91.set_title("Durchschnittliche Anzahl Bewertungen")
ax91.set_ylabel("Anzahl Bewertungen")
ax91.grid(axis='y')

plt.tight_layout()

features = ['review_scores_cleanliness', 'review_scores_communication', 'review_scores_rating']
fig92, axes3 = plt.subplots(1, 3, figsize=(15, 5))

for i, feature in enumerate(features):
    sns.boxplot(x='host_is_superhost', y=feature, data=listings_df,
                hue='host_is_superhost', palette='pastel', ax=axes3[i])
    axes3[i].set_title(feature.replace('_', ' ').capitalize())
    axes3[i].set_xlabel("Superhost")
    axes3[i].set_ylabel("")
    axes3[i].set_xticks([0, 1])
    axes3[i].set_xticklabels(['Nein', 'Ja'])
    axes3[i].get_legend().remove()

plt.tight_layout()

Superhosts unterscheiden sich in mehreren zentralen operativen Kennzahlen systematisch von regulären Gastgeber:innen.

Ein besonders markanter Unterschied besteht bei der Antwortrate: Superhosts erreichen Werte nahe der maximalen Schwelle (ca. 1.0), während die Werte bei Nicht-Superhosts deutlich stärker streuen. Auch die Annahmequote ist bei Superhosts im Schnitt deutlich höher – ein Hinweis auf professionell geführte Buchungsprozesse und verlässliche Kalenderpflege.

Die durchschnittliche Anzahl an Bewertungen ist bei Superhosts fast doppelt so hoch. Zwar ist dies nicht als Ursache des Superhost-Status zu interpretieren, es spricht aber für eine höhere Buchungsfrequenz und grössere Gästeerfahrung. Damit wird die Bewertungshäufigkeit zu einem indirekten Indikator für operative Aktivität und Präsenz** auf der Plattform.

Auch bei den **Bewertungsdimensionen** – insbesondere Sauberkeit, Kommunikation und Gesamtbewertung – schneiden Superhosts signifikant besser ab. Die Boxplots zeigen nicht nur höhere Mittelwerte, sondern auch geringere Streuung, was auf ein stabiles und standardisiertes Qualitätsniveau hinweist.
### Klassifikationsmodell zur Vorhersage des Superhost-Status

Im folgenden Abschnitt wird ein Klassifikationsmodell aufgebaut, das vorhersagen soll, ob ein Gastgeber den Superhost-Status erreicht. Dafür wird ein Random Forest Classifier verwendet.

Zunächst werden die Daten in Trainings- und Testmengen unterteilt, um die Modellleistung realistisch evaluieren zu können. Nach dem Training des Modells erfolgt eine Klassifikation auf Basis der Testdaten. Die Modellgüte wird anhand klassischer Metriken wie Precision, Recall und F1-Score ausgewertet.

Darüber hinaus liefert das Modell Einblick in die Feature Importance – also die relative Bedeutung einzelner Merkmale für die Entscheidungsfindung des Modells. Diese Information ist besonders wertvoll, um zu verstehen, welche Variablen am stärksten zur Unterscheidung von Superhosts und Nicht-Superhosts beitragen. Die wichtigsten Merkmale werden abschliessend in einem Balkendiagramm visualisiert.

In [None]:
X = listings_df.drop('host_is_superhost', axis=1)
y = listings_df['host_is_superhost']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print("Classification Report:\n")
print(classification_report(y_test, y_pred))

fig93, ax4 = plt.subplots(figsize=(12, 6))
indices = np.argsort(model.feature_importances_)[::-1]
sns.barplot(x=np.array(X.columns)[indices], y=model.feature_importances_[indices], ax=ax4, color='C0')
ax4.set_title("Feature Importance im Random Forest Modell")
ax4.set_xticks(range(len(X.columns)))
ax4.set_xticklabels(np.array(X.columns)[indices], rotation=90)
plt.tight_layout()

**Bedeutende Einflussfaktoren:**

1. **`host_total_listings_count`:**
      Hosts mit mehreren Objekten weisen häufiger den Superhost-Status auf. Dies ist weniger ein Hinweis darauf, dass die Anzahl der vermieteten Wohnungen selbst entscheidend ist, sondern vielmehr darauf, dass diese Hosts Airbnb gewerblich oder zumindest professioneller betreiben. Dadurch sind sie tendenziell besser organisiert und schneiden in anderen relevanten Faktoren wie Reaktionszeit, Buchungsannahme und Gästekommunikation besser ab. Die Korrelation könnte zudem dadurch beeinflusst sein, dass erfahrene Gastgeber sich proaktiver um den Superhost-Status bemühen oder besser mit den Anforderungen der Plattform vertraut sind.

2. **`host_response_time`:** und **`host_acceptance_rate_percent`**
   Eine schnelle Reaktion auf Anfragen und eine hohe Annahmequote gelten als zentrale Anforderungen, da sie Verlässlichkeit signalisieren.

3. **`reviews_per_month`** und **`review_scores_cleanliness`:**
   Regelmässige und qualitativ hochwertige Bewertungen, insbesondere im Bereich Sauberkeit, sprechen für ein hohes Serviceniveau.

**Kritische Einordnung:**

- Merkmale wie `host_identity_verified` oder `host_has_profile_pic` tragen im Modell kaum zur Vorhersagekraft bei. Dies kann durch geringe Varianz in diesen Spalten erklärt werden oder darauf hinweisen, dass sie für Gäste keine ausschlaggebende Rolle spielen.

- Die Ausstattung der Unterkunft (z. B. **`beds`**, **`bathrooms`**, **`room_type`**) ist im Zusammenhang mit dem Superhost-Status weniger relevant, was plausibel erscheint – dieser Status bewertet vorrangig das Verhalten des Hosts.

- Der Einfluss von **`price`** ist ebenfalls gering. Daraus lässt sich schliessen, dass Preisgestaltung allein nicht entscheidend ist – wichtiger ist das gebotene Preis-Leistungs-Verhältnis.

### Modellvergleich für Random Forest vs. Logistische Regression

Zur Validierung der Modellgüte und zur Einordnung der Ergebnisse wird das Random-Forest-Modell mit einer Logistischen Regression verglichen – einem einfacheren, gut interpretierbaren Klassifikator. Beide Modelle werden mittels 5-facher Cross-Validation bewertet, zusätzlich erfolgt ein Vergleich der ROC-Kurven. Dies ermöglicht eine differenzierte Beurteilung der Trennschärfe und Stabilität beider Modelle.


In [None]:
log_model = LogisticRegression(max_iter=1000000)
log_model.fit(X_train, y_train)
y_pred_log = log_model.predict(X_test)

print("Logistische Regression - Classification Report:")
print(classification_report(y_test, y_pred_log))

rf_cv_scores = cross_val_score(model, X, y, cv=5)
print("Random Forest - durchschnittliche CV-Accuracy:", rf_cv_scores.mean())

log_cv_scores = cross_val_score(log_model, X, y, cv=5)
print("Logistische Regression - durchschnittliche CV-Accuracy:", log_cv_scores.mean())


probs_rf = model.predict_proba(X_test)[:, 1]
probs_log = log_model.predict_proba(X_test)[:, 1]
fpr_rf, tpr_rf, _ = roc_curve(y_test, probs_rf)
fpr_log, tpr_log, _ = roc_curve(y_test, probs_log)

plt.figure(figsize=(8,6))
plt.plot(fpr_rf, tpr_rf, label='Random Forest (AUC = {:.2f})'.format(roc_auc_score(y_test, probs_rf)))
plt.plot(fpr_log, tpr_log, label='Logistische Regression (AUC = {:.2f})'.format(roc_auc_score(y_test, probs_log)))
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-Kurve Vergleich')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

### Modellvergleich und Auswahl

Die Gegenüberstellung der beiden Klassifikatoren zeigt einen deutlichen Leistungsunterschied: Der Random Forest erzielt eine AUC von 0.94, während die Logistische Regression bei 0.77 liegt. Auch in der ROC-Kurve wird dieser Unterschied visuell deutlich – der Random Forest verläuft näher an der idealen oberen linken Ecke und weist somit eine höhere Trennschärfe auf.

Die Cross-Validation-Ergebnisse bestätigen dieses Bild: Der Random Forest erreicht im Mittel eine höhere Genauigkeit, zeigt sich gleichzeitig stabil und robust gegenüber unterschiedlichen Trainings-/Test-Splits. Die Logistische Regression liefert akzeptable, aber deutlich schwächere Ergebnisse.

Der Random Forest ist dem linearen Modell sowohl bei der Gesamtgüte (AUC) als auch bei der generalisierbaren Genauigkeit (CV-Score) klar überlegen.

Aufgrund seiner nichtlinearen Struktur kann der Random Forest auch komplexe Zusammenhänge zwischen den Merkmalen besser abbilden – was bei einem vielseitigen Merkmalssatz wie in diesem Fall entscheidend ist.

Für die finale Modellierung und die Ableitung strategischer Empfehlungen wird daher auf den Random Forest als Hauptmodell gesetzt.

## Objective 4 – Listing-Optimierung durch Textanalyse

Ziel dieses Untersuchungsabschnitts ist es, den Einfluss von sprachlichen und inhaltlichen Eigenschaften in Listing-Beschreibungen auf die Performance von Airbnb-Angeboten im Raum Zürich systematisch zu analysieren. Im Fokus steht die Frage, ob sich durch gezielte Optimierung von Beschreibungstexten messbare Effekte auf Buchungserfolg, Bewertung oder Preissetzung erzielen lassen – und wie die InvestZurich AG diese Erkenntnisse nutzen kann, um ihre Listings gezielt zu verbessern.

Im Zentrum der Analyse steht die strukturelle und inhaltliche Auswertung der Textspalte 'description' mithilfe von Methoden der natürlichen Sprachverarbeitung (Natural Language Processing, NLP). Dabei werden zunächst syntaktische Merkmale wie Textlänge, Stimmung (Sentiment) und Subjektivität untersucht, um ein Gefühl für den sprachlichen Charakter der Texte zu bekommen. In einem zweiten Schritt erfolgt eine Themenanalyse (Topic Modeling), um wiederkehrende inhaltliche Muster zu identifizieren.

Ziel dieser Analyse ist es, datenbasiert herauszufinden, welche Textmerkmale besonders häufig in gut bewerteten oder hochpreisigen Listings vorkommen – oder ob bestimmte sprachliche Stile tendenziell mit besseren Resultaten einhergehen. Auf dieser Basis sollen für die InvestZurich AG konkrete Empfehlungen zur textbasierten Listing-Optimierung abgeleitet werden, etwa im Hinblick auf Keyword-Nutzung, Tonalität oder Zielgruppenansprache.

Die nachfolgende Analyse liefert somit die Grundlage für eine inhaltlich fundierte und skalierbare Optimierungsstrategie, die über rein visuelle oder lagebezogene Aspekte hinausgeht – und gezielt das Potenzial textlicher Kommunikation als Erfolgsfaktor nutzt.

In [None]:
# Stellt sicher, dass df_analysis und die relevante Textspalte (z.B. 'description') existieren.

# Haupt-Textspalte für die detaillierte Analyse (gemäss bina_models.Listing)
# Andere Textspalten wie 'name', 'neighborhood_overview', 'host_about' können analog analysiert werden.
import sys
#!{sys.executable} -m pip install supabase
#!{sys.executable} -m pip install python-dotenv
#!{sys.executable} -m pip install pandas
#!{sys.executable} -m pip install nltk
#!{sys.executable} -m pip install scikit-learn
#!{sys.executable} -m pip install matplotlib seaborn textblob

# Imports
import pandas as pd
import nltk
import re
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from textblob import TextBlob
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# Ressourcen laden (nur 1x nötig)
# nltk.download('punkt')
# nltk.download('stopwords')
# nltk.download('wordnet')

from airbnb_analysis_service import AirbnbAnalysisService

airbnbAnalysis = AirbnbAnalysisService()
listings = airbnbAnalysis.get_listings()
main_text_col_for_nlp = 'description'
df_analysis = pd.DataFrame([l.__dict__ for l in listings])

if not df_analysis.empty and main_text_col_for_nlp in df_analysis.columns and df_analysis[main_text_col_for_nlp].notna().sum() > 0 :
    print(f"\n--- Analysen für Use Case 4 (NLP) basierend auf Spalte '{main_text_col_for_nlp}' ---")

    # Stichprobe für rechenintensive NLP-Tasks (Grösse anpassen falls nötig)
    # Verwende nur Zeilen, in denen die Haupttextspalte nicht leer ist nach der Vorbereitung (fillna(''))
    df_nlp_source = df_analysis[df_analysis[main_text_col_for_nlp].str.strip().astype(bool)]

    sample_size_nlp_uc4 = min(1000, len(df_nlp_source))
    if len(df_nlp_source) < sample_size_nlp_uc4 : sample_size_nlp_uc4 = len(df_nlp_source)

    if sample_size_nlp_uc4 < 20 :
         print(f"Stichprobengrösse ({sample_size_nlp_uc4}) für '{main_text_col_for_nlp}' zu klein für NLP-Analyse. Überspringe.")
    else:
        df_nlp = df_nlp_source.sample(n=sample_size_nlp_uc4, random_state=42).copy()
        print(f"NLP-Analyse wird auf einer Stichprobe von {len(df_nlp)} Listings für '{main_text_col_for_nlp}' durchgeführt.")

        # --- Textdaten-Vorbereitung für NLP ---
        print("\n--- Textdaten-Vorbereitung für NLP ---")
        stop_words_de_uc4 = stopwords.words('german')
        stop_words_en_uc4 = stopwords.words('english')
        custom_stopwords_uc4 = [
            'br', 'href', 'www', 'https', 'http', 'com', 'zurich', 'zürich', 'apartment', 'wohnung',
            'description', 'guest', 'guests', 'stay', 'place', 'room', 'rooms', 'city', 'haus', 'home',
            'house', 'area', 'also', 'well', 'get', 'see', 'us', 'come', 'min', 'one', 'two', 'meter',
            'bit', 'eur', 'chf', 'day', 'week', 'nbsp', 'amp', 'quot', 'lt', 'gt', 'apos', 'zurich',
            'apartment', 'flat', 'studio', 'appartement' # Generische Airbnb Begriffe
        ]
        all_stopwords_uc4 = set(stop_words_de_uc4 + stop_words_en_uc4 + custom_stopwords_uc4)

        lemmatizer_uc4 = WordNetLemmatizer()

        def preprocess_text_nlp(text_series):
            processed_texts = []
            for text_doc in text_series:
                doc = str(text_doc).lower()
                doc = re.sub(r'<[^>]+>', ' ', doc) # HTML entfernen
                doc = re.sub(r'[^a-zäöüss\s]', ' ', doc) # Nur Buchstaben (inkl. Umlaute) und Leerzeichen
                doc = re.sub(r'\s+', ' ', doc).strip() # Überflüssige Leerzeichen entfernen

                # Sprachabhängige Tokenisierung und Lemmatisierung (einfacher Ansatz)
                # Für eine präzisere NLP bei gemischtsprachigen Texten wären fortgeschrittenere Methoden nötig
                lang_to_tokenize = 'german' if any(c in 'äöüss' for c in doc) else 'english'

                try:
                    tokens = word_tokenize(doc, language=lang_to_tokenize)
                except LookupError: # Fallback, falls spezifische Sprachdaten für punkt fehlen
                    try: nltk.download('punkt', quiet=True); tokens = word_tokenize(doc, language=lang_to_tokenize)
                    except: tokens = doc.split() # Einfaches Splitten als Notlösung

                # Lemmatisierung - WordNetLemmatizer ist primär für Englisch.
                # Für Deutsch wären andere Lemmatizer (z.B. GermaLemma, spaCy mit deutschem Modell) besser.
                # Hier als Annäherung für beide Sprachen verwendet.
                lemmatized_tokens = [lemmatizer_uc4.lemmatize(token) for token in tokens if token not in all_stopwords_uc4 and len(token) > 2]
                processed_texts.append(" ".join(lemmatized_tokens))
            return processed_texts

        print("Beginne mit der Textvorverarbeitung für NLP (kann etwas dauern)...")
        df_nlp.loc[:, 'description_cleaned_nlp'] = preprocess_text_nlp(df_nlp[main_text_col_for_nlp])
        print("Textvorverarbeitung abgeschlossen.")

        if not df_nlp['description_cleaned_nlp'].empty:
            example_cleaned_desc_uc4 = df_nlp['description_cleaned_nlp'].head(1)
            print(f"\nBeispiel für bereinigte Beschreibung:\n{example_cleaned_desc_uc4.iloc[0] if not example_cleaned_desc_uc4.empty else 'Keine Daten'}")

        # --- Sentiment Analyse ---
        print("\n--- Sentiment Analyse ---")
        def get_sentiment_textblob(text_to_analyze):
            if not text_to_analyze or not isinstance(text_to_analyze, str) or not text_to_analyze.strip(): return 0.0, 0.0
            try:
                # TextBlob versucht, die Sprache zu erkennen. Für Deutsch ist die Genauigkeit manchmal limitiert.
                blob = TextBlob(text_to_analyze)
                return blob.sentiment.polarity, blob.sentiment.subjectivity
            except Exception as e_sent:
                # print(f"Fehler bei Sentiment Analyse für Text: '{text_to_analyze[:50]}...' - {e_sent}")
                return 0.0, 0.0

        sentiments_nlp_uc4 = df_nlp['description_cleaned_nlp'].apply(get_sentiment_textblob)
        df_nlp.loc[:, 'sentiment_polarity'] = sentiments_nlp_uc4.apply(lambda x: x[0])
        df_nlp.loc[:, 'sentiment_subjectivity'] = sentiments_nlp_uc4.apply(lambda x: x[1])

        print("\nDeskriptive Statistiken für Sentiment-Scores:")
        print(df_nlp[['sentiment_polarity', 'sentiment_subjectivity']].describe())

        plt.figure(figsize=(12, 5))
        plt.subplot(1, 2, 1); sns.histplot(df_nlp['sentiment_polarity'], kde=True, bins=20, color='purple'); plt.title('Verteilung Sentiment-Polarität (Description)')
        plt.subplot(1, 2, 2); sns.histplot(df_nlp['sentiment_subjectivity'], kde=True, bins=20, color='orange'); plt.title('Verteilung Sentiment-Subjektivität (Description)')
        plt.tight_layout(); plt.show()

        # Korrelation Sentiment mit Performance-Metriken
        # Stelle sicher, dass die Spalten für die Korrelation numerisch sind und existieren
        cols_for_sentiment_corr_uc4 = [col for col in ['sentiment_polarity', 'sentiment_subjectivity', 'review_scores_rating', 'price']
                                       if col in df_nlp.columns and pd.api.types.is_numeric_dtype(df_nlp[col])]
        if len(cols_for_sentiment_corr_uc4) > 2 :
            sentiment_corr_df_uc4 = df_nlp[cols_for_sentiment_corr_uc4].corr()
            print("\nKorrelation von Sentiment mit Performance-Metriken:\n", sentiment_corr_df_uc4)
            plt.figure(figsize=(7,5)); sns.heatmap(sentiment_corr_df_uc4, annot=True, cmap="coolwarm", fmt=".2f", vmin=-1, vmax=1); plt.title("Sentiment Korrelationen"); plt.show()
        else:
            print("Nicht genügend Spalten für Sentiment-Korrelationsanalyse vorhanden.")

        # --- Topic Modeling (LDA) ---
        print("\n--- Topic Modeling (LDA) ---")
        # Nur Texte verwenden, die nach der Bereinigung nicht leer sind
        documents_for_lda_uc4 = df_nlp['description_cleaned_nlp'][df_nlp['description_cleaned_nlp'].str.strip().astype(bool)]

        if len(documents_for_lda_uc4) > 20: # Mindestanzahl Dokumente für LDA
            try:
                # max_features begrenzt das Vokabular für bessere Performance und klarere Topics
                vectorizer_tfidf_uc4 = TfidfVectorizer(max_df=0.90, min_df=5, stop_words=list(all_stopwords_uc4), ngram_range=(1,1), max_features=1000)
                tfidf_matrix_uc4 = vectorizer_tfidf_uc4.fit_transform(documents_for_lda_uc4)
                feature_names_tfidf_uc4 = vectorizer_tfidf_uc4.get_feature_names_out()

                num_topics_uc4 = 5 # ANPASSEN: Anzahl der zu entdeckenden Topics (typischerweise 5-15)
                if tfidf_matrix_uc4.shape[1] >= num_topics_uc4: # Genügend Features für Topics
                    lda_model_uc4 = LatentDirichletAllocation(n_components=num_topics_uc4, random_state=42, learning_method='online', n_jobs=-1, max_iter=15, evaluate_every=1)
                    lda_model_uc4.fit(tfidf_matrix_uc4)

                    print(f"\nTop Wörter für {num_topics_uc4} entdeckte Topics (LDA aus '{main_text_col_for_nlp}'):")
                    def display_topics_lda(model, feature_names, no_top_words):
                        for topic_idx, topic_dist in enumerate(model.components_):
                            top_words_indices = topic_dist.argsort()[:-no_top_words - 1:-1]
                            top_words = [feature_names[i] for i in top_words_indices]
                            print(f"Thema #{topic_idx+1}: {' | '.join(top_words)}")
                    display_topics_lda(lda_model_uc4, feature_names_tfidf_uc4, 10) # Zeige Top 10 Wörter pro Topic
                else:
                    print("Nicht genügend einzigartige Features nach TF-IDF für LDA (Anzahl Topics vs. Features).")
            except Exception as e:
                print(f"Fehler während Topic Modeling: {e}")
        else:
            print("Nicht genügend Dokumente für Topic Modeling vorhanden nach Bereinigung/Filterung.")
else:
    print(f"Analysen für Use Case 4 (NLP) können nicht durchgeführt werden (DataFrame `df_analysis` leer oder Spalte '{main_text_col_for_nlp}' fehlt oder enthält keine Texte).")

### Textvorbereitung
Die Beschreibungen `'description'` wurden bereinigt, tokenisiert, von Stopwörtern befreit und lemmatisiert. Ein Beispiel für eine bereinigte Beschreibung aus der Stichprobe ist: `enjoy stylish experience centrally located`.

### Sentiment Analyse
 - Die durchschnittliche Sentiment-Polarität der Objektbeschreibungen (basierend auf der Stichprobe `df_nlp`) liegt bei **0.253** (Werte reichen von -0.2 bis +0.925). Eine **leicht positive** Polarität überwiegt.
- Die durchschnittliche Subjektivität liegt bei **0.486** (Werte von 0.0 bis 1.0). *Interpretation: Die Texte sind im Durchschnitt weder rein objektiv noch extrem subjektiv, sondern bewegen sich in einem mittleren, werblich-informativen Bereich.*
- Korrelation mit Performance:** *(Basierend auf `sentiment_corr_df_uc4`)*
    - Polarität vs. `'review_scores_rating'`: **-0.03**
    - Polarität vs. `'price'`: **+0.03**

**Interpretation:** Eine positivere Sprache in den Beschreibungen führt weder zu besseren Bewertungen noch zu höheren Preisen. Auch Subjektivität zeigt keine statistisch relevante Korrelation mit Performance-Metriken.*

### Topic Modeling (LDA)
Es wurden **5** Hauptthemen in den Objektbeschreibungen der Stichprobe identifiziert.

**Thema 1:** Top Wörter: `minute | located | station | enjoy | tram | restaurant | train | walk | location | away`
(Dieses Thema könnte sich auf **Lagevorteile und zentrale Erreichbarkeit** beziehen.)

**Thema 2:** Top Wörter: `booking | ask | case | car | pay | discount | please | parking | need | accessible`
(Dieses Thema behandelt **Buchungshinweise, Erreichbarkeit und mögliche Zusatzkosten**.)

**Thema 3:** Top Wörter: `simple | life | centrally | peaceful | located | enjoy | quiet | keep | national | museum`
(Hier geht es um **Atmosphäre und Lage – ruhige, kulturell attraktive Wohnlage**.)

**Thema 4:** Top Wörter: `photo | paradeplatz | painting | bijou | luxuriously | digital | optic | europaallee | frame | fiber`
(Dieses Thema beschreibt **Design, Kunst, Luxusausstattung und spezifische Stadtteile (Zürich)**.)

**Thema 5:** Top Wörter: `bed | kitchen | bathroom | bedroom | equipped | living | balcony | fully | machine | shower`
(Fokus liegt hier klar auf der **Innenausstattung und praktischen Einrichtung** der Unterkunft.)

**Wie könnten diese Themen mit der Performance zusammenhängen?**
 Eine weiterführende Analyse könnte untersuchen, ob bestimmte Themen (z. B. Lage oder Luxusausstattung) häufiger mit höherer Bewertung oder höheren Preisen korrelieren. Dazu wäre es sinnvoll, jedem Listing das dominante Thema zuzuordnen und dann den Preis/Score innerhalb jeder Themengruppe zu vergleichen.

# Step 4: Presenting Information
In diesem Kapitel werden die zentralen Erkenntnisse der vier analysierten Objectives zusammengefasst und übersichtlich dargestellt. Abschliessend wird eine übergreifende Schlussfolgerung gezogen, die alle Ergebnisse in einen gemeinsamen strategischen Kontext bringt.

## Objective 1 – Marktpotenzial und Standortanalyse
Im Rahmen von Objecitve 1 wurde eine Standort- und Potenzialanalyse für den Airbnb-Markt in der Stadt Zürich durchgeführt. Dabei wurden verschiedene Perspektiven berücksichtigt: die Verteilung und Anzahl der Angebote pro Stadtkreis, Preisniveaus, Auslastung bzw. Verfügbarkeit, Unterkunftstypen, Gästekapazitäten sowie die Klassifikation besonders erfolgreicher Inserate mittels eines Random-Forest-Modells.

Die Ergebnisse zeigen deutlich, dass sich das Investitionspotenzial nicht pauschal auf einzelne Stadtteile oder Unterkunftstypen reduzieren lässt. Vielmehr entsteht ein differenziertes Bild, bei dem mehrere Faktoren zusammenwirken. Auf Basis der durchgeführten Analysen lassen sich für die InvestZurich AG folgende zentrale Handlungsempfehlungen ableiten:

### Hohe Nachfrage für Standortwahl gezielt nutzen

Kreise mit niedriger durchschnittlicher Verfügbarkeit, wie z.B. Kreis 10, Kreis 5 und Kreis 2, weisen auf eine hohe Buchungsauslastung hin. Besonders Kreis 2 fällt zudem durch ein sehr hohes Preisniveau auf, was auf ein überdurchschnittlich hohes Umsatzpotenzial hindeutet. Gleichzeitig ist hier das Angebot vergleichsweise gering, was auf eine attraktive Marktlücke hinweisen kann. Investitionen sollten gezielt auf Stadtteile ausgerichtet werden, die hohe Nachfrage mit überschaubarem Wettbewerb kombinieren.

In [None]:
display(fig3)
display(fig2)

### Unterkunftsgrösse und Kapazität strategisch wählen

Die Analyse der Unterkunftskapazität zeigt, dass insbesondere Objekte mit Platz für 6 bis 8 Personen stark nachgefragt sind. Diese Einheiten weisen eine signifikant niedrigere Verfügbarkeit auf und lassen auf eine hohe Beliebtheit schliessen. Gleichzeitig ermöglichen sie durch höhere Preise pro Nacht ein attraktives Umsatzpotenzial. Auch kleinere Einheiten für 1 bis 2 Gäste bleiben relevant, da sie eine solide Auslastung erzielen und ein breites Zielpublikum ansprechen.

In [None]:
display(fig5)

### Geeignete Unterkunftstypen priorisieren

Im Vergleich der Unterkunftstypen zeigt sich, dass "Private Rooms" und "Entire Homes/Apartments" häufiger gebucht werden als z.B. Hotelzimmer, was durch geringere durchschnittliche Verfügbarkeiten belegt wird. Für eine skalierbare Investmentstrategie bieten sich insbesondere ganze Wohnungen an, da sie mehr Flexibilität in Preisgestaltung, Ausstattung und Zielgruppenansprache ermöglichen.

In [None]:
display(fig4)

### Datenbasiertes Auswahlverfahren etablieren

Das entwickelte Random-Forest-Modell zur Klassifikation von Top Performern ermöglicht eine erste Einschätzung, ob ein Angebot Potenzial für hohe Nachfrage und Ertrag aufweist. Die wichtigsten Einflussfaktoren im Modell waren dabei die Kapazität, Lage und Anzahl der Schlafzimmer. Dieses Modell kann als unterstützendes Tool genutzt werden, um neue Angebote im Markt vorab zu bewerten und Investitionsrisiken zu minimieren.

In [None]:
display(fig6)
display(fig7)

## Objective 2 – Preisstrategie und Ertragsprognose
Basierend auf dieser detaillierten Analyse in **Step 3** können wir folgende Schlüsse für die "InvestZurich AG" ziehen:

1. **Nicht nur auf absolute Einnahmen achten:** Obwohl Quartiere wie `Kreis 1` hohe absolute Airbnb-Einnahmen generieren können, sind die Immobilienpreise dort so exorbitant, dass die relative Rentabilität (gemessen am `Revenue_Yield_Proxy`) am niedrigsten ist.

2. **Attraktive Quartiere identifiziert:**
- `Kreis 12` sticht als das potenziell rentabelste Quartier hervor, basierend auf dem höchsten `Revenue_Yield_Proxy`.
- `Kreis 4` und `Kreis 6` bieten ebenfalls sehr attraktive `Revenue_Yield_Proxy-Werte`.

3. **Diversifikationspotenzial:** Das Mittelfeld (`Kreis 2`, `10`, `3`, `5`, `8`) bietet solide `Revenue_Yield_Proxy`-Werte und könnte für eine Diversifikationsstrategie interessant sein.

4. **Vorsicht bei teuersten Lagen für reine Renditeobjekte:** Für Investitionen mit Fokus auf laufende Rendite im Verhältnis zum Kapitaleinsatz (pro m²) scheinen die teuersten Lagen (`Kreis 1`, `Kreis 7`, `Kreis 9`) weniger geeignet.

**Wichtige Einschränkung:** Unser `Revenue_Yield_Proxy` ist eine Vereinfachung und berücksichtigt nicht die spezifische Grösse der Airbnb-Objekte im Verhältnis zum Quadratmeterpreis. Für detailliertere ROI-Betrachtungen wären weitere Daten (z.B. durchschnittliche Wohnungsgrössen) oder die Analyse spezifischer Objektkategorien notwendig. Dennoch bietet diese Kennzahl eine wertvolle erste Orientierung.

## Objective 3 – Marktpotenzial und Standortanalyse

Im Rahmen von Objective 3 wurde analysiert, welche quantitativen und qualitativen Merkmale Superhosts auf Airbnb im Raum Zürich von anderen Gastgebern unterscheiden. Ziel war es, InvestZurich AG datenbasiert aufzuzeigen, wie der Superhost-Status gezielt erreicht werden kann. Zum Einsatz kamen Mittelwertvergleiche, Boxplot-Analysen, ein Random-Forest-Klassifikator sowie ein Modellvergleich mit logistischer Regression.

Die Ergebnisse belegen klar, dass Superhosts durch ein konsistentes Gesamtprofil überzeugen – insbesondere in den Bereichen **Reaktionsverhalten, Buchungszuverlässigkeit, Gästefeedback** und **operative Präsenz**. Daraus ergeben sich folgende priorisierte Handlungsempfehlungen:

### Gastgeberverhalten konsequent optimieren

Die Analyse zeigt, dass Superhosts in mehreren operativen Dimensionen systematisch besser abschneiden als reguläre Gastgeber:innen. Eine der deutlichsten Abweichungen findet sich im Antwortverhalten: Superhosts reagieren nicht nur schneller, sondern auch konsequenter auf Buchungsanfragen. Die Antwortraten liegen nahezu durchgängig bei 100 %, während sie bei Nicht-Superhosts deutlich stärker streuen – teils sogar unter die von Airbnb geforderte Mindestgrenze von 90 %. Auch die Annahmequote ist bei Superhosts signifikant höher und konsistenter. Dieses verlässliche Buchungsverhalten ist eine zentrale Voraussetzung für Vertrauen auf Plattformen wie Airbnb.

InvestZurich AG sollte automatisierte Antwortfunktionen und standardisierte Buchungsprozesse einführen, um eine Antwortrate von mindestens 90 % sicherzustellen. Zusätzlich sollten Kalendersysteme mit Echtzeit-Verfügbarkeit integriert werden, um Absagen zu vermeiden und die Annahmequote stabil hoch zu halten.

In [None]:
display(fig90)

### Buchungserfahrung strategisch aufbauen

Superhosts weisen im Mittel mehr als doppelt so viele Bewertungen auf wie Nicht-Superhosts. Dies lässt sich zwar nicht 1:1 in Buchungen übersetzen, deutet aber auf eine deutlich höhere Aktivität und Sichtbarkeit auf der Plattform hin. Bewertungen wirken wie ein soziales Vertrauenssignal und verbessern zugleich die algorithmische Platzierung bei Airbnb.

InvestZurich AG sollte für neue Inserate gezielte Nachfrageanreize schaffen – etwa durch zeitlich befristete Einführungsangebote, niedrige Mindestaufenthalte oder erhöhte Verfügbarkeit. Ziel ist es, möglichst schnell die ersten 10–15 Bewertungen zu sammeln, um eine solide Buchungshistorie aufzubauen und Sichtbarkeit im Ranking zu erhöhen.


In [None]:
display(fig91)

### Bewertungsqualität aktiv steuern

Superhosts erzielen durchgängig bessere Bewertungen in den Bereichen Sauberkeit, Kommunikation und Gesamtbewertung – mit geringerer Streuung als Nicht-Superhosts. Diese Konstanz weist auf strukturierte Abläufe und kontrollierte Serviceprozesse hin. Schlechte Einzelbewertungen sind selten, was das Vertrauen künftiger Gäste stärkt und die Conversion-Rate erhöht.

InvestZurich AG sollte standardisierte Checklisten für Reinigung, Check-in und Gästekommunikation einführen. Zudem sollten Bewertungen systematisch ausgewertet werden, um Schwachstellen zu identifizieren. Gäste sollten aktiv zur Bewertung eingeladen werden, z. B. über Follow-up-Nachrichten oder QR-Codes vor Ort.

In [None]:
display(fig92)

### Datengetrieben entscheiden mit Modellunterstützung

Das Machine-Learning-Modell zeigt, dass insbesondere Merkmale wie Anzahl Inserate, Annahmequote, Bewertungshäufigkeit und Servicequalität starke Prädiktoren für den Superhost-Status sind. Diese Erkenntnisse sind nicht nur erklärend, sondern bieten eine Grundlage zur operativen Steuerung und Priorisierung im Portfolio.

InvestZurich AG sollte das ML-Modell zur laufenden Objektbewertung einsetzen. Ergänzend kann ein internes Dashboard entwickelt werden, das die wichtigsten KPI-Lücken visualisiert und datenbasiert Handlungsempfehlungen für jedes Objekt ableitet.

In [None]:
display(fig93)

## Objective 4 – Listing-Optimierung durch Textanalyse

Die nachfolgend abgeleiteten Empfehlungen basieren auf einer datengetriebenen Analyse von Listing-Beschreibungen mithilfe moderner NLP-Verfahren (Natural Language Processing). Im Zentrum standen linguistische Merkmale wie Stimmung (Sentiment), Subjektivität und thematische Inhalte. Ziel war es, herauszufinden, ob und wie sich Textgestaltung auf die Performance von Airbnb-Listings auswirkt – etwa in Bezug auf Bewertung, Preisniveau oder Sichtbarkeit.

Auch wenn die Korrelationen mit Performance-Metriken nur schwach ausfielen, zeigen sich klare Muster hinsichtlich typischer Themen, Sprachstile und Wortwahl, die für die Optimierung von Listing-Texten genutzt werden können. Die folgenden Handlungsempfehlungen bieten InvestZurich AG eine pragmatische Grundlage für die strategische Weiterentwicklung ihrer textlichen Kommunikation auf Airbnb.

1. **Positivität gezielt einsetzen:**  
   Da eine insgesamt leicht **positive Sprachweise** in den Listings vorherrscht, die jedoch **nicht direkt mit besseren Bewertungen oder höheren Preisen korreliert**, sollte die Sprache zwar weiterhin einladend, aber gleichzeitig **faktenbasiert und informativ** bleiben. Eine **ausgewogene Mischung aus subjektiver und objektiver Sprache** scheint optimal zu sein.

2. **Wichtige Themen gezielt hervorheben:**  
   Die Topic-Modellierung zeigt, dass Themen wie **Lage, Ausstattung, Atmosphäre und Buchungsdetails** häufig vorkommen. Diese Inhalte sollten in zukünftigen Listings klar und strukturiert adressiert werden – insbesondere dann, wenn sie für die Zielgruppe relevant sind.

3. **Keywords zur Sichtbarkeitssteigerung nutzen:**  
   Die identifizierten Top-Wörter der Themen (z. B. "kitchen", "station", "central", "luxurious") können gezielt als **Keywords** in Titeln und in den ersten Sätzen der Beschreibungen verwendet werden, um die **Auffindbarkeit in der Airbnb-Suche** zu verbessern.

4. **Zielgruppenspezifische Ansprache entwickeln:**  
   Unterschiedliche Themen sprechen unterschiedliche Zielgruppen an (z. B. "ruhige Lage" für Familien, "schnelles WLAN" für Geschäftsreisende). Die Listings könnten daher **zielgruppenorientiert angepasst** werden, um verschiedene Gästesegmente gezielt anzusprechen und die Conversion-Rate zu steigern.
