# Einleitung
**Datengetriebene Analyse zur Optimierung von Airbnb-Investitionen für "InvestZurich AG"**

Die vorliegende Fallstudie untersucht die Anwendung von Data-Driven Decision Making (DDDM) zur Optimierung von Investitionsstrategien im Airbnb-Markt der Stadt Zürich für unsere hypothetische Investorenfirma "InvestZurich AG". In einem zunehmend wettbewerbsintensiven Umfeld für Kurzzeitvermietungen ist es für Investoren entscheidend, datengestützte Entscheidungen zu treffen, um die Rentabilität zu maximieren und Risiken zu minimieren.

Dieses Projekt zielt darauf ab, die Prinzipien des DDDM und die im Modul BINA erlernten Analysemethoden (inkl. Descriptive Statistics, Regression, Classification, Clustering, Time Series Analysis und Datenvisualisierung) anzuwenden, um InvestZurich AG bei der Beantwortung zentraler Fragen in Bezug auf Marktpotenzial, Preisgestaltung, Wettbewerbsanalyse, Rentabilität und Risikomanagement in Zürich zu helfen. Durch die detaillierte Analyse von Airbnb-Daten und die Integration relevanter externer Datenquellen werden wir umsetzbare Empfehlungen entwickeln, die Investitionsentscheidungen im dynamischen Zürcher Markt für Kurzzeitvermietungen unterstützen.

Der Bericht ist strukturiert gemäss dem CPA Framework "From Data to Decisions" (Schritte 1-4): Zunächst definieren wir die Ziele und Informationsbedürfnisse des Investors (Schritt 1). Anschließend beschreiben wir den Prozess der Datenerhebung und -aufbereitung im Kontext des Data Mining Process (Schritt 2), gefolgt von einer Erläuterung der angewandten Analysemethoden (Schritt 3). Abschliessend präsentieren wir die Ergebnisse der Analyse und leiten konkrete Handlungsempfehlungen für InvestZurich AG ab (Schritt 4).

# Step 1: Defining Objectives and Information Needs

## Investor Use Cases & Ziele
Basierend auf den Bedürfnissen von InvestZurich AG definieren wir folgende Use Cases und Ziele:

* **Use Case 1: Marktpotenzial & Standortanalyse**
    * **Ziel:** Wo in Zürich bieten sich die besten Investmentchancen? Welche Quartiere haben hohe Preise/Nachfrage? Welche Wohnungstypen (Grösse, Zimmerzahl) sind pro Quartier gefragt/unterversorgt?
    * **Methoden-Ansatz:** Descriptive Statistics, Clustering, Datenvisualisierung.
* **Use Case 2: Preisstrategie & Ertragsprognose**
    * **Ziel:** Was sind die Haupttreiber für Airbnb-Preise in Zürich? Welchen Preis kann InvestZurich AG für ein spezifisches Objekt realistisch erwarten? Gibt es saisonale Preismuster?
    * **Methoden-Ansatz:** Regression, Time Series Analyse, Descriptive Statistics.
* **Use Case 3: Performance Optimierung & Benchmarking**
    * **Ziel:** Was unterscheidet Top-Performer (Superhosts) von anderen? Wie kann InvestZurich AG diesen Status für ihre Objekte erreichen (klare Handlungspfade)?
    * **Methoden-Ansatz:** Classification (z.B. Decision Trees), Descriptive Statistics.
* **(Optional) Use Case 4: Listing-Optimierung durch Textanalyse**
    * **Ziel:** Hat der Tonfall/Inhalt der Beschreibungstexte Einfluss auf Buchungen/Bewertungen?
    * **Methoden-Ansatz:** NLP (Sentiment Analyse, Topic Modeling).

## Information Needs
Um diese Use Cases zu bearbeiten, benötigen wir folgende Informationen aus den Datenquellen:
* Geospatial Verteilung der Listings (`latitude`, `longitude`)
* Preisdaten (`price`), auch über Zeit (`calendar.csv.gz`)
* Verfügbarkeits-/Buchungsindikatoren (`availability_365`, `number_of_reviews`, `reviews_per_month`, `calendar.csv.gz`)
* Objektmerkmale (`property_type`, `room_type`, `accommodates`, `bedrooms`, `bathrooms`, `amenities`)
* Standortmerkmale (`neighbourhood_cleansed`, `review_scores_location`)
* Host-Informationen (`host_id`, `host_is_superhost`, `host_response_rate`, `host_since`)
* Review-Daten (`review_scores_rating`, `review_scores_cleanliness`, etc., `reviews.csv.gz` für Text und Datum)
* Textdaten (`description`, `neighborhood_overview`, `host_about`)

*Herausforderung:* Detaillierte Objektgrösse (`m²`) ist nicht direkt verfügbar und muss ggf. geschätzt oder als Limitation behandelt werden.

# Step 2: Collecting Data

## Datenquelle: Inside Airbnb
Die Analyse basiert auf öffentlich verfügbaren Daten von Inside Airbnb für Zürich (Stand: 30. Dezember 2024).

**Datasets:**
* `listings.csv.gz`: Detailed Listings data (inkl. Textfelder für NLP)
* `calendar.csv.gz`: Detailed Calendar Data (Preis/Verfügbarkeit über Zeit -> Time Series)
* `reviews.csv.gz`: Detailed Review Data (inkl. Text und Datum -> Time Series, NLP)
* `listings.csv`: Summary information and metrics for listings in Zurich (good for visualisations)
* `reviews.csv`: Summary Review data and Listing ID (to facilitate time-based analytics and visualisations linked to a listing)
* `neighbourhoods.csv`: Neighbourhood list for geo filter.
* `neighbourhoods.geojson`: GeoJSON file of neighbourhoods of the city (für Kartenvisualisierung)

## Data Mining Process Kontext
In diesem Schritt wenden wir die ersten Phasen des Data Mining Process an:
* **Business Understanding:** Ist durch die Use Cases in Step 1 definiert.
* **Data Understanding:** Exploration der Variablen mittels **Descriptive Statistics**, Identifikation von Datentypen und potenziellen Problemen (z.B. fehlende Werte).
* **Data Preparation:** Bereinigung der Daten, Umgang mit fehlenden Werten (z.B. Strategie für fehlende `m²` definieren), Transformation von Variablen (z.B. One-Hot-Encoding für kategoriale Variablen, Feature Engineering für `amenities`), um die Daten für die Modellierung in Step 3 vorzubereiten.
* **Modeling:** Nächster Schritt (siehe Step 3).
* **Evaluation & Deployment:** Spätere Phasen.

# Step 3: Analyzing Data

## Analyse-Toolkit & Geplante Insights
In diesem Schritt werden die vorbereiteten Daten analysiert, um die in Step 1 definierten Use Cases für InvestZurich AG zu beantworten. Hierbei kommen die im Kurs BINA erlernten Methoden zum Einsatz:

* **Descriptive Statistics:**
    * **Anwendung:** Grundlage für alle Analysen. Berechnung von Kennzahlen (Mittelwerte, Median, Häufigkeiten) für Preise, Bewertungen, Auslastungsindikatoren etc. Vergleich von Quartieren und Host-Typen.
    * **Ziel:** Basisverständnis der Daten schaffen.
* **Regression:**
    * **Anwendung:** Identifikation der Haupttreiber für Preise und Bewertungen.
    * **Ziel:** Prognose von Preisen und Bewertungen.
* **Clustering:**
    * **Anwendung:** Gruppierung von Quartieren oder Listings basierend auf Ähnlichkeiten.
    * **Ziel:** Identifikation von Mustern und Segmenten.
* **Classification:**
    * **Anwendung:** Vorhersage von Superhost-Status oder anderen binären Zielvariablen.
    * **Ziel:** Handlungsempfehlungen für Performance-Optimierung.
* **Time Series Analysis:**
    * **Anwendung:** Analyse von saisonalen Mustern und Trends in Preisen und Verfügbarkeiten.
    * **Ziel:** Zeitbasierte Prognosen erstellen.
* **NLP (Natural Language Processing):**
    * **Anwendung:** Analyse von Beschreibungstexten und Reviews.
    * **Ziel:** Insights aus Textdaten gewinnen (z.B. Sentiment, Themen).

# Step 4: Presenting Results

In diesem Schritt werden die Ergebnisse der Analyse zusammengefasst und visualisiert, um InvestZurich AG klare Handlungsempfehlungen zu geben. Die Präsentation erfolgt in Form von:

* **Visualisierungen:** Karten, Diagramme und Heatmaps zur Darstellung von Mustern und Trends.
* **Bericht:** Schriftliche Zusammenfassung der wichtigsten Erkenntnisse.
* **Empfehlungen:** Konkrete Handlungsvorschläge basierend auf den Ergebnissen der Analyse.

# Step 5: Deployment & Next Steps

Abschliessend werden die Ergebnisse operationalisiert und nächste Schritte definiert:

* **Deployment:** Integration der Ergebnisse in Entscheidungsprozesse von InvestZurich AG.
* **Feedback-Schleifen:** Überprüfung der Empfehlungen durch kontinuierliche Datenanalyse.
* **Weiterführende Analysen:** Erweiterung der Analyse auf andere Städte oder zusätzliche Datenquellen.