# Einleitung
**Datengetriebene Analyse zur Optimierung von Airbnb-Investitionen für "InvestZurich AG"**

Die vorliegende Fallstudie untersucht den Airbnb-Markt der Stadt Zürich, zur Optimierung von Investitionsstrategien, für unsere hypothetische Investorenfirma "InvestZurich AG". In einem zunehmend wettbewerbsintensiven Umfeld für Kurzzeitvermietungen ist es für Investoren entscheidend, datengestützte Entscheidungen zu treffen, um die Rentabilität zu maximieren und Risiken zu minimieren. 
Dieses Projekt zielt darauf ab, die Prinzipien des DDDM und die im Modul BINA erlernten Analysemethoden (inkl. Descriptive Statistics, Regression, Classification, Clustering, Time Series Analysis und Datenvisualisierung) anzuwenden, um InvestZurich AG bei der Beantwortung zentraler Fragen in Bezug auf Marktpotenzial, Preisgestaltung, Wettbewerbsanalyse, Rentabilität und Risikomanagement in Zürich zu unterstützen. 

Die Vorgehensweise folgt dem von CPA Canada entwickelten Framework „From Data to Decisions“, das datenbasierte Entscheidungsprozesse in fünf aufeinander aufbauenden Schritten strukturiert. In dieser Arbeit werden die Schritte 1 bis 4 adressiert: 
1. Defining objectives and information needs
2. Collecting Data
3. Analyzing Data
4. Presenting Information

Zu Beginn werden die strategischen Ziele der InvestZurich AG sowie die daraus abgeleiteten Informationsbedürfnisse definiert. Dabei geht es darum, die relevanten Fragestellungen zu identifizieren, die für Investitionsentscheidungen von zentraler Bedeutung sind, beispielsweise zur Standortattraktivität, zur Preisgestaltung oder zur erwarteten Auslastung. Nur wenn die Informationsbedarfe klar formuliert sind, kann die Analyse zielgerichtet erfolgen.

Anschliessend liegt der Fokus auf die Erhebung, Auswahl und Aufbereitung geeigneter Datenquellen. Dazu zählen strukturierte Airbnb-Daten ebenso wie ergänzende Informationen zu Wohungspreisen in der Stadt Zürich. Die Daten werden bereinigt und so vorbereitet, dass eine valide und aussagekräftige Analyse möglich ist.

Im dritten Schritt erfolgt die Auswertung mithilfe den im Modul BINA erlernten Analysemethoden. Ziel ist es, aus den Daten konkrete Muster, Zusammenhänge und Trends abzuleiten, die für die InvestZurich AG wirtschaftlich relevante Erkenntnisse liefern.

Abschliessend werden die Analyseergebnisse zielgruppengerecht aufbereitet. Dabei stehen visuelle Elemente im Fokus, um zentrale Erkenntnisse klar und verständlich zu vermitteln. Auf dieser Grundlage werden konkrete, umsetzbare Handlungsmpfehlungen für die InvestZurich AG formuliert, die sie bei ihrer Entscheidungsfindung unterstützen sollen.

# Step 1: Defining Objectives and Information Needs

## Investor Use Cases & Ziele
Basierend auf den Bedürfnissen von InvestZurich AG definieren wir folgende Use Cases und Ziele:

* **Use Case 1: Marktpotenzial & Standortanalyse**
    * **Ziel:** Wo in Zürich bieten sich die besten Investmentchancen? Welche Quartiere haben hohe Preise/Nachfrage? Welche Wohnungstypen (Grösse, Zimmerzahl) sind pro Quartier gefragt/unterversorgt?
    * **Methoden-Ansatz:** Descriptive Statistics, Clustering, Datenvisualisierung.
* **Use Case 2: Preisstrategie & Ertragsprognose**
    * **Ziel:** Was sind die Haupttreiber für Airbnb-Preise in Zürich? Welchen Preis kann InvestZurich AG für ein spezifisches Objekt realistisch erwarten? Gibt es saisonale Preismuster?
    * **Methoden-Ansatz:** Regression, Time Series Analyse, Descriptive Statistics.
* **Use Case 3: Performance Optimierung & Benchmarking**
    * **Ziel:** Was unterscheidet Top-Performer (Superhosts) von anderen? Wie kann InvestZurich AG diesen Status für ihre Objekte erreichen (klare Handlungspfade)?
    * **Methoden-Ansatz:** Classification (z.B. Decision Trees), Descriptive Statistics.
* **(Optional) Use Case 4: Listing-Optimierung durch Textanalyse**
    * **Ziel:** Hat der Tonfall/Inhalt der Beschreibungstexte Einfluss auf Buchungen/Bewertungen?
    * **Methoden-Ansatz:** NLP (Sentiment Analyse, Topic Modeling).

## Information Needs
Um diese Use Cases zu bearbeiten, benötigen wir folgende Informationen aus den Datenquellen:
* Geospatial Verteilung der Listings (`latitude`, `longitude`)
* Preisdaten (`price`), auch über Zeit (`calendar.csv.gz`)
* Verfügbarkeits-/Buchungsindikatoren (`availability_365`, `number_of_reviews`, `reviews_per_month`, `calendar.csv.gz`)
* Objektmerkmale (`property_type`, `room_type`, `accommodates`, `bedrooms`, `bathrooms`, `amenities`)
* Standortmerkmale (`neighbourhood_cleansed`, `review_scores_location`)
* Host-Informationen (`host_id`, `host_is_superhost`, `host_response_rate`, `host_since`)
* Review-Daten (`review_scores_rating`, `review_scores_cleanliness`, etc., `reviews.csv.gz` für Text und Datum)
* Textdaten (`description`, `neighborhood_overview`, `host_about`)

*Herausforderung:* Detaillierte Objektgrösse (`m²`) ist nicht direkt verfügbar und muss ggf. geschätzt oder als Limitation behandelt werden.

# Step 2: Collecting Data

## Datenquelle: Inside Airbnb
Die Analyse basiert auf öffentlich verfügbaren Daten von [Inside Airbnb](https://insideairbnb.com/zurich/) für Zürich (Stand: 30. Dezember 2024).

**Datasets:**
* `listings.csv.gz`: Detailed Listings data (inkl. Textfelder für NLP)
* `calendar.csv.gz`: Detailed Calendar Data (Preis/Verfügbarkeit über Zeit -> Time Series)
* `reviews.csv.gz`: Detailed Review Data (inkl. Text und Datum -> Time Series, NLP)
* `listings.csv`: Summary information and metrics for listings in Zurich (good for visualisations)
* `reviews.csv`: Summary Review data and Listing ID (to facilitate time-based analytics and visualisations linked to a listing)
* `neighbourhoods.csv`: Neighbourhood list for geo filter.
* `neighbourhoods.geojson`: GeoJSON file of neighbourhoods of the city (für Kartenvisualisierung)

## Data Mining Process Kontext
In diesem Schritt wenden wir die ersten Phasen des Data Mining Process an:
* **Business Understanding:** Ist durch die Use Cases in Step 1 definiert.
* **Data Understanding:** Exploration der Variablen mittels **Descriptive Statistics**, Identifikation von Datentypen und potenziellen Problemen (z.B. fehlende Werte).
* **Data Preparation:** Bereinigung der Daten, Umgang mit fehlenden Werten (z.B. Strategie für fehlende `m²` definieren), Transformation von Variablen (z.B. One-Hot-Encoding für kategoriale Variablen, Feature Engineering für `amenities`), um die Daten für die Modellierung in Step 3 vorzubereiten.
* **Modeling:** Nächster Schritt (siehe Step 3).
* **Evaluation & Deployment:** Spätere Phasen.


# Robin

Robin -- 

## Fehlende Werte identifizieren und einordnen

**Ziel:** Verstehen, wo welche Spalten fehlende Werte (`NULLs`) enthalten und was das für die spätere Analyse bedeutet.

### 1. Zählen der fehlenden Werte pro Spalte

Um eine fundierte Grundlage für den weiteren Analyseprozess zu schaffen, ist es essenziell, zunächst das Ausmaß fehlender Werte im Datensatz zu quantifizieren. Die Identifikation von Spalten mit fehlenden Werten ermöglicht es, potenzielle Datenqualitätsprobleme frühzeitig zu erkennen und geeignete Maßnahmen zur Datenbereinigung abzuleiten.

**SQL Query:**

```sql
SELECT 
  COUNT(*) AS total_rows,
  SUM(CASE WHEN id IS NULL THEN 1 ELSE 0 END) AS null_id,
  SUM(CASE WHEN listing_url IS NULL THEN 1 ELSE 0 END) AS null_listing_url,
  SUM(CASE WHEN scrape_id IS NULL THEN 1 ELSE 0 END) AS null_scrape_id,
  SUM(CASE WHEN last_scraped IS NULL THEN 1 ELSE 0 END) AS null_last_scraped,
  SUM(CASE WHEN source IS NULL THEN 1 ELSE 0 END) AS null_source,
  SUM(CASE WHEN name IS NULL THEN 1 ELSE 0 END) AS null_name,
  SUM(CASE WHEN description IS NULL THEN 1 ELSE 0 END) AS null_description,
  SUM(CASE WHEN neighborhood_overview IS NULL THEN 1 ELSE 0 END) AS null_neighborhood_overview,
  SUM(CASE WHEN picture_url IS NULL THEN 1 ELSE 0 END) AS null_picture_url,
  SUM(CASE WHEN host_id IS NULL THEN 1 ELSE 0 END) AS null_host_id,
  SUM(CASE WHEN host_url IS NULL THEN 1 ELSE 0 END) AS null_host_url,
  SUM(CASE WHEN host_name IS NULL THEN 1 ELSE 0 END) AS null_host_name,
  SUM(CASE WHEN host_since IS NULL THEN 1 ELSE 0 END) AS null_host_since,
  SUM(CASE WHEN host_location IS NULL THEN 1 ELSE 0 END) AS null_host_location,
  SUM(CASE WHEN host_about IS NULL THEN 1 ELSE 0 END) AS null_host_about,
  SUM(CASE WHEN host_response_time IS NULL THEN 1 ELSE 0 END) AS null_host_response_time,
  SUM(CASE WHEN host_response_rate IS NULL THEN 1 ELSE 0 END) AS null_host_response_rate,
  SUM(CASE WHEN host_acceptance_rate IS NULL THEN 1 ELSE 0 END) AS null_host_acceptance_rate,
  SUM(CASE WHEN host_is_superhost IS NULL THEN 1 ELSE 0 END) AS null_host_is_superhost,
  SUM(CASE WHEN host_thumbnail_url IS NULL THEN 1 ELSE 0 END) AS null_host_thumbnail_url,
  SUM(CASE WHEN host_picture_url IS NULL THEN 1 ELSE 0 END) AS null_host_picture_url,
  SUM(CASE WHEN host_neighbourhood IS NULL THEN 1 ELSE 0 END) AS null_host_neighbourhood,
  SUM(CASE WHEN host_listings_count IS NULL THEN 1 ELSE 0 END) AS null_host_listings_count,
  SUM(CASE WHEN host_total_listings_count IS NULL THEN 1 ELSE 0 END) AS null_host_total_listings_count,
  SUM(CASE WHEN host_verifications IS NULL THEN 1 ELSE 0 END) AS null_host_verifications,
  SUM(CASE WHEN host_has_profile_pic IS NULL THEN 1 ELSE 0 END) AS null_host_has_profile_pic,
  SUM(CASE WHEN host_identity_verified IS NULL THEN 1 ELSE 0 END) AS null_host_identity_verified,
  SUM(CASE WHEN neighbourhood IS NULL THEN 1 ELSE 0 END) AS null_neighbourhood,
  SUM(CASE WHEN neighbourhood_cleansed IS NULL THEN 1 ELSE 0 END) AS null_neighbourhood_cleansed,
  SUM(CASE WHEN neighbourhood_group_cleansed IS NULL THEN 1 ELSE 0 END) AS null_neighbourhood_group_cleansed,
  SUM(CASE WHEN latitude IS NULL THEN 1 ELSE 0 END) AS null_latitude,
  SUM(CASE WHEN longitude IS NULL THEN 1 ELSE 0 END) AS null_longitude,
  SUM(CASE WHEN property_type IS NULL THEN 1 ELSE 0 END) AS null_property_type,
  SUM(CASE WHEN room_type IS NULL THEN 1 ELSE 0 END) AS null_room_type,
  SUM(CASE WHEN accommodates IS NULL THEN 1 ELSE 0 END) AS null_accommodates,
  SUM(CASE WHEN bathrooms IS NULL THEN 1 ELSE 0 END) AS null_bathrooms,
  SUM(CASE WHEN bathrooms_text IS NULL THEN 1 ELSE 0 END) AS null_bathrooms_text,
  SUM(CASE WHEN bedrooms IS NULL THEN 1 ELSE 0 END) AS null_bedrooms,
  SUM(CASE WHEN beds IS NULL THEN 1 ELSE 0 END) AS null_beds,
  SUM(CASE WHEN amenities IS NULL THEN 1 ELSE 0 END) AS null_amenities,
  SUM(CASE WHEN price IS NULL THEN 1 ELSE 0 END) AS null_price,
  SUM(CASE WHEN minimum_nights IS NULL THEN 1 ELSE 0 END) AS null_minimum_nights,
  SUM(CASE WHEN maximum_nights IS NULL THEN 1 ELSE 0 END) AS null_maximum_nights,
  SUM(CASE WHEN minimum_minimum_nights IS NULL THEN 1 ELSE 0 END) AS null_minimum_minimum_nights,
  SUM(CASE WHEN maximum_minimum_nights IS NULL THEN 1 ELSE 0 END) AS null_maximum_minimum_nights,
  SUM(CASE WHEN minimum_maximum_nights IS NULL THEN 1 ELSE 0 END) AS null_minimum_maximum_nights,
  SUM(CASE WHEN maximum_maximum_nights IS NULL THEN 1 ELSE 0 END) AS null_maximum_maximum_nights,
  SUM(CASE WHEN minimum_nights_avg_ntm IS NULL THEN 1 ELSE 0 END) AS null_minimum_nights_avg_ntm,
  SUM(CASE WHEN maximum_nights_avg_ntm IS NULL THEN 1 ELSE 0 END) AS null_maximum_nights_avg_ntm,
  SUM(CASE WHEN calendar_updated IS NULL THEN 1 ELSE 0 END) AS null_calendar_updated,
  SUM(CASE WHEN has_availability IS NULL THEN 1 ELSE 0 END) AS null_has_availability,
  SUM(CASE WHEN availability_30 IS NULL THEN 1 ELSE 0 END) AS null_availability_30,
  SUM(CASE WHEN availability_60 IS NULL THEN 1 ELSE 0 END) AS null_availability_60,
  SUM(CASE WHEN availability_90 IS NULL THEN 1 ELSE 0 END) AS null_availability_90,
  SUM(CASE WHEN availability_365 IS NULL THEN 1 ELSE 0 END) AS null_availability_365,
  SUM(CASE WHEN calendar_last_scraped IS NULL THEN 1 ELSE 0 END) AS null_calendar_last_scraped,
  SUM(CASE WHEN number_of_reviews IS NULL THEN 1 ELSE 0 END) AS null_number_of_reviews,
  SUM(CASE WHEN number_of_reviews_ltm IS NULL THEN 1 ELSE 0 END) AS null_number_of_reviews_ltm,
  SUM(CASE WHEN number_of_reviews_l30d IS NULL THEN 1 ELSE 0 END) AS null_number_of_reviews_l30d,
  SUM(CASE WHEN first_review IS NULL THEN 1 ELSE 0 END) AS null_first_review,
  SUM(CASE WHEN last_review IS NULL THEN 1 ELSE 0 END) AS null_last_review,
  SUM(CASE WHEN review_scores_rating IS NULL THEN 1 ELSE 0 END) AS null_review_scores_rating,
  SUM(CASE WHEN review_scores_accuracy IS NULL THEN 1 ELSE 0 END) AS null_review_scores_accuracy,
  SUM(CASE WHEN review_scores_cleanliness IS NULL THEN 1 ELSE 0 END) AS null_review_scores_cleanliness,
  SUM(CASE WHEN review_scores_checkin IS NULL THEN 1 ELSE 0 END) AS null_review_scores_checkin,
  SUM(CASE WHEN review_scores_communication IS NULL THEN 1 ELSE 0 END) AS null_review_scores_communication,
  SUM(CASE WHEN review_scores_location IS NULL THEN 1 ELSE 0 END) AS null_review_scores_location,
  SUM(CASE WHEN review_scores_value IS NULL THEN 1 ELSE 0 END) AS null_review_scores_value,
  SUM(CASE WHEN license IS NULL THEN 1 ELSE 0 END) AS null_license,
  SUM(CASE WHEN instant_bookable IS NULL THEN 1 ELSE 0 END) AS null_instant_bookable,
  SUM(CASE WHEN calculated_host_listings_count IS NULL THEN 1 ELSE 0 END) AS null_calculated_host_listings_count,
  SUM(CASE WHEN calculated_host_listings_count_entire_homes IS NULL THEN 1 ELSE 0 END) AS null_calculated_host_listings_count_entire_homes,
  SUM(CASE WHEN calculated_host_listings_count_private_rooms IS NULL THEN 1 ELSE 0 END) AS null_calculated_host_listings_count_private_rooms,
  SUM(CASE WHEN calculated_host_listings_count_shared_rooms IS NULL THEN 1 ELSE 0 END) AS null_calculated_host_listings_count_shared_rooms,
  SUM(CASE WHEN reviews_per_month IS NULL THEN 1 ELSE 0 END) AS null_reviews_per_month
FROM listings;
```

Die Berechnung der Anzahl sowie des prozentualen Anteils fehlender Werte pro Spalte bietet eine klare Übersicht darüber, welche Merkmale besonders betroffen sind. 
Auf dieser Basis können fundierte Entscheidungen hinsichtlich Imputation, Löschung oder anderer Strategien zur Behandlung fehlender Daten getroffen werden.

### 2. Kategorisierung der Spalten nach Analyse-Relevanz

Ein zentraler Schritt bei der Behandlung fehlender Werte besteht darin, die betroffenen Spalten hinsichtlich ihrer Bedeutung für die Analyse zu kategorisieren. 
Diese Einordnung ermöglicht eine systematische Ableitung geeigneter Maßnahmen im Umgang mit fehlenden Daten. 
Im Folgenden wird eine beispielhafte Kategorisierung vorgenommen:


| Kategorie                                               | Beispielhafte Spalten                                                           | Empfohlener Umgang mit fehlenden Werten               |
| ------------------------------------------------------- | -------------------------------------------------------------------------------- | ----------------------------------------------------- |
| 🟥 **Kritisch (essenzielle Kerninformationen)**          | `id`, `price`, `latitude`, `longitude`, `room_type`, `accommodates`             | Zeilen mit fehlenden Werten sollten entfernt werden.  |
| 🟧 **Relevant für Analysen (wünschenswert vollständig)** | `beds`, `bedrooms`, `review_scores_*`, `availability_365`, `reviews_per_month`  | Fehlende Werte sollten durch Imputation oder Flags behandelt werden. |
| 🟨 **Optional / rein informativ / technische Informationen**                        | `host_about`, `description`, `host_thumbnail_url`                               | Fehlende Werte können in der Regel ignoriert werden.  |


Die Zuordnung erfolgt kontextabhängig, basierend auf der Zielsetzung der Analyse. 
Kritische Spalten sind für grundlegende Berechnungen unerlässlich und dürfen keine Lücken enthalten, während bei optionalen oder technischen Feldern eine höhere Toleranz gegenüber fehlenden Werten besteht.


### 3. Zentrale Leitfragen zur Bewertung fehlender Werte

Bei der Bewertung fehlender Werte sollten bestimmte Leitfragen berücksichtigt werden, um fundierte Entscheidungen über den weiteren Umgang mit den Daten treffen zu können. Diese Fragen helfen, zwischen tolerierbaren und problematischen Ausprägungen zu unterscheiden:

- **Wie viele Einträge sind betroffen?**  
  Ein hoher Anteil fehlender Werte (z. B. mehr als 30 %) kann die Aussagekraft einer Spalte erheblich beeinträchtigen und sollte als kritisch bewertet werden.

- **Wird die Spalte später für Berechnungen oder Modellierung verwendet?**  
  Fehlt ein Wert in einem für mathematische Operationen relevanten Feld, kann dies zu Verzerrungen oder Fehlern führen.

- **Kann der fehlende Wert sinnvoll ersetzt werden?**  
  In manchen Fällen ist eine Imputation möglich, z. B. durch Verwendung des Mittelwerts, Medians oder eines Platzhalterwertes wie „unknown“.

- **Trägt das Fehlen des Wertes eine eigene Information?**  
  Ein `NULL`-Wert kann unter Umständen auch eine inhaltliche Bedeutung haben, z. B. dass ein Gast keine Bewertung abgegeben hat. In solchen Fällen kann es sinnvoll sein, den fehlenden Wert explizit als „nicht vorhanden“ zu interpretieren.

Diese Überlegungen unterstützen eine datengetriebene und analytisch begründete Entscheidungsfindung im Umgang mit fehlenden Werten.

### 4. Kategorisierung aller Spalten nach Relevanz

Zur systematischen Behandlung fehlender Werte und zur Priorisierung von Datenbereinigungsschritten wurden alle Spalten des Datensatzes in drei Kategorien eingeteilt. Die Einordnung basiert auf ihrer analytischen Relevanz, insbesondere im Hinblick auf Zielgrößen wie die Berechnung der Rentabilität (ROI), räumliche Analysen (z. B. Heatmaps) sowie die Bewertung von Angebotsqualität und Nutzerverhalten.

| Kategorie                             | Spaltennamen                                                                                                          | Begründung |
|--------------------------------------|-----------------------------------------------------------------------------------------------------------------------|------------|
| 🟥 **High Impact (essentiell)**       | `id`, `latitude`, `longitude`, `price`, `room_type`, `accommodates`, `neighbourhood_cleansed`, `availability_365`, `number_of_reviews`, `reviews_per_month`, `review_scores_rating` | Diese Spalten sind zentral für Kernanalysen wie ROI-Berechnung, geografische Visualisierungen (z. B. Heatmaps) und zur Beurteilung der Angebotsqualität. Fehlende Werte führen zu erheblichen Einschränkungen der Aussagekraft. |
| 🟧 **Medium Impact (nützlich, aber nicht kritisch)** | `bathrooms`, `bedrooms`, `beds`, `host_id`, `host_listings_count`, `host_total_listings_count`, `property_type`, `review_scores_*`, `first_review`, `last_review`, `instant_bookable`, `calculated_host_listings_count_*`, `number_of_reviews_ltm`, `number_of_reviews_l30d`, `has_availability`, `minimum_nights`, `maximum_nights`, `amenities` | Diese Merkmale ergänzen die Analysen sinnvoll und tragen zur Erklärung von Erfolgsfaktoren bei (z. B. welche Eigenschaften machen ein Listing attraktiv oder profitabel). Fehlende Werte sind tolerierbar, sollten aber möglichst behandelt werden. |
| 🟨 **Low Impact (optional oder informativ)** | `listing_url`, `scrape_id`, `last_scraped`, `source`, `name`, `description`, `neighborhood_overview`, `picture_url`, `host_url`, `host_name`, `host_since`, `host_location`, `host_about`, `host_response_time`, `host_response_rate`, `host_acceptance_rate`, `host_is_superhost`, `host_thumbnail_url`, `host_picture_url`, `host_neighbourhood`, `host_verifications`, `host_has_profile_pic`, `host_identity_verified`, `neighbourhood`, `neighbourhood_group_cleansed`, `bathrooms_text`, `calendar_updated`, `calendar_last_scraped`, `license`, `minimum_minimum_nights`, `maximum_minimum_nights`, `minimum_maximum_nights`, `maximum_maximum_nights`, `minimum_nights_avg_ntm`, `maximum_nights_avg_ntm` | Diese Spalten enthalten vorwiegend Metadaten, beschreibende Texte, Bilder oder technische Informationen. Sie sind für Business-Intelligence-Analysen oder geografische Auswertungen nur bedingt relevant, können aber im Rahmen von UI-Design, Vollständigkeitsprüfungen oder NLP-Analysen von Interesse sein. |

Die vorliegende Klassifizierung stellt eine arbeitsorientierte Grundlage für alle weiteren Entscheidungen zur Datenvorverarbeitung dar.


### 5. Bereinigung kritischer Felder und Markierung unvollständiger Einträge (Flagging)

Im Rahmen der Datenbereinigung wurde eine zweistufige Strategie verfolgt, um mit fehlenden Werten umzugehen. Zunächst wurden alle Datensätze entfernt, die in den als *High Impact* klassifizierten Spalten fehlende Werte aufwiesen. Diese Spalten sind für zentrale Analysen wie Rentabilitätsberechnungen, geografische Auswertungen und die allgemeine Bewertung der Angebotsqualität unerlässlich. Fehlende Werte in diesen Feldern würden die Aussagekraft der Analysen massiv beeinträchtigen.

Im Gegensatz dazu wurde bei den als *Medium Impact* eingestuften Spalten auf das Löschen von Zeilen verzichtet. Stattdessen wurde ein **Flagging-Mechanismus** eingeführt: Für jede Zeile wurde ein boolesches Flag (`missing_data_flag`) gesetzt, das anzeigt, ob in mindestens einem dieser mittleren Felder ein Wert fehlt. Dieses Vorgehen ermöglicht es, die Informationen zu fehlenden Werten zu einem späteren Zeitpunkt gezielt wiederzuverwenden – etwa zur Modellbewertung, Filterung oder bei der Entwicklung von Imputationsstrategien.

Die folgende SQL-Abfrage implementiert beide Schritte:

```sql
CREATE TABLE cleaned_listings AS
SELECT *,
  -- Setze Flag für Medium Impact Spalten mit fehlenden Werten
  CASE
    WHEN
      bathrooms IS NULL OR
      bedrooms IS NULL OR
      beds IS NULL OR
      host_id IS NULL OR
      host_listings_count IS NULL OR
      host_total_listings_count IS NULL OR
      property_type IS NULL OR
      review_scores_accuracy IS NULL OR
      review_scores_cleanliness IS NULL OR
      review_scores_checkin IS NULL OR
      review_scores_communication IS NULL OR
      review_scores_location IS NULL OR
      review_scores_value IS NULL OR
      first_review IS NULL OR
      last_review IS NULL OR
      instant_bookable IS NULL OR
      calculated_host_listings_count IS NULL OR
      calculated_host_listings_count_entire_homes IS NULL OR
      calculated_host_listings_count_private_rooms IS NULL OR
      calculated_host_listings_count_shared_rooms IS NULL OR
      number_of_reviews_ltm IS NULL OR
      number_of_reviews_l30d IS NULL OR
      has_availability IS NULL OR
      minimum_nights IS NULL OR
      maximum_nights IS NULL OR
      amenities IS NULL
    THEN TRUE
    ELSE FALSE
  END AS missing_data_flag

FROM listings
-- High Impact: Zeilen löschen, wenn diese Spalten NULL sind
WHERE 
  id IS NOT NULL AND
  latitude IS NOT NULL AND
  longitude IS NOT NULL AND
  price IS NOT NULL AND
  room_type IS NOT NULL AND
  accommodates IS NOT NULL AND
  neighbourhood_cleansed IS NOT NULL AND
  availability_365 IS NOT NULL AND
  number_of_reviews IS NOT NULL AND
  reviews_per_month IS NOT NULL AND
  review_scores_rating IS NOT NULL;
```

Mit dieser Vorgehensweise ist sichergestellt, dass alle für die Kernanalysen relevanten Spalten vollständig vorliegen, während gleichzeitig potenziell informative Lücken in weniger zentralen Spalten nicht verloren gehen, sondern gezielt gekennzeichnet werden.

### 6. Auswertung des `missing_data_flag`: Analyse der unvollständigen Datensätze

Nach der Bereinigung der *High Impact*-Spalten wurde ein Flag (`missing_data_flag`) eingeführt, das anzeigt, ob ein Datensatz in einer oder mehreren *Medium Impact*-Spalten fehlende Werte enthält. Um den Umfang des verbleibenden Datenqualitätsproblems besser einschätzen zu können, wurde eine erste Auswertung dieses Flags vorgenommen.

Die Auswertung beantwortet unter anderem folgende Fragen:

- Wie viele Datensätze enthalten noch fehlende Werte in *Medium Impact*-Feldern?
- Wie groß ist ihr Anteil am Gesamtbestand?
- Welche strategischen Optionen ergeben sich daraus (z. B. Imputation, gezielter Ausschluss)?

**In SQL:**

```sql
-- Zähle, wie viele Zeilen fehlende Werte in Medium Impact Feldern haben
SELECT 
  COUNT(*) AS total_rows,
  SUM(CASE WHEN missing_data_flag = TRUE THEN 1 ELSE 0 END) AS rows_with_missing,
  ROUND(100.0 * SUM(CASE WHEN missing_data_flag = TRUE THEN 1 ELSE 0 END) / COUNT(*), 2) AS percent_with_missing
FROM cleaned_listings;
```
Diese Kennzahlen bieten eine Grundlage für datenbasierte Entscheidungen im weiteren Verlauf der Analyse. Beispielsweise kann entschieden werden, ob die betroffenen Zeilen durch geeignete Verfahren ergänzt (Imputation) oder selektiv ausgeschlossen werden sollen.

### 7. Finalisierung und Typisierung der Tabelle `cleaned_listings`

Nach der ersten Bereinigung des Datensatzes und dem Setzen eines Flags für unvollständige *Medium Impact*-Spalten wurde die Tabelle `cleaned_listings` final strukturiert. Ziel war es, eine konsolidierte und konsistente Datenbasis zu schaffen, mit der im weiteren Analyseprozess effizient und ohne zusätzliche Nachbearbeitung gearbeitet werden kann.

**Vorgehen:**

1. Zunächst wurde eine Sicherungskopie der bereinigten Tabelle erstellt.
2. Anschließend wurde die ursprüngliche Version entfernt.
3. Eine neue, typisierte Tabelle `cleaned_listings` wurde auf Basis des bisherigen Inhalts erstellt.

Besonderes Augenmerk lag dabei auf der **Daten-Typisierung**, um typische Inkonsistenzen – wie zum Beispiel Prozentangaben im Textformat („95%“) – direkt im SQL-Prozess zu bereinigen. Dadurch konnte eine nachgelagerte Datenreinigung in Python vermieden werden.

Zudem wurden gezielte **inhaltliche Korrekturen** vorgenommen, etwa das Auffüllen fehlender Werte im Feld `neighbourhood` mit dem Standardwert „Zürich“. 

Die finale Struktur der Tabelle ist in folgender SQL-Definition abgebildet:

```sql
CREATE TABLE cleaned_listings (
  id NUMERIC,
  listing_url TEXT,
  scrape_id NUMERIC,
  last_scraped DATE,
  source TEXT,
  name TEXT,
  description TEXT,
  neighborhood_overview TEXT,
  picture_url TEXT,
  host_id INT,
  host_url TEXT,
  host_name TEXT,
  host_since DATE,
  host_location TEXT,
  host_about TEXT,
  host_response_time TEXT,
  host_response_rate TEXT,
  host_acceptance_rate INT,
  host_is_superhost BOOLEAN,
  host_thumbnail_url TEXT,
  host_picture_url TEXT,
  host_listings_count INT,
  host_total_listings_count INT,
  host_verifications TEXT,
  host_has_profile_pic BOOLEAN,
  host_identity_verified BOOLEAN,
  neighbourhood TEXT,
  neighbourhood_cleansed TEXT,
  neighbourhood_group_cleansed TEXT,
  latitude FLOAT,
  longitude FLOAT,
  property_type TEXT,
  room_type TEXT,
  accommodates INT,
  bathrooms FLOAT,
  bedrooms FLOAT,
  beds FLOAT,
  amenities JSONB,
  price FLOAT,
  minimum_nights INT,
  maximum_nights INT,
  minimum_minimum_nights INT,
  maximum_minimum_nights INT,
  minimum_maximum_nights INT,
  maximum_maximum_nights INT,
  minimum_nights_avg_ntm FLOAT,
  maximum_nights_avg_ntm FLOAT,
  has_availability BOOLEAN,
  availability_30 INT,
  availability_60 INT,
  availability_90 INT,
  availability_365 INT,
  calendar_last_scraped DATE,
  number_of_reviews INT,
  number_of_reviews_ltm INT,
  number_of_reviews_l30d INT,
  first_review DATE,
  last_review DATE,
  review_scores_rating FLOAT,
  review_scores_accuracy FLOAT,
  review_scores_cleanliness FLOAT,
  review_scores_checkin FLOAT,
  review_scores_communication FLOAT,
  review_scores_location FLOAT,
  review_scores_value FLOAT,
  instant_bookable BOOLEAN,
  calculated_host_listings_count INT,
  calculated_host_listings_count_entire_homes INT,
  calculated_host_listings_count_private_rooms INT,
  reviews_per_month FLOAT,
  missing_data_flag BOOLEAN
);
```

Mit dieser finalen Struktur stehen nun bereinigte, konsistent typisierte und vollständig analysierbare Daten zur Verfügung für alle nachfolgenden Analysen und Modellierungen.

### 8. Finaler Datenimport: Typkonvertierung und strukturierte Bereinigung

Nach mehreren Wochen aktiver Analyse durch die Gruppenmitglieder konnten die tatsächliche Relevanz und der Nutzungszweck vieler *Medium* und *Low Impact*-Felder deutlich besser eingeschätzt werden. Auf dieser Grundlage wurde beschlossen, die bestehende `cleaned_listings`-Tabelle final zu überarbeiten und dabei eine umfassende Typkonvertierung sowie gezielte Bereinigungen durchzuführen.

Ziel dieses Schritts war es, die noch enthaltenen inkonsistenten oder fehleranfälligen Werteformate (z. B. `"N/A"`, Prozentzeichen, Währungszeichen) systematisch zu bereinigen und in ein robustes Datenmodell zu überführen, das für analytische und statistische Auswertungen direkt einsetzbar ist – ohne zusätzliche Nachbearbeitung in Python oder anderen Tools.

**Beispiele für durchgeführte Konvertierungen:**

- Textuelle Platzhalter wie `"N/A"` wurden in `NULL` umgewandelt.
- Prozentwerte wie `"95%"` wurden bereinigt und als numerische Werte (`95`) gespeichert.
- Währungsangaben wie `"$123.00"` wurden durch Entfernen von Sonderzeichen in numerische Gleitkommazahlen (`FLOAT`) überführt.
- Wahrheitswerte wie `"t"` / `"f"` wurden als `BOOLEAN` gespeichert.
- JSON-Textfelder (`amenities`) wurden korrekt in das Datentypformat `JSONB` überführt.

**Das folgende SQL-Statement zeigt die konkrete Umsetzung:**

```sql
INSERT INTO cleaned_listings (
  id, listing_url, scrape_id, last_scraped, source, name, description,
  neighborhood_overview, picture_url, host_id, host_url, host_name, host_since,
  host_location, host_about, host_response_time, host_response_rate,
  host_acceptance_rate, host_is_superhost, host_thumbnail_url, host_picture_url,
  host_listings_count, host_total_listings_count, host_verifications,
  host_has_profile_pic, host_identity_verified, neighbourhood, 
  neighbourhood_cleansed, neighbourhood_group_cleansed, latitude, longitude,
  property_type, room_type, accommodates, bathrooms, bedrooms, beds, amenities,
  price, minimum_nights, maximum_nights, minimum_minimum_nights,
  maximum_minimum_nights, minimum_maximum_nights, maximum_maximum_nights,
  minimum_nights_avg_ntm, maximum_nights_avg_ntm, has_availability,
  availability_30, availability_60, availability_90, availability_365,
  calendar_last_scraped, number_of_reviews, number_of_reviews_ltm,
  number_of_reviews_l30d, first_review, last_review, review_scores_rating,
  review_scores_accuracy, review_scores_cleanliness, review_scores_checkin,
  review_scores_communication, review_scores_location, review_scores_value,
  instant_bookable, calculated_host_listings_count,
  calculated_host_listings_count_entire_homes,
  calculated_host_listings_count_private_rooms, reviews_per_month,
  missing_data_flag
)
SELECT
  NULLIF(id::TEXT, 'N/A')::NUMERIC,
  listing_url,
  NULLIF(scrape_id::TEXT, 'N/A')::NUMERIC,
  NULLIF(last_scraped::TEXT, 'N/A')::DATE,
  source,
  name,
  description,
  neighborhood_overview,
  picture_url,
  NULLIF(host_id::TEXT, 'N/A')::NUMERIC,
  host_url,
  host_name,
  NULLIF(host_since::TEXT, 'N/A')::DATE,
  host_location,
  host_about,
  host_response_time,
  host_response_rate,
  NULLIF(REPLACE(host_acceptance_rate::TEXT, '%', ''), 'N/A')::BIGINT,
  host_is_superhost = 't',
  host_thumbnail_url,
  host_picture_url,
  NULLIF(host_listings_count::TEXT, 'N/A')::NUMERIC,
  NULLIF(host_total_listings_count::TEXT, 'N/A')::NUMERIC,
  host_verifications,
  host_has_profile_pic = 't',
  host_identity_verified = 't',
  neighbourhood,
  neighbourhood_cleansed,
  neighbourhood_group_cleansed,
  NULLIF(latitude::TEXT, 'N/A')::FLOAT,
  NULLIF(longitude::TEXT, 'N/A')::FLOAT,
  property_type,
  room_type,
  NULLIF(accommodates::TEXT, 'N/A')::BIGINT,
  NULLIF(bathrooms::TEXT, 'N/A')::FLOAT,
  NULLIF(bedrooms::TEXT, 'N/A')::FLOAT,
  NULLIF(beds::TEXT, 'N/A')::FLOAT,
  NULLIF(amenities::TEXT, 'N/A')::JSONB,
  NULLIF(REPLACE(REPLACE("price", ',', ''), '$', '')::TEXT, 'N/A')::FLOAT,
  NULLIF(minimum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(maximum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(minimum_minimum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(maximum_minimum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(minimum_maximum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(maximum_maximum_nights::TEXT, 'N/A')::BIGINT,
  NULLIF(minimum_nights_avg_ntm::TEXT, 'N/A')::FLOAT,
  NULLIF(maximum_nights_avg_ntm::TEXT, 'N/A')::FLOAT,
  has_availability = 't',
  NULLIF(availability_30::TEXT, 'N/A')::BIGINT,
  NULLIF(availability_60::TEXT, 'N/A')::BIGINT,
  NULLIF(availability_90::TEXT, 'N/A')::BIGINT,
  NULLIF(availability_365::TEXT, 'N/A')::BIGINT,
  NULLIF(calendar_last_scraped::TEXT, 'N/A')::DATE,
  NULLIF(number_of_reviews::TEXT, 'N/A')::BIGINT,
  NULLIF(number_of_reviews_ltm::TEXT, 'N/A')::BIGINT,
  NULLIF(number_of_reviews_l30d::TEXT, 'N/A')::BIGINT,
  NULLIF(first_review::TEXT, 'N/A')::DATE,
  NULLIF(last_review::TEXT, 'N/A')::DATE,
  NULLIF(review_scores_rating::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_accuracy::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_cleanliness::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_checkin::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_communication::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_location::TEXT, 'N/A')::FLOAT,
  NULLIF(review_scores_value::TEXT, 'N/A')::FLOAT,
  instant_bookable = 't',
  NULLIF(calculated_host_listings_count::TEXT, 'N/A')::BIGINT,
  NULLIF(calculated_host_listings_count_entire_homes::TEXT, 'N/A')::BIGINT,
  NULLIF(calculated_host_listings_count_private_rooms::TEXT, 'N/A')::BIGINT,
  NULLIF(reviews_per_month::TEXT, 'N/A')::FLOAT,
  missing_data_flag
FROM cleaned_listings_backup_14_05_2025;
```

Diese finale Version der Tabelle cleaned_listings bildet den Ausgangspunkt für alle weiterführenden Analysen und Modelle. 
Sie stellt sicher, dass sämtliche strukturellen Inkonsistenzen beseitigt wurden und bietet ein hohes Maß an Datenqualität, Nachvollziehbarkeit und Robustheit.


# Step 3: Analyzing Data

## Analyse-Toolkit & Geplante Insights
In diesem Schritt werden die vorbereiteten Daten analysiert, um die in Step 1 definierten Use Cases für InvestZurich AG zu beantworten. Hierbei kommen die im Kurs BINA erlernten Methoden zum Einsatz:

* **Descriptive Statistics:**
    * **Anwendung:** Grundlage für alle Analysen. Berechnung von Kennzahlen (Mittelwerte, Median, Häufigkeiten) für Preise, Bewertungen, Auslastungsindikatoren etc. Vergleich von Quartieren und Host-Typen.
    * **Ziel:** Basisverständnis der Daten schaffen.
* **Regression:**
    * **Anwendung:** Identifikation der Haupttreiber für Preise und Bewertungen.
    * **Ziel:** Prognose von Preisen und Bewertungen.
* **Clustering:**
    * **Anwendung:** Gruppierung von Quartieren oder Listings basierend auf Ähnlichkeiten.
    * **Ziel:** Identifikation von Mustern und Segmenten.
* **Classification:**
    * **Anwendung:** Vorhersage von Superhost-Status oder anderen binären Zielvariablen.
    * **Ziel:** Handlungsempfehlungen für Performance-Optimierung.
* **Time Series Analysis:**
    * **Anwendung:** Analyse von saisonalen Mustern und Trends in Preisen und Verfügbarkeiten.
    * **Ziel:** Zeitbasierte Prognosen erstellen.
* **NLP (Natural Language Processing):**
    * **Anwendung:** Analyse von Beschreibungstexten und Reviews.
    * **Ziel:** Insights aus Textdaten gewinnen (z.B. Sentiment, Themen).

# Step 4: Presenting Results

In diesem Schritt werden die Ergebnisse der Analyse zusammengefasst und visualisiert, um InvestZurich AG klare Handlungsempfehlungen zu geben. Die Präsentation erfolgt in Form von:

* **Visualisierungen:** Karten, Diagramme und Heatmaps zur Darstellung von Mustern und Trends.
* **Bericht:** Schriftliche Zusammenfassung der wichtigsten Erkenntnisse.
* **Empfehlungen:** Konkrete Handlungsvorschläge basierend auf den Ergebnissen der Analyse.

# Step 5: Deployment & Next Steps

Abschliessend werden die Ergebnisse operationalisiert und nächste Schritte definiert:

* **Deployment:** Integration der Ergebnisse in Entscheidungsprozesse von InvestZurich AG.
* **Feedback-Schleifen:** Überprüfung der Empfehlungen durch kontinuierliche Datenanalyse.
* **Weiterführende Analysen:** Erweiterung der Analyse auf andere Städte oder zusätzliche Datenquellen.