## 1. Einleitung / Ziel des Projekts üè†

In diesem Projekt untersuchen wir die Verkaufspreise von H√§usern im Raum Seattle (King County, USA).  
Wir wollen die wichtigsten Preisfaktoren identifizieren, wie z. B.:
- **Wohnfl√§che, Zimmeranzahl, Baujahr, Zustand**
- **Einfluss der Lage (Wasserlage, Postleitzahl)**
- **Zusammenh√§nge zwischen Preis und Wohnqualit√§t**

Ziel ist es, **Auff√§lligkeiten und Muster** im Immobilienmarkt zu erkennen.


## 2. Daten laden und √úberblick üßê

Wir starten mit dem Laden der Daten und einem ersten √úberblick:
- **Wie viele Zeilen und Spalten gibt es?**
- **Welche Spalten sind enthalten?**
- **Gibt es fehlende Werte?**


In [1]:
# Bibliotheken importieren
import pandas as pd

# Daten laden
df = pd.read_csv("../data/kc_house_data.csv")

# Ersten Blick auf die Daten werfen
df.head()


Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


## 3. Erste Datenpr√ºfung üß™

Ziel:
- **Gr√∂√üe des Datensatzes ermitteln**
- **Spaltennamen und Datentypen pr√ºfen**
- **Fehlende Werte identifizieren**


In [2]:
# Gr√∂√üe des Datensatzes
df.shape

# Spaltennamen anzeigen
df.columns

# Datentypen und Speicherverbrauch pr√ºfen
df.info()

# Fehlende Werte pr√ºfen
df.isnull().sum()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

id               0
date             0
price            0
bedrooms         0
bathrooms        0
sqft_living      0
sqft_lot         0
floors           0
waterfront       0
view             0
condition        0
grade            0
sqft_above       0
sqft_basement    0
yr_built         0
yr_renovated     0
zipcode          0
lat              0
long             0
sqft_living15    0
sqft_lot15       0
dtype: int64

## 4. Daten bereinigen üßπ

Die Daten sind insgesamt **sauber** ‚Äì keine fehlenden Werte.  
Einzig die `date`-Spalte liegt noch als `object` (Text) vor und wird jetzt in ein echtes **Datumsformat (datetime)** umgewandelt.


In [3]:
# Datumsspalte umwandeln
df['date'] = pd.to_datetime(df['date'])

# Pr√ºfen, ob es geklappt hat
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   id             21613 non-null  int64         
 1   date           21613 non-null  datetime64[ns]
 2   price          21613 non-null  float64       
 3   bedrooms       21613 non-null  int64         
 4   bathrooms      21613 non-null  float64       
 5   sqft_living    21613 non-null  int64         
 6   sqft_lot       21613 non-null  int64         
 7   floors         21613 non-null  float64       
 8   waterfront     21613 non-null  int64         
 9   view           21613 non-null  int64         
 10  condition      21613 non-null  int64         
 11  grade          21613 non-null  int64         
 12  sqft_above     21613 non-null  int64         
 13  sqft_basement  21613 non-null  int64         
 14  yr_built       21613 non-null  int64         
 15  yr_renovated   2161

## Schritt 5: Explorative Datenanalyse (EDA)

Jetzt gehen wir die ersten spannenden Fragen an:

- ** Wie verteilen sich die Immobilienpreise? **
- ** Gibt es viele g√ºnstige oder eher teure H√§user? **
- ** Wie verteilen sich die Wohnfl√§chen? **
- ** Sind die meisten H√§user klein oder gro√ü? **
- ** Hat Wasserlage (waterfront) Einfluss auf den Preis? **
- ** Sind H√§user am Wasser teurer? **
- ** Welche Postleitzahlen haben die h√∂chsten Preise? **	
- ** Gibt es teure Gegenden / Hotspots? **
- ** Wie entwickeln sich Preise √ºber die Zeit? **	
- ** Steigen die Preise, oder gibt es Schwankungen? **

## 5.1 Verteilung der Immobilienpreise üí∞üìä

Wie verteilen sich die Hauspreise?  
Gibt es viele g√ºnstige Immobilien oder ziehen einige Luxusobjekte den Schnitt hoch?


In [8]:
plt.figure(figsize=(10, 5))
sns.histplot(df['price'], bins=50, kde=True)

plt.title("Verteilung der Immobilienpreise")
plt.xlabel("Preis (‚Ç¨)")
plt.ylabel("Anzahl der Immobilien")

# Speichern
plt.savefig("../visuals/preisverteilung.png")
plt.close()  # Schlie√üt das Plot-Fenster (damit es nicht doppelt angezeigt wird)


## 5.1 Verteilung der Immobilienpreise ‚Äì Kennzahlen üßÆ

Neben der Visualisierung werfen wir einen Blick auf die wichtigsten Kennzahlen:
- **Minimum, Maximum, Median**
- **Mittelwert, Standardabweichung**
- **Quartile**


In [12]:
# Statistische Kennzahlen f√ºr Preis
preis_statistik = df['price'].describe()
preis_statistik


count    2.161300e+04
mean     5.400881e+05
std      3.671272e+05
min      7.500000e+04
25%      3.219500e+05
50%      4.500000e+05
75%      6.450000e+05
max      7.700000e+06
Name: price, dtype: float64

## 5.2 Wohnfl√§che (sqft_living) ‚Äì Verteilung üè†üìè

Wie gro√ü sind die meisten H√§user?  
Gibt es viele kleine H√§user oder √ºberwiegen gro√üe Immobilien?


In [9]:
plt.figure(figsize=(10, 5))
sns.histplot(df['sqft_living'], bins=50, kde=True)

plt.title("Verteilung der Wohnfl√§che")
plt.xlabel("Wohnfl√§che (sqft)")
plt.ylabel("Anzahl der Immobilien")

# Speichern
plt.savefig("../visuals/wohnflaeche_verteilung.png")
plt.close()


## 5.2 Wohnfl√§che (sqft_living) ‚Äì Kennzahlen üè†üìè

Wie verteilen sich die Wohnfl√§chen in Zahlen?


In [13]:
# Statistische Kennzahlen f√ºr Wohnfl√§che
wohnflaeche_statistik = df['sqft_living'].describe()
wohnflaeche_statistik


count    21613.000000
mean      2079.899736
std        918.440897
min        290.000000
25%       1427.000000
50%       1910.000000
75%       2550.000000
max      13540.000000
Name: sqft_living, dtype: float64

## 5.3 Wasserlage (waterfront) vs. Preis üåäüí∞

Beeinflusst die N√§he zum Wasser den Immobilienpreis?  
H√§user mit Wasserlage (`waterfront = 1`) k√∂nnten teurer sein als H√§user ohne (`waterfront = 0`).


In [10]:
# Durchschnittspreis mit und ohne Wasserlage
waterfront_prices = df.groupby('waterfront')['price'].mean()

# Ausgabe der Durchschnittspreise
waterfront_prices


waterfront
0    5.315636e+05
1    1.661876e+06
Name: price, dtype: float64

In [11]:
plt.figure(figsize=(6, 4))
sns.barplot(x=waterfront_prices.index, y=waterfront_prices.values, palette='Blues')

plt.title("Durchschnittlicher Preis: Wasserlage vs. keine Wasserlage")
plt.xlabel("Wasserlage (0 = Nein, 1 = Ja)")
plt.ylabel("Durchschnittlicher Preis (‚Ç¨)")

# Speichern
plt.savefig("../visuals/wasserlage_preisvergleich.png")
plt.close()



Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `x` variable to `hue` and set `legend=False` for the same effect.

  sns.barplot(x=waterfront_prices.index, y=waterfront_prices.values, palette='Blues')


## 5.3 Wasserlage ‚Äì Durchschnittspreise üíßüìä

Wie unterscheiden sich die **durchschnittlichen Preise** zwischen H√§usern mit und ohne Wasserlage?


In [14]:
waterfront_prices


waterfront
0    5.315636e+05
1    1.661876e+06
Name: price, dtype: float64

## 5.4 Zusammenfassung ‚Äì Kennzahlen f√ºr Preis, Wohnfl√§che und Wasserlage üßÆ

Die wichtigsten statistischen Kennzahlen auf einen Blick:
- **Preis:** Minimum, Maximum, Median, Quartile, Mittelwert
- **Wohnfl√§che:** Verteilung der Quadratfu√ü
- **Wasserlage:** Durchschnittspreise f√ºr H√§user mit/ohne Wasserlage


In [15]:
# Preise ‚Äì Verteilung
print("üìä Immobilienpreise ‚Äì Kennzahlen")
print(df['price'].describe())
print("\n")

# Wohnfl√§che ‚Äì Verteilung
print("üè† Wohnfl√§che (sqft_living) ‚Äì Kennzahlen")
print(df['sqft_living'].describe())
print("\n")

# Wasserlage ‚Äì Durchschnittspreise
print("üíß Wasserlage vs. Preis ‚Äì Durchschnittspreise")
print(df.groupby('waterfront')['price'].mean())


üìä Immobilienpreise ‚Äì Kennzahlen
count    2.161300e+04
mean     5.400881e+05
std      3.671272e+05
min      7.500000e+04
25%      3.219500e+05
50%      4.500000e+05
75%      6.450000e+05
max      7.700000e+06
Name: price, dtype: float64


üè† Wohnfl√§che (sqft_living) ‚Äì Kennzahlen
count    21613.000000
mean      2079.899736
std        918.440897
min        290.000000
25%       1427.000000
50%       1910.000000
75%       2550.000000
max      13540.000000
Name: sqft_living, dtype: float64


üíß Wasserlage vs. Preis ‚Äì Durchschnittspreise
waterfront
0    5.315636e+05
1    1.661876e+06
Name: price, dtype: float64


## 5.5 Interpretation der Kennzahlen üß†

### 1Ô∏è‚É£ Immobilienpreise:
- **Typischer Preis: ~450.000 ‚Ç¨** (Median), **Durchschnitt: ~540.000 ‚Ç¨**.
- **Luxusimmobilien (bis 7,7 Mio ‚Ç¨) ziehen den Durchschnitt hoch.**
- **50% der H√§user kosten zwischen 322.000 ‚Ç¨ und 645.000 ‚Ç¨.**

### 2Ô∏è‚É£ Wohnfl√§che:
- **Typische Wohnfl√§che: ~178 m¬≤** (Median), **Durchschnitt: ~193 m¬≤**.
- **Hohe Streuung ‚Üí Tiny-H√§user (~27 m¬≤) bis Villen (1.250 m¬≤).**
- **50% der H√§user liegen zwischen ~132 m¬≤ und 237 m¬≤.**

### 3Ô∏è‚É£ Wasserlage:
- **Ohne Wasserlage: ~531.000 ‚Ç¨** im Durchschnitt.
- **Mit Wasserlage: ~1,66 Mio ‚Ç¨** ‚Üí **Wasserlage verdreifacht den Preis!**


## 5.6 Teure Gegenden ‚Äì Postleitzahlen üèòÔ∏èüìç

Wie unterscheiden sich die Preise zwischen den Postleitzahlen?  
Wir wollen wissen:
- **Welche PLZ haben die h√∂chsten Durchschnittspreise?**
- **Gibt es bestimmte "Hotspots" mit besonders teuren Immobilien?**


In [16]:
# Durchschnittspreis pro Postleitzahl berechnen
plz_prices = df.groupby('zipcode')['price'].mean().sort_values(ascending=False).head(10)

# Ausgabe der Top 10 PLZ
plz_prices


zipcode
98039    2.160607e+06
98004    1.355927e+06
98040    1.194230e+06
98112    1.095499e+06
98102    9.012583e+05
98109    8.796236e+05
98105    8.628252e+05
98006    8.596848e+05
98119    8.494480e+05
98005    8.101649e+05
Name: price, dtype: float64

In [17]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 5))
plz_prices.plot(kind='bar', color='purple')

plt.title("Top 10 Postleitzahlen nach Durchschnittspreis")
plt.xlabel("Postleitzahl")
plt.ylabel("Durchschnittspreis (‚Ç¨)")

# Speichern in visuals/
plt.savefig("../visuals/top10_plz_preise.png")
plt.close()


## 5.7 Teure Gegenden ‚Äì Interpretation üß†

### Top 10 Postleitzahlen nach Durchschnittspreis:
| PLZ   | Durchschnittspreis | Region / Besonderheit |
|-------|---------------------|-----------------------|
| **98039** | 2.160.607 ‚Ç¨       | Medina ‚Äì Luxus, Bill Gates |
| **98004** | 1.355.927 ‚Ç¨       | Bellevue ‚Äì Tech-Elite |
| **98040** | 1.194.230 ‚Ç¨       | Mercer Island ‚Äì Insel |
| **98112** | 1.095.499 ‚Ç¨       | Capitol Hill ‚Äì Zentral, gehoben |
| **98102** | 901.258 ‚Ç¨         | Eastlake ‚Äì Wasserlage |
| **98109** | 879.624 ‚Ç¨         | Queen Anne ‚Äì Aussicht |
| **98105** | 862.825 ‚Ç¨         | Uni District ‚Äì Altbauten |
| **98006** | 859.684 ‚Ç¨         | Bellevue S√ºd ‚Äì Familien |
| **98119** | 849.448 ‚Ç¨         | Queen Anne Nord ‚Äì Skyline |
| **98005** | 810.165 ‚Ç¨         | Bellevue Ost ‚Äì N√§he Tech |

### Erkenntnisse:
- **Luxusgebiete wie Medina & Mercer Island f√ºhren die Liste an**.
- **Tech-Standorte (Bellevue, Microsoft-N√§he) treiben Preise hoch**.
- **Zentrale Lagen mit Wasser-/Skyline-Blick (Queen Anne, Eastlake) sind sehr gefragt**.
