# CRISP-DM Beispiel: California Housing
In diesem Notebook begleiten wir den Data-Science-Prozess am Beispiel der Vorhersage von Hauspreisen in Kalifornien.
Wir nutzen einen offenen Datensatz und Python mit pandas, matplotlib und scikit-learn.

## 1. Business Understanding
Ziel: Wie hängen Lage, Größe und andere Merkmale mit dem Hauswert zusammen? Kann man den Wert vorhersagen?

## 2. Data Understanding
Wir laden den California Housing Datensatz und verschaffen uns einen ersten Überblick.

In [None]:
from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing(as_frame=True)
df = housing.frame # df is a pandas DataFrame, "df" is its variable name
df.head()

Spaltennamen ausgeben

In [None]:
print(list(df.columns))

Erste Zeile anzeigen (die Werte werden hier untereinander aufgelistet, es ist aber die erste Zeile!)

In [None]:
print(df.iloc[0])

Ersten Wert der ersten Zeile anzeigen

In [None]:
print(df.iloc[0,0])

## 3. Erste Datenanalyse und Visualisierung
Wir schauen uns die Verteilung des Hauswerts und wichtige Merkmale an.

In [None]:
import matplotlib.pyplot as plt
df['MedHouseVal'].hist(bins=30, edgecolor='black')
plt.xlabel('Median House Value (100.000 USD)')
plt.ylabel('Anzahl')
plt.title('Verteilung der Hauswerte in Kalifornien')
plt.show()

## 4. Data Preparation
Wir prüfen auf fehlende Werte und bereiten die Daten für die Modellierung vor.

In [None]:
df.info()
df.isnull().sum()

## Was tun bei fehlenden Werten?
Falls im Datensatz fehlende Werte vorhanden wären, könnten wir verschiedene Strategien anwenden:

- **Entfernen der Zeilen/Spalten:** Wenn nur wenige Werte fehlen, kann man die betroffenen Zeilen oder Spalten löschen.
- **Auffüllen (Imputation):** Fehlende Werte können durch den Mittelwert, Median oder andere statistische Kennzahlen ersetzt werden.
- **Modellbasierte Imputation:** Komplexere Methoden wie KNN-Imputation oder Regressionsmodelle können verwendet werden.

Die Wahl der Methode hängt von der Datenmenge, dem Kontext und der Bedeutung der fehlenden Werte ab.

In [None]:
# Beispiel: Fehlende Werte behandeln
import numpy as np
df_missing = df.copy()
df_missing.iloc[0, 0] = np.nan  # künstlich einen fehlenden Wert erzeugen
print('Vorher:', df_missing.isnull().sum())

# 1. Variante: Zeile mit fehlendem Wert entfernen
df_drop = df_missing.dropna()
print('Nach Entfernen:', df_drop.isnull().sum())

# 2. Variante: Fehlende Werte mit Mittelwert auffüllen
df_fill = df_missing.fillna(df_missing.mean(numeric_only=True))
print('Nach Auffüllen:', df_fill.isnull().sum())

## 5. Ausblick: Modellierung und Evaluation
Im nächsten Schritt werden wir ein erstes Vorhersagemodell bauen und bewerten.