# CRISP-DM Beispiel: California Housing
In diesem Notebook begleiten wir den Data-Science-Prozess am Beispiel der Vorhersage von Hauspreisen in Kalifornien.
Wir nutzen einen offenen Datensatz und Python mit pandas, matplotlib und scikit-learn.

## 1. Business Understanding
Ziel: Wie hängen Lage, Größe und andere Merkmale mit dem Hauswert zusammen? Kann man den Wert vorhersagen?

## 2. Data Understanding
Wir laden den California Housing Datensatz und verschaffen uns einen ersten Überblick.

In [None]:
import pandas as pd
from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing(as_frame=True)
df = housing.frame
df.head()

## 3. Erste Datenanalyse und Visualisierung
Wir schauen uns die Verteilung des Hauswerts und wichtige Merkmale an.

In [None]:
import matplotlib.pyplot as plt
df['MedHouseVal'].hist(bins=30, edgecolor='black')
plt.xlabel('Median House Value (100.000 USD)')
plt.ylabel('Anzahl')
plt.title('Verteilung der Hauswerte in Kalifornien')
plt.show()

## 4. Data Preparation
Wir prüfen auf fehlende Werte und bereiten die Daten für die Modellierung vor.

In [None]:
df.info()
df.isnull().sum()

## 5. Ausblick: Modellierung und Evaluation
Im nächsten Schritt werden wir ein erstes Vorhersagemodell bauen und bewerten.