# Hauspreise in Californien

In [None]:
from pathlib import Path
import numpy as np
import pandas as pd

In [None]:
pandas_data_path = Path(
    r"C:\Users\tc\Programming\Python\Courses\Own\python-programmierer\Data\Pandas"
)
california_housing_csv_path = pandas_data_path / "california-housing.csv"

## Laden des Datensatzes

Laden Sie die CSV-Datei `california_housing_csv_path` als
Pandas DataFrame. Importieren Sie dabei keine
Spalten ohne Informationsgehalt.

In [None]:
df = pd.read_csv(california_housing_csv_path, index_col=0)

In [None]:
df

Wie viele Zeilen hat der DataFrame?

In [None]:
len(df)

Welche Spalten hat der DataFrame?
Gibt es Spalten im DataFrame die undefinierte Werte (NA) enthalten?

In [None]:
df.columns

In [None]:
# This is true if `notna()` drops rows, i.e., if
df.isna().sum()


Was sind Minimum, Maximum, Mittelwert und
Standardabweichung der einzelnen Spalten?

In [None]:
df.describe()

Erzeugen Sie Histogramme der einzelnen Spalten.
Welche Auffälligkeiten gibt es dabei?

In [None]:
df.hist(bins=30, figsize=(12, 8))


Erzeugen Sie einen neuen DataFrame, der nur die Zeilen enthält, deren `Target`
Wert größer als 4 ist. Wie viele einträge hat dieser DataFrame?

In [None]:
df_expensive = df[df["Target"] > 4]

In [None]:
df_expensive


Plotten Sie Longitude vs. Latitude als Scatterplot. Was können Sie aus diesem
Plot ablesen?

Mit dem Keyword-Argument `c` können Sie einen Spaltennamen angeben, deren
Werte die Farbe der Ausgabe bestimmen. Mit `cmap` können Sie eine Colormap
dafür angeben. Mit dem Keyword-Argument `alpha` können Sie die Transparenz der
Ausgabe steuern.

Experimentieren Sie mit diesen Werten um die Ausgabe informativer zu
gestalten.

In [None]:
df.plot(
    kind="scatter",
    x="Longitude",
    y="Latitude",
    figsize=(10, 8),
    alpha=0.4,
    c="Target",
    cmap="hot",
)

Wie sieht die entsprechende Ausgabe für den DataFrame aus, der nur
teure Häuser enthält?

In [None]:
df_expensive.plot(
    kind="scatter",
    x="Longitude",
    y="Latitude",
    figsize=(10, 8),
    alpha=0.4,
    c="Target",
    cmap="hot",
)


Falls Sie Seaborn installiert haben können Sie mit `seaborn.pairplot()` ein
Grid mit Scatterplots aus allen möglichen Kombinationen von Spalten erzeugen.
Mit dem Keyword-Argument `hue` können Sie dabei eine Spalte angeben, die die
Farbe der Ausgabe bestimmt.

Welche der Plots liefern interessante Informationen? Welche Werte sind für
`hue` interessant?

*Hinweis:* Es empfiehlt sich, die Anzahl der Werte auf z.B. 500 oder 1000 zu
beschränken um die Zeit, die die Erzeugung der Plots dauert in Grenzen zu
halten.

In [None]:
import seaborn as sns

# sns.pairplot(df.iloc[:500])

In [None]:
# sns.pairplot(df.iloc[:500], hue="Target")

In [None]:
# sns.pairplot(df.iloc[:500], hue="MedInc")

In [None]:
# sns.pairplot(df_expensive)

In [None]:
df.columns

In [None]:
np.set_printoptions(precision=2)

In [None]:
x = df[
    [
        "MedInc",
        "HouseAge",
        "AveRooms",
        "AveBedrms",
        "Population",
        "AveOccup",
        "Latitude",
        "Longitude",
    ]
].to_numpy()
y = df["Target"].to_numpy()
x.shape, y.shape

In [None]:
NUM_TRAINING_SAMPLES = 15_000

In [None]:
x_train, x_test = x[:NUM_TRAINING_SAMPLES], x[NUM_TRAINING_SAMPLES:]
y_train, y_test = y[:NUM_TRAINING_SAMPLES], y[NUM_TRAINING_SAMPLES:]
x_train.shape, x_test.shape, y_train.shape, y_test.shape

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
lr_model = LinearRegression()
lr_model.fit(x_train, y_train)

In [None]:
lr_pred = lr_model.predict(x_test)

In [None]:
def print_score(y_true, y_pred):
    mae = mean_absolute_error(y_true, y_pred)
    mse = mean_squared_error(y_true, y_pred)
    print(f"Mean: {np.mean(y_true):.3f}")
    print(f"MAE%: {mae/np.mean(y_true):.3f}")
    print(f"MAE:  {mae:.3f}")
    print(f"MSE:  {mse:.3f}")

In [None]:
print_score(y_test, lr_pred)

In [None]:
dt_model = DecisionTreeRegressor()
dt_model.fit(x_train, y_train)

In [None]:
dt_pred = dt_model.predict(x_test)

In [None]:
print_score(y_test, dt_pred)

In [None]:
rf_model = RandomForestRegressor(n_jobs=32)
rf_model.fit(x_train, y_train)

In [None]:
rf_pred = rf_model.predict(x_test)

In [None]:
print_score(y_test, rf_pred)

In [None]:
x_train[:3]

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

In [None]:
x_train[:3]

In [None]:
lr_model = LinearRegression()
lr_model.fit(x_train, y_train)

In [None]:
lr_pred = lr_model.predict(x_test)

In [None]:
print_score(y_test, lr_pred)

In [None]:
dt_model = DecisionTreeRegressor()
dt_model.fit(x_train, y_train)

In [None]:
dt_pred = dt_model.predict(x_test)

In [None]:
print_score(y_test, dt_pred)

In [None]:
rf_model = RandomForestRegressor(n_jobs=32)
rf_model.fit(x_train, y_train)

In [None]:
rf_pred = rf_model.predict(x_test)

In [None]:
print_score(y_test, rf_pred)