# 1. Explorative Datenanalyse (EDA)

**KI1-Projekt 308** — California Housing Datensatz

Ziel: Den Datensatz verstehen, Verteilungen und Korrelationen analysieren,
Datenbereinigung dokumentieren.

In [None]:
import sys
sys.path.insert(0, '..')

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from utils.data import load_raw_data, clean_data, load_and_clean_data
from utils.plotting import (
    plot_correlation_heatmap,
    plot_histograms,
    plot_features_vs_target,
    save_fig,
)

plt.rcParams['figure.dpi'] = 100
%matplotlib inline

## 1.1 Rohdaten laden und inspizieren

In [None]:
df_raw = load_raw_data()
print(f"Datensatz: {df_raw.shape[0]} Zeilen, {df_raw.shape[1]} Spalten")
print(f"\nFeatures: {list(df_raw.columns[:-1])}")
print(f"Zielvariable: {df_raw.columns[-1]}")
df_raw.head()

In [None]:
df_raw.describe()

In [None]:
df_raw.info()

## 1.2 Verteilungen der Features (Histogramme)

In [None]:
fig, axes = plot_histograms(df_raw, bins=40, save_name="eda_histograms_raw")
plt.show()

**Beobachtungen:**
- `MedHouseVal` hat einen Cut-off bei 5.001 (Deckelung)
- `HouseAge` hat einen Cut-off bei 52 (Maximum)
- `AveRooms`, `AveBedrms`, `Population`, `AveOccup` haben starke Outlier

## 1.3 Features vs. Hauspreis (Scatterplots)

In [None]:
fig, axes = plot_features_vs_target(df_raw, save_name="eda_features_vs_target_raw")
plt.show()

## 1.4 Datenbereinigung

Strategie (nach Vorlage Blatt 10):
1. Cut-off-Werte bei `MedHouseVal` und `HouseAge` entfernen
2. Outlier über dem 98%-Quantil bei `AveRooms`, `AveBedrms`, `Population`, `AveOccup` entfernen

In [None]:
df_clean = clean_data(df_raw)
print(f"Rohdaten:    {df_raw.shape[0]} Zeilen")
print(f"Bereinigt:   {df_clean.shape[0]} Zeilen")
print(f"Entfernt:    {df_raw.shape[0] - df_clean.shape[0]} Zeilen ({(df_raw.shape[0] - df_clean.shape[0]) / df_raw.shape[0] * 100:.1f}%)")

In [None]:
fig, axes = plot_histograms(df_clean, bins=40, save_name="eda_histograms_clean")
plt.show()

In [None]:
fig, axes = plot_features_vs_target(df_clean, save_name="eda_features_vs_target_clean")
plt.show()

## 1.5 Korrelationsanalyse

In [None]:
fig, ax = plot_correlation_heatmap(df_clean, save_name="eda_correlation_heatmap")
plt.show()

In [None]:
# Korrelation mit der Zielvariable, sortiert
corr_target = df_clean.corr()["MedHouseVal"].drop("MedHouseVal").sort_values(ascending=False)
print("Korrelation mit MedHouseVal:")
print(corr_target.to_string())

## 1.6 Zusammenfassung der EDA

| Aspekt | Ergebnis |
|--------|----------|
| Datensatzgröße | ~20.640 → nach Bereinigung ~17.000+ |
| Stärkste Korrelation | MedInc ↔ MedHouseVal |
| Cut-offs entfernt | MedHouseVal=5.001, HouseAge=52 |
| Outlier-Methode | 98%-Quantil auf AveRooms, AveBedrms, Pop, AveOccup |
| Missing Values | Keine |

**Nächster Schritt:** Baseline mit Linearer Regression erstellen.