## 1. Explorative Analyse des Datensatzes ''Boston Housing''

*Boston Housing* ist ein berühmter Datensatz zur Evaluierung von Regressionsalgorithmen. Er enthält 506 Einträge mit jeweils 13 Variablen. Ziel ist es, den Hauspreis (`tgt`) aus den anderen Variablen vorherzusagen. Der Download dieses Datensatzes in einen Pandas-DataFrame wird folgendermaßen durchgeführt:

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

print(f"numpy version: {np.__version__}, pandas version: {pd.__version__}")

In [None]:
url     = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
cols    = ['CRIM','ZN','INDUS','CHAS','NOX','RM','AGE','DIS','RAD','TAX','PTRATIO','B', 'LSTAT','TGT']
boston  = pd.read_csv(url, sep=' ', skipinitialspace=True, header=None, names=cols, index_col=False)

Wichtig für diese Übung ist eine grundlegende Vertrautheit mit den Python-Paketen Numpy und Pandas. Die Abgabe der Aufgabe erfolgt als fertiges IPython-Notebook mit Kommentaren in Markdown.

Aufgaben:

---

### 1.1 Explorative Analyse

a) Führen Sie für diesen Datensatz eine explorative Analyse wie in der Vorlesung gezeigt mithilfe eines IPython-Notebooks und den Paketen Pandas und Numpy durch. 

#### 1.1.1 Darstellung als Pandas-DataFrame

Im ersten Schritt wird sich der Datensatz bzw. die ersten 5 Einträge wie im [Vorlesungsbeispiel](../../lecture/01_eda/explorative_analyse.ipynb) gezeigt als Pandas-DataFrame ausgegeben.

In [None]:
boston.head()

Zeilenbezeichnungen:
- `CRIM` = Kriminalitätsrate
- `ZN` = Anteil Wohngebiete
- `INDUS` = Anteil Nicht-Einzelhandels-Geschäfte
- `CHAS` = Charles River Dummy-Variable
- `NOX` = Stickstoffdioxidkonzentration
- `RM` = Durchschnittliche Anzahl Räume
- `AGE` = Anteil der Eigenheime
- `DIS` = Gewichtete Entfernungen zu Beschäftigungszentren
- `RAD` = Index der Annehmlichkeiten
- `TAX` = Grundsteuer
- `PTRATIO` = Schüler-Lehrer-Verhältnis
- `B` = Anteil der Schwarzen Bevölkerung
- `LSTAT` = Anteil der einkommensschwachen Bevölkerung
- `TGT` = Zielvariable (Hauspreis)

Erklärung zu den Zeilen siehe (https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.names).

Anschließend lässt sich mittels `shape` die Dimension des DataFrames ausgeben sowie die Spaltennamen mit `columns` anzeigen und die Datentypen mit `dtypes` überprüfen.

In [None]:
np.shape(boston)

In [None]:
boston.columns

In [None]:
boston.dtypes

#### 1.1.2 Aufbereitung des Datensatzes

Im nächsten Schritt wird überprüft, ob der Datensatz fehlende Werte enthält und wie viele Einträge es sind. Dies wird wie im [Vorlesungsbeispiel](../../lecture/01_eda/explorative_analyse.ipynb) mittels `isnull()` und `sum()` durchgeführt.

In [None]:
boston.isna().any()

In dem Fall sind keine fehlenden Werte vorhanden und somit diesbezüglich keine weiteren Schritte zur Aufbereitung des Datensatzes notwendig.

Dennoch ist es weiterhin notwendig zu prüfen, ob es Duplikate im Datensatz gibt. Dies wird mit der Methode `duplicated()` überprüft. Auch hier sind keine Duplikate vorhanden.

In [None]:
boston.duplicated().any()

#### 1.1.3 Explorative Statistiken

Im nächsten Schritt werden einige grundlegende Statistiken des Datensatzes ausgegeben, wie z.B. Mittelwert, Median, Standardabweichung, Minimum und Maximum. Dies kann mit der Methode `describe()` von Pandas durchgeführt werden.

In [None]:
boston.describe()

Anschließen soll eine Streumatrix erstellt werden welche im Aufgabenteil b) weiterverwendet wird.

In [None]:
pd.plotting.scatter_matrix(boston, figsize=(14, 14), diagonal='kde');

---

### 1.2 Analyse der Streumatrix

b) Beantworten Sie anhand der Darstellung der Streumatrix folgende Fragen: Welche der Variablen sind kategorisch? Welche der Variablen eignen sich gut zur Vorhersage des Hauspreises und warum? Welche dieser Variablen sind miteinander korreliert? Welche sind daher Kandidaten, die man evtl. weglassen könnte? (Beantwortung bitte als Markup in Notebook eintragen)

#### 1.2.1 Kategorische Variablen identifizieren

Um zu prüfen welche Variablen im Datensatz kategorisch sind, also diskret und mit wenigen verschiedenen Ausprägungen, können die Datentypen und die Anzahl der eindeutigen Werte jeder Spalte untersucht werden.

In [None]:
boston.dtypes
boston.nunique().sort_values()

Hieraus gehen folgende Variablen als kategorisch hervor:
- `CHAS`: Diese Variable ist eine Dummy-Variable (0 oder 1)
- `RAD`: Diese Variable hat eine begrenzte Anzahl von eindeutigen Werten und repräsentiert verschiedene Indizes der Annehmlichkeiten.

#### 1.2.2 Vorhersage des Hauspreises anhand der Streumatrix

Die Streumatrix zeigt die paarweisen Beziehungen zwischen den Variablen im Datensatz. Um zu beurteilen, welche Variablen gut zur Vorhersage des Hauspreises (`TGT`) geeignet sind, sollte man nach Variablen suchen, die eine starke Korrelation mit `TGT` aufweisen. In der Streumatrix sind solche Beziehungen durch eine klare lineare oder nicht-lineare Verteilung der Punkte erkennbar.

Hierbei ist es wahrscheinlich hilfreich sich den Trend der Punktewolke anzusehen und zu beurteilen ob ein linearer oder nicht-linearer Zusammenhang besteht. Hierzu wurden ein einzelner Scatterplot für jedes Feature gegen die Zielvariable `TGT` erstellt und eine Regressionslinie hinzugefügt um den Trend besser erkennen zu können (die Abbildung am besten in einem separaten Fenster betrachten :)

In [None]:
features = [c for c in boston.columns if c != 'TGT']
n = len(features)

# create subplots for each feature
fig, axs = plt.subplots(1, n, figsize=(8*n, 8), sharey=True, constrained_layout=True)

if n == 1:
    axs = [axs]
# plot scatter plots with regression lines for each feature against TGT
for ax, f in zip(axs, features):
    ax.scatter(boston[f], boston['TGT'], s=20, alpha=0.6)
    ax.set_xlabel(f)
    ax.set_ylabel('TGT')
    m, b = np.polyfit(boston[f], boston['TGT'], 1)
    ax.plot(boston[f], m*boston[f] + b, color='red', linewidth=1)
plt.show()

Aus der visuellen Analyse der Scatterplots lassen sich folgende Zusammenhänge erkennen:
- `RM` (durchschnittliche Anzahl Räume): Zeigt eine starke positive Korrelation mit `TGT`. Mehr Räume führen tendenziell zu höheren Hauspreisen.
- `LSTAT` (Anteil der einkommensschwachen Bevölkerung): Zeigt eine starke negative Korrelation mit `TGT`. Ein höherer Anteil einkommensschwacher Bevölkerung ist mit niedrigeren Hauspreisen verbunden.
- `NOX` (Stickstoffdioxidkonzentration): Zeigt eine moderate negative Korrelation mit `TGT`. Höhere NOX-Werte sind mit niedrigeren Hauspreisen verbunden (was so viel heißt wie umso schlechter die Luftqualität ist umso niedriger die Hauspreise).

**Fazit:** Die Variablen `RM`, `LSTAT` und `NOX` eignen sich gut zur Vorhersage des Hauspreises aufgrund ihrer starken Korrelation mit der Zielvariable `TGT`. Bei den anderen Variablen (von den kategorischen abgesehen) lassen sich zwar auch teilweise zusammenhänge erkennen, diese sind jedoch weniger stark ausgeprägt.

#### 1.2.3 Korrelation zwischen Variablen

Um zu überprüfen, welche Variablen miteinander korreliert sind, kann die Korrelationsmatrix des Datensatzes berechnet werden. Variablen mit hoher Korrelation (z.B. > 0.8 oder < -0.8) könnten Kandidaten sein, die man evtl. weglassen könnte, um Redundanz zu vermeiden.

Um dies visuell besser darzustellen eignet sich die Heatmap einer Korrelationsmatrix welche mittels des Pakets Seaborn erstellt werden kann.

In [None]:
# calculate correlation matrix
corr = boston.corr()

# plot heatmap of correlation matrix using seaborn
import seaborn as sns
plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=True, fmt=".2f", cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Korrelations-Heatmap')
plt.show()


Die Heatmap bestätigt die zuvor identifizierten Korrelationen zwischen den Variablen und der Zielvariable `TGT`. Zusätzlich zeigt sie auch Korrelationen zwischen den unabhängigen Variablen selbst auf.

Da das dank KI alles so "leicht von der Hand geht" wurde mal noch wie im [Vorlesungsbeispiel](../../lecture/00_intro/cor_dataland.ipynb) gezeigt der Korrelationskoeffizient nach Pearson für die Variable mit der höchsten Korrelation (`RM`) mit der Zielvariable `TGT` berechnet. Der ermittelte Wert stimmt dabei mit dem aus der Korrelationsmatrix überein.

In [None]:
from scipy.stats import pearsonr

corr, p = pearsonr(boston['RM'], boston['TGT'])
print(f"Korrelationskoeffizient nach Pearson (scipy) RM/TGT: = {corr:.4f}")

#### 1.2.4 Unnötige Variablen

Die gezeigten Analysen zeigen, dass einige Variablen wie z.B. `RAD` und `TAX` eine hohe Korrelation aufweisen (eine bessere Verkehrsanbindung führt oft zu höheren Grundsteuern), diese aber im Bezug auf die Zielvariable `TGT` nur eine moderate Korrelation zeigen. Jedoch stellen sich auch im Bezug auf die Zielvariable `TGT` einige Variablen wie z.B. `ZN`, `DIS` oder `B` (#BlackLiveMatters) als eher irrelevant heraus. Das zeigt sehr gut das eine explorative Analyse wichtig ist um die richtigen Features für den eigentlichen Use-Case auszuwählen.
___

### 1.3 Dokumentation der Systemkonfiguration

c) Die Dokumentation der eingesetzten Systemkonfiguration und Paketversionen erfolgt durch das Skript `version_information` von R. H. Johanson. Installation über

In [None]:
pip install version-information

Im Notebook-Header muss das Paket importiert werden über

In [None]:
%load_ext version_information

Danach kann die Information über die Systemkonfiguration dargestellt werden durch

In [None]:
%version_information

Sollen zusätzlich Versionsinformationen über die eingesetzten Pakete dargestellt werden, verwendet man (hier z.B. Numpy und Pandas)

In [None]:
%version_information numpy, pandas

Diese Zeilen sollten immer am Ende des Notebooks aufgerufen werden, um ein Mindestmaß an Reproduzierbarkeit sicherzustellen.