# Bayes-Netz zur Klassifikation von Wohnungsbewohnerkategorien
Dieses Notebook stellt ein Modell auf Basis eines Bayes-Netzes vor, das verwendet wird, um die Bewohnerkategorie einer Wohnung basierend auf den Merkmalen der Wohnung zu klassifizieren.

## Ziel
Das Ziel dieses Projekts ist es, die Zusammenhänge zwischen den Eigenschaften einer Wohnung und den Bewohnerkategorien zu modellieren. Wir verwenden ein Bayes-Netz, um Wahrscheinlichkeiten vorherzusagen, auch wenn einige Informationen unvollständig sind.

## Übersicht
- **Datensatzbeschreibung**: Einführung in die Datenstruktur und Herausforderungen (z. B. unausgeglichene Klassen).
- **Vorverarbeitung**: Bereinigung und Transformation der Daten.
- **Modellaufbau**: Definition des Bayes-Netzes und Training.
- **Evaluierung**: Beispiele und Ergebnisse.

---


In [32]:
import pandas as pd
from pgmpy.models import BayesianNetwork
from pgmpy.estimators import MaximumLikelihoodEstimator
from pgmpy.inference import VariableElimination
from data_cleaning.data_cleaning import get_zimmer, get_stockwerk, get_heizung, get_kindergarten, get_schule, get_bahn, get_miete, get_nebenkosten, get_alter, get_lage, get_kaution, get_kueche, get_bad, get_mobliert, get_quadratmeter

### Erläuterung:
- **Bewohnerkategorie**: Der Datensatz enthält mehrere Spalten, mit verschiedenen Bewohnergruppen, wie DINK (Double Income No Kids) aber auch Alleinerziehend und Studierende, die die Zugehörigkeit zu einer Kategorie angeben. Diese werden in einer neuen Spalte `Bewohnerkategorie` zusammengefasst.
- **Datenbereinigung**: Um Werte für das Modelltraining zu erhalten, werden "nein" und "ja" in numerische Werte (0 und 1) umgewandelt. Werte wo es mehr als ein Wert gibt wie bei der Miete, wurde die Mitte der beiden Werte genommen. Dies Funktioniert über unser Python Skript "data_cleaning.py".


In [62]:
file_path = '../../data/Wohnungen_1.csv'  # Gegebenen Datensatz einlesen
data = pd.read_csv(file_path, sep=';')

# Bewohnerkategorie bestimmen
bewohnerkategorie = ['Studierende', 'Kleinfamilie', 'DINK', 'Alleinerziehende', 'Expatriate', 'Rentnerpaar']
data['Bewohnerkategorie'] = data[bewohnerkategorie].apply(
    lambda row: 'Keine' if all(row == 'nein') else ', '.join(row[row == 'ja'].index), axis=1)

# Bereinigung der Daten
data = data[data['Bewohnerkategorie'] != 'Keine']

# Spalten, in denen "nein" durch 0 und "ja" durch 1 ersetzt werden sollen
columns_to_replace = ["Hausmeister", "Garage", "Aufzug", "Balkon", "Terrasse", "Kehrwoche"]

# Ersetze "nein" und "ja" in den angegebenen Spalten
data[columns_to_replace] = data[columns_to_replace].replace({'nein': 0, 'ja': 1})

data['Zimmerzahl'] = data['Zimmerzahl'].apply(get_zimmer)
data['Stockwerk'] = data['Stockwerk'].apply(get_stockwerk)
data['Heizung'] = data['Heizung'].apply(get_heizung)
data['Kindergarten'] = data['Kindergarten'].apply(get_kindergarten)
data['Schule'] = data['Schule'].apply(get_schule)
data['S-Bahn'] = data['S-Bahn'].apply(get_bahn)
data['Miete'] = data['Miete'].apply(get_miete)
data['Nebenkosten'] = data['Nebenkosten'].apply(get_nebenkosten)
data['Alter'] = data['Alter'].apply(get_alter)
data['Lage'] = data['Lage'].apply(get_lage)
data['Kaution'] = data['Kaution'].apply(get_kaution)
data['Kueche'] = data['Kueche'].apply(get_kueche)
data['Bad'] = data['Bad'].apply(get_bad)
data['Moebliert'] = data['Moebliert'].apply(get_mobliert)
data['Quadratmeter'] = data['Quadratmeter'].apply(get_quadratmeter)

#print(data.head())

  data[columns_to_replace] = data[columns_to_replace].replace({'nein': 0, 'ja': 1})


### Modelle erstellen und trainieren
Das Bayes-Netz wird mit den Daten trainiert, um die Beziehungen zwischen den Merkmalen und der Bewohnerkategorie zu modellieren. Hierbei wurde nur ein einfacheres Bayes-Netz verwendet, da durch die große Menge an Merkmalen und Kategorien ein komplexeres Netzwerk zu komplex und rechenintensiv wäre.
Das Modell wurde mit dem Maximum-Likelihood-Schätzer trainiert, weil wir davon ausgehen, dass die Daten unabhängig und identisch verteilt sind. Da der Bayes-Schätzer ein Bias gegenüber der Klasse mit den meisten Beispielen aufweist, haben wir uns für den Maximum-Likelihood-Schätzer entschieden. Diese Entscheidung wurde getroffen, da die Klassen im Datensatz nicht gleichmäßig verteilt sind.

In [135]:
# Modell 1
model1 = BayesianNetwork([
    ('Zimmerzahl', 'Bewohnerkategorie'),
    ('Stockwerk', 'Bewohnerkategorie'),
    ('Heizung', 'Bewohnerkategorie'),
    ('S-Bahn', 'Bewohnerkategorie'),
    ('Miete', 'Bewohnerkategorie'),
    ('Alter', 'Bewohnerkategorie'),
    ('Lage', 'Bewohnerkategorie')
])
# Modell fitten
model1.fit(data, estimator=MaximumLikelihoodEstimator)
# Inferenz durchführen
inference = VariableElimination(model1)

### Beispiele für die Inferenz
Wir vergleichen die Ergebnisse des Modells anhand der Beispiele "example1" und "example2". Dabei variiert nur die Anzahl der Zimmer, um zu sehen, wie sich die Bewohnerkategorie änderen kann.

In [137]:
example1 = {
    "Zimmerzahl": 1,
    "Stockwerk": 0,
    "Heizung": 0,
    "S-Bahn": 3,
    "Miete": 276,
    "Alter": 63,
    "Lage": 4
}

# Wahrscheinlichkeiten für jede Zielklasse berechnen
prediction = inference.query(variables=["Bewohnerkategorie"], evidence=example1)

# Wahrscheinlichkeiten in ein Dictionary umwandeln
result = {str(state): float(prob) for state, prob in zip(prediction.state_names["Bewohnerkategorie"], prediction.values)}

# Ausgabe schön formatiert untereinander
print("Wahrscheinlichkeiten für jede Bewohnerkategorie:")
for category, probability in result.items():
    print(f"{category}: {probability:%}")

Wahrscheinlichkeiten für jede Bewohnerkategorie:
DINK: 0.000000%
Expatriate: 0.000000%
Kleinfamilie: 0.000000%
Kleinfamilie, DINK: 0.000000%
Studierende: 0.000000%
Studierende, Alleinerziehende, Rentnerpaar: 100.000000%


In [138]:

example2 = {
    "Zimmerzahl": 2,
    "Stockwerk": 0,
    "Heizung": 0,
    "S-Bahn": 3,
    "Miete": 276,
    "Alter": 63,
    "Lage": 4
}

# Wahrscheinlichkeiten für jede Zielklasse berechnen
prediction = inference.query(variables=["Bewohnerkategorie"], evidence=example2)

# Wahrscheinlichkeiten in ein Dictionary umwandeln
result = {str(state): float(prob) for state, prob in zip(prediction.state_names["Bewohnerkategorie"], prediction.values)}

# Ausgabe schön formatiert untereinander
print("Wahrscheinlichkeiten für jede Bewohnerkategorie:")
for category, probability in result.items():
    print(f"{category}: {probability:%}")

Wahrscheinlichkeiten für jede Bewohnerkategorie:
DINK: 16.666667%
Expatriate: 16.666667%
Kleinfamilie: 16.666667%
Kleinfamilie, DINK: 16.666667%
Studierende: 16.666667%
Studierende, Alleinerziehende, Rentnerpaar: 16.666667%


### Auswertung der Ergebnisse
Wie oben schon beschrieben, wurde nur die Anzahl der Zimmer variiert um zu sehen, wie sich die Bewohnerkategorie änderen kann. Hierbei wurde festgestellt, dass selbst eine kleine Änderung in einem Merkmal die Wahrscheinlichkeiten für die Bewohnerkategorien beeinflussen kann.

### Erklärung
Die Unterschiede in den Wahrscheinlichkeiten zwischen den beiden Beispielen können auf die Änderung der Zimmerzahl zurückgeführt werden. Eine höhere Zimmerzahl könnte bestimmte Bewohnerkategorien wie Kleinfamilien oder DINKs bevorzugen, während eine niedrigere Zimmerzahl eher für Studierende oder Alleinerziehende geeignet sein könnte. Diese Ergebnisse zeigen, wie das Bayes-Netz die Beziehungen zwischen den Merkmalen der Wohnung und den Bewohnerkategorien modelliert und wie sich Änderungen in einem Merkmal auf die Wahrscheinlichkeiten der Kategorien auswirken können.