# Bayes-Netz zur Klassifikation von Wohnungsbewohnerkategorien
Dieses Notebook stellt ein Modell auf Basis eines Bayes-Netzes vor, das verwendet wird, um die Bewohnerkategorie einer Wohnung basierend auf den Merkmalen der Wohnung zu klassifizieren.

## Ziel
Das Ziel dieses Projekts ist es, die Zusammenhänge zwischen den Eigenschaften einer Wohnung und den Bewohnerkategorien zu modellieren. Wir verwenden ein Bayes-Netz, um Wahrscheinlichkeiten vorherzusagen, auch wenn einige Informationen unvollständig sind.

## Übersicht
- **Datensatzbeschreibung**: Einführung in die Datenstruktur und Herausforderungen (z. B. unausgeglichene Klassen).
- **Vorverarbeitung**: Bereinigung und Transformation der Daten.
- **Modellaufbau**: Definition des Bayes-Netzes und Training.
- **Evaluierung**: Beispiele und Ergebnisse.

---


In [2]:
import pandas as pd
from pgmpy.models import BayesianNetwork
from pgmpy.estimators import MaximumLikelihoodEstimator
from pgmpy.inference import VariableElimination
from data_cleaning.text_to_numeric import get_zimmer, get_stockwerk, get_heizung, get_kindergarten, get_schule, get_bahn, get_miete, get_nebenkosten, get_alter, get_lage, get_kaution, get_kueche, get_bad, get_mobliert, get_quadratmeter

### Erläuterung:
- **Bewohnerkategorie**: Der Datensatz enthält mehrere Spalten, mit verschiedenen Bewohnergruppen, wie DINK (Double Income No Kids) aber auch Alleinerziehend und Studierende, die die Zugehörigkeit zu einer Kategorie angeben. Diese werden in einer neuen Spalte `Bewohnerkategorie` zusammengefasst.
- **Datenbereinigung**: Um Werte für das Modelltraining zu erhalten, werden "nein" und "ja" in numerische Werte (0 und 1) umgewandelt. Werte wo es mehr als ein Wert gibt wie bei der Miete, wurde die Mitte der beiden Werte genommen. Dies Funktioniert über unser Python Skript "data_cleaning.py".


In [3]:
file_path = '../../data/Wohnungen_1.csv'  # Gegebenen Datensatz einlesen
data = pd.read_csv(file_path, sep=';')

# Bewohnerkategorie bestimmen
bewohnerkategorie = ['Studierende', 'Kleinfamilie', 'DINK', 'Alleinerziehende', 'Expatriate', 'Rentnerpaar']
data['Bewohnerkategorie'] = data[bewohnerkategorie].apply(
    lambda row: 'Keine' if all(row == 'nein') else ', '.join(row[row == 'ja'].index), axis=1)

# Bereinigung der Daten
data = data[data['Bewohnerkategorie'] != 'Keine']

# Spalten, in denen "nein" durch 0 und "ja" durch 1 ersetzt werden sollen
columns_to_replace = ["Hausmeister", "Garage", "Aufzug", "Balkon", "Terrasse", "Kehrwoche"]

# Ersetze "nein" und "ja" in den angegebenen Spalten
data[columns_to_replace] = data[columns_to_replace].replace({'nein': 0, 'ja': 1})

data['Zimmerzahl'] = data['Zimmerzahl'].apply(get_zimmer)
data['Stockwerk'] = data['Stockwerk'].apply(get_stockwerk)
data['Heizung'] = data['Heizung'].apply(get_heizung)
data['Kindergarten'] = data['Kindergarten'].apply(get_kindergarten)
data['Schule'] = data['Schule'].apply(get_schule)
data['S-Bahn'] = data['S-Bahn'].apply(get_bahn)
data['Miete'] = data['Miete'].apply(get_miete)
data['Nebenkosten'] = data['Nebenkosten'].apply(get_nebenkosten)
data['Alter'] = data['Alter'].apply(get_alter)
data['Lage'] = data['Lage'].apply(get_lage)
data['Kaution'] = data['Kaution'].apply(get_kaution)
data['Kueche'] = data['Kueche'].apply(get_kueche)
data['Bad'] = data['Bad'].apply(get_bad)
data['Moebliert'] = data['Moebliert'].apply(get_mobliert)
data['Quadratmeter'] = data['Quadratmeter'].apply(get_quadratmeter)

#print(data.head())

  data[columns_to_replace] = data[columns_to_replace].replace({'nein': 0, 'ja': 1})


### Modelle erstellen und trainieren
Das Bayes-Netz wurde anhand der vorhandenen Daten trainiert, um die Beziehungen zwischen den Merkmalen und der Bewohnerkategorie zu modellieren. Aufgrund der hohen Anzahl von Merkmalen und Kategorien wurde bewusst ein einfacheres Bayes-Netz gewählt, da ein komplexeres Netzwerk rechnerisch aufwendiger und schwerer zu handhaben wäre.

Für das Training des Modells kam der Maximum-Likelihood-Schätzer (ML-Schätzer) zum Einsatz. Dieser wurde gewählt, weil wir annehmen, dass die Daten unabhängig und identisch verteilt sind. Im Gegensatz dazu weist der Bayes-Schätzer eine Tendenz zugunsten der Klasse mit den meisten Beispielen auf. Da die Klassen in unserem Datensatz ungleichmäßig verteilt sind, war der Maximum-Likelihood-Schätzer die geeignetere Wahl.

In [3]:
# Modell 1
model1 = BayesianNetwork([
    ('Zimmerzahl', 'Bewohnerkategorie'),
    ('Stockwerk', 'Bewohnerkategorie'),
    ('Heizung', 'Bewohnerkategorie'),
    ('S-Bahn', 'Bewohnerkategorie'),
    ('Miete', 'Bewohnerkategorie'),
    ('Alter', 'Bewohnerkategorie'),
    ('Lage', 'Bewohnerkategorie')
])
# Modell fitten
model1.fit(data, estimator=MaximumLikelihoodEstimator)
# Inferenz durchführen
inference = VariableElimination(model1)

### Beispiele für die Inferenz
Wir vergleichen die Ergebnisse des Modells anhand der Beispiele "example1" und "example2". Dabei variiert nur die Anzahl der Zimmer, um zu sehen, wie sich die Bewohnerkategorie änderen kann.

In [4]:
example1 = {
    "Zimmerzahl": 1,
    "Stockwerk": 0,
    "Heizung": 0,
    "S-Bahn": 3,
    "Miete": 276,
    "Alter": 63,
    "Lage": 4
}

# Wahrscheinlichkeiten für jede Zielklasse berechnen
prediction = inference.query(variables=["Bewohnerkategorie"], evidence=example1)

# Wahrscheinlichkeiten in ein Dictionary umwandeln
result = {str(state): float(prob) for state, prob in zip(prediction.state_names["Bewohnerkategorie"], prediction.values)}

# Ausgabe schön formatiert untereinander
print("Wahrscheinlichkeiten für jede Bewohnerkategorie:")
for category, probability in result.items():
    print(f"{category}: {probability:%}")

Wahrscheinlichkeiten für jede Bewohnerkategorie:
DINK: 0.000000%
Expatriate: 0.000000%
Kleinfamilie: 0.000000%
Kleinfamilie, DINK: 0.000000%
Studierende: 0.000000%
Studierende, Alleinerziehende, Rentnerpaar: 100.000000%


In [5]:

example2 = {
    "Zimmerzahl": 2,
    "Stockwerk": 0,
    "Heizung": 0,
    "S-Bahn": 3,
    "Miete": 276,
    "Alter": 63,
    "Lage": 4
}

# Wahrscheinlichkeiten für jede Zielklasse berechnen
prediction = inference.query(variables=["Bewohnerkategorie"], evidence=example2)

# Wahrscheinlichkeiten in ein Dictionary umwandeln
result = {str(state): float(prob) for state, prob in zip(prediction.state_names["Bewohnerkategorie"], prediction.values)}

# Ausgabe schön formatiert untereinander
print("Wahrscheinlichkeiten für jede Bewohnerkategorie:")
for category, probability in result.items():
    print(f"{category}: {probability:%}")

Wahrscheinlichkeiten für jede Bewohnerkategorie:
DINK: 16.666667%
Expatriate: 16.666667%
Kleinfamilie: 16.666667%
Kleinfamilie, DINK: 16.666667%
Studierende: 16.666667%
Studierende, Alleinerziehende, Rentnerpaar: 16.666667%


### Auswertung der Ergebnisse
Wie oben schon beschrieben, wurde nur die Anzahl der Zimmer variiert um zu sehen, wie sich die Bewohnerkategorie änderen kann. Hierbei wurde festgestellt, dass selbst eine kleine Änderung in einem Merkmal die Wahrscheinlichkeiten für die Bewohnerkategorien beeinflussen kann.

### Potenzielle Erklärung
Die Unterschiede in den Wahrscheinlichkeiten zwischen den beiden Beispielen können auf die Änderung der Zimmerzahl zurückgeführt werden. Eine höhere Zimmerzahl könnte bestimmte Bewohnerkategorien wie Kleinfamilien oder DINKs bevorzugen, während eine niedrigere Zimmerzahl eher für Studierende oder Alleinerziehende geeignet sein könnte. Diese Ergebnisse zeigen, wie das Bayes-Netz die Beziehungen zwischen den Merkmalen der Wohnung und den Bewohnerkategorien modelliert und wie sich Änderungen in einem Merkmal auf die Wahrscheinlichkeiten der Kategorien auswirken können.

In [6]:
#Modell 2
model2 = BayesianNetwork([
    ('Stockwerk', 'Bewohnerkategorie'),
    ('Kindergarten', 'Bewohnerkategorie'),
    ('Schule', 'Bewohnerkategorie'),
    ('Miete', 'Bewohnerkategorie'),
    ('Nebenkosten', 'Bewohnerkategorie'),
    ('Kaution', 'Bewohnerkategorie'),
    ('Kueche', 'Bewohnerkategorie'),
])

# Modell Fitten
model2.fit(data, estimator=MaximumLikelihoodEstimator)
# Inferenz durchführen
inference = VariableElimination(model2)

### Zweites Beispiel - Viel Änderung
An diesem Modell vergleichen wir die Beispiele 'example3' und 'example4', hierbei varriert sich, im Gegensatz zum Ersten Modell jede Kategorie mit drastischen Änderungen.


In [21]:
example3 = {
    "Stockwerk": get_stockwerk("2.Stock"),
    "Schule": get_schule("nah"),
    "Miete": get_miete("201-250"),
    "Nebenkosten": get_nebenkosten("unter 50"),
    "Kaution": get_kaution("ueber 3000"),
    "Kueche": get_kueche("Kueche (neu)"),
}

# Wahrscheinlichkeiten für jede Zielklasse berechnen
prediction = inference.query(variables=["Bewohnerkategorie"], evidence=example3)

# Wahrscheinlichkeiten in ein Dictionary umwandeln
result = {str(state): float(prob) for state, prob in zip(prediction.state_names["Bewohnerkategorie"], prediction.values)}

# Ausgabe schön formatiert untereinander
print("Wahrscheinlichkeiten für jede Bewohnerkategorie:")
for category, probability in result.items():
    print(f"{category}: {probability:.2%}")

Wahrscheinlichkeiten für jede Bewohnerkategorie:
DINK: 16.67%
Expatriate: 16.67%
Kleinfamilie: 16.67%
Kleinfamilie, DINK: 16.67%
Studierende: 16.67%
Studierende, Alleinerziehende, Rentnerpaar: 16.67%


In [22]:
example4 = {
    "Stockwerk": get_stockwerk("7.Stock"),
    "Schule": get_schule("fern"),
    "Miete": get_miete("551-600"),
    "Nebenkosten": get_nebenkosten("151-200"),
    "Kaution": get_kaution("keine"),
    "Kueche": get_kueche("Kueche (alt)"),
}

# Wahrscheinlichkeiten für jede Zielklasse berechnen
prediction = inference.query(variables=["Bewohnerkategorie"], evidence=example4)

# Wahrscheinlichkeiten in ein Dictionary umwandeln
result = {str(state): float(prob) for state, prob in zip(prediction.state_names["Bewohnerkategorie"], prediction.values)}

# Ausgabe schön formatiert untereinander
print("Wahrscheinlichkeiten für jede Bewohnerkategorie:")
for category, probability in result.items():
    print(f"{category}: {probability:.2%}")

Wahrscheinlichkeiten für jede Bewohnerkategorie:
DINK: 16.67%
Expatriate: 16.67%
Kleinfamilie: 16.67%
Kleinfamilie, DINK: 16.67%
Studierende: 16.67%
Studierende, Alleinerziehende, Rentnerpaar: 16.67%


### Auswertung der Ergebnisse
Wie oben schon beschrieben, wurden alle im Modell angegeben Wohnungskategorien geändert. Hierbei wurde festgestellt, dass selbst bei größeren Änderungen, die Wahrscheinlichkeiten gleich bleiben.

### Potenzielle Erklärung
Eine mögliche Erklärung worauf das zu führen hat, kann sein das die Änderungen in den Merkmalen nicht ausreichen um die Wahrscheinlichkeiten zu beeinflussen. Dies könnte daran liegen, dass die Merkmale nicht stark genug miteinander korrelieren, um die Bewohnerkategorien signifikant zu beeinflussen. Dies zeigt, dass die Beziehungen zwischen den Merkmalen und den Bewohnerkategorien im Modell möglicherweise nicht stark genug sind, um signifikante Änderungen in den Wahrscheinlichkeiten zu bewirken.