# Bayes-Netz zur Klassifikation von Wohnungsbewohnerkategorien (Datensatz "wohnungen_2.csv")
Dieses Notebook stellt ein Modell auf Basis eines Bayes'schen vor, das verwendet wird, um die Bewohnerkategorie einer Wohnung basierend auf den Merkmalen der Wohnung zu klassifizieren.

## Ziel
Das Ziel dieses Projekts ist es, die Zusammenhänge zwischen den Eigenschaften einer Wohnung und den Bewohnerkategorien zu modellieren. Wir verwenden ein Bayes-Netz, um Wahrscheinlichkeiten vorherzusagen, auch wenn einige Informationen unvollständig sind.

---

## Vorbereitung
Zuerst werden die benötigten Bibliotheken importiert.

In [8]:
import pandas as pd
from pgmpy.models import BayesianNetwork
from pgmpy.estimators import MaximumLikelihoodEstimator
from pgmpy.inference import VariableElimination
from data_cleaning.text_to_numeric import get_zimmer, get_stockwerk, get_kindergarten, get_schule, get_bahn, get_miete, get_nebenkosten, get_alter, get_kaution, get_stadtmitte, get_kueche, get_bad, get_mobliert, get_quadratmeter, get_yes_no

In [9]:
file_path = '../../data/Wohnungen_2.csv'
data = pd.read_csv(file_path, sep=';')

bewohnerkategorie = ['Studierende', 'Kleinfamilie', 'DINK', 'SingleHighIncome', 'Expatriate', 'Rentnerpaar']
data['Bewohnerkategorie'] = data[bewohnerkategorie].apply(
    lambda row: 'Keine' if all(row == 'nein') else ', '.join(row[row == 'ja'].index), axis=1)

data = data[data['Bewohnerkategorie'] != 'Keine']

columns_to_replace = ["Hausmeister", "Garage", "Aufzug", "Balkon", "Terrasse", "Kehrwoche"]

pd.set_option('future.no_silent_downcasting', True)
data[columns_to_replace] = data[columns_to_replace].replace({'nein': 0, 'ja': 1})

data['Zimmerzahl'] = data['Zimmerzahl'].apply(get_zimmer)
data['Stockwerk'] = data['Stockwerk'].apply(get_stockwerk)
data['Kindergarten'] = data['Kindergarten'].apply(get_kindergarten)
data['Schule'] = data['Schule'].apply(get_schule)
data['S-Bahn'] = data['S-Bahn'].apply(get_bahn)
data['Miete'] = data['Miete'].apply(get_miete)
data['Nebenkosten'] = data['Nebenkosten'].apply(get_nebenkosten)
data['Alter'] = data['Alter'].apply(get_alter)
data['Entfernung zur Stadtmitte'] = data['Entfernung zur Stadtmitte'].apply(get_stadtmitte)
data['Kaution'] = data['Kaution'].apply(get_kaution)
data['Kueche'] = data['Kueche'].apply(get_kueche)
data['Bad'] = data['Bad'].apply(get_bad)
data['Moebliert'] = data['Moebliert'].apply(get_mobliert)
data['Quadratmeter'] = data['Quadratmeter'].apply(get_quadratmeter)

print(data.head())

In [20]:
#Data Processing and Training
model = BayesianNetwork([
    ('Hausmeister', 'Bewohnerkategorie'),
    ('Kindergarten', 'Bewohnerkategorie'),
    ('S-Bahn', 'Bewohnerkategorie'),
    ('Garage', 'Bewohnerkategorie'),
    ('Alter', 'Bewohnerkategorie'),
    ('Aufzug', 'Bewohnerkategorie'),
    ('Entfernung zur Stadtmitte', 'Bewohnerkategorie'),
    ('Moebliert', 'Bewohnerkategorie'),
    ('Quadratmeter', 'Bewohnerkategorie')
])

# Training des Bayes'schen-Netzes
model.fit(data, estimator=MaximumLikelihoodEstimator)
# Inferenz durchführen
inference = VariableElimination(model)


### Beispiel - SingleHighIncome
Wir vergleichen die Ergebnisse des Modells anhand der Beispiele "example_single_high_income", "example_single_high_income2", "example_single_high_income3". Hierbei wollen wir einmal ein Vergleich darstellen mit den Daten wo die Bewohnerkategorie "SingleHighIncome", Ja gesagt hat.

In [21]:
#Example Input with get methods from data_cleaning.text_to_numeric
example_single_high_income = {
    "Hausmeister": get_yes_no("nein"),
    "Kindergarten": get_kindergarten("erreichbar"),
    "S-Bahn": get_bahn("nein"),
    "Garage": get_yes_no("ja"),
    "Alter": get_alter("ueber 100"),
    "Aufzug": get_yes_no("nein"),
    "Entfernung zur Stadtmitte": get_stadtmitte(">30km"),
    "Moebliert": get_mobliert("nein"),
    "Quadratmeter": get_stadtmitte("71-80")
}

# Wahrscheinlichkeiten für jede Zielklasse berechnen
prediction = inference.query(variables=["Bewohnerkategorie"], evidence=example_single_high_income)

# Wahrscheinlichkeiten in ein Dictionary umwandeln
result = {str(state): float(prob) for state, prob in zip(prediction.state_names["Bewohnerkategorie"], prediction.values)}

print("Wahrscheinlichkeiten für jede Bewohnerkategorie:")
for category, probability in result.items():
    print(f"{category}: {probability:.2%}")

Wahrscheinlichkeiten für jede Bewohnerkategorie:
DINK: 14.29%
Expatriate: 14.29%
Kleinfamilie: 14.29%
Kleinfamilie, DINK: 14.29%
SingleHighIncome: 14.29%
Studierende: 14.29%
Studierende, Rentnerpaar: 14.29%


In [None]:
example_single_high_income2 = {
    "Hausmeister": get_yes_no("nein"),
    "Kindergarten": get_kindergarten("erreichbar"),
    "Aufzug": get_yes_no("nein"),
    "Entfernung zur Stadtmitte": get_stadtmitte(">30km"),
    "Moebliert": get_mobliert("nein"),
    "Quadratmeter": get_stadtmitte("71-80")
}
prediction = inference.query(variables=["Bewohnerkategorie"], evidence=example_single_high_income2)

result = {str(state): float(prob) for state, prob in zip(prediction.state_names["Bewohnerkategorie"], prediction.values)}

print("Wahrscheinlichkeiten für jede Bewohnerkategorie:")
for category, probability in result.items():
    print(f"{category}: {probability:.2%}")

In [None]:
example_single_high_income3 = {
    "Hausmeister": get_yes_no("nein"),
    "Kindergarten": get_kindergarten("erreichbar"),
    "S-Bahn": get_bahn("erreichbar"),
    "Garage": get_yes_no("nein"),
    "Alter": get_alter("51-75"),
    "Aufzug": get_yes_no("ja"),
    "Entfernung zur Stadtmitte": get_stadtmitte(">30km"),
    "Moebliert": get_mobliert("nein"),
    "Quadratmeter": get_stadtmitte("71-80")
}

prediction = inference.query(variables=["Bewohnerkategorie"], evidence=example_single_high_income3)

result = {str(state): float(prob) for state, prob in zip(prediction.state_names["Bewohnerkategorie"], prediction.values)}

print("Wahrscheinlichkeiten für jede Bewohnerkategorie:")
for category, probability in result.items():
    print(f"{category}: {probability:.2%}")

### Auswertung der Ergebnisse
Wie zu erwarten war, hat das erste Beispiel eine 100% Wahrscheinlichkeit für die Bewohnerkategorie "SingleHighIncome" ergeben. Das Zweite Beispiel hingegen hatte trotz drei gelöschter Wohnungskategorien, noch immer die Höchste Wahrscheinlichkeit für die Bewohnerkategorie "SingleHighIncome" hat. Mit der Änderung das "SingleHighIncome" nur noch eine Wahrscheinlichkeit von 14,83% hat. Hingegen bei dem dritten Beispiel, wo alle Merkmale wieder vorhanden sind, aber die drei Merkmale "S-Bahn", "Garage" und "Alter" geändert wurden, hat die Bewohnerkategorie "SingleHighIncome" nur noch eine Wahrscheinlichkeit von 14,29%.

### Potenzielle Erklärung
Die Wahrscheinlichkeiten der Bewohnerkategorien sind durch die fehlenden Merkmale im zweiten Beispiel gesunken. Aber mit den gleichen Merkmalen wie im ersten Beispiel, jedoch mit anderen Werten, hat die Bewohnerkategorie "SingleHighIncome" eine geringere Wahrscheinlichkeit. Das könnte daran liegen, dass die Merkmale "S-Bahn", "Garage" und "Alter" eine höhere Gewichtung haben als die anderen Merkmale für die Bewohnerkategorie "SingleHighIncome". Die Änderung dieser Merkmale hat die Wahrscheinlichkeiten der Bewohnerkategorien beeinflusst und zeigt, wie das Bayes'sche Netz die Beziehungen zwischen den Merkmalen und den Bewohnerkategorien modelliert. Den hierbei war es wichtiger das die Merkmale lieber nicht vorhanden sind, als das sie vorhanden sind, mit veränderten Werten.