# Real Estate Data Science Project

Bearbeitet von: 2341463 und 1269263

### Inhaltsverzeichnis

## 1. Business Understanding (3 Punkte)

**Aufgabenstellung**: _Formulieren Sie ein Ziel oder mehrere
Ziele nach dem CRISP-DM Prozess, die für Immobilienspekulant*innen sinnvoll sind.
Bei Spekulationen werden typischerweise Immobilien erstanden, die wieder mit
Gewinn abgestoßen werden. Beginnen Sie mit der Idee „Wir brauchen mehr
Verständnis des Verkaufspreises (Z_Verkaufspreis)!“. Geben Sie Ihre Ziele in
Ihrem Jupyter-Notebook als Markup an (max. ½ Seite). Wichtig ist hier, eigene zu
untersuchende Hypothesen aufzustellen, die dann in Aufgabenteil 2 untersucht
werden. Nutzen Sie auch die vorhandenen Daten, um die Hypothesen zu ergänzen
oder anzupassen, wenn notwendig._


### Ziele der Immobilienspekulant*innen
Als Immobilienspekulant*innen bezeichnet man Personen, die eine Vielzahl von Immobilien erwerben und darauf hoffen, dass der Preis der Immobilien in Zukunft steigen wird. Die Häuser oder Wohnungen können dann mit Gewinn verkauft werden. Für die Kaufentscheidung und die einfache Bewertung der Attraktivität einer Immobilie, stehen für diese Personengruppe folgende Ziele und Anforderungen im Vordergrund:
1. Mehr Verständnis für den Verkaufspreis (Z_Verkaufspreis) schaffen
2. Auswirkungen der einzelnen Parameter auf den Verkaufspreis untersuchen
3. Identifikation von Attributen, die sich kaum oder gar nicht auf den Verkaufspreis auswirken
4. Klassifikation der Attraktivität der Angebote anhand des angebotenen Verkaufspreises in die drei Kategorien "gut", "neutral" und "schlecht"

### Ziele des Business Understanding (Geschäftsverständnis)
- Was sind die Ziele auf Geschäftsebene?
- Welche Anforderungen an das Ergebnis gibt es?
- Welche offenen Fragen sollen beantwortet werden?
- Wie könnten beispielhafte Antworten oder Ergebnisse aussehen?

Ein Haupziel auf dem Bereich der Geschäftsebene ist es, den Entscheidungsprozess für die Bewertung und den Kauf von Immobilien zu unterstützen. Durch die Anlyse der Daten sollen Vorhersagen zur Attraktivität der Angebote und die Auswirkungen der einzelnen Attribute (Parameter) auf den veranschlagten Preis bestimmt werden. Das Ergebnis sollte auch für nicht DataScience-kundige Anwender*innen verständlich und aussagekräftig gestaltet sein. Die zu beantortenden Fragen wurden als Ziele für die Untersuchung definiert (siehe vorherigen Abschnitt). Die Ergebnisse lassen sich in zwei Bereiche einteilen: 
* Für Angebote mit vorgegebenen (bekannten) Verkaufspreis soll eine automatische Klassifikation in die drei Gruppen "gutes Angebot", "neutral" und "schlechtes Angebot" erfolgen, damit die Immobilienspekulierenden eine vorab Einschätzung und eine damit verbundene Zeit- und Aufwandseinsparung erhalten. 
* Für Angebote mit unbekanntem Verkaufspreis soll anhand der Immobilien-Attribute eine Einschätzung und Vorhersage des Preises erfolgen.

## 2. Data Exploration und Analyse (9 Punkte)

**Aufgabenstellung**: _Laden und untersuchen Sie den
Datensatz in data_for_training.csv nach den Regeln wie in der Vorlesung
gelehrt. Nutzen Sie Mark-Up, um wichtige Erkenntnisse zu dokumentieren._

### Module und Datensätze importieren

In [5]:
# Import modules and packages
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Import training and test data
df_train = pd.read_csv('data_for_training.csv', delimiter=";").drop(columns="A_Index")
df_test = pd.read_csv('data_for_test.csv', delimiter=";").drop(columns="A_Index")

# Output training dataframe
df_train

Unnamed: 0,AnzahlZimmer,Ausbaustufe,Baeder,BaederKG,Baujahr,EG_qm,Garage_qm,Garagen,Gesamteindruck,Keller_Typ_qm,Keller_qm,Kellerhoehe,Kellertyp,Lage,OG_qm,Umgebaut,Verkaufsjahr,Verkaufsmonat,Wohnflaeche_qm,Z_Verkaufspreis
0,3,1 Ebene,2,1,1992,125,49,2,3,88,116,Gut,Guter Wohnraum,Bezirk 19,0,1992,2021,6,125,187500
1,2,1 Ebene,2,1,2010,170,79,3,3,141,168,Gut,Guter Wohnraum,Bezirk 16,0,2010,2020,7,170,350000
2,2,1 Ebene,2,0,2015,119,40,2,3,0,119,Gut,Rohbau,Bezirk 18,0,2015,2018,3,119,171750
3,2,2 Ebenen,3,1,2015,64,40,2,3,48,64,Gut,Guter Wohnraum,Bezirk 18,73,2016,2020,10,138,154000
4,3,1 Ebene,2,0,2021,103,39,2,3,3,103,Gut,Guter Wohnraum,Bezirk 8,0,2021,2022,3,103,213899
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2337,3,1 Ebene,2,1,1989,109,40,2,4,57,105,Durchschnitt,Mittlerer Wohnraum,Bezirk 14,0,1989,2022,5,109,218499
2338,3,1 Ebene,2,1,1969,153,41,2,3,14,96,Durchschnitt,Freizeitraum,Bezirk 22,0,2012,2018,1,153,155000
2339,3,2 Ebenen,3,0,1997,83,40,2,3,0,62,Gut,Rohbau,Bezirk 23,64,1997,2022,6,147,204699
2340,3,2 Ebenen,2,0,1984,46,21,1,3,21,46,Durchschnitt,Kein Wohnraum,Bezirk 13,46,1984,2019,5,92,85500


## 3. Data Preparation (3 Punkte)

**Aufgabenstellung**: _Bereinigen Sie die Daten und führen Sie Feature
Engineering durch. Hinweis: Kann bereits für Aufgabe 2 teilweise notwendig sein,
dann kenntlich machen und zusammenfassend aufführen._