# Überschrift Finden!!!
Autor: Emirhan Igci
Datum: 23.04.2025

# Vorwort
Für die verwendete ck

# Agenda <a class="anchor" id="Agenda"></a>
  1. [Einleitung und Zielsetzung](#EinleitungundZielsetzung)
  1.1 [Einleitung und Zielsetzung](#EinleitungundZielsetzung)


# Einleitung und Zielsetzung <a class="anchor" id="EinleitungundZielsetzung"></a>

In der nachfolgenden Analyse werden **Immobilienpreise**, sowie **Mietpreise** auf Grundlage verschiedenster Einflussfaktoren analysiert.

Dabei werden folgende Hauptthesen untersucht:

Themen der Untersuchung:
1. Auswirkung der Barrierefreiheit von Immobilien und Wohnungen auf den Verkaufs- oder Mietpreis
2. Auswirkung der Region auf den Verkaufs- oder Mietpreis

Ziele:
1. Erstellen eines Modells, einer Funktion zur Kaufentscheidung der Immobilie basierend auf Kredit, eigenkapital und weiteren Faktoren


In [1]:
import sys
# sys.executable adressiert die Python-Installation von Jupyter
! {sys.executable} -m pip install dmba seaborn numpy pandas




[notice] A new release of pip is available: 25.1 -> 25.1.1
[notice] To update, run: C:\Users\emirh\AppData\Local\Programs\Python\Python313\python.exe -m pip install --upgrade pip


# Aufbereitung der Daten

## Quelle
Die Quelle der Immobilien wurde durch die FDZ Ruhr bereitgestellt und durch das RWI - Leibnitz-Institut für Wirtschaft nochmals angepasst.
Es gibt zwei Dateitypen:

Die **Panel-Campus-Datei** umfasst Inserate aus den 15 größten deutschen Städten (alle mit mindestens rund 500 000 Einwohnern, darunter Berlin, Hamburg, München bis Duisburg). Für jede Stadt wird pro Kalenderjahr eine ähnlich große Zufallsstichprobe gezogen: Bei Haus-Verkäufen sind es etwa 1 000 Anzeigen pro Jahr, bei Mietwohnungen in Berlin oder Leipzig können es bis zu 50 000 sein. Insgesamt entfallen ungefähr 27 % der Datensätze auf Wohnungs-Verkäufe und 37 % auf Haus-Verkäufe und Mietwohnungen. Berücksichtigt werden nur Inserate, die bestimmte Qualitätskriterien erfüllen (kaum Fehlwerte, keine Ausreißer).

Die **Cross-Sectional-Campus-Datei** enthält eine bundesweite Stichprobe aus dem Jahr 2023. Grundlage sind alle Inserate, die in diesem Jahr mindestens einen Tag online waren; berücksichtigt wird jeweils nur der letzte Spell einer Anzeige. Für Gemeinden mit weniger als 50 Inseraten wird lediglich die Kreisebene ausgewiesen, wobei höchstens 100 Anzeigen pro Kreis gezogen werden. Anschließend wird abhängig von der Gesamtzahl der verfügbaren Datensätze eine Stichprobe von 50, 200, 1 000 oder 5 000 Beobachtungen gebildet.

Insgesamt gibt es daher 6 Dateien (Dateityp x Asschreibungstyp) (2x3):
* Panel: Datendatei für Hausverkäufe (HK_cities)
* Panel: Datendatei für Wohnungsverkäufe (WK_cities)
* Panel: Datendatei für Mietangebote (WM_cities)
* Cross-Sectional: Datendatei für Hausverkäufe (HK_2023)
* Cross-Sectional: Datendatei für Wohnungsverkäufe (WK_2023)
* Cross-Sectional: Datendatei für Mietangebote (WM_2023)

## Beschreibung der Variablen
Die Beschreibung der Variablen orientiert sich an einer bereits vorhandenen Dokumentation der Quelle, in welcher die gesamten Variablen auf Englisch beschrieben wurden. Daher werden die Beschreibungen mithilfe von KI übersetzt und verwendet. Die Richtigkeit der Übersetzung wird manuell überprüft.


| #  | Attribut                        | Beschreibung                         | Datentyp   | Skalierung/Einheit | Typ (DS) |
| -- | ------------------------------- | ------------------------------------ | ---------- | ------------------ | -------- |
| 1  | **obid**                        | Eindeutige künstliche Objekt-ID      | numerisch  | –                  | HS/AS/AR |
| 2  | **adat**                        | Startmonat der Anzeige (JJMM)        | numerisch  | Monat              | HS/AS/AR |
| 3  | **edat**                        | Endmonat der Anzeige (JJMM)          | numerisch  | Monat              | HS/AS/AR |
| 4  | **aufzug**                      | Aufzug vorhanden                     | numerisch  | 0 / 1              | AS/AR    |
| 5  | **ausstattung**                 | Kodierte Ausstattungskategorie       | numerisch  | –                  | HS/AS/AR |
| 6  | **badezimmer**                  | Anzahl der Badezimmer                | numerisch  | Anzahl             | HS/AS/AR |
| 7  | **balkon**                      | Balkon vorhanden                     | numerisch  | 0 / 1              | AS/AR    |
| 8  | **denkmalobjekt**               | Denkmalgeschützt                     | numerisch  | 0 / 1              | HS/AS    |
| 9  | **einbaukueche**                | Einbauküche vorhanden                | numerisch  | 0 / 1              | HS/AS/AR |
| 10 | **etage**                       | Lage­etage der Wohnung               | numerisch  | Etage              | AS/AR    |
| 11 | **ferienhaus**                  | Als Ferienobjekt nutzbar             | numerisch  | 0 / 1              | AS       |
| 12 | **gaestewc**                    | Gäste-WC vorhanden                   | numerisch  | 0 / 1              | HS/AS/AR |
| 13 | **garten**                      | (Mit-)Nutzung Garten                 | numerisch  | 0 / 1              | HS/AS/AR |
| 14 | **haustier\_erlaubt**           | Haustiere erlaubt                    | numerisch  | 0 / 1              | HS/AS/AR |
| 15 | **kategorie\_Haus**             | Haus-Typ-Kategorie (Reihenhaus … )   | numerisch  | –                  | HS/AS/AR |
| 16 | **keller**                      | Keller vorhanden                     | numerisch  | 0 / 1              | HS/AS/AR |
| 17 | **parkplatz**                   | Stellplatz / Garage verfügbar        | numerisch  | 0 / 1              | HS/AS/AR |
| 18 | **zimmeranzahl**                | Anzahl Zimmer (½ Zimmer möglich)     | numerisch  | Anzahl             | HS/AS/AR |
| 19 | **anzahletagen**                | Anzahl Stockwerke des Gebäudes       | numerisch  | Anzahl             | HS/AS    |
| 20 | **bauphase**                    | Bauphase (Bestand, im Bau … )        | numerisch  | –                  | HS/AS/AR |
| 21 | **einliegerwohnung**            | Einliegerwohnung vorhanden           | numerisch  | 0 / 1              | HS/AS    |
| 22 | **foerderung**                  | Öffentlich gefördert / WBS nötig     | numerisch  | 0 / 1              | AR       |
| 23 | **immobilientyp**               | Immobilienart (Haus, Whg. … )        | numerisch  | –                  | HS/AS/AR |
| 24 | **kaufvermietet**               | Objekt wird vermietet verkauft       | numerisch  | 0 / 1              | HS/AS    |
| 25 | **mieteinnahmenpromonat**       | Ist-Mieteinnahmen (Verkauf)          | numerisch  | EUR / Monat        | HS/AS    |
| 26 | **nebenraeume**                 | Anzahl Nebenräume                    | numerisch  | Anzahl             | HS/AS/AR |
| 27 | **rollstuhlgerecht**            | Barrierefreier / stufenloser Zugang  | numerisch  | 0 / 1              | HS/AS/AR |
| 28 | **schlafzimmer**                | Anzahl Schlafzimmer                  | numerisch  | Anzahl             | HS/AS/AR |
| 29 | **wohngeld**                    | Haus-/ Wohngeld                      | numerisch  | EUR / Monat        | AS       |
| 30 | **grundstuecksflaeche**         | Grundstücksfläche                    | numerisch  | m²                 | HS/AS    |
| 31 | **nutzflaeche**                 | Nutzfläche                           | numerisch  | m²                 | HS/AS/AR |
| 32 | **wohnflaeche**                 | Wohnfläche                           | string     | m²                 | HS/AS/AR |
| 33 | **baujahr**                     | Baujahr des Gebäudes                 | numerisch  | Jahr               | HS/AS/AR |
| 34 | **energieausweistyp**           | Typ des Energieausweises             | numerisch  | –                  | HS/AS/AR |
| 35 | **energieeffizienzklasse**      | Energieeffizienzklasse (A+ … H)      | numerisch  | –                  | HS/AS/AR |
| 36 | **ev\_kennwert**                | Endenergieverbrauch                  | numerisch  | kWh / m² a         | HS/AS/AR |
| 37 | **ev\_wwenthalten**             | Warmwasser im Kennwert enthalten     | numerisch  | 0 / 1              | HS/AS/AR |
| 38 | **heizkosten**                  | Monatliche Heizkosten                | numerisch  | EUR / Monat        | AR       |
| 39 | **heizungsart**                 | Heizungsart (Zentral … )             | numerisch  | –                  | HS/AS/AR |
| 40 | **letzte\_modernisierung**      | Jahr der letzten Modernisierung      | numerisch  | Jahr               | HS/AS/AR |
| 41 | **objektzustand**               | Objektzustand (Code)                 | numerisch  | –                  | HS/AS/AR |
| 42 | **kaufpreis**                   | Angebotskaufpreis                    | numerisch  | EUR                | HS/AS    |
| 43 | **mietekalt**                   | Nettokaltmiete                       | numerisch  | EUR                | AR       |
| 44 | **nebenkosten**                 | Nebenkosten                          | numerisch  | EUR                | AR       |
| 45 | **price\_sqm**                  | Kaufpreis pro m²                     | numerisch  | EUR / m²           | HS/AS    |
| 46 | **rent\_sqm**                   | Nettomiete pro m²                    | numerisch  | EUR / m²           | AR       |
| 47 | **parkplatzpreis**              | Preis des Stellplatzes               | numerisch  | EUR                | HS/AS    |
| 48 | **gid2019**                     | Amtlicher Gemeindeschlüssel 2019     | numerisch  | –                  | HS/AS/AR |
| 49 | **kid2019**                     | Amtlicher Kreisschlüssel 2019        | numerisch  | –                  | HS/AS/AR |
| 50 | **plz**                         | Postleitzahl                         | numerisch  | 5-stellig          | HS/AS/AR |
| 51 | **ergg\_1km**                   | INSPIRE-Rasterzelle (1 km²)          | string     | –                  | HS/AS/AR |
| 52 | **click\_customer**             | Klicks auf Anbieterprofil            | numerisch  | Anzahl             | HS/AS/AR |
| 53 | **click\_schnellkontakte**      | Klicks „Kontakt“-Button              | numerisch  | Anzahl             | HS/AS/AR |
| 54 | **click\_url**                  | Klicks externe Anbieter-URL          | numerisch  | Anzahl             | HS/AS/AR |
| 55 | **click\_weitersagen**          | Klicks „Teilen“                      | numerisch  | Anzahl             | HS/AS/AR |
| 56 | **liste\_match**                | Treffer in gespeicherten Suchen      | numerisch  | Anzahl             | HS/AS/AR |
| 57 | **liste\_show**                 | Anzeigen in Ergebnislisten           | numerisch  | Anzahl             | HS/AS/AR |
| 58 | **hits**                        | Gesamte Seitenaufrufe                | numerisch  | Anzahl             | HS/AS/AR |
| 59 | **click\_schnellkontakte\_gen** | Kontakt-Klicks (verfügb.-bereinigt)  | numerisch  | Anzahl             | HS/AS/AR |
| 60 | **click\_url\_gen**             | URL-Klicks (verfügb.-bereinigt)      | numerisch  | Anzahl             | HS/AS/AR |
| 61 | **click\_weitersagen\_gen**     | Teilen-Klicks (verfügb.-bereinigt)   | numerisch  | Anzahl             | HS/AS/AR |
| 62 | **liste\_match\_gen**           | Treffer (verfügb.-bereinigt)         | numerisch  | Anzahl             | HS/AS/AR |
| 63 | **liste\_show\_gen**            | Listenanzeigen (verfügb.-bereinigt)  | numerisch  | Anzahl             | HS/AS/AR |
| 64 | **hits\_gen**                   | Aufrufe (verfügb.-bereinigt)         | numerisch  | Anzahl             | HS/AS/AR |
| 65 | **laufzeittage**                | Tage, die die Anzeige online war     | numerisch  | Tage               | HS/AS/AR |
| 66 | **lieferung**                   | Monat der Daten­extraktion (JJMM)    | numerisch  | Monat              | HS/AS/AR |
| 67 | **bef1**                        | Primäre Befeuerungsart               | kategorial | –                  | HS/AS/AR |
| 68 | **bef2**                        | Weitere Befeuerungsart 2             | kategorial | –                  | HS/AS/AR |
| 69 | **bef3**                        | Weitere Befeuerungsart 3             | kategorial | –                  | HS/AS/AR |
| 70 | **bef4**                        | Weitere Befeuerungsart 4             | kategorial | –                  | HS/AS/AR |
| 71 | **bef5**                        | Weitere Befeuerungsart 5             | kategorial | –                  | HS/AS/AR |
| 72 | **bef6**                        | Weitere Befeuerungsart 6             | kategorial | –                  | HS/AS/AR |
| 73 | **bef7**                        | Weitere Befeuerungsart 7             | kategorial | –                  | HS/AS/AR |
| 74 | **bef8**                        | Weitere Befeuerungsart 8             | kategorial | –                  | HS/AS/AR |
| 75 | **bef9**                        | Weitere Befeuerungsart 9             | kategorial | –                  | HS/AS/AR |
| 76 | **bef10**                       | Weitere Befeuerungsart 10            | kategorial | –                  | HS/AS/AR |
| 77 | **anbieter**                    | Typ des Anbieters (privat, Makler …) | kategorial | –                  | HS/AS/AR |

_Legende:_
_HS = Häuser zum Kauf
AS = Wohnungen zum Kauf
AR = Wohnungen zur Miete_


## Erste Betrachtung der Datensätze
Zunächst wird ein Teil des Datensatzes ausgegeben und betrachtet.



In [6]:
import pandas as pd

#   Einlesen der Daten
pre = "CampusFile_"
#   Cross Section
#hk_cs_df = pd.read_stata(f'./cross_section/{pre}HK_2023.dta')
#wk_cs_df = pd.read_stata(f'./cross_section/{pre}WK_2023.dta')
#wm_cs_df = pd.read_stata(f'./cross_section/{pre}WM_2023.dta')
#   panel
hk_p_df = pd.read_stata(f'./panel/{pre}HK_cities.dta')
#wk_p_df = pd.read_stata(f'./panel/{pre}WK_cities.dta')
#wm_p_df = pd.read_stata(f'./panel/{pre}WM_cities.dta')


In [7]:
hk_df = hk_p_df
display(hk_df.head())

Unnamed: 0,obid,plz,kaufpreis,mieteinnahmenpromonat,heizkosten,baujahr,letzte_modernisierung,wohnflaeche,grundstuecksflaeche,nutzflaeche,...,spell,hits_gen,click_schnellkontakte_gen,click_weitersagen_gen,click_url_gen,liste_show_gen,liste_match_gen,adat,edat,price_sqm
0,43282109,21077,219700.0,Other missing,Other missing,,Other missing,92.0,Other missing,45.0,...,1,5.272727,0.0,0.0,0.181818,127.727272,480.772736,2007-10-01,2007-10-01,2388.043457
1,40358201,22589,229000.0,Other missing,Other missing,,Other missing,126.0,Other missing,Other missing,...,2,5.519531,0.0,0.011719,0.269531,101.675781,212.476562,2007-03-01,2007-09-01,1817.460327
2,40500064,21037,447000.0,Other missing,Other missing,1977.0,Other missing,190.0,2083.0,163.0,...,1,3.5,0.0,0.0,0.0,84.333336,479.166656,2007-01-01,2007-01-01,2352.631592
3,43592240,22455,151000.0,Other missing,Other missing,2008.0,Other missing,110.0,Other missing,Other missing,...,1,17.795275,0.0,0.047244,0.566929,243.590546,512.551208,2007-11-01,2007-12-01,1372.727295
4,37597406,21079,170000.0,Other missing,Other missing,1914.0,Other missing,140.0,Other missing,40.0,...,2,7.905172,0.0,0.0,0.0,244.956894,484.793091,2007-02-01,2007-02-01,1214.285767


Bei der ersten Betrachtung ist klar zu erkennen, dass vermehrt Variablen nicht, wie in der Beschreibung beschrieben ist String/Objects sind, wie zum Beispiel **mieteinnahmenpromonat**. Daher wird als Nächstes die Datentypen der Variablen überprüft und ggf. Anpassungen vorgenommen, sodass, die Spalten mit der Variablenbeschreibung übereinstimmen.

In [18]:
print(hk_p_df.dtypes.astype(str).unique())

['category' 'object' 'datetime64[ns]' 'float32']



### Aufbau

