# Überschrift Finden!!!
Autor: Emirhan Igci
Datum: 23.04.2025

# Vorwort
Für die verwendete ck

# Agenda <a class="anchor" id="Agenda"></a>
  1. [Einleitung und Zielsetzung](#EinleitungundZielsetzung)
  1.1 [Einleitung und Zielsetzung](#EinleitungundZielsetzung)


# Einleitung und Zielsetzung <a class="anchor" id="EinleitungundZielsetzung"></a>

In der nachfolgenden Analyse werden **Immobilienpreise**, sowie **Mietpreise** auf Grundlage verschiedenster Einflussfaktoren analysiert.

Dabei werden folgende Hauptthesen untersucht:

Themen der Untersuchung:
1. Auswirkung der Barrierefreiheit von Immobilien und Wohnungen auf den Verkaufs- oder Mietpreis
2. Auswirkung der Region auf den Verkaufs- oder Mietpreis

Ziele:
1. Erstellen eines Modells, einer Funktion zur Kaufentscheidung der Immobilie basierend auf Kredit, eigenkapital und weiteren Faktoren

Innerhalb der Bearbeitung können auch weitere Thesen untersucht werden, welche nach einem bessern Verständnis über den Datensatz entstehen könnten.


In [2]:
import sys
from sys import displayhook
# sys.executable adressiert die Python-Installation von Jupyter
! {sys.executable} -m pip install dmba seaborn numpy pandas




[notice] A new release of pip is available: 25.1 -> 25.1.1
[notice] To update, run: C:\Users\emirh\AppData\Local\Programs\Python\Python313\python.exe -m pip install --upgrade pip


# Aufbereitung der Daten

## Quelle
Die Quelle der Immobilien wurde durch die FDZ Ruhr bereitgestellt und durch das RWI - Leibnitz-Institut für Wirtschaft nochmals angepasst.
Es gibt zwei Dateitypen:

Die **Panel-Campus-Datei** umfasst Inserate aus den 15 größten deutschen Städten (alle mit mindestens rund 500 000 Einwohnern, darunter Berlin, Hamburg, München bis Duisburg). Für jede Stadt wird pro Kalenderjahr eine ähnlich große Zufallsstichprobe gezogen: Bei Haus-Verkäufen sind es etwa 1 000 Anzeigen pro Jahr, bei Mietwohnungen in Berlin oder Leipzig können es bis zu 50 000 sein. Insgesamt entfallen ungefähr 27 % der Datensätze auf Wohnungs-Verkäufe und 37 % auf Haus-Verkäufe und Mietwohnungen. Berücksichtigt werden nur Inserate, die bestimmte Qualitätskriterien erfüllen (kaum Fehlwerte, keine Ausreißer).

Die **Cross-Sectional-Campus-Datei** enthält eine bundesweite Stichprobe aus dem Jahr 2023. Grundlage sind alle Inserate, die in diesem Jahr mindestens einen Tag online waren; berücksichtigt wird jeweils nur der letzte Spell einer Anzeige. Für Gemeinden mit weniger als 50 Inseraten wird lediglich die Kreisebene ausgewiesen, wobei höchstens 100 Anzeigen pro Kreis gezogen werden. Anschließend wird abhängig von der Gesamtzahl der verfügbaren Datensätze eine Stichprobe von 50, 200, 1 000 oder 5 000 Beobachtungen gebildet.

Insgesamt gibt es daher 6 Dateien (Dateityp x Asschreibungstyp) (2x3):
* Panel: Datendatei für Hausverkäufe (HK_cities)
* Panel: Datendatei für Wohnungsverkäufe (WK_cities)
* Panel: Datendatei für Mietangebote (WM_cities)
* Cross-Sectional: Datendatei für Hausverkäufe (HK_2023)
* Cross-Sectional: Datendatei für Wohnungsverkäufe (WK_2023)
* Cross-Sectional: Datendatei für Mietangebote (WM_2023)

## Beschreibung der Variablen
Die Beschreibung der Variablen orientiert sich an einer bereits vorhandenen Dokumentation der Quelle, in welcher die gesamten Variablen auf Englisch beschrieben wurden. Daher werden die Beschreibungen mithilfe von KI übersetzt und verwendet. Die Richtigkeit der Übersetzung wird manuell überprüft.


| #  | Attribut                        | Beschreibung                         | Datentyp   | Skalierung/Einheit | Typ (DS) |
| -- | ------------------------------- | ------------------------------------ | ---------- | ------------------ | -------- |
| 1  | **obid**                        | Eindeutige künstliche Objekt-ID      | numerisch  | –                  | HS/AS/AR |
| 2  | **adat**                        | Startmonat der Anzeige (JJMM)        | numerisch  | Monat              | HS/AS/AR |
| 3  | **edat**                        | Endmonat der Anzeige (JJMM)          | numerisch  | Monat              | HS/AS/AR |
| 4  | **aufzug**                      | Aufzug vorhanden                     | numerisch  | 0 / 1              | AS/AR    |
| 5  | **ausstattung**                 | Kodierte Ausstattungskategorie       | numerisch  | –                  | HS/AS/AR |
| 6  | **badezimmer**                  | Anzahl der Badezimmer                | numerisch  | Anzahl             | HS/AS/AR |
| 7  | **balkon**                      | Balkon vorhanden                     | numerisch  | 0 / 1              | AS/AR    |
| 8  | **denkmalobjekt**               | Denkmalgeschützt                     | numerisch  | 0 / 1              | HS/AS    |
| 9  | **einbaukueche**                | Einbauküche vorhanden                | numerisch  | 0 / 1              | HS/AS/AR |
| 10 | **etage**                       | Lage­etage der Wohnung               | numerisch  | Etage              | AS/AR    |
| 11 | **ferienhaus**                  | Als Ferienobjekt nutzbar             | numerisch  | 0 / 1              | AS       |
| 12 | **gaestewc**                    | Gäste-WC vorhanden                   | numerisch  | 0 / 1              | HS/AS/AR |
| 13 | **garten**                      | (Mit-)Nutzung Garten                 | numerisch  | 0 / 1              | HS/AS/AR |
| 14 | **haustier\_erlaubt**           | Haustiere erlaubt                    | numerisch  | 0 / 1              | HS/AS/AR |
| 15 | **kategorie\_Haus**             | Haus-Typ-Kategorie (Reihenhaus … )   | numerisch  | –                  | HS/AS/AR |
| 16 | **keller**                      | Keller vorhanden                     | numerisch  | 0 / 1              | HS/AS/AR |
| 17 | **parkplatz**                   | Stellplatz / Garage verfügbar        | numerisch  | 0 / 1              | HS/AS/AR |
| 18 | **zimmeranzahl**                | Anzahl Zimmer (½ Zimmer möglich)     | numerisch  | Anzahl             | HS/AS/AR |
| 19 | **anzahletagen**                | Anzahl Stockwerke des Gebäudes       | numerisch  | Anzahl             | HS/AS    |
| 20 | **bauphase**                    | Bauphase (Bestand, im Bau … )        | numerisch  | –                  | HS/AS/AR |
| 21 | **einliegerwohnung**            | Einliegerwohnung vorhanden           | numerisch  | 0 / 1              | HS/AS    |
| 22 | **foerderung**                  | Öffentlich gefördert / WBS nötig     | numerisch  | 0 / 1              | AR       |
| 23 | **immobilientyp**               | Immobilienart (Haus, Whg. … )        | numerisch  | –                  | HS/AS/AR |
| 24 | **kaufvermietet**               | Objekt wird vermietet verkauft       | numerisch  | 0 / 1              | HS/AS    |
| 25 | **mieteinnahmenpromonat**       | Ist-Mieteinnahmen (Verkauf)          | numerisch  | EUR / Monat        | HS/AS    |
| 26 | **nebenraeume**                 | Anzahl Nebenräume                    | numerisch  | Anzahl             | HS/AS/AR |
| 27 | **rollstuhlgerecht**            | Barrierefreier / stufenloser Zugang  | numerisch  | 0 / 1              | HS/AS/AR |
| 28 | **schlafzimmer**                | Anzahl Schlafzimmer                  | numerisch  | Anzahl             | HS/AS/AR |
| 29 | **wohngeld**                    | Haus-/ Wohngeld                      | numerisch  | EUR / Monat        | AS       |
| 30 | **grundstuecksflaeche**         | Grundstücksfläche                    | numerisch  | m²                 | HS/AS    |
| 31 | **nutzflaeche**                 | Nutzfläche                           | numerisch  | m²                 | HS/AS/AR |
| 32 | **wohnflaeche**                 | Wohnfläche                           | string     | m²                 | HS/AS/AR |
| 33 | **baujahr**                     | Baujahr des Gebäudes                 | numerisch  | Jahr               | HS/AS/AR |
| 34 | **energieausweistyp**           | Typ des Energieausweises             | numerisch  | –                  | HS/AS/AR |
| 35 | **energieeffizienzklasse**      | Energieeffizienzklasse (A+ … H)      | numerisch  | –                  | HS/AS/AR |
| 36 | **ev\_kennwert**                | Endenergieverbrauch                  | numerisch  | kWh / m² a         | HS/AS/AR |
| 37 | **ev\_wwenthalten**             | Warmwasser im Kennwert enthalten     | numerisch  | 0 / 1              | HS/AS/AR |
| 38 | **heizkosten**                  | Monatliche Heizkosten                | numerisch  | EUR / Monat        | AR       |
| 39 | **heizungsart**                 | Heizungsart (Zentral … )             | numerisch  | –                  | HS/AS/AR |
| 40 | **letzte\_modernisierung**      | Jahr der letzten Modernisierung      | numerisch  | Jahr               | HS/AS/AR |
| 41 | **objektzustand**               | Objektzustand (Code)                 | numerisch  | –                  | HS/AS/AR |
| 42 | **kaufpreis**                   | Angebotskaufpreis                    | numerisch  | EUR                | HS/AS    |
| 43 | **mietekalt**                   | Nettokaltmiete                       | numerisch  | EUR                | AR       |
| 44 | **nebenkosten**                 | Nebenkosten                          | numerisch  | EUR                | AR       |
| 45 | **price\_sqm**                  | Kaufpreis pro m²                     | numerisch  | EUR / m²           | HS/AS    |
| 46 | **rent\_sqm**                   | Nettomiete pro m²                    | numerisch  | EUR / m²           | AR       |
| 47 | **parkplatzpreis**              | Preis des Stellplatzes               | numerisch  | EUR                | HS/AS    |
| 48 | **gid2019**                     | Amtlicher Gemeindeschlüssel 2019     | numerisch  | –                  | HS/AS/AR |
| 49 | **kid2019**                     | Amtlicher Kreisschlüssel 2019        | numerisch  | –                  | HS/AS/AR |
| 50 | **plz**                         | Postleitzahl                         | numerisch  | 5-stellig          | HS/AS/AR |
| 51 | **ergg\_1km**                   | INSPIRE-Rasterzelle (1 km²)          | string     | –                  | HS/AS/AR |
| 52 | **click\_customer**             | Klicks auf Anbieterprofil            | numerisch  | Anzahl             | HS/AS/AR |
| 53 | **click\_schnellkontakte**      | Klicks „Kontakt“-Button              | numerisch  | Anzahl             | HS/AS/AR |
| 54 | **click\_url**                  | Klicks externe Anbieter-URL          | numerisch  | Anzahl             | HS/AS/AR |
| 55 | **click\_weitersagen**          | Klicks „Teilen“                      | numerisch  | Anzahl             | HS/AS/AR |
| 56 | **liste\_match**                | Treffer in gespeicherten Suchen      | numerisch  | Anzahl             | HS/AS/AR |
| 57 | **liste\_show**                 | Anzeigen in Ergebnislisten           | numerisch  | Anzahl             | HS/AS/AR |
| 58 | **hits**                        | Gesamte Seitenaufrufe                | numerisch  | Anzahl             | HS/AS/AR |
| 59 | **click\_schnellkontakte\_gen** | Kontakt-Klicks (verfügb.-bereinigt)  | numerisch  | Anzahl             | HS/AS/AR |
| 60 | **click\_url\_gen**             | URL-Klicks (verfügb.-bereinigt)      | numerisch  | Anzahl             | HS/AS/AR |
| 61 | **click\_weitersagen\_gen**     | Teilen-Klicks (verfügb.-bereinigt)   | numerisch  | Anzahl             | HS/AS/AR |
| 62 | **liste\_match\_gen**           | Treffer (verfügb.-bereinigt)         | numerisch  | Anzahl             | HS/AS/AR |
| 63 | **liste\_show\_gen**            | Listenanzeigen (verfügb.-bereinigt)  | numerisch  | Anzahl             | HS/AS/AR |
| 64 | **hits\_gen**                   | Aufrufe (verfügb.-bereinigt)         | numerisch  | Anzahl             | HS/AS/AR |
| 65 | **laufzeittage**                | Tage, die die Anzeige online war     | numerisch  | Tage               | HS/AS/AR |
| 66 | **lieferung**                   | Monat der Daten­extraktion (JJMM)    | numerisch  | Monat              | HS/AS/AR |
| 67 | **bef1**                        | Primäre Befeuerungsart               | kategorial | –                  | HS/AS/AR |
| 68 | **bef2**                        | Weitere Befeuerungsart 2             | kategorial | –                  | HS/AS/AR |
| 69 | **bef3**                        | Weitere Befeuerungsart 3             | kategorial | –                  | HS/AS/AR |
| 70 | **bef4**                        | Weitere Befeuerungsart 4             | kategorial | –                  | HS/AS/AR |
| 71 | **bef5**                        | Weitere Befeuerungsart 5             | kategorial | –                  | HS/AS/AR |
| 72 | **bef6**                        | Weitere Befeuerungsart 6             | kategorial | –                  | HS/AS/AR |
| 73 | **bef7**                        | Weitere Befeuerungsart 7             | kategorial | –                  | HS/AS/AR |
| 74 | **bef8**                        | Weitere Befeuerungsart 8             | kategorial | –                  | HS/AS/AR |
| 75 | **bef9**                        | Weitere Befeuerungsart 9             | kategorial | –                  | HS/AS/AR |
| 76 | **bef10**                       | Weitere Befeuerungsart 10            | kategorial | –                  | HS/AS/AR |
| 77 | **anbieter**                    | Typ des Anbieters (privat, Makler …) | kategorial | –                  | HS/AS/AR |

_Legende:_
_HS = Häuser zum Kauf
AS = Wohnungen zum Kauf
AR = Wohnungen zur Miete_


## Erste Betrachtung der Datensätze
Zunächst wird ein Teil des Datensatzes ausgegeben und betrachtet.



In [3]:
import pandas as pd

#   Einlesen der Daten
pre = "CampusFile_"
#   Cross Section
#hk_cs_df = pd.read_stata(f'./cross_section/{pre}HK_2023.dta')
#wk_cs_df = pd.read_stata(f'./cross_section/{pre}WK_2023.dta')
#wm_cs_df = pd.read_stata(f'./cross_section/{pre}WM_2023.dta')
#   panel
hk_p_df = pd.read_stata(f'./panel/{pre}HK_cities.dta')
#wk_p_df = pd.read_stata(f'./panel/{pre}WK_cities.dta')
#wm_p_df = pd.read_stata(f'./panel/{pre}WM_cities.dta')


In [4]:
hk_df = hk_p_df
display(hk_df.head())

Unnamed: 0,obid,plz,kaufpreis,mieteinnahmenpromonat,heizkosten,baujahr,letzte_modernisierung,wohnflaeche,grundstuecksflaeche,nutzflaeche,...,spell,hits_gen,click_schnellkontakte_gen,click_weitersagen_gen,click_url_gen,liste_show_gen,liste_match_gen,adat,edat,price_sqm
0,43282109,21077,219700.0,Other missing,Other missing,,Other missing,92.0,Other missing,45.0,...,1,5.272727,0.0,0.0,0.181818,127.727272,480.772736,2007-10-01,2007-10-01,2388.043457
1,40358201,22589,229000.0,Other missing,Other missing,,Other missing,126.0,Other missing,Other missing,...,2,5.519531,0.0,0.011719,0.269531,101.675781,212.476562,2007-03-01,2007-09-01,1817.460327
2,40500064,21037,447000.0,Other missing,Other missing,1977.0,Other missing,190.0,2083.0,163.0,...,1,3.5,0.0,0.0,0.0,84.333336,479.166656,2007-01-01,2007-01-01,2352.631592
3,43592240,22455,151000.0,Other missing,Other missing,2008.0,Other missing,110.0,Other missing,Other missing,...,1,17.795275,0.0,0.047244,0.566929,243.590546,512.551208,2007-11-01,2007-12-01,1372.727295
4,37597406,21079,170000.0,Other missing,Other missing,1914.0,Other missing,140.0,Other missing,40.0,...,2,7.905172,0.0,0.0,0.0,244.956894,484.793091,2007-02-01,2007-02-01,1214.285767


Bei der ersten Betrachtung ist klar zu erkennen, dass vermehrt Variablen nicht, wie in der Beschreibung beschrieben ist String/Objects sind, wie zum Beispiel **mieteinnahmenpromonat**. Daher wird als Nächstes die Datentypen der Variablen überprüft.

In [5]:
print("Alle Datentypen, welche in dem Datensatz enthalten sind und wie oft sie vorkommen:")
unique_dtypes = hk_df.dtypes.astype(str).unique()
columns = hk_df.columns

for dtype in unique_dtypes:
    count = 0
    for column in columns:
        if hk_df[column].dtype == dtype:
            count +=1
    print(f"{dtype}: {count}")




Alle Datentypen, welche in dem Datensatz enthalten sind und wie oft sie vorkommen:
category: 67
object: 1
datetime64[ns]: 2
float32: 1


In [18]:
def check_na(df_column):
    size = len(df_column)
    value_counts = df_column.value_counts()

    results = {
        'NA_Count': df_column.isna().sum(),
        'Other_Missing_Count': value_counts.get('Other missing', 0),
        'Implausible_Count': value_counts.get('Implausible value', 0),
        'Variable_Count': value_counts.get('Variable for other types only', 0),
        'Zero_Count': value_counts.get('0', 0)
    }

    missing_sum = results['NA_Count'] + results['Other_Missing_Count'] + results['Implausible_Count'] + results['Variable_Count']
    results['Percent_Without_Zero'] = (missing_sum / size * 100).round(2)
    results['Percent_With_Zero'] = ((missing_sum + results['Zero_Count']) / size * 100).round(2)

    return pd.Series(results)


def na_df(df):

    df_columns = ['Spalte', 'NA (Anzahl)', 'Other Missing (Anzahl)','Implausible value (Anzahl)','Variable for other types only (Anzahl)' ,'0 (Anzahl)',
              'NA Anteil (%) ohne 0', 'NA Anteil (%) mit 0']

    ergebnisse = pd.DataFrame([
        [col] + list(check_na(df[col])) for col in df.columns
    ], columns=df_columns)

    prozent_spalten = ['NA Anteil (%) ohne 0', 'NA Anteil (%) mit 0']
    ergebnisse[prozent_spalten] = ergebnisse[prozent_spalten].round(2)

    return ergebnisse

In [7]:
# Beispiel DataFrame
df = pd.DataFrame({'xy': [1, 2, 3, None, 5]})

# Wichtige Attribute der Series df['xy']
print("1. Basis-Attribute:")
print(f"- Index: {df['xy'].index}")
print(f"- Datentyp: {df['xy'].dtype}")
print(f"- Größe: {df['xy'].size}")
print(f"- Form: {df['xy'].shape}")

print("\n2. Deskriptive Statistiken:")
print(f"- Mittelwert: {df['xy'].mean()}")
print(f"- Median: {df['xy'].median()}")
print(f"- Standardabweichung: {df['xy'].std()}")
print(f"- Minimum: {df['xy'].min()}")
print(f"- Maximum: {df['xy'].max()}")

print("\n3. Null-Werte:")
print(f"- Anzahl Null-Werte: {df['xy'].isna().sum()}")
print(f"- Anzahl nicht-Null-Werte: {df['xy'].count()}")

print("\n4. Eindeutige Werte:")
print(f"- Anzahl eindeutiger Werte: {df['xy'].nunique()}")
print(f"- Eindeutige Werte: {df['xy'].unique()}")

1. Basis-Attribute:
- Index: RangeIndex(start=0, stop=5, step=1)
- Datentyp: float64
- Größe: 5
- Form: (5,)

2. Deskriptive Statistiken:
- Mittelwert: 2.75
- Median: 2.5
- Standardabweichung: 1.707825127659933
- Minimum: 1.0
- Maximum: 5.0

3. Null-Werte:
- Anzahl Null-Werte: 1
- Anzahl nicht-Null-Werte: 4

4. Eindeutige Werte:
- Anzahl eindeutiger Werte: 4
- Eindeutige Werte: [ 1.  2.  3. nan  5.]


Herausstechend ist, dass der Großteil der Spalten als Datentyp **category** formatiert ist. Wie oben erwähnt ist **mieteinnahmenpromonat** auch als **category** formatiert. Die Vermutung liegt nahe, dass Spalten als Kategorisch betrachtet werden, wenn fehlende Werte nicht mit **N/A**, sondern mit **Other Missing** gekennzeichnet werden. Daher werden die Daten im nächsten Schritt aufbereitet und bereinigt, sodass die Daten im nächsten für die Untersuchung der Thesen verwendet werden kann.

## Bereinigen der Daten
Im Folgenden wird der gesamte Datensatz aufbereitet. Darunter fällt die Zuordnung des richtigen Datentypen der jeweiligen Spalte und das Entfernen von Spalten mit unzureichenden Daten. In diesem Schritt werden alle Variablen betrachtet und bereinigt, Grund hierfür ist, dass zu dem jetzigen Zeitpunkt nicht abwägbar ist, welche Variablen für die Beantwortung der Thesen verworfen werden können.

Für die Bereinigung der Daten wird der Anteil der Nullwerte betrachtet, dabei kann es zu vier Aktionen kommen:
* Bei 0% Nullanteil wird die Variable unverändert beibehalten
* Bei mehr als 0% wird die Variable entweder:
    * aus dem Datensatz entfernt,
    * durch eine Annahme werden die Nullwerte ersetzt
    * oder die Datenpunkte werden aus dem Datensatz entfernt

Als Nullwerte gelten fehlende Werte sowie **Other Missing, Implausible value, Variable for other types only**. Sollte als Wert 0 vorkommen, muss individuell beurteilt werden, ob diese als Nullwerte bezeichnet werden können.



### Korrekte Daten
Aus der vorherigen Ausgabe, der Anzahl der jeweiligen Datentypen kann entnommen, dass Spalten mit dem Datentyp **datetime64** korrekt formatiert sind. Es sind **adat** und **edat**.
Genau so verhält es sich für die Spalte **price_sqm**, welche korrekt als numerisch (float32) formatiert ist und **ergg_1km**, die ebenfalls korrekt als object/string formatiert ist.

### Überprüfung auf Nullwerten
Zur Überprüfung auf Nullwerten wird eine Funktion erstellt ziel ist es ein neues Dataframe zu erzeugen, in welchem der relative Anteil der Nullwerte angezeigt wird.



In [19]:
nullwert_df = na_df(hk_df)
with pd.option_context('display.max_rows', None):
    display(nullwert_df)


Unnamed: 0,Spalte,NA (Anzahl),Other Missing (Anzahl),Implausible value (Anzahl),Variable for other types only (Anzahl),Anzahl 0,NA Anteil (%) ohne 0,NA Anteil (%) mit 0
0,obid,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,plz,0.0,1361.0,0.0,0.0,0.0,0.35,0.35
2,kaufpreis,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,mieteinnahmenpromonat,0.0,370660.0,19.0,0.0,0.0,94.97,94.97
4,heizkosten,0.0,205622.0,0.0,184641.0,0.0,99.99,99.99
5,baujahr,69156.0,0.0,0.0,0.0,0.0,17.72,17.72
6,letzte_modernisierung,0.0,322685.0,7711.0,0.0,0.0,84.65,84.65
7,wohnflaeche,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,grundstuecksflaeche,0.0,17844.0,1235.0,0.0,0.0,4.89,4.89
9,nutzflaeche,0.0,202659.0,188.0,0.0,0.0,51.97,51.97


Auffällig ist, dass der Wert **0** in keiner Variable vorhanden ist, daher ist die Spalte **NA Anteil (%)** ohne 0 und mit 0 identisch, es scheint so, als würde ein Wert von **Other Missing, Implausible value oder Variable for other types only** für einen 0 Wert verwendet werden.

In [22]:
nullwert_df_sum =nullwert_df[['Spalte', 'NA Anteil (%) ohne 0']]
print('Variablen mit 0% Nullwertanteil:')
display(nullwert_df_sum[nullwert_df_sum['NA Anteil (%) ohne 0'] == 0])

Variablen mit 0% Nullwertanteil:


Unnamed: 0,Spalte,NA Anteil (%) ohne 0
0,obid,0.0
2,kaufpreis,0.0
7,wohnflaeche,0.0
16,laufzeittage,0.0
17,hits,0.0
18,click_schnellkontakte,0.0
19,click_customer,0.0
20,click_weitersagen,0.0
21,click_url,0.0
22,liste_show,0.0


Die oben gezeigten 31 Variablen haben einen Nullwertanteil von 0 und bleiben somit unverändert. Nun werden die restlichen 40 Variablen betrachtet.

In [23]:
print('Variablen mehr als 0% Nullwertanteil:')
display(nullwert_df_sum[nullwert_df_sum['NA Anteil (%) ohne 0'] > 0].sort_values('NA Anteil (%) ohne 0'))

Variablen mehr als 0% Nullwertanteil:


Unnamed: 0,Spalte,NA Anteil (%) ohne 0
10,zimmeranzahl,0.25
1,plz,0.35
39,energieeffizienzklasse,1.41
43,kategorie_Haus,2.59
8,grundstuecksflaeche,4.89
31,gaestewc,15.48
34,keller,15.91
5,baujahr,17.72
29,ferienhaus,18.43
25,denkmalobjekt,19.29


Für Anteilswerte über 0% gibt es die Auswahl an 3 Aktionen, die Variable entweder:
    * aus dem Datensatz entfernt,
    * durch eine Annahme werden die Nullwerte ersetzt
    * oder die Datenpunkte werden aus dem Datensatz entfernt

Um möglichst wenige Datenpunkte zu verlieren, werden alle Datenpunkte mit Nullwerten innerhalb einer Spalte mit einem kleineren Nullwertanteil von 10% entfernt. Des Weiteren werden alle Spalten mit mehr als 90% Nullwertanteil aus dem Datensatz entfernt. Für alle Nullwertanteile von 10 bis 90% wird eine genauere Betrachtung durchgeführt.

In [27]:
def delete_datapoints(to_delete_columns):
    nullvalues = ['Other missing', 'Implausible value', 'Variable for other types only']
    clean_df = hk_df.copy()
    for column in to_delete_columns:
        clean_df = clean_df[~clean_df[column].isin(nullvalues)]
        clean_df = clean_df[clean_df[column].notna()]

    return clean_df

c_df = delete_datapoints(nullwert_df_sum[nullwert_df_sum['NA Anteil (%) ohne 0'] < 10]['Spalte'])
c_df = c_df.drop(nullwert_df_sum[nullwert_df_sum['NA Anteil (%) ohne 0'] > 90]['Spalte'], axis=1)

zwischenstand = na_df(c_df)[['Spalte', 'NA Anteil (%) ohne 0']].sort_values('NA Anteil (%) ohne 0')

display(zwischenstand[zwischenstand['NA Anteil (%) ohne 0'] > 0])

Unnamed: 0,Spalte,NA Anteil (%) ohne 0
26,gaestewc,13.04
28,keller,13.44
25,ferienhaus,16.17
3,baujahr,16.33
22,denkmalobjekt,17.1
23,einliegerwohnung,25.96
27,kaufvermietet,28.74
11,badezimmer,33.97
10,schlafzimmer,42.81
7,nutzflaeche,51.28


Nach dem Entfernen der Datenpunkte und Variablen sind noch 18 Variablen vorhanden, die nun genauer betrachtet werden.

In [31]:
def unique_value(unique_column):
    result = {
        unique_value: unique_column.unique(),
        dtype: unique_dtypes,
    }

def unique_values(unique_columns):


AttributeError: 'DataFrame' object has no attribute 'unique'