# Abgabe Data Exploration Project


## Auswahl Datensatz

Für das Data Exploration Projekt wurde ein Datensatz gewählt, der sich mit Immobilienverkäufen im Raum Washington, USA, befasst. Dieser Datensatz umfasst Daten zu verschiedenen Aspekten des Immobilienmarktes, einschließlich Verkaufspreise, Anzahl der Schlafzimmer und Badezimmer, Wohnfläche in Quadratfuß, Grundstücksgröße, Etagenanzahl, Vorhandensein einer Wasserfront, Aussicht, Zustand der Immobilie, Baujahr, Wohnfläche oberhalb der Erde, Kellerfläche, Jahr der Renovierung, Straßenadresse, Stadt, Postleitzahl und Land. Die Auswahl fiel auf diesen Datensatz, da er eine breite Palette an Features bietet, die für das Verständnis der Dynamik und Preisgestaltung auf dem Immobilienmarkt relevant sind. Zudem spiegelt der Handel mit Immobilien einen stets aktuellen und dynamischen Markt wider, was die Relevanz dieses Datensatzes für das Verständnis von Markttrends und Preisgestaltungsmechanismen unterstreicht.

In [None]:
# benötigten Bibliotheken importieren
import pandas as pd
import numpy as np
import matplotlib.pyplot as pyplot
import seaborn as sns
import scipy.stats as sp
from sklearn.model_selection import train_test_split
from datetime import datetime
from sklearn.preprocessing import MinMaxScaler
from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter
import os
import time
from opencage.geocoder import OpenCageGeocode
import geopandas as gpd
import folium
from branca.colormap import LinearColormap
from folium.plugins import MarkerCluster
df = pd.read_csv("Daten/data.csv")

## Charakterisierung des Datensatzes

In [None]:
df.head()

In [None]:
df.info()

Hier wird der Datensatz erstmal auf Null-Werte überprüft, die später die Berechnungen verfälschen könnten. Wie jedoch zu sehen ist, enthält jede spalte genau 4600 Einträge was auf keine leeren Zeilen hinweist.

In [None]:
# Zählt eindeutige Werte je Spalte.
df.nunique(axis = 0)  

In [None]:
# Überprüfung auf Duplikate
duplicate_count = df.duplicated().sum()
if duplicate_count > 0:
    print(f"Anzahl der Duplikate im Datensatz: {duplicate_count}")
else:
    print("Keine Duplikate gefunden.")

In [None]:
# Erzeugt und transponiert deskriptive Statistiken der numerischen Spalten.
df.describe().T

Basierend auf der dargestellten Auswertung gibt es mehrere Auffälligkeiten und potenzielle Probleme im Datensatz, die weitere Untersuchungen erfordern:

    - Preis von 0 
    - Schlafzimmer und Badezimmer von 0
    - Sehr hoher maximaler Preis ( über 26 mio)

In [None]:
# Zählen und Ausgeben der Anzahl von Einträgen mit einem Hauspreis von 0
zero_price_count        = (df.price     == 0.0).sum()
zero_bedrooms_count     = (df.bedrooms  == 0.0).sum()
zero_bathrooms_count    = (df.bathrooms == 0.0).sum()

print(f"Anzahl der Einträge mit einem Hauspreis von 0: {zero_price_count}")
print(f"Anzahl der Einträge mit einem Schlafzimmer von 0: {zero_bedrooms_count}")
print(f"Anzahl der Einträge mit einem Badezimmer von 0: {zero_bathrooms_count}")

In [None]:
# Ersetzt alle 0-Werte in der 'price', 'bedrooms', 'bathrooms'-Spalte durch NaN
df['price']       = df['price'].replace(0, np.nan)
df['bedrooms']    = df['bedrooms'].replace(0, np.nan)
df['bathrooms']   = df['bathrooms'].replace(0, np.nan)


# Ermittelt und gibt die Anzahl der fehlenden Werte (NaNs) 
df.isnull().sum()

In [None]:
# Entfernt Zeilen mit NaN Einträge
df.dropna(inplace=True)

zero_price_count_after_cleaning     = (df.price == 0).sum()
zero_bedrooms_count_after_cleaning  = (df.bedrooms == 0).sum()
zero_bathrooms_count_after_cleaning = (df.bathrooms == 0).sum()

print(f"Anzahl der Einträge mit einem Hauspreis von 0 nach der Bereinigung: {zero_price_count_after_cleaning}")
print(f"Anzahl der Einträge mit einem Schlafzimmer von 0 nach der Bereinigung: {zero_bedrooms_count_after_cleaning}")
print(f"Anzahl der Einträge mit einem Badezimmer von 0 nach der Bereinigung: {zero_bathrooms_count_after_cleaning}")

Nachdem die Datensätze mit fehlenden Werten entfernt wurden, kann nun gezielt nach der Immobilie mit dem außergewöhnlich hohen Preis gesucht werden. Um alle Ausreißer zu identifizieren, wird der Interquartilsabstand (IQR) herangezogen. Aufgrund der ungleichen Verteilung einzelner Merkmale im Datensatz, wird ein besonders aggressiver Multiplikator von 5 verwendet. Dieser Ansatz zielt darauf ab, ausschließlich die extremsten Ausreißer zu erfassen.

In [None]:
# IQR für den Preis pro Quadratfuß berechnen
df['price_per_sqft'] = df['price'] / df['sqft_living']


# Berechnung des Interquartilsabstands (IQR) für den Preis pro Quadratfuß
Q1 = df['price_per_sqft'].quantile(0.25)
Q3 = df['price_per_sqft'].quantile(0.75)
IQR = Q3 - Q1

# Festlegung der Grenzen für die Ausreißer
lower_bound = Q1 - 5 * IQR  #Mulitplikator sehr agressive gewählt, um nicht zu viel als Ausreißer zu makieren
upper_bound = Q3 + 5 * IQR

outliers = df[(df['price_per_sqft'] < lower_bound) | (df['price_per_sqft'] > upper_bound)]

# Speichern der Ausreißer in einem neuen DataFrame
outliers_df = outliers.copy()

# Anzahl der Ausreißer anzeigen
print(f"Anzahl der Ausreißer im Preis pro Quadratfuß: {outliers_df.shape[0]}")



In [None]:
# Plot aller Daten
pyplot.figure(figsize=(10, 6))
sns.scatterplot(x='sqft_living', y='price', data=df, color='lightgray', alpha=0.6)

# Hervorheben der Ausreißer
sns.scatterplot(x='sqft_living', y='price', data=outliers, color='red')
pyplot.title('Preis in Abhängigkeit von der Wohnfläche mit Ausreißern')
pyplot.xlabel('Wohnfläche (sqft)')
pyplot.ylabel('Preis')
pyplot.legend(['Daten', 'Ausreißer'])
pyplot.show()

In der Analyse wurden 5 Ausreißer identifiziert, was auf eine bedeutende Streuung im Vergleich zum Durchschnitt des Datensatzes hindeutet. Diese befinden sich deutlich über der Mehrheit der Daten, was auf außergewöhnlich teure Immobilien hindeuten könnte. Diese Ausreißer verdienen eine genauere Untersuchung, um zu verstehen, ob sie aufgrund einzigartiger Eigenschaften oder möglicherweise aufgrund von Eingabefehlern zu diesen extremen Preispunkten geführt haben. 

Nächsten Schritte:

    - Detaillierte Untersuchung der Ausreißer
    - Entscheidung über die Behandlung der Ausreißer

In [None]:
pd.set_option('display.float_format', '{:.2f}'.format)
outliers_df.describe()



In [None]:
pd.set_option('display.float_format', '{:.2f}'.format)
df.describe()

In [None]:
pd.set_option('display.float_format', '{:.2f}'.format)
outliers_df

Die Analyse führte zum Ausschluss des Hauses mit der ID 4350 aus dem Datensatz, da sein Preis unverhältnismäßig hoch ist im Vergleich zu den Häusern ähnlicher Größe, Ausstattung und neuerem Baujahr. Das Haus mit der ID 4346 wird ebenfalls entfernt, weil sein Preis sich angesichts ähnlicher Merkmale zu anderen Häusern nicht rechtfertigen lässt.

In [None]:

df = df.drop(index=[4350, 4346])
df = df.drop(df[df['price'] == 7800].index) #wird entfernt, Fehler da unrealistischer Preis



df.describe().T

In [None]:
# Bestimmen, wie viele Subplots pro Zeile angezeigt werden sollen
subplots_per_row = 3

# Features kategorisieren
continuous_features = ['sqft_living', 'sqft_lot', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated']
categorical_features = ['bedrooms', 'bathrooms', 'floors', 'waterfront', 'view', 'condition']




# Berechnen, wie viele Reihen benötigt werden
num_rows_continuous = -(-len(continuous_features) // subplots_per_row)
num_rows_categorical = -(-len(categorical_features) // subplots_per_row)

# Erstellen der Subplots für kontinuierliche Features
fig, axs = pyplot.subplots(num_rows_continuous, subplots_per_row, figsize=(15, num_rows_continuous * 4))
axs = axs.flatten()  # Flachmachen der Achsen für einfachen iterativen Zugang
for i, feature in enumerate(continuous_features):
    sns.histplot(df[feature], kde=False, bins=30, ax=axs[i])
    axs[i].set_title(f'Verteilung des Features: {feature}')
    axs[i].set_xlabel(feature)
    axs[i].set_ylabel('Anzahl der Immobilien')
pyplot.tight_layout()
pyplot.show()

# Erstellen der Subplots für kategoriale Features
fig, axs = pyplot.subplots(num_rows_categorical, subplots_per_row, figsize=(15, num_rows_categorical * 4))
axs = axs.flatten()
for i, feature in enumerate(categorical_features):
    sns.countplot(x=feature, data=df, ax=axs[i])
    axs[i].set_title(f'Verteilung des Features: {feature}')
    axs[i].set_xlabel(feature)
    axs[i].set_ylabel('Anzahl der Immobilien')
    axs[i].tick_params(axis='x', rotation=90)
pyplot.tight_layout()
pyplot.show()

Die Dominanz von Familienhäusern mit 3-4 Schlafzimmern im Datensatz deutet darauf hin, dass unser Algorithmus in der Vorhersage solcher Standardimmobilien effektiver sein wird, während er bei ungewöhnlichen Immobilienarten weniger genau sein könnte. Um die Vorhersagegenauigkeit über ein breiteres Spektrum von Immobilientypen zu erhöhen, könnten Anpassungen wie Stratified Sampling und Feature-Skalierung notwendig sein.

In [None]:
# Berechnung der Korrelationsmatrix
# Entferne nicht-numerische Spalten
numerical_df = df.select_dtypes(include=['float64', 'int64'])

# Berechnung der Korrelationsmatrix für numerische Daten
corr_matrix_numerical = numerical_df.corr()

# Erstellung der Heatmap für die numerische Korrelationsmatrix
pyplot.figure(figsize=(12, 8))
sns.heatmap(corr_matrix_numerical, annot=True, fmt=".2f", cmap='YlGnBu')
pyplot.title('Heatmap der Feature-Korrelationen für numerische Daten')
pyplot.show()

Die Wohnfläche (sqft_living), oberirdische Wohnfläche (sqft_above), Kellerfläche (sqft_basement), Anzahl der Badezimmer (bathrooms) und Schlafzimmer (bedrooms) sind wegen ihrer starken Korrelation mit dem Immobilienpreis Schlüsselelemente für die Preisvorhersage. Waterfront und view könnten weniger Gewicht im Modell erhalten, da ihre Korrelation mit dem Preis schwächer ist. Features mit geringer Korrelation sollten möglicherweise entfernt werden, um das Modell zu straffen und Überanpassung zu vermeiden. 

## Feature Engineering


In [None]:
# Füge ein Feature für die Gesamtanzahl der Räume hinzu
df['total_rooms'] = df['bedrooms'] + df['bathrooms']

In [None]:
# Berechne das aktuelle Jahr
current_year = datetime.now().year

# Berechne das Alter des Hauses seit Bau
df['age_since_built'] = current_year - df['yr_built']

# Berechne das Alter des Hauses seit der letzten Renovierung
# Falls das Haus nie renoviert wurde (yr_renovated = 0), verwende das Baujahr
df['age_since_renovated'] = df.apply(lambda row: current_year - row['yr_renovated'] if row['yr_renovated'] > 0 else row['age_since_built'], axis=1)

# Zeige die ersten Zeilen des DataFrame zur Überprüfung
df

In [None]:
# Initialisiere den MinMaxScaler
scaler = MinMaxScaler()

# Liste der zu normalisierenden Features
features_to_normalize = ['sqft_living', 'sqft_above', 'sqft_basement', 'sqft_lot']

# Anwenden des Scalers auf die ausgewählten Features und Ersetzen der ursprünglichen Werte
df[features_to_normalize] = scaler.fit_transform(df[features_to_normalize])

# Überprüfung: Zeige die ersten Zeilen des DataFrame, um die Änderungen zu sehen
df.head()


Eins der wichtigsten Eigenschaften um den Wert einer Immobilie zu ermitteln ist der Lage der Immobilie. Hierfür werden die Adressen mithilfe einer API in Längen und Breitengrade umgewandelt, damit der Algorythmus später damit arbeiten kann.

In [None]:
# Kombinieren der Spalten 'street', 'city' und 'statezip' in eine neue Spalte 'Adress'
df['Adress'] = df['street'] + ', ' + df['city'] + ', ' + df['statezip']



In [None]:
df.head()

In [None]:
# Initialisiere den Geocoder
#geolocator = Nominatim(user_agent="Test")
#geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1, error_wait_seconds=10)

# Überprüfe, ob die test.csv Datei existiert und lade sie gegebenenfalls
#existing_entries = {}
#if os.path.exists('Daten/test.csv'):
#    existing_df = pd.read_csv('Daten/test.csv')
    # Erstelle ein Dictionary der existierenden Einträge für schnellen Zugriff
#    existing_entries = {row['Adress']: (row['Latitude'], row['Longitude']) for index, row in existing_df.iterrows() if pd.notnull(row['Latitude']) and pd.notnull(row['Longitude'])}
#else:
#    print("Keine existierende 'test.csv' gefunden.")

# Funktion zum Speichern einer Zeile in die CSV-Datei
#def save_row_to_csv(row, file_path, mode='a'):
#    row.to_csv(file_path, mode=mode, header=not os.path.exists(file_path), index=False)

# Start der Verarbeitung und sofortiges Speichern
#for index, row in df.iterrows():
#    address = row['Adress']
#    if address not in existing_entries:
#        try:
#            # Führe Geokodierung durch
#            location = geocode(address)
#            if location:
#               latitude, longitude = location.latitude, location.longitude
#                print(f"Umwandlung erfolgreich: {address} -> {latitude}, {longitude}")
#                # Speichere die aktuelle Zeile direkt in die CSV-Datei
#                save_row_to_csv(pd.DataFrame([[address, latitude, longitude]], columns=['Adress', 'Latitude', 'Longitude']), 'Daten/test.csv')
#            else:
#                print(f"Kein Ergebnis für: {address}")
#        except Exception as e:
#            print(f"Fehler bei der Geokodierung für: {address} - {e}")
#        # Sicherstellen, dass wir die API-Beschränkungen einhalten
#        time.sleep(1)
#    else:
#        print(f"Eintrag bereits vorhanden: {address}")
#
#print("Die Datei wurde erfolgreich mit allen Zeilen erstellt und aktualisiert.")

Der Code wurde dringelassen der Vollständigkeitshalber. In diesem Verfahren wurde das ergebniss in eine Nue CSV-Datei gespeichert, damit alles nachvollziehbar ist und da das Ausführen dieses Codes über eine Stunde bracuht um die Ratelimits der Webseite zu garantieren. 

In [None]:
Long_lat_df = pd.read_csv('Daten/test.csv')

df = pd.merge(df, Long_lat_df[['Adress', 'Latitude', 'Longitude']], on='Adress', how='left')

In [None]:
df.isna().sum()

In [None]:
nan_df = df[df['Latitude'].isna() | df['Longitude'].isna()]

In [None]:
nan_df

In [None]:
# Setze OpenCage API-Schlüssel
#key = 'b0948bca3b374fdbbcccf1a54d3abcc0'
#geocoder = OpenCageGeocode(key)
#
# Überprüfe, ob die LangLat.csv Datei existiert und lade sie gegebenenfalls
#existing_entries = {}
#if os.path.exists('Daten/LangLat.csv'):
#    existing_df = pd.read_csv('Daten/LangLat.csv')
#    # Erstelle ein Dictionary der existierenden Einträge für schnellen Zugriff
#    existing_entries = {row['Adress']: (row['Latitude'], row['Longitude']) for index, row in existing_df.iterrows() if pd.notnull(row['Latitude']) and pd.notnull(row['Longitude'])}
#else:
#    print("Keine existierende 'LangLat.csv' gefunden.")
#
# Funktion zum Speichern einer Zeile in die CSV-Datei
#def save_row_to_csv(row, file_path, mode='a'):
#    row.to_csv(file_path, mode=mode, header=not os.path.exists(file_path), index=False)
#
# Start der Verarbeitung und sofortiges Speichern
#for index, row in nan_df.iterrows():
#    address = row['Adress']
#    if address not in existing_entries:
#        try:
#            # Führe Geokodierung durch
#            result = geocoder.geocode(address)
#            if result and result[0]['geometry']:
#                latitude = result[0]['geometry']['lat']
#                longitude = result[0]['geometry']['lng']
#                print(f"Geokodierung erfolgreich: {address} -> {latitude}, {longitude}")
#                # Speichere die aktuelle Zeile direkt in die CSV-Datei
#                save_row_to_csv(pd.DataFrame([[address, latitude, longitude]], columns=['Adress', 'Latitude', 'Longitude']), 'Daten/LangLat.csv')
#            else:
#                print(f"Kein Ergebnis für: {address}")
#        except Exception as e:
#            print(f"Fehler bei der Geokodierung für: {address} - {e}")
#        # Verzögerung, um die Rate-Limits zu respektieren
#        time.sleep(1)
#    else:
#        print(f"Eintrag bereits vorhanden: {address}")
#
#print("Die Datei 'LangLat.csv' wurde erfolgreich mit allen Zeilen erstellt und aktualisiert.")

Es wurde das Selbe wie mit geopy gemacht nur dieses mal mit OpenCageGeocode, da Geopy bei den anderen Adressen Probleme hatte, diese umzuwandeln. Hier wurde auch der API-Key drin gelassen, was eigentlich nicht den Best-Practices entspricht, falls der Code überprüft werden sollte damit Sie kein Account erstellen müsse. Zudem können keine Kosten druchdie Nutzung entstehen das es auch 2.500 Request pro Tag limitiert ist und somit gratis ist.

In [None]:
rest_long_lat_df = pd.read_csv('Daten/LangLat.csv')

# Führe einen Merge durch, der die Geodaten basierend auf der Übereinstimmung der Adressen aktualisiert
df_updated = pd.merge(df, rest_long_lat_df[['Adress', 'Latitude', 'Longitude']], on='Adress', how='left', suffixes=('', '_update'))

# Aktualisiere die ursprünglichen Latitude und Longitude Werte in df mit den aktualisierten Werten, falls vorhanden
df['Latitude'] = df_updated['Latitude_update'].combine_first(df_updated['Latitude'])
df['Longitude'] = df_updated['Longitude_update'].combine_first(df_updated['Longitude'])

# Entferne die temporären Update-Spalten
df.drop(columns=['Latitude_update', 'Longitude_update'], errors='ignore', inplace=True)


In [None]:
df.isna().sum()

In [None]:
# Errechne die logarithmierten Preise für die Farbskala
prices_log = np.log(df['price'])  
max_price_log = prices_log.max()
min_price_log = prices_log.min()

# Erstelle eine Farbskala basierend auf logarithmierten Preisen
color_scale = LinearColormap(['green', 'yellow', 'red'], vmin=min_price_log, vmax=max_price_log)

# Funktion, die den logarithmierten Preis eines Hauses in eine Farbe umwandelt
def price_to_color(log_price):
    return color_scale(log_price)

# Erstelle eine Karte, die auf die mittleren Koordinaten deiner Daten zentriert ist
map_center = [df['Latitude'].mean(), df['Longitude'].mean()]  
washington_map = folium.Map(location=map_center, zoom_start=10)

# Füge CircleMarker hinzu, wobei die Farbe vom logarithmierten Preis abhängt
for index, row in df.iterrows():  
    folium.CircleMarker(
        location=[row['Latitude'], row['Longitude']],
        radius=2,
        color=price_to_color(np.log(row['price'])),
        fill=True,
        fill_color=price_to_color(np.log(row['price'])),
        fill_opacity=0.8
    ).add_to(washington_map)

# Füge die Farbskala als Legende hinzu
color_scale.caption = 'Hauspreis (logarithmisch)'
color_scale.add_to(washington_map)

# Zeige die Karte an
washington_map


In [None]:
# Erstellen einer neuen Karte, zentriert um den Durchschnitt der Koordinaten
map_center = [df['Latitude'].mean(), df['Longitude'].mean()]
map_clustering = folium.Map(location=map_center, zoom_start=10)

# Erstellen eines MarkerClusters
marker_cluster = MarkerCluster().add_to(map_clustering)

# Farbskala basierend auf logarithmierten Preisen
color_scale = LinearColormap(['green', 'yellow', 'red'], vmin=min_price_log, vmax=max_price_log)

# Funktion, die den logarithmierten Preis eines Hauses in eine Farbe umwandelt
def price_to_color(price):
    return color_scale(np.log(price))

# Hinzufügen von Markern zum Cluster
for index, row in df.iterrows():
    folium.Marker(
        location=[row['Latitude'], row['Longitude']],
        icon=folium.Icon(color=price_to_color(row['price'])),
        popup=f'${row["price"]:,.0f}'
    ).add_to(marker_cluster)

# Hinzufügen der Farbskala als Legende hinzu
color_scale.caption = 'Hauspreis (logarithmisch)'
color_scale.add_to(map_clustering)

# Anzeigen der Karte
map_clustering

In [None]:
df = df.drop(['price_per_sqft', 'street', 'city', 'statezip','country' ], axis=1)

In [None]:
df

In [None]:
# Berechnung der Korrelationsmatrix
# Entferne nicht-numerische Spalten
numerical_df = df.select_dtypes(include=['float64', 'int64'])

# Entferne die Spalten 'Latitude' und 'Longitude' aus dem DataFrame
numerical_df = numerical_df.drop(['Latitude', 'Longitude'], axis=1)

# Berechnung der Korrelationsmatrix für numerische Daten
corr_matrix_numerical = numerical_df.corr()

# Erstellung der Heatmap für die numerische Korrelationsmatrix
pyplot.figure(figsize=(12, 8))
sns.heatmap(corr_matrix_numerical, annot=True, fmt=".2f", cmap='YlGnBu')
pyplot.title('Heatmap der Feature-Korrelationen für numerische Daten')
pyplot.show()

## Split des Datensatzes


Ich abe mich für eine Aufteilung von 70% Training, 15% Validierung und 15% Test entschieden. Dies bietet eine ausgewogene Basis: genug Trainingsdaten für den Modellentwurf, eine Validierungsmenge für Hyperparameter-Tuning und Modellselektion, sowie eine Testmenge für eine unvoreingenommene Leistungsevaluation. Der random_state gewährleistet konsistente und wiederholbare Aufteilungen für vergleichbare Ergebnisse.

In [None]:
# Trennt Merkmale (X) und Zielvariable (y).
X = df.drop(["price"], axis=1)
y = df["price"]

In [None]:
## Teilt Daten in Trainings-, Validierungs- und Testsätze.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=1)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.1765, random_state=1)

In [None]:
# Kombiniert Trainingssmerkmale und -ziel.
train_data = X_train.join(y_train)

# Kombiniert Validierungsmerkmale und -ziel.
val_data = X_val.join(y_val)

# Kombiniert Trainingsmerkmale und -ziel.
test_data = X_test.join(y_test)


In [None]:
print(f"Trainingsdaten: {len(train_data)} Zeilen")
print(f"Validierungsdaten: {len(val_data)} Zeilen")
print(f"Testdaten: {len(test_data)} Zeilen")