# Datacleaning am House-Price Datensatz

Quelle: https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data 

In [7]:
import pandas as pd

# Housing-Datensatz laden (CSV-Datei herunterladen und den Pfad anpassen)
df = pd.read_csv('../Datensätze/house_price.csv')

# Die ersten Zeilen des Datensatzes anzeigen
print(df.head())

# Überblick über die fehlenden Werte in jeder Spalte
print("\nFehlende Werte in den Spalten:")


   Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0   1          60       RL         65.0     8450   Pave   NaN      Reg   
1   2          20       RL         80.0     9600   Pave   NaN      Reg   
2   3          60       RL         68.0    11250   Pave   NaN      IR1   
3   4          70       RL         60.0     9550   Pave   NaN      IR1   
4   5          60       RL         84.0    14260   Pave   NaN      IR1   

  LandContour Utilities  ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold  \
0         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
1         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      5   
2         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      9   
3         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
4         Lvl    AllPub  ...        0    NaN   NaN         NaN       0     12   

  YrSold  SaleType  SaleCondition  SalePrice  
0   2008        WD   

2. Umgang mit fehlenden Werten

In diesem Schritt lernst du verschiedene Techniken zur Bereinigung und zum Umgang mit fehlenden Daten.

A) Entfernen von fehlenden Werten

In [None]:
Siehe drop na

In [8]:
# Entfernen von Zeilen mit fehlenden Werten in der Spalte 'Alley'
df_cleaned = df.dropna()

# Entfernen von Spalten mit vielen fehlenden Werten (z.B. 'PoolQC')
df_cleaned = df.drop()

print("\nDaten nach dem Entfernen fehlender Werte:")
print(df_cleaned.isnull().sum())


ValueError: Need to specify at least one of 'labels', 'index' or 'columns'

B) Imputation (Auffüllen fehlender Werte)

Du kannst fehlende Werte durch Schätzungen oder den Mittelwert ersetzen:

In [None]:
# Fehlende Werte in der Spalte 'LotFrontage' durch den Mittelwert ersetzen
df['LotFrontage'].fillna(

# Fehlende Werte in der Spalte 'GarageYrBlt' durch einen Standardwert (z.B. 0 für keine Garage) ersetzen
df['GarageYrBlt'].fillna(

# Für kategorische Daten wie 'Alley', fehlende Werte mit 'Keine Gasse' füllen
df['Alley'].fillna(

print("\nDaten nach der Imputation fehlender Werte:")
print(df.isnull().sum())


C) Duplikate entfernen

Überprüfe, ob es doppelte Datensätze gibt, und entferne sie:

In [None]:
# Duplikate im Datensatz überprüfen und entfernen
df_cleaned = df.drop_
print("\nGibt es noch Duplikate?", df_cleaned.duplicated().sum())


3. Visualisierung von fehlenden Werten

Um einen besseren Überblick über fehlende Daten zu erhalten, kannst du Seaborn oder Matplotlib verwenden:

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Visualisierung der fehlenden Werte im Datensatz
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title("Fehlende Werte im Housing-Datensatz")
plt.show()


4. Umgang mit Datenfehlern und Inkonsistenzen

Du kannst den Datensatz auch auf Inkonsistenzen prüfen, wie z.B. unplausible Werte, und diese bereinigen:

In [None]:
# Unplausible Werte in der Spalte 'YearBuilt' (z.B. Baujahr vor 1800) auf 1900 setzen
df.loc[df['YearBuilt'] < 1800, 'YearBuilt'] = 1900

# Unplausible Daten in der Spalte 'SalePrice' durch den Mittelwert ersetzen
df.loc[

print("\nÜberprüfte Daten nach der Bereinigung unplausibler Werte:")
print(df[['YearBuilt', 'SalePrice']].head())


In [None]:
import pandas as pd

# Beispiel-Daten (ersetze dies durch deinen eigenen Datensatz)
# df = pd.read_csv('train.csv')

# Überprüfen, ob in der Spalte fehlende Werte vorhanden sind
missing_data = df.isnull().sum()
print("Anzahl fehlender Werte pro Spalte:")
print(

# Zeilen anzeigen, die mindestens einen fehlenden Wert enthalten
print("\nZeilen mit fehlenden Werten:")
rows_with_missing = df[df.isnull().any(axis=1)]
print(rows_with_missing)


5. Statistische Analyse nach der Datenbereinigung

Nach der Bereinigung der Daten kannst du einige grundlegende statistische Analysen durchführen:

In [None]:
# Durchschnittlicher Verkaufspreis nach Baujahr
average_price_by_year = df.groupby('YearBuilt')['SalePrice'].mean()
print("\nDurchschnittlicher Verkaufspreis nach Baujahr:")
print(average_price_by_year.head())

# Durchschnittlicher LotFrontage-Wert nach Neighborhood
average_lot_by_neighborhood = df.groupby('Neighborhood')['LotFrontage'].mean()
print("\nDurchschnittliche Grundstücksfrontlänge nach Nachbarschaft:")
print(average_lot_by_neighborhood.head())


Zusammenfassung und Abschluss

Zusammenfassung:

- Fehlerhafte Daten: Sie können die Analyse verfälschen und müssen vor der Analyse bereinigt werden.
- Techniken zur Fehlererkennung: Fehlende Werte, Duplikate und falsche Werte können durch visuelle Inspektion oder statistische Methoden erkannt werden.
- Missingness: Die Art des Fehlens von Daten (MCAR, MAR, MNAR) hat einen großen Einfluss auf die Analyse und sollte beachtet werden.

Diskussion:
- Wie würdet ihr Datenfehler in einem großen Produktionsdatensatz effizienter erkennen?
- Welche Techniken könntet ihr anwenden, um die Art des Fehlens von Daten zu identifizieren?

Zusätzliche Ressourcen:

- Lesematerial: Artikel über Techniken zur Datenbereinigung und den Umgang mit fehlenden Werten.
- Weiterführende Übung: Bereinigung eines realen Datensatzes aus einer Open-Source-Datenbank (z.B. Kaggle) und Analyse der Datenqualität.