### Datenbereinigung: Entfernung von Einträgen ohne Kunden/Verkäufe

Im Rahmen der Datenaufbereitung für das Training eines Modells zur Vorhersage zukünftiger Verkäufe wurde eine spezifische Datenbereinigung durchgeführt. Dabei wurden alle Dateneinträge, bei denen Geschäfte geöffnet waren, jedoch keine Kundenbesuche oder Verkäufe registriert wurden, aus dem Datensatz entfernt. 

#### Begründung für die Entfernung

Die Entscheidung zur Entfernung dieser Einträge basiert auf mehreren Überlegungen:

1. **Fehlende Begründung**: In den Fällen, in denen ein Geschäft geöffnet war, jedoch keine Kunden verzeichnet wurden und keine Verkäufe stattfanden, liegt kein erkennbarer Grund vor, der diese Situation plausibel erklärt. Solche Einträge können auf Fehler in der Datenerfassung oder untypische Betriebsbedingungen hinweisen, die nicht repräsentativ für den normalen Geschäftsbetrieb sind.

2. **Vermeidung von Modellverwirrung**: Ein Modell zur Vorhersage zukünftiger Verkäufe basiert auf der Annahme, dass die zugrunde liegenden Daten realistische und sinnvolle Geschäftsszenarien widerspiegeln. Einträge mit geöffneten Geschäften ohne Kunden und Verkäufe könnten das Modell verwirren und die Vorhersagegenauigkeit beeinträchtigen. Diese Einträge würden das Modell möglicherweise dazu bringen, unlogische Muster zu erlernen, was die Qualität der Vorhersagen mindern würde.

Aufgrund der oben genannten Punkte wurden diese Einträge als Datenrauschen(Noise)/Fehlerhaft klassifiziert. Datenrauschen sind irrelevante oder irreführende Informationen, die die Leistungsfähigkeit des Modells verringern können.

Zusammenfassend wurde durch die Entfernung der Dateneinträge mit geöffneten Geschäften ohne Kundenbesuche und Verkäufe die Datenqualität verbessert und die Grundlage für ein leistungsfähigeres und verlässlicheres Vorhersagemodell geschaffen.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [4]:
file_store = "../data/store.csv"
file_train = "../data/train.csv"

In [5]:
df_store = pd.read_csv(file_store, delimiter=",", encoding="latin", header=0, thousands=",", decimal='.', low_memory=False)
df_train = pd.read_csv(file_train, delimiter=",", encoding="latin", header=0, thousands=",", decimal='.', low_memory=False)

In [6]:
df_merged = pd.merge(df_store, df_train, on='Store')

## Löschen der Einträge Store open ohne Verläufe/Kunden

Unsere Daten enthalten mehrere Merkmale, darunter Verkäufe (Sales), Kundenanzahl (Customers), Öffnungsstatus der Geschäfte (Open), und staatliche Feiertage (StateHoliday). Um die Datenkonsistenz zu gewährleisten, wird zunächst die 'StateHoliday'-Spalte standardisiert, indem alle Werte in Strings konvertiert werden. Dies erleichtert die weitere Verarbeitung und Analyse.

Ein besonderes Augenmerk liegt auf den Einträgen, bei denen Geschäfte zwar geöffnet waren, jedoch keine Verkäufe oder Kunden verzeichnet wurden. Solche Einträge sind verdächtig, da sie auf Fehler in der Datenerfassung oder auf ungewöhnliche Geschäftsvorfälle hindeuten könnten. Diese Einträge könnten das maschinelle Lernmodell verwirren und die Vorhersagegenauigkeit beeinträchtigen, wenn sie im Datensatz verbleiben. Daher werden diese Einträge entfernt.

Nach der Bereinigung wird überprüft, ob die entsprechenden Einträge tatsächlich entfernt wurden. Dieser Schritt stellt sicher, dass keine irreführenden oder fehlerhaften Daten im Datensatz verbleiben, die die Modellqualität negativ beeinflussen könnten.

Der folgende Code führt die beschriebene Datenbereinigung durch und überprüft die Datenintegrität nach der Bereinigung.

In [7]:
# Standardize StateHoliday column
df_merged['StateHoliday'] = df_merged['StateHoliday'].astype(str)

# Remove entries with zero sales and store open
df_merged = df_merged[~((df_merged['Sales'] == 0) & (df_merged['Open'] == 1))]

# Remove entries with zero customers and store open
df_merged = df_merged[~((df_merged['Customers'] == 0) & (df_merged['Open'] == 1))]

# Verify the entries are removed
print("\nTrain Data after removing entries with zero sales and store open:")
print(df_merged[(df_merged['Sales'] == 0) & (df_merged['Open'] == 1)])

print("\nTrain Data after removing entries with zero customers and store open:")
print(df_merged[(df_merged['Customers'] == 0) & (df_merged['Open'] == 1)])


Train Data after removing entries with zero sales and store open:
Empty DataFrame
Columns: [Store, StoreType, Assortment, CompetitionDistance, CompetitionOpenSinceMonth, CompetitionOpenSinceYear, Promo2, Promo2SinceWeek, Promo2SinceYear, PromoInterval, DayOfWeek, Date, Sales, Customers, Open, Promo, StateHoliday, SchoolHoliday]
Index: []

Train Data after removing entries with zero customers and store open:
Empty DataFrame
Columns: [Store, StoreType, Assortment, CompetitionDistance, CompetitionOpenSinceMonth, CompetitionOpenSinceYear, Promo2, Promo2SinceWeek, Promo2SinceYear, PromoInterval, DayOfWeek, Date, Sales, Customers, Open, Promo, StateHoliday, SchoolHoliday]
Index: []
