# Missing Values

Quelle: https://www.inwt-statistics.de/blog/fehlende-werte-verstehen-und-handhaben

Fehlende oder unvollständige Daten können sich sehr negativ auf jedes Data Science-Projekt auswirken. Dies ist besonders relevant für Unternehmen die sich in den frühen Phasen der Entwicklung solider Datenerfassungs- und -verwaltungssysteme befinden.

Während die beste Lösung für fehlende Werte darin besteht, sie zu vermeiden, indem gute Richtlinien für die Datenerfassung und -verwaltung entwickelt werden, bleibt uns letztendlich aber oft nichts anderes übrig als mit den Daten zu arbeiten, die uns zur Verfügung stehen.

Dieser Artikel behandelt die verschiedenen Arten fehlender Werte und Methoden um mit fehlenden Werten umzugehen. Diese Strategien reichen von einfachen Methoden - zum Beispiel der Auswahl von Modellen, die automatisch mit fehlenden Werten umgehen können, oder dem einfachen Löschen problematischer Beobachtungen - bis hin zu Methoden zur Schätzung der fehlenden Werte, was auch als Imputation bezeichnet wird.

Was sind fehlerhafte Daten?: Fehlerhafte Daten umfassen unvollständige, inkonsistente, falsche oder ungenaue Daten, die die Analyse und Entscheidungsfindung verfälschen können.

Typische Datenfehler:

- Numerische Probleme: Ungültige Werte (z.B. 999 als Platzhalter für fehlende Werte).
- Duplikate: Mehrfacheinträge für denselben Datensatz, Copy-Paste-Fehler
- Fehlende Werte: Datenspalten oder Felder, die leer sind.
- Ungültige Einträge: Daten, die außerhalb des akzeptierten Wertebereichs liegen.


Diagnosemethoden:
   - Visuelle Inspektion: Identifizieren offensichtlicher Fehler durch das Durchsehen von Daten.
   - Statistische Zusammenfassungen: Verwenden von Mittelwerten, Standardabweichungen und Zählungen, um inkonsistente oder abweichende Werte zu erkennen.
   - Fehlende Werte: Überprüfung, ob fehlende Werte vorhanden sind.
   - Duplikate: Erkennung und Entfernung mehrfach vorhandener Datensätze.


[MCAR](../../Zentral_Ordner/Fachwörter/MCAR.ipynb)

[MAR](../../Zentral_Ordner/Fachwörter/MAR.ipynb)

[MNAR](../../Zentral_Ordner/Fachwörter/MNAR.ipynb)

## Methoden zum Umgang mit fehlenden Werten

### Einfach ignorieren

Sofern man sich absolut sicher ist, dass die vorliegenden Daten MCAR sind, ist die beste und einfachste Lösung oft - wenn es auch albern klingt - die fehlenden Werte einfach zu ignorieren und einen Algorithmus zu wählen, der fehlende Werte automatisch verarbeiten kann. Beispielsweise entscheidet XGBoost für jede Probe über die beste Imputationsmethode, ohne dass zusätzliche Schritte erforderlich sind.

### Löschen

Eine weitere Möglichkeit, mit fehlenden Werten umzugehen, besteht darin, problematische Beobachtungen oder Variablen zu löschen. Dies kann auf verschiedene Arten geschehen:

### Listenweise:

In diesem Szenario wird eine Beobachtung mit einem fehlenden Wert in einer Variablen vollständig entfernt. Das listenweise Löschen wird oft als „vollständige Fallanalyse“ bezeichnet und ist eine einfache Lösung, wenn nur wenige Beobachtungen mit MCAR-Werten bei einer ansonsten großen Stichprobengröße vorliegen. Wenn die Stichprobengröße jedoch klein ist oder die Daten nicht MCAR sind, kann das listenweise Löschen zu einer Verzerrung der Analyse führen.

## Imputation

[Imputation](Imputation.ipynb) - das Ausfüllen fehlender Werte gemäß einer Regel.