https://www.inwt-statistics.de/blog/fehlende-werte-verstehen-und-handhaben

# Syllabus

Identify data errors and inconsistencies through various diagnostic methods.

# Was sind fehlerhafte Daten?

Fehlerhafte Daten umfassen unvollständige, inkonsistente, falsche oder ungenaue Daten, die die Analyse und Entscheidungsfindung verfälschen können.

# Typische Datenfehler

- Numerische Probleme: Ungültige Werte (z.B. 999 als Platzhalter für fehlende Werte).
- Duplikate: Mehrfacheinträge für denselben Datensatz.
- Fehlende Werte: Datenspalten oder Felder, die leer sind.
- Ungültige Einträge: Daten, die außerhalb des akzeptierten Wertebereichs liegen.

---
# Einfluss fehlerhafter Daten auf Analyseergebnisse

Fehlerhafte Daten können zu ernsthaften Problemen führen, darunter Verzerrungen, ungenaue Vorhersagen, falsche Entscheidungen und erheblichem Ressourcenverlust. Um diese Auswirkungen zu minimieren, ist es entscheidend, Daten frühzeitig auf Fehler zu überprüfen, sorgfältige **Datenbereinigung** durchzuführen und Verfahren zur **Qualitätssicherung** zu implementieren.

## 1. Verzerrte Analyseergebnisse

- fehlerhafte Daten können zu **Bias** (Verzerrung) in den Ergebnissen führen,
- bedeutet: die Schätzungen oder Vorhersagen weichen systematisch von den tatsächlichen Werten ab
- passiert oft, wenn fehlerhafte Daten nicht zufällig sind und mit bestimmten Merkmalen der Daten zusammenhängen

**Beispiel**: <br>
Wenn in einer Umfrage die Einkommensdaten reicher Teilnehmer fehlerhaft oder fehlend sind, kann die Analyse ein verzerrtes Bild der Einkommensverteilung geben und zu falschen politischen oder geschäftlichen Entscheidungen führen.

<br>

## 2. Falsch-positive oder Falsch-negative Ergebnisse
- fehlerhafte Daten können die Wahrscheinlichkeit von **falsch-positiven** oder **falsch-negativen** Ergebnissen erhöhen, indem sie falsche Zusammenhänge suggerieren oder echte Zusammenhänge verdecken
   
**Beispiel**: <br>
In einer medizinischen Studie könnten Messfehler zu falschen Schlussfolgerungen über den Effekt eines Medikaments führen, wodurch die tatsächliche Wirksamkeit über- oder unterschätzt wird.

<br>

## 3. Ungenaue Modelle und Vorhersagen

- in Machine-Learning-Modellen können fehlerhafte Daten dazu führen, dass Modelle schlecht generalisieren oder falsche Vorhersagen treffen
- wenn z.B. **Outlier**, **Messfehler** oder inkonsistente Daten im Trainingsdatensatz enthalten sind, kann dies dazu führen, dass Modelle die zugrundeliegenden Muster falsch lernen

**Beispiel**:<br>
Ein Modell, das auf fehlerhaften Verkaufsdaten basiert, könnte schlechte Vorhersagen über die zukünftigen Verkaufszahlen treffen, was wiederum die Planung und Bestandsverwaltung beeinträchtigt.

<br>

## 4. Geringe Zuverlässigkeit der Ergebnisse

- die **Verlässlichkeit** der Ergebnisse werden stark beeinträchtigt
- Ergebnisse können angezweifelt oder zurückgewiesen werden, wenn klar wird, dass die zugrunde liegenden Daten fehlerhaft sind

**Beispiel**: <br>
Wenn bei einem Marketing-Report klar wird, dass Kundeninformationen falsch erfasst wurden (etwa falsche Postleitzahlen oder Geburtsdaten), werden die Schlussfolgerungen über Kundensegmente und Zielmärkte möglicherweise als nicht verlässlich angesehen.

<br>

## 5. Fehlinterpretationen und falsche Entscheidungen

- wenn Entscheidungen auf der Grundlage von fehlerhaften Daten getroffen werden, können sie zu schlechten Ergebnissen führen
- besonders kritisch in Geschäfts- oder medizinischen Kontexten, wo Entscheidungen erhebliche Konsequenzen haben können

**Beispiel**:<br>
Ein Unternehmen könnte aufgrund fehlerhafter Marktforschungsdaten falsche Investitionen tätigen, indem es in Produkte investiert, die in der Realität nicht gefragt sind, oder es könnte profitable Märkte übersehen.

<br>

## 6. Wissenschaftliche Ungültigkeit

- **Reproduzierbarkeit** und **Validität** der Forschungsergebnisse können beeinträchtigt werden
- Studien, die auf fehlerhaften Daten basieren, können zu falschen Hypothesen führen und damit das gesamte Forschungsgebiet beeinträchtigen

**Beispiel**: <br>
Eine Studie zur Wirkung eines neuen Medikaments könnte aufgrund fehlerhafter Erhebungen nicht reproduzierbare Ergebnisse liefern, was Zweifel an den Studienergebnissen und der medizinischen Wirksamkeit weckt.

<br>

## 7. Kosten und Zeitverschwendung

- kann zu erheblichen Kosten und Zeitverlusten führen, da Analysten viel Zeit aufwenden müssen, um die Daten zu bereinigen und die Auswirkungen von Fehlern zu minimieren
- 
**Beispiel**: <br>
Ein Unternehmen könnte wertvolle Ressourcen für die Reinigung eines fehlerhaften Datensatzes aufwenden, bevor es ihn verwenden kann. Dies verzögert Projekte und Entscheidungen und kann zu finanziellen Verlusten führen.

<br>

## 8. Fehlende Vergleichbarkeit

- **verschiedene Datensätze nicht mehr vergleichbar**, v.a. wenn es Inkonsistenzen in der Datenerhebung oder -verarbeitung gibt
- erschwert es, Ergebnisse zu aggregieren oder Trends über mehrere Datensätze hinweg zu analysieren

**Beispiel**: <br>
Unterschiedliche Definitionen oder Formate für Zeitangaben (z.B. Datum oder Zeitzone) in einem globalen Datensatz könnten es unmöglich machen, die Ergebnisse zwischen verschiedenen Regionen zu vergleichen.



---
# Methoden zur Erkennung von Datenfehlern


- Visuelle Inspektion: <br>
  - Identifizieren offensichtlicher Fehler durch das Durchsehen von Daten.
  - df['column'].value_counts(): Prüft unplausible Werte in kategorischen Spalten.


- Statistische Zusammenfassungen: <br>
  - Verwenden von Mittelwerten, Standardabweichungen und Zählungen, um inkonsistente oder abweichende Werte zu erkennen.
  - df.describe(): Ermittelt statistische Auffälligkeiten (z.B. Ausreißer).


- Fehlende Werte: <br>
  - Überprüfung, ob fehlende Werte vorhanden sind.
  - df.isnull().sum(): Überprüft auf fehlende Werte.

- Duplikate: <br>
  - Erkennung und Entfernung mehrfach vorhandener Datensätze.
  - df.duplicated(): Findet doppelte Zeilen.



<br>

# Beispiel in Python

In [1]:
import pandas as pd

# Beispieldaten mit Fehlern
data = {
    'customer_id': [1, 2, 2, 4, 5],
    'sales_amount': [120, 150, -10, 999, 170],  # Fehlerhafte Werte
    'sales_date': ['2023-01-01', '2023-01-02', None, '2023-01-04', '2023-01-05'],
    'sort': ['long', 'short', 'short', 'bird', 'long'],
}

df = pd.DataFrame(data)

# Erkennung fehlender Werte
print("Fehlende Werte:")
print(df.isnull().sum())

# Statistische Zusammenfassung, um fehlerhafte numerische Werte zu identifizieren
print("\nStatistische Zusammenfassung:")
print(df['sales_amount'].describe())

# Erkennung von Duplikaten
duplicates = df.duplicated(subset='customer_id')
print("\nDuplikate:")
print(df[duplicates])


df['sort'].value_counts()


Fehlende Werte:
customer_id     0
sales_amount    0
sales_date      1
sort            0
dtype: int64

Statistische Zusammenfassung:
count      5.000000
mean     285.800000
std      404.812549
min      -10.000000
25%      120.000000
50%      150.000000
75%      170.000000
max      999.000000
Name: sales_amount, dtype: float64

Duplikate:
   customer_id  sales_amount sales_date   sort
2            2           -10       None  short


sort
long     2
short    2
bird     1
Name: count, dtype: int64

---
# Herausforderungen bei manueller Inspektion

Die manuelle Inspektion großer Datensätze wird durch die Datenmenge, Komplexität und Anfälligkeit für menschliche Fehler erheblich erschwert. Automatisierte Tools und Algorithmen, die auf maschinellem Lernen oder statistischen Techniken basieren, bieten eine effizientere und genauere Methode, um große Datenmengen zu analysieren und Muster zu erkennen.

<br>

## Skalierbarkeit
   - **Datenmenge:**
     - große Datensätze können Millionen oder sogar Milliarden von Zeilen enthalten
     - eine manuelle Inspektion dieser Datenmengen ist zeitaufwändig und oft unpraktisch
     - selbst einfache Muster zu erkennen, kann schwierig werden<br><br>

   - **Komplexität:**
     - mit zunehmender Datenmenge wächst häufig auch die Anzahl der Variablen und Verbindungen, was die Analyse noch komplizierter macht

<br>

## Fehleranfälligkeit
   - **Menschliche Fehler:**
     - hohes Risiko für Fehler
     - Menschen übersehen leicht Anomalien oder Muster<br><br>

   - **Inkonsistente Inspektion:**
     - Konsistenz der Analyse kann leiden
     - Daten können von Menschen unterschiedlich interpretiert werden

<br>

## Zeit- und Ressourcenaufwand
   - **Langsame Verarbeitung:**
     - manuelle Überprüfung großer Datenmengen ist extrem zeitaufwändig
     - insbesondere wenn jede Beobachtung einzeln betrachtet wird<br><br>

   - **Hohe Kosten:**
     - Zeitaufwand führt zu hohen Opportunitätskosten
     - da die für die Inspektion aufgewendete Zeit für andere, produktivere Aufgaben genutzt werden könnte

<br>

## Datenvielfalt
   - **Unterschiedliche Datenformate:**
     - große Datensätze enthalten oft heterogene Datenquellen
     - z.B. Text, Zahlen, Bilder
     - erfordern jeweils spezielle Analyseansätze
     - eine manuelle Inspektion kann Schwierigkeiten haben, alle diese Datentypen effizient zu verarbeiten<br><br>

   - **Hohe Dimensionalität:**
     - bei vielen Variablen (Dimensionen) wird es schwer, durch manuelle Inspektion sinnvolle Muster oder Zusammenhänge zu erkennen

<br>

## Erkennung von Mustern
   - **Mustererkennung:**
     - die manuelle Erkennung von komplexen Mustern oder Ausreißern ist oft ineffizient
     - Algorithmen können statistische Abweichungen oder Trends in großen Datensätzen schneller und genauer erkennen als Menschen<br><br>

   - **Nicht offensichtliche Korrelationen:**
     - oft können Korrelationen oder Zusammenhänge zwischen Variablen nicht durch bloßes Ansehen erkannt werden
     - hier sind statistische Modelle oder maschinelle Lernmethoden besser geeignet

<br>

## Datenqualität und -bereinigung
   - **Fehlende oder unvollständige Daten:**
     - große Datensätze haben häufig unvollständige, fehlerhafte oder fehlende Einträge
     - kann die manuelle Verarbeitung verlangsamen und Fehlerquellen schaffen<br><br>
   
   - **Duplikate und Inkonsistenzen:**
     - Duplikate oder Inkonsistenzen können schwer zu identifizieren sein, v.a. in großen Datenmengen

<br>

## Subjektivität
   - **Unterschiedliche Interpretationen:**
     - manuelle Inspektion kann subjektiv sein
     - kann zu inkonsistenten Ergebnissen führen
     - v.a. wenn mehrere Personen beteiligt sind<br><br>
   
   - **Bias:**
     - Vorannahmen der Analysten können dazu führen, dass bestimmte Muster übersehen oder Ergebnisse falsch interpretiert werden

<br>

## Limitierte Visualisierung
   - **Eingeschränkte Visualisierungsfähigkeiten:**
     - ohne Unterstützung automatisierter Visualisierungstechniken ist es schwierig, große Datensätze manuell in einer verständlichen Form darzustellen
     - Werkzeuge wie Matplotlib oder Seaborn können helfen, aber benötigen eine gewisse Vorbereitung und automatisierte Prozesse

