# Syllabus

Understand the implications of data correction or removal on overall data integrity and analysis outcomes.

---
# Datenintegrität und Auswirkungen von Datenkorrektur und -entfernung

Erklärung:

Datenintegrität ist entscheidend für die Qualität der Analyse. Durch die Entfernung oder Korrektur von Daten können Verzerrungen entstehen.
Auswirkungen von Datenkorrektur oder -entfernung:
  - Entfernte Daten können wichtige Informationen enthalten, was zu verzerrten Ergebnissen führen kann.
  - Korrekturmethoden wie Mean Imputation können Varianz reduzieren, was zu einer weniger präzisen Modellierung führen kann.


---
# Wie wirkt sich die Entfernung von Daten auf die Analyse aus?

- kann signifikante Auswirkungen (positiv + negativ!) auf die Analyse haben
- Effekte hängen stark davon ab, **welche und wie viele Daten** entfernt werden
- wichtig, potenzielle Folgen zu verstehen, um fundierte Entscheidungen zu treffen, wann und wie fehlende oder fehlerhafte Daten entfernt werden sollten
- auch wichtig, die Ursache für fehlende oder fehlerhafte Daten zu verstehen und sorgfältig abzuwägen, ob die Entfernung von Daten gerechtfertigt ist
- oder ob andere Methoden wie Imputation sinnvoller sind

<br>

## Verlust von Informationen
- beim Entfernen verringert sich die verfügbare Menge an Informationen
- je mehr Daten entfernt werden, desto größer das Risiko, dass wichtige Informationen verloren gehen
- Verzerrung bei Entfernung vieler Einträge, da u.U. nicht mehr repräsentativ für die Gesamtpopulation

**Auswirkung**: <br>
Die Analyse wird weniger robust, und die Ergebnisse könnten weniger genau oder vertrauenswürdig sein.

<br>

## Verzerrung (Bias)
- kann zu Verzerrung führen, insbesondere beim Entfernen nicht zufälliger Daten
- wenn z.B. bestimmte Gruppen oder Kategorien von Daten häufiger fehlen oder entfernt werden, kann dies dazu führen, dass die Analyse nur einen Teil des tatsächlichen Bildes widerspiegelt

**Beispiel**: <br>
Wenn Daten für ältere Maschinen in einem Produktionsdatensatz häufiger fehlen und entfernt werden, könnte die Analyse dazu neigen, nur moderne Maschinen zu repräsentieren, was zu einer Verzerrung der Ergebnisse führt.

**Auswirkung**: <br>
Verzerrte Ergebnisse, die falsche Rückschlüsse auf Muster, Zusammenhänge oder Kausalitäten zulassen.

<br>

## Verringerte statistische Power
- Stichprobengröße sinkt
- kleinere Stichproben führen zu geringerer statistischer Power
- bedeutet: es wird schwieriger, echte Effekte oder Muster in den Daten zu erkennen

**Beispiel**: <br>
Wenn 20 % der Daten entfernt werden, könnte dies dazu führen, dass ein statistisch signifikanter Zusammenhang in einer größeren Stichprobe nicht mehr nachweisbar ist.

**Auswirkung**: <br>
Es steigt die Wahrscheinlichkeit von **falsch-negativen Ergebnissen** (d.h., echte Zusammenhänge werden übersehen)

<br>

## Veränderung der Verteilung
- Verteilung der Daten kann verzerren, wenn Entfernen von Daten nicht zufällig erfolgt (z.B. weil Daten mit extremen Werten entfernt werden)

**Beispiel**: <br>
Entfernt man alle extrem hohen oder niedrigen Produktionswerte, könnte die verbleibende Verteilung "normaler" erscheinen, obwohl in der Realität extreme Werte typisch für den Prozess sind.

**Auswirkung**:<br>
Veränderte Schätzungen von Parametern wie Mittelwert, Standardabweichung oder Varianz, was die Interpretation der Ergebnisse beeinflussen kann.

<br>

## Veränderung der Korrelationen und Zusammenhänge
- Korrelationen und Zusammenhänge zwischen Variablen können sich verändern
- passiert besonders, wenn fehlende Daten einen systematischen Zusammenhang mit den abhängigen oder unabhängigen Variablen haben

**Beispiel**:<br>
Wenn bei einer Analyse zur Produktivität in der Produktion Datenpunkte entfernt werden, die bei extrem hohen Temperaturen aufgezeichnet wurden, könnten Zusammenhänge zwischen Temperatur und Produktivität unterschätzt oder übersehen werden.

**Auswirkung**: <br>
Falsch interpretierte Beziehungen oder Fehlen wichtiger Prädiktoren in einem Modell.

<br>

## Mögliche Verbesserung der Analysequalität
- Entfernen v.a. **ausreißender oder offensichtlich fehlerhafter Daten** kann Analyse u.U. verbessern
- wenn diese Datenpunkte das Ergebnis von Eingabefehlern oder Messfehlern sind, kann ihre Entfernung dazu führen, dass die verbleibenden Daten genauer analysiert werden können

**Beispiel**: <br>
Werden offensichtlich fehlerhafte Produktionswerte (wie negative Produktionszahlen) entfernt, kann dies zu genaueren Ergebnissen führen.

**Auswirkung**:<br>
Geringere Verzerrung durch fehlerhafte Daten und zuverlässigere Ergebnisse

---

# Wann das Entfernen von Daten sinnvoll ist
1. **Bei starken Ausreißern oder offensichtlichen Fehlern**: <br>
Wenn Daten offensichtlich falsch sind (z.B. negative Produktionszeiten oder unmögliche Werte), kann Entfernung sinnvoll sein

2. **Wenn die Menge an fehlenden Daten gering ist**: <br>
Wenn nur kleiner Prozentsatz der Daten fehlt, ist die Entfernung oft unkritisch und beeinträchtigt die Analyse kaum.

3. **Bei systematisch nicht repräsentativen Daten**: <br>
Daten, die nicht für die Analyse relevant oder repräsentativ sind, sollten entfernt werden (z.B. Daten von einem Testlauf, der nichts mit der regulären Produktion zu tun hat).

---

# Alternativen zur Entfernung von Daten

1. **Imputation von fehlenden Werten**: <br>
  - fehlende Daten können durch Schätzungen ersetzt werden, z.B. durch den Mittelwert, den Median oder fortgeschrittenere Methoden wie **multiple Imputation** oder **k-nearest neighbors** (k-NN)
  - verhindert den Verlust von Daten und reduziert das Risiko von Verzerrungen

2. **Robuste Methoden**: <br>
  - - anstatt Daten zu entfernen, können **robuste statistische Methoden** verwendet werden
    - reagieren nicht stark auf Ausreißer oder fehlerhafte Daten (z.B. robuste Regression)

3. **Gewichtete Analyse**: <br>
  - bei verzerrten Stichproben kann eine Gewichtung der verbleibenden Daten sinnvoll sein
  - damit Ergebnisse repräsentativ bleiben


---
# In welchen Szenarien sollten Daten eher entfernt als korrigiert werden?

Das Entfernen von Daten ist in Szenarien sinnvoll, in denen eine **Korrektur entweder nicht möglich** oder **nicht sinnvoll** ist. 

Dies gilt besonders für offensichtliche Fehler, nicht repräsentative Ausreißer, irrelevante oder nicht nachverfolgbare Daten sowie Fälle, in denen zu viele Daten fehlen. Durch eine sorgfältige Beurteilung, ob die betroffenen Daten die Analyse verzerren oder ihre Korrektur spekulativ ist, kann man entscheiden, ob das Entfernen die beste Option ist

<br>

## Offensichtliche Fehler oder unplausible Werte
- offensichtlich **unplausibele** oder aufgrund eines **Eingabefehlers** entstandene Daten
- die sich nicht sinnvoll korrigieren lassen
- sollten entfernt werden
- Dazu gehören Werte, die physikalisch oder logisch unmöglich sind.

**Beispiele**:
 - negative Produktionszeiten oder Produktionsmengen
 - ein Alter von 150 Jahren in einem Demografie-Datensatz.
Diese Werte sind höchstwahrscheinlich auf Eingabefehler zurückzuführen und können nicht sinnvoll korrigiert werden, da sie keinen realen Bezug haben.
Eine Korrektur würde bedeuten, Werte willkürlich anzunehmen, was zu verfälschten Ergebnissen führen kann.

<br>

## Daten, die nicht zur Analyse passen
- wenn Daten für die aktuelle Analyse **nicht relevant** sind oder nicht zur Struktur des Datensatzes passen
- kann passieren, wenn Daten aus verschiedenen Quellen zusammengeführt werden oder wenn sich Daten auf ein anderes Thema beziehen

**Beispiele**:
 - Testläufe oder Prototypendaten in einem Produktionsdatensatz, die nicht repräsentativ für den regulären Produktionsprozess sind.
 - Daten aus einem anderen geografischen Gebiet, das für die Analyse nicht relevant ist.
Diese Daten würden die Analyse verzerren, da sie nicht die gleichen Bedingungen oder Rahmenbedingungen widerspiegeln wie die Hauptdaten.

<br>

## Doppelte oder redundante Daten (Duplikate)
- wenn Daten mehrfach erfasst oder in einen Datensatz kopiert wurden
- sollten entfernt werden, da sie die **Stichprobenverteilung** und **Ergebnisse** verzerren könnten

**Beispiele**:
 - Mehrfache Erfassung eines Kunden oder einer Bestellung in einem Verkaufsdatensatz.
 - Doppelter Eintrag eines Produktionslaufes in einem Fabriksystem.

Duplikate verfälschen die Analyse, indem sie die Häufigkeit von Ereignissen künstlich erhöhen, und sollten in der Regel entfernt werden.

<br>

## Daten mit hohem Fehlanteil (viel Missingness)
- bei sehr vielen fehlenden Werten kann es sinnvoller sein, Daten zu entfernen, anstatt fehlende Werte zu schätzen
- v.a. problematisch, wenn es keine sinnvollen Methoden gibt, um die fehlenden Werte zu imputieren

**Beispiele**:
 - Ein Patientendatensatz, in dem bei einer Gruppe von Patienten viele kritische Messungen fehlen (z.B. bei einem Forschungsprojekt).
 - Ein Fragebogen, bei dem eine große Anzahl von Teilnehmern nur sehr wenige Fragen beantwortet hat.

Das Auffüllen der fehlenden Daten könnte zu starken Verzerrungen führen, da der Datensatz zu lückenhaft ist. Wenn zu viele Daten fehlen, kann die Information stark verfälscht werden.

<br>

## Nicht repräsentative Ausreißer (Extremfälle)
- **Ausreißer** können in bestimmten Situationen entfernt werden
- v.a. wenn sie auf Fehler, untypische Bedingungen oder seltene Ereignisse zurückzuführen sind und die Analyse nicht repräsentativ beeinflussen sollen

**Beispiele**:
 - Ein extrem hoher oder niedriger Wert in einem Produktionsdatensatz, der auf einen einmaligen Systemfehler zurückzuführen ist (z.B. eine Maschine, die einmal für extrem kurze Zeit lief).
 - Ein einmaliger Rekordwert in einem Finanzdatensatz, der ein ungewöhnliches externes Ereignis widerspiegelt.

Solche Ausreißer können die Analyseergebnisse stark verzerren, insbesondere bei kleinen Datensätzen oder bei Methoden, die empfindlich auf Ausreißer reagieren (z.B. lineare Regression). Hier ist es oft sinnvoller, die Ausreißer zu entfernen, wenn sie nicht repräsentativ für das normale Verhalten sind.

<br>

## Daten ohne ausreichende Kontextinformation
- Daten, die ohne ausreichende **Kontextinformationen** vorliegen und daher nicht korrekt interpretiert werden können

**Beispiele**:
 - Einträge in einem Datensatz, die unvollständig sind, z.B. ohne Zeitstempel oder ohne Referenzwerte, die für die Analyse wichtig sind.
 - Werte, deren Herkunft oder Bedeutung unklar ist und die sich nicht mehr nachvollziehen lassen (z.B. bei historisch gewachsenen Datensätzen).

Wenn Daten ohne Kontext schwer interpretierbar sind, kann ihre Einbeziehung zu falschen Schlussfolgerungen führen.

<br>

## Veraltete oder irrelevante Daten
- wenn Daten so **veraltet** sind, dass sie für die aktuelle Analyse keine Bedeutung mehr haben
- sollten entfernt werden, um die Analyse auf aktuelle und relevante Informationen zu fokussieren

**Beispiele**:
 - Produktionsdaten aus einer Zeit, in der alte Technologien oder Prozesse verwendet wurden, die mittlerweile durch neue ersetzt wurden.
 - Demografische Daten aus einer Zeit, die so lange zurückliegt, dass sie nicht mehr für aktuelle Trends relevant sind.

Veraltete Daten können falsche Trends suggerieren oder irrelevante Muster in die Analyse einführen.

<br>

## Nicht korrigierbare Daten nach einer Transformation
- bei der Datenvorbereitung können durch **Transformationen** Fehler oder unlogische Ergebnisse auftreten
- besser, sie zu entfernen, wenn solche Daten nicht rückgängig gemacht oder korrigiert werden können

**Beispiele**:
 - Daten, die nach einer fehlerhaften Umrechnung von Einheiten inkonsistent sind (z.B. eine falsche Umrechnung von Zeit oder Währungen).
 - Datensätze, die nach einer Transformation mehrfach vorkommen oder verfälschte Werte haben.

Fehlerhafte Transformationen können dazu führen, dass korrupte Daten in die Analyse einfließen, was die Ergebnisse komplett verfälschen könnte.

---

